data lake for digital transformation · 2018-12-13 · - 2010년펜타호(pentaho)의cto...

16
Data Lake for Digital Transformation 2018. 12. 11 (화) 빅데이터사업부 류정우 이사 파스-타 4.0 PUB 데이

Upload: others

Post on 10-Mar-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Data Lake for Digital Transformation · 2018-12-13 · - 2010년펜타호(Pentaho)의CTO 제임스딕슨(James Dixon) - 원천형태의저장소 (Data Lake) Velocity Variety Volume

Data Lake for Digital Transformation

2018. 12. 11 (화)

빅데이터사업부 류정우 이사

파스-타 4.0 PUB 데이

Page 2: Data Lake for Digital Transformation · 2018-12-13 · - 2010년펜타호(Pentaho)의CTO 제임스딕슨(James Dixon) - 원천형태의저장소 (Data Lake) Velocity Variety Volume

데이터는 21C 원유

들어가기 앞서…

1Copyright ⓒ 2018 ONYCOM, Inc. All Rights Reserved

Page 3: Data Lake for Digital Transformation · 2018-12-13 · - 2010년펜타호(Pentaho)의CTO 제임스딕슨(James Dixon) - 원천형태의저장소 (Data Lake) Velocity Variety Volume

들어가기 앞서…

2Copyright ⓒ 2018 ONYCOM, Inc. All Rights Reserved

Page 4: Data Lake for Digital Transformation · 2018-12-13 · - 2010년펜타호(Pentaho)의CTO 제임스딕슨(James Dixon) - 원천형태의저장소 (Data Lake) Velocity Variety Volume

1. 데이터 레이크

2. 하둡기반 데이터 레이크

3. 클라우드에서 하둡기반 데이터 레이크

목 차

Copyright ⓒ 2018 ONYCOM, Inc. All Rights Reserved 3

Page 5: Data Lake for Digital Transformation · 2018-12-13 · - 2010년펜타호(Pentaho)의CTO 제임스딕슨(James Dixon) - 원천형태의저장소 (Data Lake) Velocity Variety Volume

Big Data Analysis Total Solution

1. 데이터 레이크

4

Page 6: Data Lake for Digital Transformation · 2018-12-13 · - 2010년펜타호(Pentaho)의CTO 제임스딕슨(James Dixon) - 원천형태의저장소 (Data Lake) Velocity Variety Volume

데이터 웨어하우스

5Copyright ⓒ 2018 ONYCOM, Inc. All Rights Reserved

CRM

ERP

CustomerRelationshipManagement

EnterpriseResourcePlanning

SCM

SupplyChainManagement

DataWarehouse

Data Mart

• 데이터(data)와 창고(warehouse)의 의미가 합성되어 만든 어휘

• 의사결정에 도움을 주기 위하여, 방대한 조직 내에서 분산 운영되는 각각의 시스템의 데이터베이스에 축적된

데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스

*출처: 위키백과

비정형 데이터 분석 활용에 한계!!!

Page 7: Data Lake for Digital Transformation · 2018-12-13 · - 2010년펜타호(Pentaho)의CTO 제임스딕슨(James Dixon) - 원천형태의저장소 (Data Lake) Velocity Variety Volume

데이터 레이크 개념

6Copyright ⓒ 2018 ONYCOM, Inc. All Rights Reserved

“데이터를 물에 비유한다면, 우선 데이터 마트는 물병에 들어있는 물이라고 생각할 수 있다. 물병의 물은 필요에

따라 쉽게 소비할 수 있도록 정제되고 포장된 형태라고 불 수 있다. 반면, 데이터 레이크는 물병에 담긴 생수 이

전에 존재하는 호수로써 훨씬 자연의 상태이며 방대한 양의 물을 의미한다.“

- 2010년 펜타호(Pentaho)의 CTO 제임스 딕슨(James Dixon) -

원천 형태의 저장소(Data Lake)

Velocity

Variety

Volume EAI

Web Crawler

Open API

Sensor Data

Big Data

저장과 분석이 분리된 아키텍처

분석가를 위한 분석 샌드박스

현업 사용자를 위한 데이터 셀프 서비스

* 출처: "데이터 레이크 기술 동향 과 도입 원칙“ (백현), 2018.4

Big Data Total Solution의 주요기능

가치 있는 분석 정보를 찾아낼 수 있도록 내외부에서 수집된 원천 형태의 데이터의 저장소

Page 8: Data Lake for Digital Transformation · 2018-12-13 · - 2010년펜타호(Pentaho)의CTO 제임스딕슨(James Dixon) - 원천형태의저장소 (Data Lake) Velocity Variety Volume

데이터 레이크의 필요성

Copyright ⓒ 2018 ONYCOM, Inc. All Rights Reserved 7

앞으로 분석할 가치가 있는 데이터: Dark Data, Long Data

Page 9: Data Lake for Digital Transformation · 2018-12-13 · - 2010년펜타호(Pentaho)의CTO 제임스딕슨(James Dixon) - 원천형태의저장소 (Data Lake) Velocity Variety Volume

저장과 분석이 분리된 아키텍처

8Copyright ⓒ 2018 ONYCOM, Inc. All Rights Reserved

• 클라우드 기반의 객체 스토리지(object storage)를 활용할 때 논의 되는 아키텍처

• 무한 확장성과 비용 효율성

• 데이터의 원천을 변형하지 않고 그대로 빠르게 저장하고 관리

Data Lake

다양한 원천

데이터

데이터분석 B

데이터

데이터분석 A

독립적인무한 확장

독립적인무한 확장

다양한 원천

데이터분석 B분석과저장의

동시 확장

Data LakeData Lake

Data Lake와 분석이분리된 아키텍처 Data Lake와 분석이통합된 아키텍처

* 출처: Best Practices for Designing Your Data Lake, 2016

예) 데이터 웨어하우스스키마 온 라이트 (schema on write)하둡 기반의 분석 플랫폼

예) 스키마 온 리드(Schema on Read) 비정형데이터 저장에 적합

Page 10: Data Lake for Digital Transformation · 2018-12-13 · - 2010년펜타호(Pentaho)의CTO 제임스딕슨(James Dixon) - 원천형태의저장소 (Data Lake) Velocity Variety Volume

분석가를 위한 분석 샌드박스

9Copyright ⓒ 2018 ONYCOM, Inc. All Rights Reserved

• 분석가들이 Data Lake에서 새로운 데이터 발견, 새로운 가설 개발, 실험적 분석, 그리고 예측 모델링해서

새로운 시나리오인 활용 케이스(use case)를 PoC(Proof of Concept)할 수 있는 기능

* 샌드박스: 실험적 의미의 격리된 프로그램 테스트 공간 (컴퓨터 산업에서)

* 분석 샌드박스: 데이터 분석 과정에서 발생하는 다양한 형태의 데이터 가공이나 변형 등을 대비해서

격리된 데이터 분석 공간

DataLake

다양한원천

분석 샌드박스

데이터발견

실험적분석

예측모델링

가설개발

검증된활용 케이스저장소

시각화

필요에 의해 동적으로생성 및 삭제

데이터거버넌스, 보안, 데이터카탈로그

* 출처: demystifying Data Lake Architecture, 2017

데이터 분석가

Page 11: Data Lake for Digital Transformation · 2018-12-13 · - 2010년펜타호(Pentaho)의CTO 제임스딕슨(James Dixon) - 원천형태의저장소 (Data Lake) Velocity Variety Volume

현업 사용자를 위한 데이터 셀프 서비스

10Copyright ⓒ 2018 ONYCOM, Inc. All Rights Reserved

• 성공적인 digital transformation을 위해서는 현업 사용자들이 얼마나 쉽고 빠르게 데이터에 접근해서 데이터에

기반을 둔 명확한 의사 결정을 내릴 수 있는가가 관건

• 데이터 셀프 서비스 기능

- 현업 사용자가 직접 data lake를 접근해서 분석을 위한 데이터를 준비, 탐색, 가공, 분석, 시각화하고

use case 탐색 및 활용할 수 있는 기능

- use case는 데이터 분석가에 의해 개발된 시나리오(서비스)

예) 수요 예측, VOC 유형 분류, 사건발생 확률, …

DataLake

다양한원천

데이터거버넌스, 보안, 데이터카탈로그

데이터준비

데이터탐색

데이터가공

가시화

Use Case탐색

Use Case활용

데이터셀프서비스

협업 사용자

Page 12: Data Lake for Digital Transformation · 2018-12-13 · - 2010년펜타호(Pentaho)의CTO 제임스딕슨(James Dixon) - 원천형태의저장소 (Data Lake) Velocity Variety Volume

Big Data Analysis Total Solution

3. 하둡기반 데이터 레이크

11

Page 13: Data Lake for Digital Transformation · 2018-12-13 · - 2010년펜타호(Pentaho)의CTO 제임스딕슨(James Dixon) - 원천형태의저장소 (Data Lake) Velocity Variety Volume

하둡 기반 데이터 레이크

12Copyright ⓒ 2018 ONYCOM, Inc. All Rights Reserved

하둡 기능: (1) 분산 저장 (Name Node, Data Node), (2) 분산 처리 (Master Node, Slave Node)

Data Node(Slave Node)

Data Node(Slave Node)

Data Node(Slave Node)

Data Node(Slave Node)

Data Node(Slave Node)

Name Node(Master Node)

HDFSClient

Data Node(Slave Node)

Scale Out 용이

* HDFS (Hadoop Distribution File System)

• Name Node: HDFS의 모든 메타데이터(블록들이 저장되는 디렉토리의이름, 파일명 등..)를 관리

• HDFS Client: Name Node의 메타데이터를 이용하여 HDFS에 저장된파일에 접근

• HDFS는 블록 구조의 파일 시스템으로, 파일을 특정 사이즈의 블록으로나눠져 분산된 서버에 저장

• 하나의 블록은 3개(기본 설정 값)로 복제되며, 각각 다른 HDFS의 노드에분산 저장

저장과 처리가 통합된 구조

Page 14: Data Lake for Digital Transformation · 2018-12-13 · - 2010년펜타호(Pentaho)의CTO 제임스딕슨(James Dixon) - 원천형태의저장소 (Data Lake) Velocity Variety Volume

Big Data Analysis Total Solution

3. 클라우드에서 하둡기반 데이터 레이크

13

Page 15: Data Lake for Digital Transformation · 2018-12-13 · - 2010년펜타호(Pentaho)의CTO 제임스딕슨(James Dixon) - 원천형태의저장소 (Data Lake) Velocity Variety Volume

클라우드에서 하둡기반 데이터 레이크

14Copyright ⓒ 2018 ONYCOM, Inc. All Rights Reserved

NameNode

Data Node

Data Node

Data Node

Data Node

MR / Spark

MR / Spark

MR / Spark

MR / Spark

1 2 3

HDFS

2 3 4

HDFS

1 2 4

HDFS

1 3 4

HDFS

하둡 클러스터 (분산 처리) 객체 스토리지(Data Lake)

• 클라우드의 빅데이터 시스템에서 Data Lake는 객체 스토리지이며, HDFS는 데이터 지역성(data locality)을

높이기 위한 임시 데이터 저장소로 사용

* 데이터 지역성: 데이터가 이동하는 것이 아니라 로직을 이동시켜서 데이터를 처리하는 방식

클라우드에서 하둡 서비스를 구성할 경우,

OS는 VM으로 구성되고

HDFS는 스토리지 서비스의

블록 스토리지에 설치됨,

VM의 블록 스토리지에서 운영되는

HDFS는 안정성이 상대적으로 떨어짐,

데이터의 확장성, 안정성, 가용성 및

비용을 고려해 볼 때, 클라우드에서

Data Lake은 객체 스토리지가 더 적합

Page 16: Data Lake for Digital Transformation · 2018-12-13 · - 2010년펜타호(Pentaho)의CTO 제임스딕슨(James Dixon) - 원천형태의저장소 (Data Lake) Velocity Variety Volume

Mining on Hadoop!!

Copyright ⓒ 2018 ONYCOM, Inc. All Rights Reserved

감사합니다.

www.openankus.org

(OSS 사이트, 커뮤니티 주관)

www.openankus.com

(상용 사이트, 당사 주관)

15

어니컴 주식회사 (ONYCOM, Inc.) 류정우 이사

Address. 서울특별시 중구 세종대로21길 22, 태성빌딩 4층

Tel. 02-541-0080 / 010-2126-9816 / Fax. 02-541-0090

E-mail. [email protected]