data lake for digital transformation · 2018-12-13 · - 2010년펜타호(pentaho)의cto...
TRANSCRIPT
Data Lake for Digital Transformation
2018. 12. 11 (화)
빅데이터사업부 류정우 이사
파스-타 4.0 PUB 데이
데이터는 21C 원유
들어가기 앞서…
1Copyright ⓒ 2018 ONYCOM, Inc. All Rights Reserved
들어가기 앞서…
2Copyright ⓒ 2018 ONYCOM, Inc. All Rights Reserved
1. 데이터 레이크
2. 하둡기반 데이터 레이크
3. 클라우드에서 하둡기반 데이터 레이크
목 차
Copyright ⓒ 2018 ONYCOM, Inc. All Rights Reserved 3
Big Data Analysis Total Solution
1. 데이터 레이크
4
데이터 웨어하우스
5Copyright ⓒ 2018 ONYCOM, Inc. All Rights Reserved
CRM
ERP
CustomerRelationshipManagement
EnterpriseResourcePlanning
SCM
SupplyChainManagement
DataWarehouse
Data Mart
• 데이터(data)와 창고(warehouse)의 의미가 합성되어 만든 어휘
• 의사결정에 도움을 주기 위하여, 방대한 조직 내에서 분산 운영되는 각각의 시스템의 데이터베이스에 축적된
데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스
*출처: 위키백과
비정형 데이터 분석 활용에 한계!!!
데이터 레이크 개념
6Copyright ⓒ 2018 ONYCOM, Inc. All Rights Reserved
“데이터를 물에 비유한다면, 우선 데이터 마트는 물병에 들어있는 물이라고 생각할 수 있다. 물병의 물은 필요에
따라 쉽게 소비할 수 있도록 정제되고 포장된 형태라고 불 수 있다. 반면, 데이터 레이크는 물병에 담긴 생수 이
전에 존재하는 호수로써 훨씬 자연의 상태이며 방대한 양의 물을 의미한다.“
- 2010년 펜타호(Pentaho)의 CTO 제임스 딕슨(James Dixon) -
원천 형태의 저장소(Data Lake)
Velocity
Variety
Volume EAI
Web Crawler
Open API
Sensor Data
Big Data
저장과 분석이 분리된 아키텍처
분석가를 위한 분석 샌드박스
현업 사용자를 위한 데이터 셀프 서비스
* 출처: "데이터 레이크 기술 동향 과 도입 원칙“ (백현), 2018.4
Big Data Total Solution의 주요기능
가치 있는 분석 정보를 찾아낼 수 있도록 내외부에서 수집된 원천 형태의 데이터의 저장소
데이터 레이크의 필요성
Copyright ⓒ 2018 ONYCOM, Inc. All Rights Reserved 7
앞으로 분석할 가치가 있는 데이터: Dark Data, Long Data
저장과 분석이 분리된 아키텍처
8Copyright ⓒ 2018 ONYCOM, Inc. All Rights Reserved
• 클라우드 기반의 객체 스토리지(object storage)를 활용할 때 논의 되는 아키텍처
• 무한 확장성과 비용 효율성
• 데이터의 원천을 변형하지 않고 그대로 빠르게 저장하고 관리
Data Lake
다양한 원천
데이터
데이터분석 B
데이터
데이터분석 A
독립적인무한 확장
독립적인무한 확장
다양한 원천
데이터분석 B분석과저장의
동시 확장
Data LakeData Lake
Data Lake와 분석이분리된 아키텍처 Data Lake와 분석이통합된 아키텍처
* 출처: Best Practices for Designing Your Data Lake, 2016
예) 데이터 웨어하우스스키마 온 라이트 (schema on write)하둡 기반의 분석 플랫폼
예) 스키마 온 리드(Schema on Read) 비정형데이터 저장에 적합
분석가를 위한 분석 샌드박스
9Copyright ⓒ 2018 ONYCOM, Inc. All Rights Reserved
• 분석가들이 Data Lake에서 새로운 데이터 발견, 새로운 가설 개발, 실험적 분석, 그리고 예측 모델링해서
새로운 시나리오인 활용 케이스(use case)를 PoC(Proof of Concept)할 수 있는 기능
* 샌드박스: 실험적 의미의 격리된 프로그램 테스트 공간 (컴퓨터 산업에서)
* 분석 샌드박스: 데이터 분석 과정에서 발생하는 다양한 형태의 데이터 가공이나 변형 등을 대비해서
격리된 데이터 분석 공간
DataLake
다양한원천
분석 샌드박스
데이터발견
실험적분석
예측모델링
가설개발
검증된활용 케이스저장소
시각화
필요에 의해 동적으로생성 및 삭제
데이터거버넌스, 보안, 데이터카탈로그
* 출처: demystifying Data Lake Architecture, 2017
데이터 분석가
현업 사용자를 위한 데이터 셀프 서비스
10Copyright ⓒ 2018 ONYCOM, Inc. All Rights Reserved
• 성공적인 digital transformation을 위해서는 현업 사용자들이 얼마나 쉽고 빠르게 데이터에 접근해서 데이터에
기반을 둔 명확한 의사 결정을 내릴 수 있는가가 관건
• 데이터 셀프 서비스 기능
- 현업 사용자가 직접 data lake를 접근해서 분석을 위한 데이터를 준비, 탐색, 가공, 분석, 시각화하고
use case 탐색 및 활용할 수 있는 기능
- use case는 데이터 분석가에 의해 개발된 시나리오(서비스)
예) 수요 예측, VOC 유형 분류, 사건발생 확률, …
DataLake
다양한원천
데이터거버넌스, 보안, 데이터카탈로그
데이터준비
데이터탐색
데이터가공
가시화
Use Case탐색
Use Case활용
데이터셀프서비스
협업 사용자
Big Data Analysis Total Solution
3. 하둡기반 데이터 레이크
11
하둡 기반 데이터 레이크
12Copyright ⓒ 2018 ONYCOM, Inc. All Rights Reserved
하둡 기능: (1) 분산 저장 (Name Node, Data Node), (2) 분산 처리 (Master Node, Slave Node)
Data Node(Slave Node)
Data Node(Slave Node)
Data Node(Slave Node)
Data Node(Slave Node)
Data Node(Slave Node)
Name Node(Master Node)
HDFSClient
Data Node(Slave Node)
Scale Out 용이
* HDFS (Hadoop Distribution File System)
• Name Node: HDFS의 모든 메타데이터(블록들이 저장되는 디렉토리의이름, 파일명 등..)를 관리
• HDFS Client: Name Node의 메타데이터를 이용하여 HDFS에 저장된파일에 접근
• HDFS는 블록 구조의 파일 시스템으로, 파일을 특정 사이즈의 블록으로나눠져 분산된 서버에 저장
• 하나의 블록은 3개(기본 설정 값)로 복제되며, 각각 다른 HDFS의 노드에분산 저장
저장과 처리가 통합된 구조
Big Data Analysis Total Solution
3. 클라우드에서 하둡기반 데이터 레이크
13
클라우드에서 하둡기반 데이터 레이크
14Copyright ⓒ 2018 ONYCOM, Inc. All Rights Reserved
NameNode
Data Node
Data Node
Data Node
Data Node
MR / Spark
MR / Spark
MR / Spark
MR / Spark
1 2 3
HDFS
2 3 4
HDFS
1 2 4
HDFS
1 3 4
HDFS
하둡 클러스터 (분산 처리) 객체 스토리지(Data Lake)
• 클라우드의 빅데이터 시스템에서 Data Lake는 객체 스토리지이며, HDFS는 데이터 지역성(data locality)을
높이기 위한 임시 데이터 저장소로 사용
* 데이터 지역성: 데이터가 이동하는 것이 아니라 로직을 이동시켜서 데이터를 처리하는 방식
클라우드에서 하둡 서비스를 구성할 경우,
OS는 VM으로 구성되고
HDFS는 스토리지 서비스의
블록 스토리지에 설치됨,
VM의 블록 스토리지에서 운영되는
HDFS는 안정성이 상대적으로 떨어짐,
데이터의 확장성, 안정성, 가용성 및
비용을 고려해 볼 때, 클라우드에서
Data Lake은 객체 스토리지가 더 적합
Mining on Hadoop!!
Copyright ⓒ 2018 ONYCOM, Inc. All Rights Reserved
감사합니다.
www.openankus.org
(OSS 사이트, 커뮤니티 주관)
www.openankus.com
(상용 사이트, 당사 주관)
15
어니컴 주식회사 (ONYCOM, Inc.) 류정우 이사
Address. 서울특별시 중구 세종대로21길 22, 태성빌딩 4층
Tel. 02-541-0080 / 010-2126-9816 / Fax. 02-541-0090
E-mail. [email protected]