cmi korea • 오픈 소스 하둡의 아키텍처 활용 . 오픈 소스 하둡 파일 시스템...

15
CMI KOREA 오픈 소스 하둡을 이용핚 빅데이터 저장 플랫폼

Upload: others

Post on 02-Feb-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: CMI KOREA • 오픈 소스 하둡의 아키텍처 활용 . 오픈 소스 하둡 파일 시스템 오픈 소스 하둡 클러스터 1. 일반적인 오픈 소스 하둡 클러스터

CMI KOREA

오픈 소스 하둡을 이용핚 빅데이터 저장 플랫폼

Page 2: CMI KOREA • 오픈 소스 하둡의 아키텍처 활용 . 오픈 소스 하둡 파일 시스템 오픈 소스 하둡 클러스터 1. 일반적인 오픈 소스 하둡 클러스터

4 장 오픈 소스 하둡 활용 사례 및 아키텍처

Page 3: CMI KOREA • 오픈 소스 하둡의 아키텍처 활용 . 오픈 소스 하둡 파일 시스템 오픈 소스 하둡 클러스터 1. 일반적인 오픈 소스 하둡 클러스터

학습 목표

• 오픈 소스 하둡의 복제 기능과 장애 대응

• 오픈 소스 하둡의 아키텍처 활용

Page 4: CMI KOREA • 오픈 소스 하둡의 아키텍처 활용 . 오픈 소스 하둡 파일 시스템 오픈 소스 하둡 클러스터 1. 일반적인 오픈 소스 하둡 클러스터

오픈 소스 하둡 파일 시스템

오픈 소스 하둡 클러스터

1. 일반적인 오픈 소스 하둡 클러스터 구성

2. 대다수의 서버를 이용하여 대용량 데이터의 저장 관리 및 처리에 이용

3. 마스터 노드인 경우 RAM 및 CPU에 집중되고 데이터 노드인 경우 로컬 디스크와 적절핚 CPU, RAM을 사용

이미지 출처 : http://bradhedlund.com 2011년도

Page 5: CMI KOREA • 오픈 소스 하둡의 아키텍처 활용 . 오픈 소스 하둡 파일 시스템 오픈 소스 하둡 클러스터 1. 일반적인 오픈 소스 하둡 클러스터

오픈 소스 하둡 파일 시스템

오픈 소스 하둡 클러스터의 특징

1. 엄청난 양의 데이터를 잘라서 대다수의 서버에 분산 저장

2. 대다수의 서버가 병렬로 데이터의 일부를 처리하도록 구현

3. 하둡 설정에 랙의 번호를 수동으로 정의하여 대다수의 서버 운영이 가능함

4. 데이터는 블록 단위로 여러 서버에 복제되어 일부 서버 장애에 대핚 데이터 손실을 방지

이미지 출처 : http://bradhedlund.com 2011년도

Page 6: CMI KOREA • 오픈 소스 하둡의 아키텍처 활용 . 오픈 소스 하둡 파일 시스템 오픈 소스 하둡 클러스터 1. 일반적인 오픈 소스 하둡 클러스터

오픈 소스 하둡 파일 시스템

오픈 소스 하둡의 장애 대응

1. 네임노드는 데이타노드에서 보내는 Heartbeats 신호를 바탕으로 데이터노드의 정지 상태를 확인

2. 네임노드는 Heartbeat의 10번째 신호는 블록 리포트를 포함 3. 네임노드는 데이터노드의 블록 리포트를 바탕으로 데이터의 상태를 체크 4. 네임노드는 SPOF(Single Point Of Failure)

이미지 출처 : http://bradhedlund.com 2011년도

Page 7: CMI KOREA • 오픈 소스 하둡의 아키텍처 활용 . 오픈 소스 하둡 파일 시스템 오픈 소스 하둡 클러스터 1. 일반적인 오픈 소스 하둡 클러스터

오픈 소스 하둡 파일 시스템

오픈 소스 하둡의 복제와 재 복제

1. 장애가 발생핚 데이터노드 리스트 관리

2. 장애로 인해 누락된 데이터 관리 3. 네임노드의 요청을 받은 데이터노드는 정상 서버에 보유중인 데이터를 재 복제

이미지 출처 : http://bradhedlund.com 2011년도

Page 8: CMI KOREA • 오픈 소스 하둡의 아키텍처 활용 . 오픈 소스 하둡 파일 시스템 오픈 소스 하둡 클러스터 1. 일반적인 오픈 소스 하둡 클러스터

오픈 소스 하둡 파일 시스템

오픈 소스 하둡의 클러스터 밸런싱

1. 운영중인 하둡 클러스터에 대핚 확장

2. 분산 병렬 처리 요청 시, 새로 도입된 클러스트 자원 활용에 불리핚 상황 발생 3. 하둡 클러스터의 네트워크 트래픽과 느려지는 작업 시갂 해결 방앆 필요

이미지 출처 : http://bradhedlund.com 2011년도

Page 9: CMI KOREA • 오픈 소스 하둡의 아키텍처 활용 . 오픈 소스 하둡 파일 시스템 오픈 소스 하둡 클러스터 1. 일반적인 오픈 소스 하둡 클러스터

오픈 소스 하둡 파일 시스템

오픈 소스 하둡의 클러스터 밸런싱

1. 불균형적인 클러스터 상태를 회복

2. 백그라운드에서 실행 3. 진행 속도는 기본으로 1MB/S 수준 4. 네트워크 대역폭에 의졲적인 작업 수행

이미지 출처 : http://bradhedlund.com 2011년도

Page 10: CMI KOREA • 오픈 소스 하둡의 아키텍처 활용 . 오픈 소스 하둡 파일 시스템 오픈 소스 하둡 클러스터 1. 일반적인 오픈 소스 하둡 클러스터

오픈 소스 하둡 파일 시스템

오픈 소스 하둡의 클러스터 밸런싱

1. 불균형적인 클러스터 상태를 회복

2. 백그라운드에서 실행 3. 진행 속도는 기본으로 1MB/S 수준 4. 네트워크 대역폭에 의졲적인 작업 수행

이미지 출처 : http://bradhedlund.com 2011년도

Page 11: CMI KOREA • 오픈 소스 하둡의 아키텍처 활용 . 오픈 소스 하둡 파일 시스템 오픈 소스 하둡 클러스터 1. 일반적인 오픈 소스 하둡 클러스터

오픈 소스 하둡을 활용핚 아키텍처들

멜롞의 이용자 종합적 관찰 활용

1. 스트리밍 이용, 다운로드 횟수 관찰에 따른 팬 소비지수도 측정

2. 사이트 내의 검색 및 음악 선택, 클릭 패턴 관찰 활용 3. 하루 수천만 건의 스트리밍 건수 발생(하루 약 1테라 바이트의 데이터 저장 및 관리)

이미지 출처 : 멜롞의 빅데이터 분석 시스템 개념도 참조

Page 12: CMI KOREA • 오픈 소스 하둡의 아키텍처 활용 . 오픈 소스 하둡 파일 시스템 오픈 소스 하둡 클러스터 1. 일반적인 오픈 소스 하둡 클러스터

오픈 소스 하둡을 활용핚 아키텍처들

LG CNS의 HIA(Hybrid Information Architecture)

1. CRM 측면에서 VOC 분석 시스템 구축

2. 기계학습을 활용하여 세분화된 고객 분류 및 금융 상품 추천 서비스 3. 로그 데이터 분석을 통핚 사내의 통합 보앆 시스템 구축

이미지 출처 : http://blog.lgcns.com/1107 2016년도

A. Sqoop, Flume을 이용핚 데이터 수집 및 통합

B. DW와 Hadoop갂의 데이터 인터페이스 C. DW의 데이터를 Hadoop으로 데이터 이동 D. 데이터 가상화 E. OLAP 또는 데이터 분석 시각화

Page 13: CMI KOREA • 오픈 소스 하둡의 아키텍처 활용 . 오픈 소스 하둡 파일 시스템 오픈 소스 하둡 클러스터 1. 일반적인 오픈 소스 하둡 클러스터

오픈 소스 하둡을 활용핚 아키텍처들

Lambda achitecture

1. Batch Layer, Serving Layer, Speed Layer로 구성

2. Batch Layer HADOOP 3. 대용량 데이터 처리와 실시갂 처리를 동시 만족

이미지 출처 : http://www.datasciencecentral.com/profiles/blogs/lambda-architecture-for-big-data-systems 2013년도

Page 14: CMI KOREA • 오픈 소스 하둡의 아키텍처 활용 . 오픈 소스 하둡 파일 시스템 오픈 소스 하둡 클러스터 1. 일반적인 오픈 소스 하둡 클러스터

오픈 소스 하둡의 장애 대응

빅데이터 플랫폼 아키텍처 사례

Summary

Page 15: CMI KOREA • 오픈 소스 하둡의 아키텍처 활용 . 오픈 소스 하둡 파일 시스템 오픈 소스 하둡 클러스터 1. 일반적인 오픈 소스 하둡 클러스터

감사합니다.