hadoop ch1

Post on 25-Jan-2015

479 Views

Category:

Documents

2 Downloads

Preview:

Click to see full reader

DESCRIPTION

hadoop ch1 하둡

TRANSCRIPT

하둡

아키텍트를 꿈꾸는 사람들

하둡

아키텍처를 꿈꾸는 사람들

하둡을 시작하며..

1.1 데이터1.2 데이터 저장소와 분석1.3 다른 시스템과의 비교1.4 하둡의 역사1.5 아파치 하둡과 하둡 생태계

1.1 데이터

현재 사회의 큰 데이터(Big data?!)

현재 사회는 엄청난 데이터의 홍수- NYSE, 매일 1테라 바이트의 거래 데이터- facebook, 10억개의 사진 저장- 힉스 입자 가속기, 매년 15페타바이트

페타>테라>기가

MyLifeBits

- Microsoft research - 개인이 생산하고 있는 모든 정보를 저장 - 한 달에 1GB -

astrometry.net

Big Data vs 알고리즘

- 일반적으로 더 많은 데이터가 더 좋은 알고리즘 보다 낫다- 구글 : 중국어 번역

이제는 Big Data는 우리 주변에,나쁜소식은 어떻게 처리를 할 것인가...

1.2 데이터 저장소와 분석

저장용량 / 엑세스 속도

- 저장용량 증가폭 > 엑세스 속도 증가폭

해결책 : 여러 하드에 분산, 병렬 처리but, 1. 장애 확률도 덩달아 높아짐2. 분할된 데이터를 다시 결합 하는 cost

저장용량 / 엑세스 속도

- 저장용량 증가폭 > 엑세스 속도 증가폭

해결책 : 여러 하드에 분산, 병렬 처리but, 1. 장애 확률도 덩달아 높아짐2. 분할된 데이터를 다시 결합 하는 cost

1 -> HDFS2 -> MapReduce

1.3 다른 시스템과의 비교

<Hadoop>MapReduce is a programming model for processing large data sets with a parallel, distributed algorithm on a cluster

Map(k1,v1) → list(k2,v2)Reduce(k2, list (v2)) → list(v3)

1.3.1 관계형 데이터베이스

- 구조화된 데이터 / 비구조화된 데이터- 정규화 / 정규화X- 비선형으로 확장 / 선형으로 확장

1.3.2 그리드 컴퓨팅

- 수백 기가 바이트처리시, 네트워크 병목Hadoop, 데이터가 로컬 -> 빠름

- 복잡한 아키텍처Hadoop, 무공유 아키텍처

1.3.3 자발적 컴퓨팅

- SETI@home, 메르센 소수 찾기, Folding@home(http://cafe.naver.com/setikah)

- CPU중심적, CPU > 전송시간

1.4 하둡의 역사

- 조어(made-up name)"내 아이가 봉제 인형인 노란 코끼리에게 지어준 이름이다. 짧고, 상대적으로 맞춤법과 발음이 쉽고, 특별한 의미는 없다."

1.4 하둡의 역사

더그커팅

- 아파치 루씬 - 아파치 너치 - 하둡- GFS -> NDFS- 맵리듀스 -> NDFS

1.5 아파치 하둡과 하둡 생태계

공통 : 분산 파일 시스템, 일반적인 I/O를 위한 컴포넌트와 인터페이스 집합

에이브로(Avro) : 교차언어 RPC와 영속적인 데이터 스토리지를 위한 데이터 직렬화 시스템

맵리듀스 : 범용 컴퓨터의 커다란 클러스터에서 수행되는 분산 데이터 처리 모델/실행환경

HDFS:범용 컴퓨터로 된 커다란 클러스터에서 수행되는 분산 파일 시스템

1.5 아파치 하둡과 하둡 생태계

피그:탐색용 데이터 흐름 언어하이브:분산 데이터웨어하우스HBASE:분산 컬럼 지향DB주키퍼:고가용성 조정 서비스스쿱:관계형DB와 HDFS간 데이터를 이동시키기 위한 도구오지: 하둡 잡(맵리듀스,피그,하이브,스쿱)의 워크플로우를 실행/스케쥴링

top related