hadoop ch1
Post on 25-Jan-2015
479 Views
Preview:
DESCRIPTION
TRANSCRIPT
하둡
아키텍트를 꿈꾸는 사람들
하둡
아키텍처를 꿈꾸는 사람들
하둡을 시작하며..
1.1 데이터1.2 데이터 저장소와 분석1.3 다른 시스템과의 비교1.4 하둡의 역사1.5 아파치 하둡과 하둡 생태계
1.1 데이터
현재 사회의 큰 데이터(Big data?!)
현재 사회는 엄청난 데이터의 홍수- NYSE, 매일 1테라 바이트의 거래 데이터- facebook, 10억개의 사진 저장- 힉스 입자 가속기, 매년 15페타바이트
페타>테라>기가
MyLifeBits
- Microsoft research - 개인이 생산하고 있는 모든 정보를 저장 - 한 달에 1GB -
astrometry.net
Big Data vs 알고리즘
- 일반적으로 더 많은 데이터가 더 좋은 알고리즘 보다 낫다- 구글 : 중국어 번역
이제는 Big Data는 우리 주변에,나쁜소식은 어떻게 처리를 할 것인가...
1.2 데이터 저장소와 분석
저장용량 / 엑세스 속도
- 저장용량 증가폭 > 엑세스 속도 증가폭
해결책 : 여러 하드에 분산, 병렬 처리but, 1. 장애 확률도 덩달아 높아짐2. 분할된 데이터를 다시 결합 하는 cost
저장용량 / 엑세스 속도
- 저장용량 증가폭 > 엑세스 속도 증가폭
해결책 : 여러 하드에 분산, 병렬 처리but, 1. 장애 확률도 덩달아 높아짐2. 분할된 데이터를 다시 결합 하는 cost
1 -> HDFS2 -> MapReduce
1.3 다른 시스템과의 비교
<Hadoop>MapReduce is a programming model for processing large data sets with a parallel, distributed algorithm on a cluster
Map(k1,v1) → list(k2,v2)Reduce(k2, list (v2)) → list(v3)
1.3.1 관계형 데이터베이스
- 구조화된 데이터 / 비구조화된 데이터- 정규화 / 정규화X- 비선형으로 확장 / 선형으로 확장
1.3.2 그리드 컴퓨팅
- 수백 기가 바이트처리시, 네트워크 병목Hadoop, 데이터가 로컬 -> 빠름
- 복잡한 아키텍처Hadoop, 무공유 아키텍처
1.3.3 자발적 컴퓨팅
- SETI@home, 메르센 소수 찾기, Folding@home(http://cafe.naver.com/setikah)
- CPU중심적, CPU > 전송시간
1.4 하둡의 역사
- 조어(made-up name)"내 아이가 봉제 인형인 노란 코끼리에게 지어준 이름이다. 짧고, 상대적으로 맞춤법과 발음이 쉽고, 특별한 의미는 없다."
1.4 하둡의 역사
더그커팅
- 아파치 루씬 - 아파치 너치 - 하둡- GFS -> NDFS- 맵리듀스 -> NDFS
1.5 아파치 하둡과 하둡 생태계
공통 : 분산 파일 시스템, 일반적인 I/O를 위한 컴포넌트와 인터페이스 집합
에이브로(Avro) : 교차언어 RPC와 영속적인 데이터 스토리지를 위한 데이터 직렬화 시스템
맵리듀스 : 범용 컴퓨터의 커다란 클러스터에서 수행되는 분산 데이터 처리 모델/실행환경
HDFS:범용 컴퓨터로 된 커다란 클러스터에서 수행되는 분산 파일 시스템
1.5 아파치 하둡과 하둡 생태계
피그:탐색용 데이터 흐름 언어하이브:분산 데이터웨어하우스HBASE:분산 컬럼 지향DB주키퍼:고가용성 조정 서비스스쿱:관계형DB와 HDFS간 데이터를 이동시키기 위한 도구오지: 하둡 잡(맵리듀스,피그,하이브,스쿱)의 워크플로우를 실행/스케쥴링
top related