hadoop 기반 빅데이터 이해

21
ICT 사사사사사 사사사 [email protected] Hadoop 사사 사사사사 사사

Upload: -iworks-inc

Post on 15-Apr-2017

644 views

Category:

Data & Analytics


7 download

TRANSCRIPT

Page 1: Hadoop 기반 빅데이터 이해

ICT 사업본부장 정수화[email protected]

Hadoop 기반 빅데이터 이해

Page 2: Hadoop 기반 빅데이터 이해

빅데이타 개념• 정형 , 비정형 대용량 데이터를 모아 분석 , 통계 , 예측 • 기존 데이터에 비해 너무 방대해 이전 방법이나 도구로 수집 ,

저장 , 검색 , 분석 , 시각화등 어렵다 .• 기존 데이터베이스 SW 가 저장 , 관리 , 분석할 수 있는

범위를 초과하는 규모의 데이타

Page 3: Hadoop 기반 빅데이터 이해

빅데이타 출현 배경• 비정형 데이터 급증 - 문자 , 음성 , GPS, 영상 , 인터넷 SNS,• 스마트폰 확산 – SNS, 쿠폰 , 광고 , GPS 위치정보 , NFC

칩 , 비콘 , • 멀티미디어 콘텐츠 사용 관련 정보 • 각종 센서로 부터 데이터 수집 , 저장 – IoT• 정보의 바다 정보의 홍수

Page 4: Hadoop 기반 빅데이터 이해

빅데이타 특성 – 3V

• Volume( 데이터 량 )• Variety( 다양성 )• Velocity ( 빠른 생성 , 빠른 처리 )

Value

새로운 가치 창조

Page 5: Hadoop 기반 빅데이터 이해

빅데이타 가치

Page 6: Hadoop 기반 빅데이터 이해

빅데이타 활용

Page 7: Hadoop 기반 빅데이터 이해

구글 Trend

Page 8: Hadoop 기반 빅데이터 이해

빅데이타 분석시스템 – 시스템 개념도

Page 9: Hadoop 기반 빅데이터 이해

하둡 - Hadoop

• 목적 - 여러대의 컴퓨터를 병렬 연결 , 상호 협력하여 컴퓨팅의 성능과 효율 향상

• 구성 - HDFS (Hadoop Distributed File System) - Map Reduce( 분산 처리프로그래밍 )

Page 10: Hadoop 기반 빅데이터 이해

HDFS - 하둡파일시스템• 클러스터 환경에서 대용량 데이터를 분산해서 안정적으로

저장하는 프레임워크• 큰 파일을 일정 크기의 덩어리 (chunk) 로 쪼갬• 덩어리를 복제하여 전체 클러스터에 분산 저장• 일부 노드 장애는 서비스에 영향을 주지 않음

Page 11: Hadoop 기반 빅데이터 이해

HDFS

• 수백 GB – 수 TB 지원• Write Once Read Many 파일 시스템

- 한번 작성되면 바뀔 필요없는 경우- Append 만 가능

• 저렴한 컴퓨터 병렬로 여러 개 연결 , 병렬 처리 지원

Page 12: Hadoop 기반 빅데이터 이해

MapReduce

• 하둡 분산파일시스템에 저장된 분산데이타를 클러스터로 연결된 컴퓨팅 노드들이 병렬로 데이터를 처리하는 프레임워크

• 함수형 프로그램에서 일반적으로 사용하는 Map 과 Re-duce 라는 함수 기반으로 구성

• 복잡한 컴퓨팅을 MAP/Reduce 두가지로 단순화

Page 13: Hadoop 기반 빅데이터 이해

Map/Reduce 예시 – word count

Page 14: Hadoop 기반 빅데이터 이해
Page 15: Hadoop 기반 빅데이터 이해

시각화• 정의 : Visualization 은 숫자를 공간에 배치해서 보여줌으로써 그 패턴을 인지하게 만드는 것이다 . • 통계 / 분석의 가장 중요한 부분 . 1. 데이터의 특성을 쉽게 파악 ( vs 통계량 ) 2. 결과 레포트에 활용 -> 독립된 학문 / 기술 분야로 발전• 근거 : 사람은 탁월한 패턴 인식 능력이 있음 .• 데이터 패턴 파악의 도구 , 분석을 돕는 역할 -> 데이터의 스토리텔링 : 소통을 위한 전달체 , 재미 / 유머/ 오락성

Page 16: Hadoop 기반 빅데이터 이해

빅데이타 처리 과정

Page 17: Hadoop 기반 빅데이터 이해
Page 18: Hadoop 기반 빅데이터 이해

빅데이타 활용 - 공공• 목적 : 과학적 정책 의사결정• 스마트 시티• 서울시 지하철 승객 분포 – 가장 복잡한 지하철 ,..• 성남시 도서관 자료 분석• 해운대구 쓰레기 무단 투기 • 서울시 심야버스 분석• 경기도 민원 분석 –교통 > 생활환경 > 주민생활 , 계절별 민원• 관광객 정보 분석 – 축제기간 유입인구 분석• 유동인구 분석으로 상권 분석• 범죄예방 – 20 대 여성인구 시간대별 분석

Page 19: Hadoop 기반 빅데이터 이해

빅데이타 활용 – 유통 , 제조 , 금융 ,.• 목적 : 비용절감 , 수익 창출• 아마존 – 고객의 구매이력 데이터 분석• 월마트 – SNS 데이터 분석 , 점포내 모바일 네비게이션• 넷플릭스 – 개인화된 VOD 서비스• 다이닝코드 – 빅데이타 맛집 검색 ,500 만개 blog 60% 제거• 제조산업 – 센서로 부터 IoT 데이터 분석 , 불량율 , 생산성

향상• 금융 - FDS, 주가 예측 , 보험상품 개발 , 보험수익계산 ,

Page 20: Hadoop 기반 빅데이터 이해

정리• ICBM – IoT, Cloud, Bigdata, Mobile• 성장 분야• 데이터 축적이 기본• 사업 구상에서 closing까지 오랜 기간 소요 (2-3년 )• 데이터 수집 , 분석 , 예측 , 시각화등 전체사업 수행능력• 소규모 IT 인력 openstack 으로 Bigdata 분석은 무리

Page 21: Hadoop 기반 빅데이터 이해

ICT 사업본부장 정수화[email protected]

Thank you!