빅데이터의 개념과 이해 그리고 활용사례 (introduction to big data and use cases)
TRANSCRIPT
2015 handstudio. All rights reserved.
Introduction to topic
Introduction to Big Data
Revision DateWritten byE-mail
2015/12/11Wonjin Lee / Service Strategy / [email protected]
INDEX
Introduction 빅데이터 기술 빅데이터 활용 사례 빅데이터 기술의 미래
01 Introduction | 데이터 증가와 빅데이터의 요소
Web 2.0 으로의 발전과 소셜미디어
참여와 공유 그리고 개방의 속성을 가진 웹으로 발전으로 데이터 생성량의 폭발적인 증가
빅데이터의 3 대 요소대용량 (Volume), 실시간 생성 (Velocity), 비정형 데이터
(Variety)
소셜미디어 , 동영상 콘텐츠 서비스 플랫폼 세계 데이터 증가량
전 세계 데이터 중 90% 가 2010 년 이후 생성된 데이터
Infographic by QmeeSource : 딜라이트 닷넷
01 Introduction | 빅데이터 기술의 등장
Expensive Less scalable Single processing
Cost effective Scalable Parallel processing
빅데이터를 핸들링하고 분석하는 기술의 필요성
시스템 확장성과 실시간 대용량 데이터 처리를 할 수 있는 기술의 등장
02 빅데이터 기술
내부 데이터 수집• Database• Text files
외부 데이터 수집• Web• Blog• Twitter• Facebook
CrawlerETLParsingSqoop / Flume
데이터 전처리• 중복데이터 제거• 필요 데이터 파싱
분산 파일 시스템 사용• HDFS 저장• 분산 DB 저장• 모니터링 / 장애 대응
HDFSZookeeperHbase / Cassandra
데이터 분석• 데이터 병렬 프로세싱• 스크립트 엔진• 통계 분석• 키워드 분석• NLP( 자연어처리 )• 머신러닝
MapReduce / SparkHive / PigTajo / SparkSQLMahout / Giraph / R
데이터 시각화
통계차트 제공
추천 / 예측 서비스
외부 API 제공
Data VisualizationGraphAPIsWeb Service
데이터 처리과정과 빅데이터 기술
Back End Front End
기존 데이터 프로세싱 과정에 적절한 빅데이터 기술의 활성화
시스템 확장성과 실시간 대용량 데이터 처리를 할 수 있는 기술의 등장
02 빅데이터 기술
빅데이터 서버 클러스터 빅데이터 소프트웨어 스택
빅데이터 기술을 활용한 시스템 및 소프트웨어 구축빅데이터 서버 클러스터와 빅데이터 기술을 활용하기 위한 Hadoop Ecosystem 오픈소스 설치 예시
Low
High
활용 사례03
콘텐츠 제작 활용 - 사용자 관심 토픽 혹은 장르별 캐스팅 배우 선정 - 제작 및 유통 드라마의 수요 예측e.g,.) BBC 제작 드라마가 좋을 경우 Spacey 주연이거나 David Fincher 감독 제작 드라마 찾아본다 => 드라마 제작시 두 사람 모두 섭외
콘텐츠 클릭과 시청 습관 로그 데이터 수집을 활용한 빅데이터 분석영상 콘텐츠 조회 / 별점 / 댓글 , 시청 이벤트 ( 재생 / 중지 / 되감기 / 빨리보기 ) 모든 로그 수집
동영상 추천 서비스 - 넷플릭스 사용자의 75% 가 추천서비스 사용
구독자 및 서비스 사용자 증가
source : NETFLIX, statista
분산 시스템과 데이터베이스를 적용하여 천만 혹은 1 억명 이상의 글로벌 사용자 대응
- 빠른 메시징 응답속도
- 저장 공간의 확장성 - 모바일 소셜데이터 확보
진저 for 비트윈 모바일 소셜데이터활용 신용평가
LineTV
신사업 혹은 콘텐츠 제안 활용
활용 사례03
글로벌 사용자 증가와 모바일 메시징 , 소셜데이터 관리 및 활용서비스의 확장성을 고려하기 위한 빅데이터 시스템과 모바일 데이터를 활용한 신사업 혹은 콘텐츠 제안
1boon
source : kakaotalk, Line, Be-tween
활용 사례03 시청률 , 전력 빅데이터를 활용한 미래예측
시청률 데이터약 2 억건
데이터 처리 예측모델 생성데이터 처리 시청률 예측
ch 제목 방영일 실제 시청률 K-1 K-2 K-3 mean
s
MBC 수목미니시리즈( 여왕의 교실 ) 20130612 10.9% 13.2% 11.7
%10.7% 11.9%
SBS 월화드라마( 야왕 ) 20130114 10.3% 10.7% 8.3% 7.3% 8.7%
전력 데이터약 4TB
데이터 처리 예측모델 생성데이터 처리 전력 수요 예측
시청률 , 전력 빅데이터를 활용한 미래예측
source : 한국방송학회 , ICDIM 2014
출처 : CiP
빅데이터 기술의 미래
04
Global cellular M2M connections 2014-24 [Source: Machina Research, 2015]
기계간 통신 (M2M) 과 사물인터넷 (IOT) 산업의 발달디바이스간 커넥티드 통신을 하는 기기가 확장되고 있고 , 사물인터넷 기술이 발달하면서 인터넷 가능 기기 수 또한 폭발적으로 증가하고 있다 .
로그 데이터의 폭발적 증가기기간 통신과 인터넷 기기가 증가할수록 로그 또한 데이터로서 폭발적으로 축적된다이러한 데이터를 이용한 빅데이터 산업은 미래에도 필수불가결한 요소이다 .
인터넷 가능 기기 수의 증가 2003-25 [Source: Cisco IBSG, HP]
Big Data – Increasing Varacity 2010-15 [Source: IBM, 2014]
Big Data Technologies and Service Market, worldwide
[Source: IDC 2014]
The Big Data Market grows 6times faster than the traditional IT market
빅데이터 기술의 미래
04
IT 시대에서 DT(Data Technology) 시대로의 전환
고객 데이터를 활용해 개별 고객의 요구에 부응할 줄 알고 , 아이디어가 풍부하고 혁신에 익숙한 스타트업이 주도할 것이다 .
source : release2innovation