pag 빅데이터-한국에도필요한가

13
빅빅빅빅 , 빅빅빅빅 빅빅빅빅 ? Platform Advisory Group 빅빅빅

Upload: wooseung-kim

Post on 04-Dec-2014

2.818 views

Category:

Documents


0 download

DESCRIPTION

Platform Ad

TRANSCRIPT

Page 1: Pag 빅데이터-한국에도필요한가

빅데이터 , 한국에도 필요한가 ?

Platform Advisory Group김우승

Page 2: Pag 빅데이터-한국에도필요한가

빅데이터 ?

1952.5.21

The first IBM large-scale electronic computer

IBM 701

Page 3: Pag 빅데이터-한국에도필요한가

왜 지금 빅데이터 ?

구글 , 페이스북 , 야후 ! 등은 이미 PB 급 데이터 처리

글로벌 회사 ( 특히 금융 ) 들도 PB 급 데이터를 처리

다양한 분야에 응용

Page 4: Pag 빅데이터-한국에도필요한가

빅데이터의 속성

Page 5: Pag 빅데이터-한국에도필요한가

국내의 빅데이터 ?

SKT, KT, LGU+ 네트워트 다운 없이 ...꼬박꼬박 과금

국내통신사들은 이미 PB 급 네트워크 트랙픽을 처리

PB 급 데이터 프로세싱 ?

Page 6: Pag 빅데이터-한국에도필요한가

국내의 빅데이터 ?• 네이버 , 다음과 같이 검색과 서비스를 모두 갖추지 않은 인터넷

사업자는 기본적인 접속로그 분석으로 그치는 상황

• 대부분 사용로그는 여전히 RDBMS 에 저장하고 분석

• 많은 인터넷 스타업들은 구글 애널리틱스 서비스 활용

• 대기업 , 금융등 자본이 많은 회사는 전용 DW 솔루션으로 해결

• main-memory db

• 전용 appliance

• reporting tools

기초 통계 , UV, PV, 반응률 , 시청률 계산 수준소규모의 Hadoop 클러스터를

가지고도 직접적인 성능 , 경제적 이득을 얻을 수 있음

Page 7: Pag 빅데이터-한국에도필요한가

빅데이터의 진정한 가치는 ...

•검색

•상품 추천

•사용자 프로파일링

• SIRI?

개인화 서비스

국내에서 검색 /개인화 서비스를 제대로 하고 있는 회사는 ?

Association Rule

Collaboration Filtering

Page 8: Pag 빅데이터-한국에도필요한가

빅데이터 기술

•데이터 마이닝

•기계 학습

•분산 컴퓨팅

•OS(Linux)

상대적으로 저비용으로 빅데이터를 처리할 수 있는 MapReduce 프레임워크와 분산스토리지에 대한 기술이 구글논문을 통해 알려지고 이를 기반으로 오픈소스 Hadoop 이 만들어지게 되면서 매우 짧은 기간동안에 빅데이터 시장 형성을 위한 기술적인 에코시스템을 갖추게 됨

Page 9: Pag 빅데이터-한국에도필요한가

빅데이터를 할려면 ...

• Service

• Recommendation

• Advertisement

• Data Miner

• Statistics

• Data Mining

• S/W Developer

• Mining Algorithm

• Machine Learning

• DBMS

• MapReduce

• NoSQL

• System Engineer

• Linux

• H/W, Network Engineer

• Hadoop

Data Scientist

DevOps

Software Engineer

Page 10: Pag 빅데이터-한국에도필요한가

Future ?

Real-timeData Visualization

Privacy !!!

Page 11: Pag 빅데이터-한국에도필요한가

Melon 곡추천ImportImport 멜론로그파일 취합

( 종량 /프리 /스트리밍 )멜론로그파일 취합

( 종량 /프리 /스트리밍 )사용자별

구매 /플레이 곡 수집사용자별

구매 /플레이 곡 수집 연관규칙생성연관규칙생성 정렬정렬 RankingRanking 기준일생성기준일생성 ExportExportLift 값 변경Lift 값 변경

멜론 연관규칙 마이닝 Process 실례 프로세스 실행 결과 예

② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨

⑧⑨

사례

Page 12: Pag 빅데이터-한국에도필요한가

예전엔 ,지금도…

SAN Storage

FTPServer

서비스서버

ETLMachine

Oracle RDBMS

Usagelogs

데이터 요약 /통계

상용마이닝솔루션

데이터수집

데이터마이닝

추천정보

MySQL

API

Local FS

고가의 상용솔루션 도입HP/SUN High-End Multi-core Single Machine

EMC/SUN 의 SAN 스토리지 시스템상용 마이닝 솔루션 및 ETL Tool

용량 확장 상대적 어려움비용이 기하급수적으로 증대

기존 Architecture 의 변경 불가피

Infrastructure

Page 13: Pag 빅데이터-한국에도필요한가

지금은 ...

SPADE

HDFS

FTPServer

서비스서버

ETLProcessor

MapReduceFramework

Usagelogs

데이터 요약 /통계

MiningProcessor

데이터수집

데이터마이닝

추천정보

MySQL/NoSQL

API

Local FS

ORACLE

SAN SAN

FUSEFUSE

상용솔루션에서 hadoop 을 이용한 Cluster Computing 환경으로 단계적으로 업그레이드

System Architecture 의 변경없이 성능 및 용량을 확장할 수 있는 Infrastructure 확보

향후 MySQL 과 NoSQL 의 적용 범위를 넓히는 방향으로 추진

Infrastructure