빅데이터 플랫폼 새로운 미래
TRANSCRIPT
빅데이터 플랫폼, 새로운 미래
Pla&orm Camp 2012 12.06.23 김우승
소개 • 줌인터넷(주) 연구소장 • 이력
– 줌인터넷 – SK 플래닛 – SK 텔레콤 – 삼성전자
• h7p://kimws.wordpress.com • @kimws
Why Now?
Connected Everything – Smartphone – LTE – Sensor Networks – … …
¨ Google ¨ Facebook ¨ Yahoo ¨ LinkedIn ¨ Twi7er
웹 서비스 비즈의 성장 기술 공개 , 빠른 기술 진화
데이터 처리 비용 상대적으로 낮아짐
데이터의 폭발적인 증가 멀티미디어 실시간 데이터
Cost < Value
NoSQL
Legacy Technologies .vs. Big Data Technologies
• Single Machine – MulY-‐core (> 16 cores) – Scale-‐up – High Price H/W, S/W – SAN Storage
• MS Windows, AIX, HP-‐UX • Commercial SoluYons • IBM, Oracle, Microsoa
• RDBMS • TeraData, Exadata,NeYzza • SAS, SPSS
• MulYple Machines – Commodity H/W, N/W – Scale-‐out – Low Cost H/W – Distributed FS
• Linux • Open Source • Google, Yahoo!, Facebook,
Twi7er, LinkedIn • NoSQL • Hadoop • R
Legacy Data Pla&orm
고가의 하이엔드 싱글서버 서버, 네트워크장비 SAN 스토리지 상용 데이터베이스, 마이닝 솔루션 매우 고가
비용은 몇배로 발생 시스템 아키텍쳐 & 데이터 구조 변경이 불가피 처리할 수 있는 데이터 처리에 한계가 발생
데이터 수집 데이터 처리 데이터 분석 데이터 제공
SAN Storage
FTP SFTP Rsync
OLAP Tools
ETL Process (IBM DataStage) SQL, PL/SQL
RDBMS (Oracle, DB2, MSSQL …)
데이터 마이닝 (SAS)
Local FS Local FS
Data Warehouse (TeraData)
Service Server
시스템 확장
No MigraYon , Hybrid!!!
Big Data Pla&orm
Real-time Stream & Event Processor
데이터 수집 데이터 처리 데이터 분석 데이터 제공
Distributed File System
FTP SFTP Rsync
OLAP Tools (R)
ETL Process Pig & Script Lanugage
RDBMS (Oracle, MySQL)
데이터 마이닝 Mahout, R
Local FS Local FS
Data Warehouse Hive, R
Service Server
MapReduce Framework
NoSQL (Hbase, Cassandra)
SAN Storage
Log Aggregator (Flume)
Data Warehouse
NoSQL (MongoDB)
• 대용량 데이터 저장과 대용량 데이터 분석 시스템에는 Hadoop 및 오픈소스기반의 NoSQL, R을 적극 활용 • 최종 분석 결과 제공을 위한 OLTP 기반 리포트 시스템 / 서비스 데이터들은 기존의 기술을 적극 활용 • Hadoop 및 오픈소스 기반의 시스템들은 저가의 범용서버 및 네트워크스위치를 활용해서 클러스터를 구성
재빠른 벤더들의 움직임
‘12년 국내 빅데이터 시장은?
• DB, DW 벤더중심의 마케팅으로 왜곡 – 기존 DW, 데이터 마이닝과 무슨 차이?
• 빅데이터가 있기는 한건가? – 주로 소셜미디어 (주로 트위터) 분석 시장
• SmartInsight, Seenal, TrueStory,PulseK, tweetTrend … – 게임회사, 포털서비스, 서비스회사, Telco
• 2-‐3년 전부터 기술을 도입하여 활용중
‘12년 하반기되면 거품이 빠질 듯 …
그러다보니 … • ‘11년부터 분산 컴퓨팅 환경에서의 데이터 프로세싱 영역에는 빅데이터 기술들을 적극 도입하고 활용 – 퍼스널 클라우드의 확대로 저가의 분산 스토리지에 대한 개발과적용은 활발
– 대용량 데이터 저장과 프로세싱을 위한 NoSQL에 대한 활용이 크게 늘고 있음
• 데이터 분석 분야에서 특히 분산 컴퓨팅 환경에서의 대용량 마이닝 알고리즘이나 분석 기법은 제한적으로 활용되고 있음 – 이 영역이 외국계 업체들의 컨설팅, 솔루션 비지니스시에 강점으로 내세울 것임
– 데이터가 없으니 당연히 국내에서는 이 영역에서 두각을 나타내는 업체 없음. 소셜분석이 뜨는 이유는 트위터데이터만이 활용할 수 있는 공개된 빅데이터(?) 라 할 수 있기 때문에
Big data is not bubble!!! 2-‐3년 이내에 각 산업계, 학계의 다양한 도메인별로 해외의 성공사례들이 나오게되면 비싼 컨설팅 비용과 솔루션 비용이 발생하고 기술 및 역량을 내재화하는 시기마저 놓칠수도
전 산업분야에 걸쳐서 빅데이터 기술을 이용한 응용들이 크게 늘어나게 될 것이며 이를 뒷받침하는 하드웨어, 네트워크, 분산 알고리즘 연구, 분석도구 시장 역시 함께 성장하게 될 것이다.
클라우드 컴퓨팅이 거품이 아니었듯이
Financial Services
Natural Resources
Manufacturing
TransportaYons
Government
Healthcare
Retail
Media and Entertainment
UYliYes
Cloud
Science
빅데이터는 있다. 하지만 … 어떤 가치를 찾을 수 있지?
• 당장 분석할 충분한 데이터를 갖추고(저장하고) 있지않다. • 그래도 일단 데이터를 수집하고 바로 시작해야 한다. • 다양한 분석과 데이터로부터 가치를 찾는 일을 시작해야 한다.
닭과 달걀의 문제 즉 ROI 의 문제!!! 내재화가 필요하다
빅데이터를 위한 기술 역량
도메인 전문가
데이터 분석가
소프트웨어 개발자
시스템 엔지니어
• 추천 로직 기획, 광고 플랫폼 • Financial & Stock Market • Health Care • BioInfomaYcs • Power Management
• 통계 & 데이터 탐색 • 데이터 마이닝 & 기계학습 • 데이터 분석 • 리포팅 • 데이터 시각화
• 데이터 수집 • 마이닝 알고리즘 & ML 구현 • 데이터 처리 엔진 구현 • 데이터 저장소 최적화 • 분산 알고리즘 구현
• 운영 체계 최적화 • 컴퓨팅 H/W, N/W 최적화
• OLAP Tools • SAS, SPSS,R,Weka • SQL • RDBMS • ETL • Script Language • Pig, Hive • MapReduce
• Log Aggregator • NoSQL • Hadoop • Linux • X86 • Network
• VisualizaYon • Infograph • IR & RecSys
Data Scien
Yst
DevO
ps
감사합니다.