smart analytics - krnet · sas/iml, sas/jmp 와 spss에서 api를 ... bootstrap sample-2 bootstrap...
TRANSCRIPT
2013.06
빅 데이터 시대의
SMART Analytics
최 대 우 한국외국대학교
Taming Big Data (with infographics)
Taming Big Data (with infographics)
Taming Big Data (with inforgraphics)
6 Characters rebooting medicine and health
What is Big Data?
• 빅 데이터란 통상적인 데이터베이스 소프트웨어가 다룰 수 있는 능력을 넘어선 규모의 데이터를 의미함 • 절대적인 규모로 빅 데이터를 정의하지 않았으므로, 기술 발달에 따라 빅 데이터의 대한 규모는 증가할 수 있음
What is Big Data?
분석 대상인 소셜 미디어나 위치 정보 데이터 등의 양은 크다
데이터의 형태가 비구조화 되어 있다
데이터가 실시간으로 생산된다
Volume
Variety
Velocity
☞ http://www-01.ibm.com/software/data/bigdata/
Key Changes of Big Data
Large Data era Big Data era
데이터의 원천
데이터의 형태
데이터의 취합
분석방법
분석환경
vs.
Internal Social + External
Nearly Structured Unstructured
Data-in-rest Event captured (Data-in-motion)
Table+Graph+Analysis in back-office
Dynamic data visualization +Analytics
in war room
DW+Server Distributed process+Cloud
Core IT Technologies of Big Data era
데이터의 원천
데이터의 형태
데이터의 취합
분석방법
분석환경
분산처리 기반의 데이터 가공 및 컴퓨팅 기술
Complex Event Processing
통계엔진을 활용한 분석 자동화
Data Visualization
Big Data era
Social + External
Unstructured
Event captured
Dynamic data visualization +Analytics
in war room
Distributed process+Cloud
IT Tech. of Big Data era
Why Analytics?
Value inside Big Data
Core Competency
Culture for sustainability
Unique Hard to duplicate Asset
Google Trends: After 2006, Data Mining < Analytics
(c) KDnuggets 2011
Google Trends: Analytics observations
(c) KDnuggets 2011
Google Analytics introduced,
Dec 2005
Competing on Analytics b
ook, Apr 2007 December vacation drop
Half of “Analytics” searches are for “Google Analytics”
12
(c) KDnuggets 2011
Opencompute.org 분산처리기반의
데이터가공및컴퓨팅기술
Hadoop 기반의 Analytic Platform - MapReduce
14
분산처리기반의데이터가공및컴퓨팅기술
• Example – Word count
Ente
rprise
Mess
age B
us
Process Factory for Events Capture
1. Loan Application 2. Internet Banking 3. Inbound Call Centre 4. Etc..
Real-time Event Processing Engine
Events Transaction Capture 1. Cards, i.e. Credit/Debit/Cash 2. Accounts, i.e. Fund In/Out 3. Foreign Exchanges 4. Etc…
Campaign Rules Travel
Insurance
TD
Loans Products
Campaign Offers
Real-time Sales Offers
and Context Based Sales Responses Event capturing 기술
The two-second advantage
a little bit of the right information ahead of time is more valuable than piles of information too late.
Complex Event Processing
Moment of Truth
• 40 billion RFID tags
Complex Event Processing
Moment of Unhappiness
• Harvard Business School 교수 출신인 Harrahs CEO Gary Loveman은 데이터 분석에 의한 혁신으로 유명함
• 실시간으로 고객의 gambling 상태를 체크하여 개인화된 MoU에 따라 gambling의 stop을 시도함
Gambling time
Money lost
Moment of Unhappiness
If he visits with his family…
Complex Event Processing
What is R? 통계엔진을활용한분석자동화
오픈소스 기반의 R은 최근 3년 전부터 빅 데이터를 다루는 Google, facebook, 아마존, Netflix에서 데이터 분석엔진으로 자리 잡았고, 오라클, IBM, 테라데이터의 벤더들도 in-database 분석의 표준 툴로 채택하여 신뢰성, 확장성, 안정성이 보장된 상태로 세계 경제 불황으로 저비용, 고효율의 R은 더 확산될 것으로 예상됨
R의 확산 – global
20
빅 데이터 기업의 분석 플랫폼 엔진으로 사용 중이며, 유수기업에서 데이터 분석 tool로 사용 중임
SAS/IML, SAS/JMP와 SPSS에서 API를 통해 R을 계산 엔진으로 사용 중임
IBM, SAP HANA와 Oracle에서 in-memory 혹은 in-database 분석 엔진으로 채택함
SAS 대비 급격한 사용자와 개발자의 확산으로, 대학교육의 표준 툴로 자리 잡음
1. 2.
3. 4.
통계엔진을활용한분석자동화
통계엔진을활용한분석자동화
Example : MapReduce Version of Bagging
• Bagging이나 Random Forest와 같은 ensemble 기법은 MapReduce의
컨셉과 일치하는 알고리즘들임
Bootstrap
sample-1
Bootstrap
sample-2
Bootstrap
sample-3 Bootstrap
sample-B
Original
Training data
Generally, B=50
Majority Voting (혹은 평균)
Ma
p
Ph
as
e
Re
du
ce
Ph
as
e
통계엔진을활용한분석자동화
분산처리기반의데이터가공및컴퓨팅기술
Charles Joseph Minard (1781 – 1870)
• a French civil engineer noted for his inventions in the field of information graphics
Minard's map using pie charts to represent the cattle sent from all around France for consumption in Paris (1858).
Stacked Area Chart (1859)
Data Visualization
Charles Joseph Minard (1781 – 1870)
• 1869 chart showing the losses in men, their movements, and the temperature of Napoleon's 1812
Russian campaign
•The graph displays several variables in a single two-dimensional image: −the size of the army : providing a strong visual representation of human suffering, e.g. the sudden decrease of the army's size at the crossing of the Berezina river on the retreat; −the geographical co-ordinates, latitude and longitude, of the army as it moved; −the direction that the army was traveling, both in advance and in retreat, showing where units split off and rejoined; −the location of the army with respect to certain dates; and −the weather temperature along the path of the retreat, in another strong visualization of evvents
http://youtu.be/EGap8LTG1BI
Data Visualization
Florence Nightingale (1820 – 1910)
• a celebrated English nurse, writer and statistician
"Diagram of the causes of mortality in the army in the East“ (1858)
Data Visualization
William S. Cleveland
• Shanti S. Gupta Distinguished Professor of Statistics Professor of Computer Science, Purdue Univ.
(joined in 2004)
• Statistics Research, Bell Labs, Murray Hill, NJ
• Ph.D. , statistics in Yale Univ.
Trellis display
Smoothing - loess
• Hans Rosling 교수(스웨덴)는 각종 시계열 통계를 motion chart를 사용하여 열강하는 것으로 유명함
• 그 motion chart는 Rosling 교수의 Gapminder 재단의 Tredalyzer 소프트웨어로 해당 소프트웨서는
2007년 Google에 인수되어 Google Visualization Chart API의 한 기능으로 제공되고 있음
Dynamic Graphics - Gapminder Data Visualization
Google Motion Charts with R
http://youtu.be/6dGSdoubYUY
Data Visualization
Mike Bostock의 d3 (Data-Driven Document)
• In 2009, Ph.D. student Mike Bostock, Prof. Jeff Heer and M.S. student Vadim Ogievetsky of
the Stanford University's Stanford Visualization Group created Protovis , a Javascript library to
generate SVG graphics from data. The library received a noticeable acceptance both by data
visualization practitioners and academics.
• In 2011, the development of Protovis was stopped to focus on a new project, D3.js.
• Bostock (along with Heer and Ogievetsky) developed D3 to provide a more expressive framework that
takes account of web standards and provides improved performance
Data Visualization
Example: d3 in New York Times
Example: d3 in Guardian
Data-Driven Documents
(R + Shiny) OR (R + Shiny + d3)
빅데이터 시대의 Visual Analytics 중요성 부각
• Harvard Business Review에 의하면, 과거 BI가 리포팅 중심의 보고 및 트렌드 파악에 기반한 예상이 주요 기능이었다면 앞으로는 데이터 시각화 및 고급 분석이 내재화된 BA(Business Analytics)의 중요성이 부각되고 있음
34
Past Now & Future
Data Visualization
Simulation & Scenario development
Analytics applied Within BP
Prediction and optimization
Data Visualization
DV 도입의 필요성 – P&G 워룸 Business Sphere
• Business Sphere는 P&G의 실시간으로 대량 데이터를 분석해 의사결정을 신속히 내릴 수 있는 워룸 역할을 하는 high tech 회의실과 facility로서 CEO와 주요 임원진이 매주 룸에서 회의를 진행함
35
(McKinsey Quarterly: Inside P&G’s digital revolution)
Data Visualization
36
• 수 많은 정보의 홍수가 끊임 없이 쏟아지고 있다면, 정보의 긴 시간의 취합과 분석은 무의미할 것임
• 전문가의 순간적 판단과 그 판단에 대한 훈련을 거듭하여 통찰(insight)를 확보하기 위한 새로운 분석 패러다
임이 필요함
분석의 새로운 패러다임 – EASY, FAST & SMART
“생각하기 위해 멈춰서지 말라”
“빠르게 그러나 여백을 두어라”
“편견에 눈을 감으면 세상이 바뀐다”
Data Visualization
Cloud Service - Google Prediction API
• Ford’s SMART Car system
분산처리기반의데이터가공및컴퓨팅기술
Cloud Service - Google Prediction API
• Google은 Google storage에 있는 데이터를 활용하여 classification 예측 모델링을 할 수있는
서비스를 API 형태로 제공하고 있음
분산처리기반의데이터가공및컴퓨팅기술
Cloud Service - Google Prediction API
• Google Prediction API는 Google API & Developer Products 중 Big Query와 Storage와 함께 Misc. 서비스 계열에 속함
http://code.google.com/intl/ko-KR/more/table/
분산처리기반의데이터가공및컴퓨팅기술
Cloud Service - Google Prediction API 분산처리기반의
데이터가공및컴퓨팅기술
일반 기업 Analytic의 As-Is
• 빅 데이터 시대를 맞아 분석에 대한 새로운 기대와 그를 가능하게 하는 신기술들이 소개되었고, 그에 따른 변화는 다음과 같음
As-Is SMART
Report Analytics
Insightful & Predictive Phenomenal
Analyst only Biz. Expert and/or Data Scientist
Numbers, simple graph on papers Data visualization on tablet
Slow & Difficult Fast & Easy
Exclusive - Independent & Closed Social - Collaborative & Share
• SMART Analytic 분석 플랫폼 하에서
다양한 분석 view를 통해 빠른 시간에 올바른 분석 보고서를 생산할 수 있으며
전사차원의 분석 역량과 문화가 업그레이드 될 수 있음
Social enterprise 개념의 SMART Analytics
Data Scientist
• 고급 데이터 분석가
• 예측, 시뮬레이션, 최적화
Analytic Server
Deploys
analytic
Analyst/ Biz. domain expert
Data Scientist가 개발한 분석 기능 활용 및
SMART analytics 툴을 활용한 분석
Managers, Consumers, Executives
One-click deployment of web applications
1) 출처: EMC
Embedded analytics
Application Server Excel을 이용하여 그래프를 그리고,
PowerPoint로 최종 보고서 작성
각종 DBMS
Embedded analytics 각종 DBMS
Self-Service discovery
Dimension-Free Data Exploration
Data Mashup
Collaboration
Enterprise-Class
Predictive
Working alone…
Application Server
각종 DBMS
Social enterprise 개념의 SMART Analytics
Data Scientist
• 고급 데이터 분석가
• 예측, 시뮬레이션, 최적화
Analytic Server
Deploys
analytic
Analyst/ Biz. domain expert
Data Scientist가 개발한 분석 기능 활용 및
SMART analytics 툴을 활용한 분석
Managers, Consumers, Executives
One-click deployment of web applications
Who can be a Data Scientist?
Embedded analytics
Programming (Open source SW)
Analytic Workflow design
Design capability
Story Telling
Curiosity
Communication capability
Open mind
Machine learning
To-Be SMART…
• 전사차원의 통점 회복을 위해서는 War Room 형 C-Level과 소통의 창구 확보 및 IT~업무~통계 전문가로 구성된 구심점(CoE1)) 중심으로 변화를 추진해야 함
소통의 틀
To-Be As-Is
개인 역량
“그들만의 리그”
조직 역량
“Analytics Everywhere”
“Visualized War Room”
IT 전문가 (BI Tool 등)
Biz. 전문가 (현업 업무 담당자)
통계/ 분석 전문가
C-Level 의사결정권자
Analytics CoE 1)
1) CoE (Center of Excellence) ; 조직 내 새로운 역량을 만들고, 확산하기 위한 전문가들의 조합으로 구성한 조직
1 2
3 1 2 3 + +
Data Scientist
End of Document
Q & A