business intelligence 4. big...
TRANSCRIPT
Big Data Concept
80% data in the world is generated during past 3 years.
2
Kilo Mega Giga Tera Peta Exa Zetta Yotta
103 106 109 1012 1015 1018 1021 1024
Big Data Concept
Big Data Big Bang
Social Media
Mobile
Big Bang
Cloud Computing
의료/건강, 공공/행정, 유통/소매, 제조업, 개인정보의 변화
효율화, 개인화, 지능화된 업무∙제품∙서비스
기업은 새로운 이익 창출의 기회
국가는 미래 경쟁력 확보의 원천
3
Big Data Concept
Big data is introduced in 2011
Data Mining is well studied and settled. (introduced in1990s) but
Big Data is a buzz word these days (introduced in 2011)
Nowadays big data attracts attentions not just as IT trend but as
solutions to many social and economical problems.
빅데이터 동영상
[KBS시사기획 창] ‘빅 데이터, 세상을 바꾸다’ (2012)
[KBS시사기획 창] ‘빅 데이터, 비즈니스를 바꾸다’ (2012)
[SERI오디오보고서] ‘빅데이터: 산업 지각변동의 진원’ (2012)
4
Big Data Concept Big data takes three properties (3V)
◦ Volume: 일반 회사도 tera~peta급 데이터가 축적
◦ Variety: 90% 이상이 동영상, SNS 등 비구조적이며 다양한 형태
◦ Velocity: 데이터 생성에서 유통 소비까지의 시간이 수분, 수초까지 단축
◦ Veracity + Visualization + Value
5
Big Data에 유리한 기술환경
Smart devices and sensors
◦ 스마트폰이나 폐쇄회로 카메라 등이 life log, GPS
data, 환경, 상황 등 미시데이터까지 저장
Storage and communication cost
◦ 전세계 모든 음악 저장에 $600어치의 하드디스크면 충분
◦ LTE무제한 요금제
Processor speed
◦ Intel Core i5, Qualcomm Snapdragon
8
Big Data Strategies Freemium Strategy
◦ 핵심 서비스를 free 또는 저렴한 premium으로 제공하여 막대한 량의 데이터를 축적하고 활용함
과거의 Big Data 4대 천왕: Google, Amazon, facebook, Apple
11
Big Data Strategies
Platform Strategy
◦ IBM, SAS등의 IT솔류션 기업들과 Google등의 빅데이터 big
brother들은 빅데이터 축적, 처리,분석, 제공 기능을 갖춘 빅데이터 플랫폼 서비스를 제공하고 있음
◦ Fujitsu의 ‘SPATIOWL” – 자동차센서가 수집한 막대한양의 위치 데이터를 제공하는 플렛폼서비스를 2011년에 시작
12
Big Data Strategies
M&A Strategy
◦ 기업간 인수합병, 합종연횡을 통하여 Big Data 역량 확보
◦ IBM은 검색업체Vivisimo, 모바일플랫폼 업체
worklight 등을 인수
◦ HP는 빅데이터 분석 전문업체 Vertica를 인수
◦ POS업게 4위인 Toshiba는 1위인 IBM의 POS사업부를 $850M에 인수하여 유통빅데이터의 주도권을
확보, IBM은 POS사업의 범용화를 우려하여 매도
13
Private Sector
Context-based service – 상황별 맞춤 서비스
Location-based service – 위치기반 서비스
Personalized service – 개인화 서비스
Nowcast – 네비게이터의 도착 시간 예측은 forecast 보다 더 가까운 미래 예측(T-map, Olle navi)
Viral marketing – 정형/비정형 데이터를 이용하여 평판분석 입소문 분석을 수행하고 influencer 파악
Prediction – 미국의 소비지출 예측의 경우 소비자 설문조사보다 ‘Google Trends’가 정확한 것으로 파악됨
Operational efficiency – 제조업의 개발 및 조립 비용의 50%, 운
전자본의 7% 절감 기대
14
Private Sector
Li & Fung – 공급망상의 현황을 고객에게 실시간 제공
P&G – 200TB의 전사 빅데이터를 실시간 분석하여 글로벌 시황을 즉각적으로 파악하고 대응
Derwent capital – 수백만건의 tweet을 분석하여 시장동향을 예측하여 펀드를 운용
Hitachi plant technologies – 크레인 곳곳에 장착된 센서데이터로
이상기운 탐지하는 ‘Crane Doctor Cloud’를 운용
Ford – 자사 차량 내부에서 수집한 센서데이터를 스마트폰 앱에서 이용할 수 있도록 하는 ‘Open XC’ 프로젝트 추진.
Walmart – SNS분석을 통해 California의 Mountain View지역 주민들이 자전거에 관심이 많다는 사실을 파악하여 마케팅에 활용
eBay – 명절에 SNS를 분석하여 각 사용자들에게 적절한 선물
추천
VISA – 카드 부정 사용 패턴 탐지, 고객 이탈 패턴 탐지
15
Private Sector
Decide.com – 블로그리뷰, 뉴스, 가격추이 등을 분석하여 특정
제품전자제품을 살지(buy) 가격하락을 기다릴지(wait)를 결정해 줌
Wikileaks – 그들이 소유한 데이터를 분석하여 미국과 아프칸
연합군의 활동 파악
Tweeter.com – 일본 트윗 데이터를 분석하여 1일 단위로 광고슬로건이나 매장 문안을 변경
O2(영국 통신사) – SNS와 위치정보를 실시간으로 분석하여 고객사(스타벅스 등)를 위해 위치기반 프로모션
T-mobile(미국) – 이용패턴을 분석하여 고객 이탈을 탐지하고
추가 혜택을 제공하여 이탈고객을 50% 줄임
Volvo – 자동차의 운행과정에서 수집된 빅데이터를 분석하여,
자동차의 결함 발견에 소요되는 시간을 평균 50만대 판매시점에서 1000대 판매 시점으로 단축
16
Public Sectors Health services
신생아 심장질환 감지 (Dr. Caroline McGregor at U of Ontario)
지역의 검색 키워드의 분포를 보고 독감 유행 예측 (Google)
유전자 샘플 분석=>관상동맥질환 식별 (CardioDX in CA)
기타 각종 난치병 치료
Crime prediction
8년간의 데이터 분석=> 지역별 범죄 예측 (Santa Cruz, CA)
Public transportation
서울시 심야 버스 노선
Election
Facebook “좋아요”클릭 분석: 성별, 좌우편향, 성적지향까지 예측
Public big data platform
http://data.gov, http://www.data.gov.uk, http://www.data.go.kr
17
미래사회와 Big Data
<2012 강만모 등>
18
미래사회 특징
빅데이터의 역할
스마트 (Smart)
경쟁력
(Competence)
-대규모 데이터의 분석을 통한 정확한 예측 -개인화, 지능화 서비스 -(SNS 데이터를 이용한) 평판분석 -보다 정확한 트랜드 분석 및 대응
융합 (Converg
ence)
창조력 (Creativeness)
-분야간 융합을 통한 새로운 가치 창출 -융합 데이터 분석을 통한 분석 정확도 개선 -새로운 융합 시장 및 산업 창출
불확실성 (Uncertai
nty)
통찰력 (Insight)
-빅 데이터에 기반한 정확한 미래 예측 -높은 확률에 기반한 시나리오시뮬레이션 -다각적 상황과 시나리오를 고려하는 통찰력과 대처능력
리스크 (Risk)
대응력 (Responsivene
ss)
-환경, SNS, 센서데이터의 패턴분석을 통한 이상 징후 조기 발견 및 빠른 대응
한국의 Big Data 역량
엄청난 데이터 생산국이며 소비국(data guzzler)이지만 데이터
활용국은 아직 아니다.
한국은 인도와 함께 빅데이터 최대 관심국.
그러나 빅데이터 활용기업과 전문인력은 많지 않다.
또한 빅데이터 진흥의 최대 난제는 지나친 개인정보보호 문제.
19
Big Data Analysis Process & Technologies
Acquisition
• SNS data
• Business data
• Customer data
• Web data
• Log data
• Sensor data
• RFID data
• Science Data
• Entertainment data
Preprocessing
• ETL
• Data integration
• Data cleansing
Storage
• Hadoop
• MapReduce
• HDFS
• In-memory DB
Analysis
• Data Mining
• OLAP
• Statistical Analysis
• NoSQL
• Other business analytics
Visualization
• Visualization
• Digital Dashboards
• Real time visualization
20
Big data analysis requires:
◦ Exceptional technologies to efficiently process a large amount of
data within tolerable time.
Big Data Technologies
Big data technologies:
◦ Hadoop: distributed scalable storage (not Relational DB, but file)
◦ MapReduce:
Map: distribute processing over to many processors
Reduce: collect the distributed results into one
◦ NoSQL: SQL like but not SQL, working on Hadoop (Ex: Hive)
◦ Pig: Apache procedural language
◦ R: high level language for statistic analysis and visual programming
21
Big Data Technologies
Big data analytics
◦ Social network analysis: influencer, cliques
◦ Sentiment analysis: reputations
◦ Artificial Intelligence: business intelligence
◦ Data Mining: finding patterns, rules,
exceptions
◦ Machine Learning: finding patterns, rules
◦ Statistics: trends, outliers, spatial patterns,
behavioral patterns
◦ Visualization: information delivery, insights,
persuasion
◦ Others: data fusion and integration, crowd
sourcing, simulation, pattern recognition
22
Lab: Big Data Analysis using PowerPivot
PowerPivot
◦ Free Excel add-in
◦ Can contain up to 100M rows in main memory
◦ Can import from various sources such as Excel, texts, webs, and
various DBMS
23
Excel
Texts
Webs
MS Access
Oracle DB
PowerPivot
XLMiner
Pivot Table
Other Analytics
Import or Integration
In memory Analysis