전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

74
2012.12.20 솔트룩스 이경일 전문가 토크 릴레이 웹과 플랫폼의 미래를 이야기 하다빅데이터 그리고 빅데이터 분석

Upload: saltlux-zinyus

Post on 28-Nov-2014

3.910 views

Category:

Documents


9 download

DESCRIPTION

전문가 토크릴레이 2탄 빅데이터, 그리고 빅데이터 분석 : 솔트룩스 이경일 대표

TRANSCRIPT

Page 1: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

2012.12.20

솔트룩스 이경일

전문가 토크 릴레이 “웹과 플랫폼의 미래를 이야기 하다”

빅데이터 그리고

빅데이터 분석

Page 2: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

2005 2012

Predicting the Future of Phones is Unpredictable

2

Page 3: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

혁신 그리고 가까운 미래 The NEAR future ?

Textile

Railway

Car

Computer

Internet, Mobile

????

Source: Joseph Schumpeter, Hunter Lovins

200년 10년

2000 2005 2010 2015 2020

Mobile Product Life cycle

3

Page 4: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

4 Nasa’s Supercomputer to send a man to moon

≤ 4

기술 혁신 > 낭비 하도록 만들기

Page 5: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

더 웹 (The Web)

검 색

정 보

웹 2.0 (Social Web)

소셜네트워크

사 람

모바일 & 데이터의 웹

분 석

빅 데이터

사물 웹?

예 측?

지 능 화?

데이터 수집 세상의 이해 최 적 화

2000 2005 2010 2015 2020

웹 도대체 무슨 일이 있었지?

5

Page 6: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

6

큰 가치의 창출

Page 7: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

• 환경, 소셜 데이터 분석과 이상 징후 감지

• 이슈 사전 인지와 실시간 의사 결정 지원

• 국가, 기업 경영 투명성 제고와 비용 절감

• 평판, 트랜드 분석 통한 기업 경쟁력 확보

• 상황 인지, 인공지능 기반 대국민 서비스

• 개인화, 지능화 기반 차세대 사업 모델

• 이질적 지식의 융합 분석과 신 가치 창출

• 상관 관계 이해를 통한 시행착오 최소화

• 컨버전스 패턴 분석을 통한 융합 시장 창출

• 현실 세계 데이터 기반의 패턴 분석, 전망

• 다각적 상황 고려 큰 그림 이해, 통찰 확보

• 사회 현상 이해와 시나리오 시뮬레이션

7

빅 데이터는 미래사회의 가치창출 엔진??

불확실성

리스크

스마트

융합

통찰력

대응력

경쟁력

창조력

미래 사회 특징 빅 데이터의 역할과 가치

source : NIA, 2011.12.30

Page 8: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

8

3 + 1 Big Values take two!

품질

비용 속도 • 실시간 마케팅 최적화

• 실시간 생산, 유통 최적화

• 금융 부정 사용 감지

• 신 사업, 정책 발굴

• 경쟁 전략 최적화

• 도시관제, 재난대응

• 서비스 개인화

• VOC, 고객 이해

• 의료, 헬스케어

지속가능 sustainability

• 기업 위험 관리

• e-Discovery

• 국가 보안, 국방

• 환경 관리, 유지

Page 9: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

9

빅 데이터 5단계 사업 모델

1단계

2단계

3단계

4단계

5단계

Page 10: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

10

Understanding Big Data Analytics

Page 11: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

11

빅 데이터 분석 기술

NLP

Machine Learning

Text Mining Cloud,

NoSQL

IR (Search)

Semantics

Crawling

In-memory Analytics

Statistics (R)

Visual- ization

Page 12: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

12

어떤 종류의 데이터가 있는가?

King of Data : Linking Open Data

+ 소셜 미디어 데이터

+ 민간/기업 보유 데이터

+ 비공개 정부 데이터

공개된 공공/학술 데이터

Page 13: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

13

Enterprise Strategy Group, 2010

그 중의 대부분은 비정형 빅 데이터

80~90%가 비정형 빅 데이터

그럼에도 불구하고 비정형 데이터 기반한 분석과 의사 결정에 취약

결국, 빅 데이터 분석의 진정한 성공은 비정형 데이터와

정형 데이터의 의미적으로 통합 분석에 달림

Page 14: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

14

경험해 보지 못한 스트림 데이터 세상

센서 네트워크, 소셜 네트워크, 데이터 웹, M2M…

Page 15: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

비정형 빅데이터 분석 프로세스

Content Collection

Content Archiving

Meta-data Extraction/ Annotation

Keyword & Topic

Extraction

Content Classification

Content & Meta-data Indexing

Searching & Querying (Selection)

Induction & Deduction

Network & Trend Analysis

User Profiling

(behav. prof.)

Sensing & Forecasting

Visualization & Interaction

Crawling

Open API

Data model

Cloud tech

Wrapping

Parsing

NLP, ML

Lang re-src

Taxonomy

ML(SVM..)

Idx model

Cloud tech

Federation

Ranking

Models

Rules

Algorithm

Statistics

It’s so complicate and sophisticate process

User Model

Algo/Stat.

S/F-Model

Algo./Stat.

UX Model

Algorithm

15

Page 16: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

16

수집방법 휴대전화 이메일 논문

특허 뉴스 블로그

인터넷

카페 트위터 패이스북 포스퀘어

Legacy DB ○ ○ ○ △ Ⅹ Ⅹ Ⅹ Ⅹ Ⅹ

Crawling Ⅹ Ⅹ △ ○ ○ △ △ △ △

Feeding (RSS) Ⅹ Ⅹ Ⅹ ○ ○ △ Ⅹ Ⅹ Ⅹ

Push (Streaming) Ⅹ Ⅹ Ⅹ △ Ⅹ Ⅹ △ Ⅹ Ⅹ

Open API Ⅹ Ⅹ ○ △ △ Ⅹ △ △ △

Agent Install △ △ Ⅹ Ⅹ Ⅹ Ⅹ △ △ Ⅹ

Col. Interval 1mins 1hrs 1mons 1hrs 6hrs 6hrs 1mins 20mins 1days

Min. Life-time 3mons 6mons 5yrs 5yrs 3yrs 2yrs 1yrs 1yrs 6mons

○:적합, △:부분적합, Ⅹ:부적합, Col. Interval:수집 간격, Min. Life-time:최소수명주기

데이터 수집과 관리 - 소셜 데이터 사례

Page 17: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

17

소셜 미디어 분석의 실체와 한계

Page 18: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

18

소셜 미디어 분석의 실체와 한계

• 소셜 미디어 별 특성이 매우 다르다.

트위터, 미투데이, 페이스북, 블로그의 특성이 매우 다르다.

• 현실의 모집단을 대표하지 않는다.

그러나 타인에게 큰 영향을 끼칠 수는 있다. (정방향/역방향)

• 버즈에 민감하고, 인식 변화는 둔감하다.

피드백 증폭기 구실을 한다. 반면 뉴스 미디어는 단방향 푸시.

• 데이터 편중과 표본의 크기가 무의미할 수 있다.

특정 주제는 분석 의미가 없을 정도로 데이터가 적다.

• 평판, 감성 분석의 정밀도가 높지 않다.

민감한 주제와 인용문의 평판/감성 분석 정밀도가 높지 않다.

편향성과 편중성 고려 없는 활용은 금물!!!

Page 19: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

19

데이터 저장 관리 – CAP Theorem?

By Nathan Hurst

하나의 저장소로는 일관성(consistency), 가용성(Availability),

단절내성(Partition Tolerance) 모두를 만족 시킬 수 없다.

Page 20: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

20 Source : http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis

데이터 저장 관리 – Hybrid Storage?

Page 21: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

21

어떤 분석 방법을 선택할 것인가?

귀납적inductive vs. 연역적deductive

수치적numerical vs. 해석적analytical

하향식top-down vs. 상향식bottom-up

분산화distributed vs. 병렬화parallel

Page 22: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

Black Box (learning machine)

Training data Model

• Support vector machines • Inductive logic programming • Decision tree learning • Association rule learning • Artificial neural networks • Genetic programming

Test-data

Prediction

Model

빅 데이터 induction 기계 학습

• Clustering • Bayesian networks • Reinforcement learning • Representation learning • Sparse Dictionary Learning

22

Page 23: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

IBM 왓슨 Deep QA 시스템

23

Page 24: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

24

비정형 빅 데이터 기계 학습

Page 25: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

25

Watson의 Deep QA 프로세스

One Jeopardy! question can take 2 hours on a single 2.6Ghz Core

2880-Core IBM Power750’s using UIMA-AS, Watson is answering in 2-6 seconds.

Page 26: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

26

매스매티카 7과 수퍼컴퓨터 클러스터에 기반한 자연언어 질의 응답 시스템

빅 데이터 deduction 울프람|알파

• 다양한 소스에서 수집된 10조 개의 통합 데이터와 50,000 이상의 알고르즘과 모델

• 데이터 큐레이션 : 방법론, 프로세스, 도구에 기반한 사람이 직접 데이터 정제, 통합

• 1000개 이상의 도메인에 대한 데이터 큐레이션을 통해 50~100개의 도메인 모델로 축약

• 온톨로지를 통해 메타 모델 구성 : Hierarchical knowledge (entity classes, attributes)

Page 28: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

28

스트림 데이터 하이브리드 분석

BOTTARI : Winner of Semantic Web Challenges

Page 29: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

29

빅 데이터 분석 플랫폼 요구사항

1. 다양한 유형의 데이터 수집, 통합/융합 용이

2. 기존 데이터 소스(레거시, LOD)와의 쉬운 연동성

3. 데이터 품질 관리, 통제 가능성 (governance)

4. 데이터 선택과 테스트의 용이성 (query&selection)

5. 스트림 데이터에 대한 실시간 처리성

6. 다양한 분석 모듈의 결합 사용 가능성

7. 분석 모델링, 평가 전용 도구의 제공

8. 손쉽고, 유연한 분석 프로세스 모델링 (script)

9. 분석 과정에 데이터/모델/프로세스 변경 허용 (+ agile)

10. 분석 데이터, 모델, 프로세스의 재활용성

11. Open API제공과 응용 서비스 구현 용이

12. 쉽고 저렴한 확장성 (easy scale-out)

13. 동시에 여러 사람이 분석 작업에 참여 가능해야 함

14. 편리한 사용자 인터렉션을 통한 분석 과정/결과 이해

15. 그리고 또 기타 등등 - 웁스 T_T

Page 30: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

30

소셜 데이터

기업 데이터

금융 데이터

통신 데이터

안보 데이터

의료 데이터

사회, 시장 트랜드 분석

고객, 시민 목소리 분석

제품, 서비스 평판 분석

경쟁자 모니터링, 분석

사업 리스크 감지, 분석

부정 사용자, 비리 감지

빅 데이터 분석 플랫폼 심층 분석 서비스 기대 효과

클라우드 컴퓨팅 인프라

데이터 수집/통합/관리 인프라

분석 기술 인프라 자연어처리, 기계학습, 통계, 시맨틱/추론

분석 서비스 컴포넌트 트랜드, 분류, 군집, 사회망, 인물, 감성

분석 워크플로우 시스템

분석 서비스 응용 및 시각화

분산, 병렬처리 인프라 하둡, NoSQL(HBASE, mongoDB, …)

실시간 마케팅 최적화

경쟁 전략 최적화

동적 비용 최적화

신 사업, 정책 발굴

위험 조기 감지 사전 대응

빅 데이터 분석 플랫폼 개념 : TrueStory 사례

생산 데이터 생산 시스템 모니터링 생산 시스템 최적화

Page 31: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

Case-Study : ziny.us

31

똑똑한 소셜 매거진 “지니어스”

빅 데이터와 인공지능 기반의 스마트 미디어

Page 32: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

iPhone : Reinvention of Phone

ziny.us : Reinvention of Social Media

iPhone : Reinvention of Phone

IBM Watson

관심기반 퍼블리싱 인공지능 지니어스

32

Page 33: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

The Three Happiness

모으는 즐거움 보는 즐거움 나누는 즐거움

33

Page 34: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

Feeding,

Crawling,

Wrapping,

Open API

Bookmarklet,

File upload,

Camera

Search & Discover Publish & Share Filter & Organize

Hybrid Classification,

Automatic Clustering

Clip/Re-Clip,

Love/Comment

Machine Learning,

Recommendation

Auto-Publishing,

Personalization

HTML5,

App, PDF

Smart Curation?

Digital Magazine

Facebook/Twitter

Mail Sharing

Real-time Chatting

Learning

34

Page 35: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

<O2> 인프라

ziny.us 플랫폼

ziny.u

s iPad

ziny.u

s Web

ziny.u

s Sm

art P

hone

Web Enabler Z-C

loud

Pla

tform

D

esk

top A

gents

Vertica

l Apps

Bookm

ark

let

Cross-Platform

Tools M

obile

Agents

지니어스 서비스 플랫폼

<O2> 인프라

ziny.us 플랫폼

ziny.u

s iPad

ziny.u

s Web

Web Enabler

Bookm

ark

let

35

Page 36: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

36

소셜 데이터 수집 <O2>사례

• 클라우드에 기반한 대용량 분산/병렬처리, 1일 500만건 수집

• 클라우드 스토리지에 데이터 저장과 실시간 인덱싱 수행

•450 Cores, 1.5TB Ram, 200TB HDD

•원시 소셜 데이터 : 총 5억 건, 2.5TB

•수집 속도 : 500만 건 / 일

•수집 방식 : Hybrid Model (크롤링 + Open API + Agent)

•저장 구조 : 클라우드(NoSQL+DFS), 데이터 3중화

트위터

57% 블로그

24%

뉴스

1%

미투

데이

18%

수집 데이터 구성 1일 수집, 인덱싱 로그

Page 37: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

37

소셜 데이터의 분류 <O2>사례

• SVM 기반 학습 모델과 VSM 기반의 규칙 모델 통합

• 대규모 실시간 소셜 아티클 분류를 위해 병렬, 분산처리

학습기반 분류 (SVM)

규칙기반 분류 (VSM+RULE)

피드백 학습

A 분류체계 B 분류체계 C 분류체계

소셜 데이터

아티클1

아티클7 아티클20 아티클51

실시간

병렬,

분산처리

Page 38: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

38

소셜 토픽의 추출 <O2>사례

• Social Topic간 Co-occurrence 거리를 Weigh w로 할 때, 중요도 WS(Vi) 정의,

• Google PageRank 개념이 적용된 TextRank를 발전, 소셜 토픽을 추출

• Social co-occurrence 분석 통해 특성 벡터의 품질 향상과 실시간 처리

• Graph system G = (V, E)에 대해 각 vertex Vi의 중요도 S(vi)를 정의,

Page 39: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

39

소셜 이슈 학습 <O2>사례

• 소셜 아티클의 실시간 군집을 통한 사회적 이슈 도출

• 주제별 사회적 관심 트랜드 분석과 예측, 추론

𝑊𝑔= 𝐷𝐹 +𝑊𝑆+𝑀𝑒𝑎𝑛 𝑇𝐹∗ 𝑊𝐹𝑢𝑐(𝐷𝐹)

Wfunc : Skewed Distrib.

Social Article Retrieval

Global Features Selection

Hierarchical Word clustering

Article clustering (cosine similarity)

Cluster Labeling

Clusters Ranking/Grouping

Page 40: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

40

분석은 결과가 아니라 과정

• 분석은 일련의 복잡한 절차 : Workflow 체계 중요

• 분석가들과 기계의 협력 중요 : 분석 과정 중 전략 변경

Page 41: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

41

Applications Working on Big Data

Page 42: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

빅 데이터 분석 응용 사례

42

실시간성

비정형성

소셜 미디어 분석 (트랜드, 감성, 이슈 분석 외)

금융, 통신 부정 사용 감지

도시 관제, 재난 대응

모바일 서비스 개인화

국방, 보안 관제 / eDiscovery

공공 정책 발굴, 관리

고객, 시민 목소리 (VOC) 분석

의료, 헬스케어 서비스

1s

1m

1h

1d

1w

기술, 학술 정보 분석

정형 반정형 비정형

Page 43: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

빅 데이터 분석 응용 사례

43

공공 데이터

소셜 데이터 기업 데이터

기업 평판 분석

사회 이슈 분석

의료 정책 분석 복지 서비스

서비스 개인화

국가 정책 최적화

기업 위험 관리

e-Discovery

금융 사고 방지

마케팅 최적화

고객 목소리 분석

범죄 예방

질병 예방

국방, 안보

도시 관제

사업 전략 최적화

Page 44: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

금융 빅 데이터 분석

“일반적인 금융 서비스 회사를 기준으로, 2006년에 순수익 100만 달러 당 초당 129만 개의 명령어 처리가 필요했는데, 2010년 말이 되자, 179만개 명령어로 38% 증가했고, 물리적 서버는 46% 증가했다. 같은 기간 동안 순수익은 훨씬 저조한 증가세(19% 미만)를 보였다. 컴퓨팅 파워의 니즈는 수익보다 2~5배 더 빠르게 성장하는 경향이 있다.” (Wall Street & Technology, Howard Rubin)

44

Page 45: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

실시간 투자 수익성 분석/전망 및 최적화 포트폴리오 관리 및 최적화, 다단계 투자 운용

금융, 보험, 신용 부정 사용자 실시간 발견 카드 부정 사용자, 보험 사기 조기 및 실시간 발견

실시간 고객 목소리 이해 콜센터 서비스 최적화, 서비스 경쟁력/경영전략 최적화

수익성 높은 고객의 유치,확보 효과적 제품 가격 책정, 이탈 징후 조기 감지, 고객 상호작용 강화

시장, 신용, 유동성 리스크 관리 개선 소매 가계 대출 리스크 완화, 유동성 리스크 평가/경쟁력 확보

소셜 미디어 활용, 의사결정 질 개선 경쟁 은행 제압, 실시간 평판 분석, 캠페인 최적화

금융 빅 데이터 분석

“금융 서비스 기관들의 운용 비용 중 92%가 데이터 처리를 위해 사용”

45

Page 46: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

Real-time and historic Transaction Cost Analysis (OneTick Data) Counterparty Risk Management (CEP Data)

Detect Trader Fraud (w/ CEP engine) Income Risk Analysis (CEP data) 46

Page 47: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

Market Risk Analysis Portfolio Performance Analysis

North See Oil Production Analysis (Trading in Future) Fund of Funds Analysis 47

Page 48: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

48

http://data.gov.uk/ http://www.data.gov/

정부 빅 데이터 활용 : data.gov

Page 49: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

49

공공 빅 데이터 활용 : 해외 주요 사례들

미국 국세청, 탈세 방지 시스템 통한 국가 재정 강화 빅데이터 기반 통합형 탈세, 정부사기 방지 시스템을 통해 연 3,450억 달러 절감

일본, 센서데이터를 활용한 지능형 교통안내 시스템 노무라 연구소가 시행한 실시간 최적 경로 안내와 에너지 절감 시스템

미국 국립보건원, 유전자 데이터 공유를 통한 질병치료 1700명의 유전자 정보를 아마존을 통해 개방, 질병 진단과 예측 연구비 절감

보험회사, 웰포인트의 효율적 환자 치료 대응 IBM 왓슨 도입을 통해, 환자에게 적절한 정보와 최신 치료법을 제시

싱가포르, 국가위험관리시스템을 통한 국가안전관리 빅데이터 기반의 테러, 재난, 전염병 등의 위험을 관리하는 RAHS 운영

샌프란시스코, 범죄 예방 시스템으로 안전 지역사회 구축 8년간 범죄 데이터 분석을 통한, 범죄 발생 예측 시스템 운영 (71% 정확도)

Page 50: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

통신 빅 데이터 : 개인화, 맞춤 추천

50

Page 51: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

51

하이브리드 시맨틱 분석 기술 적용

Page 52: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

52

기업 빅 데이터 : e-Discovery & Compliance

Page 53: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

53

고객 빅 데이터 : 고객 목소리 분석(VOC)

Page 54: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

54

기술 빅 데이터 : 트랜드 센싱

Page 55: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

55

학술 빅 데이터 : 전문가 추천

Page 56: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

소셜 빅 데이터 : 트랜드, 평판 분석

56

TrueStory.co.kr

Page 57: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

Sensor Monitoring Discover Leakage Area

Infer Leakage Pipe Link Automatic Alert Recom. Detour Path

Leakage Detection

57

스마트 시티 빅 데이터 : 매설물 관리

Page 58: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

58

Traffic data from Milano (Italy)

Data ranging from Mar. 07 to July 09

5 min. sampling rate for flow & speed

Traffic flow & speed from

209 sensors that are able to classify vehicles, and

757 non classifying sensors

Weather data provided from http://www.ilmeteo.it

1 hour sampling rate for weather data

Milano City Sensor Map

Sensors – Crossroads – Street Categories (multi-colored)

스마트 시티 빅 데이터 : 교통 최적화

• 이탈리아 밀라노에 대한 솔트룩스와 독일 지맨스의 협력 프로젝트

• 교통 센서 네트워크 기반, 교통 흐름 예측과 최적 경로 추천 (2시간, 90%)

• 스트림 데이터에 대해, 온톨로지와 기계학습(ML) 기술을 결합

Page 59: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

59

국방/안보 빅 데이터 : 정보 분석

59

Page 60: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

60

국가 안보와 소셜 네트워크 분석

Page 61: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

61

빅 데이터 9 미신

전설 속의 빅 데이터 구미호

Page 62: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

62

“빅 데이터는 규모가

정말 큰 데이터

를 말한다.”

미신 #1

“빅 데이터는 처리의

난이도가 정말

큰 데이터를 말한다”

진실 #1

“4V := Volume, Velocity, Variety + Value”

Page 63: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

63

“더 큰 데이터에서

더 큰 인사이트를

얻을 수 있다”

미신 #2

“여전히 의미 있는

데이터를 잘 선택하는

것이 더 중요하다”

진실 #2

“No Garbage-in, Gold-out” - At least goldstone-in

Page 64: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

64

“빅 데이터 분석은

소셜 데이터(SNS)

분석을 말한다”

미신 #3

“소셜 데이터는

빅 데이터 소스 중

일부일 뿐이다”

진실 #3

“It is not enough to understand the World”

Page 65: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

65

“빅 데이터 분석의

핵심은 미래 예측

에 있다”

미신 #4

“현 상황의 올바른

이해와 최적화가

핵심이다”

진실 #4

“The best way to predict the future is to create it”

Page 66: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

66

“성공적 빅 데이터

분석은 신기술 이해

와 적용에서 시작된다”

미신 #5

“명확한 목표 설정과

사람 중심의 기계와

협업이 성공을 좌우한다”

진실 #5

“People People People under the Clear Vision"

Page 67: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

67

“빅 데이터 처리는

하둡(Hadoop)의

사용이 필수적이다”

미신 #6

“하둡은 필요 시

사용되는 도구가

될 것이다”

진실 #6

“Do not use a hammer to crack a nut"

Page 68: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

68

“빅 데이터 기술은

거대 IT 시장을

만들어 줄 것이다”

미신 #7

“빅 데이터 가치를

서비스로 연결한

소수만 승리할 것이다”

진실 #7

“It’s not Buzz, but be careful“ - you wouldn’t be.

Page 69: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

69

“빅 데이터 사업은

기존 BI 사업이

확장, 발전된 것이다”

미신 #8

“BI는 응용 중 하나,

스트림, 그래프, 비정형

빅 데이터 분석 등,

새 가치를 추구한다”

진실 #8

“It’s Not a Old Wine in New Bottle!“

Page 70: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

70

“빅 데이터 분석은

분석 전문가와

경영자를 위한 것이다”

미신 #9

“빅 데이터 가치

평가와 최종 수혜자는

일반인이다”

진실 #9

“Invisible and Calm Big Data Analytics“

Page 71: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

71

Big Future?

when

BigData met AI

Page 72: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

72

Page 73: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

• Emotion

• Creativity

• Logics

• Rational

Intuition and Insight

• Big data proc.

• Routine tasks

Cost and Productivity

How they could Collaborate?

Enemy or Friend?

Page 74: 전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)

전문가

토크

릴레이

, 2012

74

“유일한 성공 방법은, 미래를 예측하는 것이 아니라

이미 시작된 변화를 이해, 그 시간차를 이용하는 것!"

맺 음 말