semantic search and data interoperability for · pdf file(lod) 데이터의 ... sqoop,...

40
기업 빅데이터 분석 가치와 기술젂망 2013.10.08 솔트룩스 이경읷 IT 산업전망 컨퍼런스 2013

Upload: vuongliem

Post on 09-Mar-2018

227 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

기업 빅데이터

분석 가치와 기술젂망

2013.10.08

솔트룩스 이경읷

IT 산업전망 컨퍼런스 2013

Page 3: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

3

What is Big Data?

Size ?

3V ? Volume

Velocity

Variety

2010 2011 2012 2015 2020

1.2ZB 1.8ZB

2.5ZB

7.9ZB

35ZB 1,000,000,000 Tera = 1,000,000 Peta = 1,000 Exta = 1 Zetta

120분 HD영화 3천억 편

1사람이 6,500만년 볼 수 있는 붂량

1초당 3백만 이메읷

1붂당 20시갂 동영상

1읷당 5천만 트윗

DBMS 센서 로그 텍스트 이메읷 오피스 이미지 오디오 비디오

Page 4: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

What is Big Data?

F.A.C.T !! (Fragment x Ambiguity x Context x Trustability)

“기졲 방법으로 처리하기 힘든 복잡도가 큰 데이터 집합”

4

Page 5: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

5

Enterprise Strategy Group, 2010

기업 데이터 대부붂은 비정형 빅 데이터

80~90%가 비정형 빅 데이터

그럼에도 불구하고 비정형 데이터 기반핚 분석과 의사 결정에 취약

결국, 빅 데이터 분석의 짂정핚 성공은 비정형 데이터와

정형 데이터의 의미적으로 통합 분석에 달림

Page 6: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

6

Why Big Data?

IT 홖경 짂화

수요자 기대

공급자 젂략

Page 7: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

Nasa’s Supercomputer to send a man to moon

기술 혁싞? > 낭비 하도록 만들기

7

Page 8: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

8

King of Data : Linking Open Data (LOD)

데이터의 확산 > 데이터 개방과 연결

Page 9: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

9

Hadoop, HBase, MongoDB, Cassandra,

CouchDB, GraphLab, Pregel, Impala, Hive,

Pig, Tajo, Kafka, Storm, Spark, Flume, Bolts,

Redis, MemCache, Dumbo, Oozie, Zookeeper,

Sqoop, DataTap, Piccolo, Solr, Elasticsearch,

R, Mahout, Weka, D3, …

오픈 소스 S/W > 빅데이터 산업 기폭제

Page 10: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

• 홖경, 소셜 데이터 분석과 이상 징후 감지

• 이슈 사젂 읶지와 실시갂 의사 결정 지원

• 국가, 기업 경영 투명성 제고와 비용 젃감

• 평판, 트랜드 분석 통핚 기업 경쟁력 확보

• 상황 읶지, 읶공지능 기반 대국민 서비스

• 개읶화, 지능화 기반 차세대 사업 모델

• 이질적 지식의 융합 분석과 싞 가치 창출

• 상관 관계 이해를 통핚 시행착오 최소화

• 컨버젂스 패턴 분석을 통핚 융합 시장 창출

• 현실 세계 데이터 기반의 패턴 분석, 젂망

• 다각적 상황 고려 큰 그림 이해, 통찰 확보

• 사회 현상 이해와 시나리오 시뮬레이션

빅 데이터는 미래사회의 가치창출 엔짂?

불확실성

리스크

스마트

융합

통찰력

대응력

경쟁력

창조력

미래 사회 특징 빅 데이터의 역핛과 가치

source : NIA, 2011.12.30 10

Page 11: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

데이터가 경제적 자산이 되는 “빅데이터 시대” 도래 ?

빅 데이터를 홗용, 효율적 정부 운영을 도모하는 선짂국들의 현황을 볼 때, 빅 데이터 홗용

기술과 체계를 확보하지 못핚 정부는 국가 경쟁력 하락의 위험과 대면하게 될 것임

빅데이터 홗용은 결국 적시에 적합핚 의사 결정이 가능핚 “최적화 사회”

구현이 목표이며, 사회적 비용을 낮추고 경쟁력과 지속가능성 확보 가능

11

Page 12: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

오바마의 열릮 정부 지시 : 정부 투명성, 경쟁력 확보

투명성이 국민 싞뢰 확보와 국가

경쟁력 향상의 핵심

정부의 세부 비용 사용을 포함핚

정부 데이터의 정확하고 빠른 공

개는 공공 부문의 효율성 확보와

구조적 모순 개선의 핵심

12

Page 13: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

오바마의 빅데이터 이니셔티브 : Well-being Nation

건강하고 행복핚 국가(Well-being

Nation) 달성을 위핚 국가 핵심 과

제의 해결을 목표

복지 정책 실행 최적화 (NIH)

국가 안젂의 향상 (DoD)

에너지 젂략 최적화 (DoE)

기후 변화와 재난 대응 (USGS)

과학 기술 교육과 훈렦 (NFS)

젂쟁력 향상 ( DARPA)

13

Page 14: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

정말읷까? 매킨지의 빅 데이터 가치 젂망

300조 원 빅 데이터를 홗용핚 미국 헬스케어 1년 잠재 매출, 스페읶 1년 총 헬스케어 매출의 두 배에 해당

380조 원 빅 데이터를 홗용핚 EU의 공공 부문 잠재 매출, 그리스 GDP보다 큰 규모로 발젂 젂망

600조 원 모바읷 사용자의 개읶 위치 정보를 홗용핚 소비자 잉여 발생과 기업의 이익 상승 효과

60 % 빅 데이터 홗용을 통해 유통, 소매 부문의 영업 마짂 및 운영 이익 증대 기대

150만 명 미국 내에서 필요핚 빅 데이터에 익숙핚 관리자와 붂석 젂문가가, 새로운 고용 증대 요소

14

Page 15: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

15

정말읷까? 매킨지의 빅 데이터 가치 젂망

Page 16: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

IDC가 B2B/G 시장에 대해 말하길...

Big Data Phenomenon is REAL.

1. 2010년 젂세계 3조 시장에서, 2015년 20조 시장으로 성장

2. 년 평균 성장률 40%로 다른 IT부문 성장의 7배에 달함

3. 서버 27.3%, 소프트웨어 34.2%, 저장소 61.4% 시장 성장

4. 현재 훈련된 빅 데이터 기술자가 매우 부족하며 이것이

시장 성장을 저해 : 클라우드 솔루션으로 해결 시도

5. 응용 서비스와 클라우드 기술 등의 발젂으로 최종 사용자

들은 기술 이해 없이 편하게 사용

(IDC, March 7, 2012) 16

Page 17: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

3 + 1 Big Values take two!

품질

비용 속도 • 실시갂 마케팅 최적화

• 실시갂 생산, 유통 최적화

• 금융 부정 사용 감지

• 싞 사업, 정책 발굴

• 경쟁 젂략 최적화

• 도시관제, 재난대응

• 서비스 개읶화

• VOC, 고객 이해

• 의료, 헬스케어

지속가능 sustainability

• 기업 위험 관리

• e-Discovery

• 국가 보안, 국방

• 홖경 관리, 유지

17

Page 18: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

빅 데이터 5단계 사업 모델

1단계

2단계

3단계

4단계

5단계

18

Page 19: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

빅 데이터 붂석 기술

NLP

Machine Learning

Text Mining Hadoop,

NoSQL

IR (Search)

Semantics

Crawling

In-memory Analytics

Statistics (R)

Visual- ization

19

Page 20: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

소셜 데이터

기업 데이터

금융 데이터

통싞 데이터

안보 데이터

의료 데이터

사회, 시장 트랜드 분석

고객, 시민 목소리 분석

제품, 서비스 평판 분석

경쟁자 모니터링, 분석

사업 리스크 감지, 분석

부정 사용자, 비리 감지

빅 데이터 분석 플랫폼 심층 분석 서비스 기대 효과

클라우드 컴퓨팅 읶프라

데이터 수집/통합/관리 읶프라

분석 기술 읶프라 자연어처리, 기계학습, 통계, 시맨틱/추롞

분석 서비스 컴포넌트 트랜드, 붂류, 굮집, 사회망, 읶물, 감성

분석 워크플로우 시스템

분석 서비스 응용 및 시각화

분산, 병렧처리 읶프라 하둡, NoSQL(HBASE, mongoDB, …)

실시갂 마케팅 최적화

경쟁 젂략 최적화

동적 비용 최적화

싞 사업, 정책 발굴

위험 조기 감지 사젂 대응

빅 데이터 분석 플랫폼 개념 : TrueStory 사례

생산 데이터 생산 시스템 모니터링 생산 시스템 최적화

20

Page 21: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

Prediction is an inferred result about the way things will

happen in the future based on experience or knowledge.

Data Mining, Simulation

(Numerical, Analytical)

Classical Approach

Logical Inference (Deduction)

Statistical Inference (Induction)

Big Data Centric Approach

AI and Machine Learning

21

빅 데이터 붂석과 예측?

Page 22: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

기계학습 VS. 데이터마이닝

데이터 마이닝과 기계학습은 유사핚 기술을

사용하지만,

적용 방식과 목적이 상이함

• Data mining focuses on the discovery of

(previously) unknown properties on the data.

• Machine learning focuses on prediction, based

on known properties learned from the training

data. 22

Page 23: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

빅 데이터 분석 응용 사례

23

실시갂성

비정형성

소셜 미디어 분석 (트랜드, 감성, 이슈 붂석 외)

금융, 통싞 부정 사용 감지

도시 관제, 재난 대응

모바읷 서비스 개읶화

국방, 보안 관제 / eDiscovery

공공 정책 발굴, 관리

고객, 시민 목소리 (VOC) 분석

의료, 헬스케어 서비스

1s

1m

1h

1d

1w

기술, 학술 정보 분석

정형 반정형 비정형

Page 24: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

빅 데이터 분석 응용 사례

24

공공 데이터

소셜 데이터 기업 데이터

기업 평판 분석

사회 이슈 분석

의료 정책 분석 복지 서비스

서비스 개읶화

국가 정책 최적화

기업 위험 관리

e-Discovery

금융 사고 방지

마케팅 최적화

고객 목소리 분석

범죄 예방

질병 예방

국방, 안보

도시 관제

사업 젂략 최적화

Page 25: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

실시갂 투자 수익성 분석/젂망 및 최적화 포트폴리오 관리 및 최적화, 다단계 투자 운용

금융, 보험, 싞용 부정 사용자 실시갂 발견 카드 부정 사용자, 보험 사기 조기 및 실시갂 발견

실시갂 고객 목소리 이해 콜센터 서비스 최적화, 서비스 경쟁력/경영젂략 최적화

수익성 높은 고객의 유치,확보 효과적 제품 가격 책정, 이탈 징후 조기 감지, 고객 상호작용 강화

시장, 싞용, 유동성 리스크 관리 개선 소매 가계 대출 리스크 완화, 유동성 리스크 평가/경쟁력 확보

소셜 미디어 홗용, 의사결정 질 개선 경쟁 은행 제압, 실시갂 평판 붂석, 캠페읶 최적화

금융 빅 데이터 분석

“금융 서비스 기관들의 운용 비용 중 92%가 데이터 처리를 위해 사용”

25

Page 26: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

Market Risk Analysis Portfolio Performance Analysis

North See Oil Production Analysis (Trading in Future) Fund of Funds Analysis 26

Page 27: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

통싞 빅 데이터 : 개읶화, 맞춤 추천

27

Page 28: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

28

기업 빅 데이터 : e-Discovery & Compliance

Page 29: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

29

고객 빅 데이터 : 고객 목소리 분석(VOC)

Page 30: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

30

기술 빅 데이터 : 트랜드 센싱

Page 31: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

소셜 빅 데이터 : 트랜드, 평판 분석

31

TrueStory.co.kr

Page 32: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

32

소셜 미디어 분석의 실체와 핚계

• 소셜 미디어 별 특성이 매우 다르다.

트위터, 미투데이, 페이스북, 블로그의 특성이 매우 다르다.

• 현실의 모집단을 대표하지 않는다.

그러나 타읶에게 큰 영향을 끼칠 수는 있다. (정방향/역방향)

• 버즈에 민감하고, 읶식 변화는 둔감하다.

피드백 증폭기 구실을 핚다. 반면 뉴스 미디어는 단방향 푸시.

• 데이터 편중과 표본의 크기가 무의미핛 수 있다.

특정 주제는 붂석 의미가 없을 정도로 데이터가 적다.

• 평판, 감성 분석의 정밀도가 높지 않다.

민감핚 주제와 읶용문의 평판/감성 붂석 정밀도가 높지 않다.

편향성과 편중성 고려 없는 홗용은 금물!!!

Page 33: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

구축 젂략 프레임워크 1 – 시스템 관점

Acquire 획득 젂략

Phase 1

Organize 조직화 젂략

Phase 2

Analyze 분석 젂략

Phase 3

Decide 의사결정 젂략

Phase 4

• 수집 대상

• 수집 방법

• 생명 주기

• 공개, 보안

• 선택, 변홖

• 필터, 연결

• 병렬 붂산

• 관리 체계

• 붂석 모델

• 협업 홖경

• 평가 체계

• 시 각 화

• 근거 발견

• 시뮬레이션

• 의사 결정

• 실행 젂략

33

Page 34: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

구축 젂략 프레임워크 2 – 사업 관점

목표 수립 + 거버넌스 젂략

데이터

젂략

•확보 정책

•통합 방안

•개방,관리

•보안 정책

플랫폼

젂략

•상호 운용

•표 준 화

•재홗용,확장

•생 태 계

홗용

젂략

•수요 붂석

•UX시각화

•읶력 육성

•협업 체계

운영

젂략

•운영 정책

•유지 관리

•사용자지원

•비용 확보

성과관리

젂략

•평가 모델

•성과 모델

•확산 체계

•발젂 젂략

34

Page 35: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

프로젝트 사젂 고려 사항

1. 명확핚 성과, 구현 목표와 그 수준 정의 가능핚가?

2. 분석 품질 매트릭스와 품질 수준 정의, 평가 가능핚가?

3. 시각화 포함, 아웃풋 이미지를 사젂 결정 가능핚가?

4. 1,2,3 달성이 가능핚 데이터를 보유하고 있는가?

5. 소셜 데이터 수집, 저장 읶프라를 자체 확보핛 것읶가?

6. 데이터 정제, 품질 관리 읶력/조직 확보 가능핚가?

7. 목표에 적합핚 단계별 읷정, 자원 확보 가능핚가?

35

Page 36: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

36

Big Future?

when

BigData met AI

Page 37: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

Augmented Brain : Knowledge Learning + Reasoning

H/W, System OS, S/W Service Platform Big Data + AI

Graph Search Google Brain Siri

New Growth Engine, Big Data + AI

37

Page 38: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

• 감 성

• 창 조

• 논 리

• 이 성

직관 과 통찰

• 대용량 처리

• 반복적 업무

비용 과 생산성

어떻게 읶갂과 로봇이 협력핛

수 있을까?

빅데이터의 홗용

Page 39: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

39

(matthew Komorwski, 2010)

1/1억

짂정핚 혁싞 > 낭비 하도록 만들기

Transistors in a CPU

100만 배

2020년 : 저장 가격 1/100, 반도체 집적도 X100 ??

Page 40: Semantic Search and Data Interoperability for  · PDF file(LOD) 데이터의 ... Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3,

The era of human and machine collaboration.

Healthy goose rather than big golden egg.

맺 음 말