big data활용 ss

51
빅데이타 활용 사례 순천향대학교 2016.9.7 박진수([email protected])

Upload: jinsoo-park

Post on 16-Apr-2017

100 views

Category:

Presentations & Public Speaking


0 download

TRANSCRIPT

Page 1: Big data활용 ss

빅데이타 활용 사례

순천향대학교 2016.9.7

박진수([email protected])

Page 2: Big data활용 ss

2

발표 내용

빅 데이란?

빅 데이타 3대 요소

왜 하둡인가?

머신러닝과의 관계

머신러닝이란?

빅데이타/머신러닝 응용(I)

빅데이타/인공지능관련 정부 정책

빅데이타 및 비 식별화

빅데이타/머신러닝 응용(II)

딥러닝

인공지능 속이기

Q&A

Page 3: Big data활용 ss

3

빅데이터란?

정의 데이터 규모에 초점을 맞춘 정의

기존 데이터 베이스 관리도구의 데이터 수집, 저장, 관리, 분석하는 역량을 넘어서는 데이터(맥킨지 2011년 6월)

업무 수행 방식에 초점을 맞춘 정의 다양한 종류의 대규모 데이터로 부터 저렴한 비용으로 가치를 추출하고, 데이터의 빠른

수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처(IDC 2010년 4월)

Page 4: Big data활용 ss

4

빅데이터란?

Data Explosion(by Simplilearn) 매일 2.5 exabytes(2.5 billion gigabytes) of data가 생성

이런 데이터가 어디서 생성되나? 매일 1TB이상의 데이터 생성(증권시장)

전세계 약 5 Billion 모바일 폰이 존재(1.75 billion 스마트폰 포함)

유튜브를 통한 분당 48 hours 이상의 videos가 업로드 됨

Twitter 및 Facebook등 SNS를 통해 매일 10TB이상이 생성

전세계 30million이상의 네트웍화 된 센서가 존재

Page 5: Big data활용 ss

5

빅데이터란?

Data의 형태 Structured Data

Data which is represented in a tabular format(e.g., databases)

Semi-structured data Data which does no have a formal data model(e.g., XML files)

Unstructured data Data which does not have a pre-defined data model(e.g., Text, image files)

Page 6: Big data활용 ss

6

빅데이타 기술의 제한 사항

빅데이타 기술이 직면한 도전

어떻게 시스템 uptime 및 downtime을 다룰것인가?

전체 시스템으로 부터 축적된 데이터를 어떻게 합할것인가?

• 데이터 저장 및 분석을 위한 전문 하드웨어 사용

• 시스템 클러스터간 동일한 데이터의 복사판을 유지

• 이기종간 데이터의 분석

• 데이터의 머징

Page 7: Big data활용 ss

7

왜 하둡(Hadoop)인가?

이러한 대규모 데이터의 효율적 처리가 필요

하둡이란? 대규모 데이터의 분산 처리를 위한 오픈 소스 프레임워크임

오픈 소스 검색 엔진인 루씬(Luecene)의 창시자인 더그 커팅이 개발한 오프 소스 프로젝트

구글의 GFS(Google File System)와 MapReduce를 기반으로 진행되었음

HDFS(Hadoop Distributed File System)를 통해 분산 저장하고, MapReduce(맵리듀스)를 통해 분산 저장된 데이터를 분산 처리

Page 8: Big data활용 ss

8

빅데이타 기술의 특징

증가하는 데이타량을 비용 효율적으로 처리 매일 SNS등에서 발생하는 정보(12 TB)를 제품품평분석 개선에 활용(IBM)

매년 미터기 정보(350billion meter reading)를 파워 소모량 예측에 사용토록함

데이터의 빠른 속도에 반응 매일 생성되는 거래정보건을 분석하여 잠재적인 금융사기를 탐지

매일 생성되는 고객통화내역을 실시간으로 분석하여 고객 이탈을 보다 빨리 예측

다양한 데이터의 집합적 분석이 가능 보안카메라의 많은 데이터를 실시간으로 분석하여 관심 목표를 설정케 함

고객 만족 개선을 위해 다양한 이미지, 영상, 문서를 활용

Page 9: Big data활용 ss

9

기존의 IT 기술 및 빅데이타 기술 방법 비교

기존의 기술 방식

요구사항 분석 및 정의

솔루션 설계

질의 사항 실행

신규 요구사항 발생시 재설계 및 재작업

Page 10: Big data활용 ss

10

기존의 IT 기술 및 빅데이타 기술 방법 비교

빅데이타 기반의 기술 방식

데이터 소스 판별

지능형 S/W 플랫폼

데이터 분석을 위한 질의 사항 결정

신규 질의 사항을 위한 데이터 첨가 및 통합 작업

Page 11: Big data활용 ss

11

머신러닝(기계학습)이란(1)?

Classical Statistics Infer information from small data sets(Not enough data)

Machine Learning Infer information from large data sets(Too many data)

출처: http://blog.techback.in/intro-to-machine-learning/

Page 12: Big data활용 ss

12

머신러닝(기계학습)이란(2)?

기계가 무엇을 할 수 있을까? 예측 하기

분류 하기

유사 패턴 찾기

다른 패턴 찾기

생각하기

추천하기

Page 13: Big data활용 ss

13

머신러닝(기계학습)이란(2)?

예측하기(Data Prediction)

몸무게

Page 14: Big data활용 ss

14

머신러닝(기계학습)이란(2)?

분류하기(Data Classfication)

소득

부채

Page 15: Big data활용 ss

15

머신러닝(기계학습)이란(2)?

분류하기(Data Classfication)

소득

부채

Page 16: Big data활용 ss

16

머신러닝(기계학습)이란(2)?

분류하기(Data Classfication)

특징 1

특징 2

Page 17: Big data활용 ss

17

머신러닝(기계학습)이란(2)?

분류하기(Data Classfication)

Page 18: Big data활용 ss

18

머신러닝(기계학습)이란(2)?

이상유무 판단(Data Anomaly Detection)

# of laughing people

# of smile faces

Page 19: Big data활용 ss

19

머신러닝(기계학습)이란(2)?

이상유무 판단(Data Anomaly Detection)

Page 20: Big data활용 ss

20

머신러닝(기계학습)이란(2)?

추천하기 (Recommender Systems)

사람 영화

티파니 수영 태연 윤아

정글북 5 5 0 0

닌자터틀 5 ? ? 0

곡성 ? 4 0 ?

크리미널 0 0 5 4

특별수사 0 0 5 ?

Page 21: Big data활용 ss

21

머신러닝(기계학습) 응용 I

금융범죄예방

Page 22: Big data활용 ss

22

머신러닝(기계학습) 응용 I

스마트팩토리

Page 23: Big data활용 ss

23

머신러닝(기계학습) 응용 I

추천하기

Page 24: Big data활용 ss

24

머신러닝(기계학습) 응용 I

해킹탐지

Page 25: Big data활용 ss

25

머신러닝(기계학습) 응용 I

스팸차단

Ham: 대개 스팸 메시지와 연관이 있는 키워드를 하나 이상 포함하고 있어서 스팸이 아님에도 차단 또는 여과된 이메일 메시지

Page 26: Big data활용 ss

26

머신러닝(기계학습) 응용 I

파파고(네이버)

Page 27: Big data활용 ss

27

머신러닝(기계학습) 응용 I

이어폰 형태의 번역기(‘Pilot’)

Page 28: Big data활용 ss

28

머신러닝(기계학습) 응용 I

범죄예방

Page 29: Big data활용 ss

29

머신러닝(기계학습) 응용 I

얼굴인식

NEC 얼굴인식 시스팀(http://blog.naver.com/vtjinsoo/220764139897)

Page 30: Big data활용 ss

30

머신러닝(기계학습) 응용 I 그림 그리기(Google Deap Dream Photos)

데모(http://blog.naver.com/vtjinsoo/220764139897)

Page 31: Big data활용 ss

31

머신러닝(기계학습) 응용 I

작곡하기

데모(http://blog.naver.com/vtjinsoo/220764139897)

Page 32: Big data활용 ss

32

머신러닝(기계학습) 응용 I 차량 추적(Particle Filter)

Page 33: Big data활용 ss

33

인공지능/빅데이타 관련 정부 정책

최근 9대 국가 전략 프로젝트 제시(제2차 과학기술전략회의) 성장동력 확보 5개 과제, 삶의 질 향상 4개 과제

Page 34: Big data활용 ss

34

인공지능/빅데이타 관련 정부 정책

최근 9대 국가 전략 프로젝트 제시 (제2차 과학기술전략회의) 미래부 과제 주요 내용

Page 35: Big data활용 ss

35

인공지능/빅데이타 관련 정부 정책

인공지능(AI) 관련 정책(상세)

Page 36: Big data활용 ss

36

빅데이타 산업이 잘 되려면?

이민화 이사장(창조경제연구회 이사장) 한국 인공지능 전략은 알고리즘 개발보다 빅데이터 확보 전략에 중심을 둬야

한다”며 “3조5000억원에 이르는 기술지원보다 빅데이터 관련 규제개혁이 우선”이라고 강조(`인공지능과 4차산업혁명` 포럼에서)

6대 미래 전략 제시 개방 플랫폼 활용과 빅데이터 확보를 통한 활용

오픈소스 활용과 목적 중심 개발

공개교육 활용과 확대 및 학위심사 개혁을 통한 인재육성

공공데이터 개방과 민간 데이터 공유 빅데이터 확보

개인정보보호와 클라우드 규제개혁

사회적 갈등 해소전략

Page 37: Big data활용 ss

37

빅데이타 및 비 식별화(I)

빅데이타 활용의 가장 큰 걸림돌로 개인 정보 유출의 위험성

이를 위한 비식별화에 대한 노력이 필요 '개인정보 비식별 조치 가이드라인'을 발간

한국인터넷진흥원(KISA) 내에 '개인정보 비식별 지원센터'를 설치·운영

Page 38: Big data활용 ss

38

빅데이타 및 비 식별화(II)

비식별화 관련 솔루션

Page 39: Big data활용 ss

39

빅데이타 및 비 식별화(III)

비식별화 관련 솔루션

Page 40: Big data활용 ss

40

머신러닝(기계학습) 응용 II

의료진단

Page 41: Big data활용 ss

41

머신러닝(기계학습) 응용 II AI로 학습한 엑스레이CT

저선량CT용 영상복원기술 알고리즘 개발(예종철 한국과학기술원(KAIST) 석좌교수) 국내 연구진이 인공지능(AI) 기술인 딥러닝으로 엑스레이 CT(컴퓨터

단층촬영기법) 촬영시 방사선 피폭 위험성을 낮추되, 진단의 정확도는 높이는 기술을 개발

Page 42: Big data활용 ss

42

머신러닝(기계학습) 응용 II

세포주기상태 자동 식별

Page 43: Big data활용 ss

43

머신러닝(기계학습) 응용 II

세포분할에 기반한 유방암 진단

Page 44: Big data활용 ss

44

머신러닝(기계학습) 응용 II

실시간 심전도 모니터링에서 심혈관 질환의 예측

Page 45: Big data활용 ss

45

머신러닝(기계학습) 응용 II

Medication adherence (by AiCure)

HIPAA:미국의료정보보호법

Page 46: Big data활용 ss

46

머신러닝(기계학습) 응용 II

What leads to a disease’s pathogenesis?

Our platform utilizes patient population health data to bring actionable Patient IntelligenceTM to precision medicine applications.

Page 47: Big data활용 ss

47

머신러닝(기계학습) 응용 II 인재 선발

By Lumesse

Page 48: Big data활용 ss

48

머신러닝(기계학습) 응용 II Google ‘Home’

구글 가정용 인공지능 비서 ‘ Google Home’

Page 49: Big data활용 ss

49

머신러닝(기계학습) 응용 II Making a Movie Trailer

IBM의 인공지능 ‘WATSON’이 영화(‘Morgan’)의 예고편을 만들다

Page 50: Big data활용 ss

50

참고문헌

[1] http://www.analyticsvidhya.com/blog/2013/11/getting-clustering-right/

[2]https://jpgdatascience.wordpress.com/2016/04/24/microchip-quality-test-regularized-logistic-regression/

[3] http://fromdatawithlove.thegovans.us/2013/05/clustering-using-scikit-learn.html?view=sidebar

[4] http://blog.rocapal.org/?p=312

[5] http://www.physicalgeography.net/fundamentals/3h.html

[6] https://azure.microsoft.com/en-us/documentation/articles/machine-learning-algorithm-choice/

[7] http://iot-analytics.com/industrial-internet-disrupt-smart-factory/

[8] http://www.zmescience.com/research/predicting-crimes-before-they-happen-090423423/

[9] http://fouryears.eu/tags/machine-learning/

[10] http://www.scmp.com/magazines/post-magazine/article/1925784/why-baidus-breakthrough-speech-recognition-may-be-game

[11] http://www.dailymail.co.uk/sciencetech/article-2958597/Facial-recognition-breakthrough-Deep-Dense-software-spots-faces-images-partially-hidden-UPSIDE-DOWN.html

[12] https://www.youtube.com/watch?v=nmDiZGx5mqU

[13] http://www.gizmag.com/creative-artificial-intelligence-computer-algorithmic-music/35764/

Page 51: Big data활용 ss