마인즈랩 유태준 투이y세미나_20150622

20
Big Data & Machine Learning MindsLab Big Data & Deep Learning 2015. 06 www.mindsinsight.co.kr

Upload: taejoon-yoo

Post on 08-Aug-2015

282 views

Category:

Technology


1 download

TRANSCRIPT

Page 1: 마인즈랩 유태준 투이Y세미나_20150622

Big Data & Machine Learning MindsLab

Big Data &

Deep Learning

2015. 06

www.mindsinsight.co.kr

Page 2: 마인즈랩 유태준 투이Y세미나_20150622

Social Big Data 분석 플랫폼으로 시작한 빅데이터 JV 마인즈랩

MINDS INSIGHT 주요 기능

Page 3: 마인즈랩 유태준 투이Y세미나_20150622

소셜데이터 말고, 기업 의사결정에 쓸만한 데이터가 있을까?

Page 4: 마인즈랩 유태준 투이Y세미나_20150622

그래서 우리는 통합 VOC 솔루션으로 방향을 잡았습니다.

내부 VOC 분석

원천 데이터 음성인식/텍스트 분석 활용

기업내부

기업외부

인터넷 상담

상담 메모

서신 민원

금감원/ 소비자원 민원

뉴스

블로그

트위터

페이스북

언어분석 텍스트마이닝 문장분리

형태소분석

개체명인식

구문분석

감성 분석

내용기반 자동분류

이슈 군집분석

어휘 중요도 분석

연관어 분석

고객이탈 방지

리스크 관리

고객 Segmentatio

n

서비스 개선

신규고객 발굴

잠재VIP 고객 발굴

신상품 개발

Document

Sentiment

Keyword

Taxonomy

Analyzed VOC Data

관리도구

페이스북 리포팅

전화 상담

언어분석 텍스트마이닝 문장분리

형태소분석

개체명인식

구문분석

감성 분석

이슈 군집분석

어휘 중요도 분석

연관어 분석

외부 VOC 분석

Market Intelligenc

e 활용 목적 정의

분석 관점/키워드 정의

데이터 수집/검증

사전 관리 Taxonomy 관리 운영 관리

Fan Post Interactio

n ER …

Analyzed VOC Data

Power User

시각화

활용 목적 정의

End User

관점/키워드 검토

시각화 요소 검토

시각화 구현

대시보드 구성

모니터링

예측

경보

Document

Sentiment

Keyword

Taxonomy

Analysis Model

Internal Structured Data

활용목적 別 정제 VOC

Data Analyzed

Data Feeding

Raw Data Feeding

이벤트/리스크 분석

음성인식 학습데이터 준비

음성/언어모델 학습

Full-text Dictation

Keyword Spotting

음성인식

Real-time

Recognition

Batch Recognition

7

3

1

4 2

6

9

14

12

5

8

10 11

15

13

16

17

Page 5: 마인즈랩 유태준 투이Y세미나_20150622

왜? 고객이 존재하는 한 Voice of the Customer 분석 니즈는 영원하니까!

가격 전략을 어떻게 수립하여야 하는가?

고객이 원하는 새로운 시장은 어디일까?

고객 유지를 위하여 할 수 있는 핵심업무는?

고객의 요구사항을 어떻게 반영할까?

고객 Segmentation을 어떻게 할 수 있을까?

Page 6: 마인즈랩 유태준 투이Y세미나_20150622

실시간 음성인식은?

음성인식 결과 텍스트의 품질은?

감성분석의 정확도는?

자연어처리의 정확도는?

콜 요약과 자동분류는?

고불만콜을 자동으로 탐지해낼 수 있나?

그러나 곧 기술적인 이슈에 부딪히게 되었습니다.

Page 7: 마인즈랩 유태준 투이Y세미나_20150622

특히, 음성인식율의 문제가 솔루션 전체의 Critical to Satisfaction이었습니다.

100시간 학습

인식률

70.9%

어휘기준

음절기준

77.3%

Baseline 인식율 향상 작업

Page 8: 마인즈랩 유태준 투이Y세미나_20150622

그런데 심층신경망(DNN)기반으로 엔진을 업그레이드

Speech Recognition

Page 9: 마인즈랩 유태준 투이Y세미나_20150622

일별 작업 내역

舊버전 100시간 학습

인식률

新버전 100시간 학습

70.9%

76.81%

新버전(DNN)

어휘기준

음절기준

舊버전(HMM)

Hit數 증가 Correctness 상승.

Insertion 감소 Accuracy 상승.

Correctness와의 차이 2% 이내 (헛소

리가 줄어서 읽기 편해짐)

명사 특히 키워드의 인식율 상대적으로

높은 상승 텍스트 분석 적합성 증대

80.81%

77.3%

Baseline

2015년 4월초에 H생명에서 적용한 결과 놀라운 일이! 뭐지??

Page 10: 마인즈랩 유태준 투이Y세미나_20150622

(source: Google Trends)

그래서 딥러닝(Deep Learning)이 무언지 들여다 보기 시작

Page 11: 마인즈랩 유태준 투이Y세미나_20150622

Deep Learning = Learning Hierarchical Representations

Trainable

Classifier

Feature

Extractor

Mainstream Modern Pattern Recognition: Unsupervised mid-level features

Trainable

Classifier

Feature

Extractor

Mid-Level

Features

Deep Learning: Representations are hierarchical and trained

Trainable

Classifier

Low-Level

Features

Mid-Level

Features

High-Level

Features

Page 12: 마인즈랩 유태준 투이Y세미나_20150622

인공지능분야의 모든 벤치마크 기록을 갈아치우고 있는 딥러닝

Page 13: 마인즈랩 유태준 투이Y세미나_20150622

2006년 알고리즘의 Breakthrough뿐만 아니라

Page 14: 마인즈랩 유태준 투이Y세미나_20150622

New Algorithms Big Data Hardware

3요소가 시기적으로 맞아 떨어졌기 때문으로

Page 15: 마인즈랩 유태준 투이Y세미나_20150622

IT Giant들이 집중적으로 투자를 하고 있는 영역

Page 16: 마인즈랩 유태준 투이Y세미나_20150622

활용영역은?

Page 17: 마인즈랩 유태준 투이Y세미나_20150622

Deep Learning for Natural Language Processing

Page 18: 마인즈랩 유태준 투이Y세미나_20150622

Medical Speech Recognition

Page 19: 마인즈랩 유태준 투이Y세미나_20150622

의료영상분석

Page 20: 마인즈랩 유태준 투이Y세미나_20150622

29

No More Handcrafted Features!