opinion mining platform & case studies - readme | sk...
TRANSCRIPT
Opinion Mining & Text Mining at SKPlanet :
“ 대용량 텍스트 마이닝 기반의 평판 분석, 큐레이션, 추천”
Young-Sook Hwang
2013. 11. 14
Table of Contents
• Introduction
• Text Mining & Opinion Mining ? • Background of OMP • Overview of OMP
• Core Technologies
• Architecture of OMP • Natural Language Processing • Document Clustering & Categorization • Topic Detection & Sentiment Analysis • Keyword Analysis • Opinion Driven Search
• Applications • Pickat • SeekRet • T-store 영화추천 • BINS(Business Insight System)
Introduction
방대한 텍스트 데이터를 수집, 자연어처리, 기계학습, 통계학 등의 기술을 적용, 단순한 정보검색 이상의 의미있는 정보를 추출, 가공하여 제공하는 기술
Info. Retrieval
Info. Extraction
Text Clustering
Text Classification
Summarization
Sentiment Analysis
Opinion Mining
Question Answering
Contextual Advertising
Metadata Construction
Keyword Analysis
Text Preprocessing
Natural Language Processing
Crawling
Distributed Processing
Ontology Construction
Machine Learning
응용기술 요소기술 기반기술
Agent System
Semantic Web
【 Text Mining 】
Introduction
커뮤니티, 블로그, SNS등 다양한 온라인 채널에서 발생하는 사용자 의견정보를 수집, 분석하여 특정 주제를 대상으로 평판을 분석하는 기술
스마트 소비자를 위한 상품 리뷰 분석 및 검색&추천을 연계한 e-Commerce
고객관심과 평판정보를 연계, 편의성과 재미를 가미한 Marketing
소셜 모니터링, 고객분석, Market Analytics에 기반한 Business Intelligence
“SKT 용 T map을 설치하고 지금까지 2회 사용해봤습니다. 구동이
원활하고 안정적입니다. 이번에 풀린 윈도우폰 용은 메뉴 등이 단
출합니다만, 미출시 단말에 대해 지원해 주어 고마울 따름입니다.
“The tilt and swivel LCD of PowerShot S3 is awesome.”
“캐논 600D 생각보다 가볍고 선명한 화질은 정말 마음에 들더군요
Opinion
Mining
Subject
detection Feature
identification
Opinion Polarity
measurement Opinion
Retrieval
Opinion
summarization
Opinion QA
【 Opinion Mining 】
【서비스이용 User Behavior 】 E-Commerce 분야에서 사용자 구매 패턴을 분석한 결과, 상품 정보 탐색, 여러 채널 별 평판 탐색 및 분석, 최종 가격비교로 이어지는 User Behavior를 보이고 있으며 상품 정보 및 평판 탐색 시간 증가 등 불편함이 존재함
사용자 구매의 의사 결정에 있어 평판 정보 및 일반 상품 정보의 통합적인 제공이 필요함
일반 정보
평판 정보
가격 정보
구매 Needs
의사결정
기능
평판
가격
검
색
가격 비교
일반 정보탐색 By User
평판 정보 수집 By User
기능 평판 가격
구매 Needs
의사결정
Introduction
• 결과로 나온 소스들을 일일이 들어가서 읽어보고 별도로 정리가 필요함 • 채널이나 리뷰 작성자가 과연 믿을만한지 어떤지 정보가 없음
Introduction Background of OMP
• 관련된 정보를 클릭하여 읽어보아도 원하는 답을 얻기가 어려움 • 답이 있어도 원하는 수준의 답이 아님 • 작성자가 과연 믿을만한지 알 수가 없음
Introduction Background of OMP
Introduction
편의성 제고 신뢰도/다양성 제공 대용량 처리
대용량 수집 및 저장 -Hadoop 기술을 이용한 대용량 데이터의 분산수집 및 저장을 통해 Scalability 확보
효율적 리소스/품질 관리 - 사전 및 DB 리소스 관리도구 - 품질개선 학습도구
수집 채널의 다양화 - 다채널 대용량 데이터 수집 제휴 업체의 리뷰 데이터, 블로그, 커뮤니티, 뉴스, SNS
한 곳에서 편하게 다양한 채널의 믿을만한 평판정보를 얻을 수 없을까? Customer Needs
One-Stop 서비스 - 원하는 정보를 한곳에서 일목요
연하게 요약/정리하여 제공가능
Simple Interface - 직관적이고 쉬운 UI구성이 가능
한 다양한 서비스 API 제공
지원 언어 확장 - 한국어, 영어 등
신뢰도 높은 평판분석 - 자동분류와 주제적합성 판별 - 체계적인 감성지식 관리 - 정교한 언어처리 및 분석기술
평판검색 - 효율적인 평판 검색 및 다양한 서비스 API 제공을 위해 다차원 색인
Global Scale Business 지원 -대용량의 해외리뷰 문서 수집 및 분석을 통해 Global Scale Business 수행 가능
Overview of OMP
Core Technologies
HDFS
HBase
수집 데이터
①수집 ③자동분류 ④감성분석
수집환경
⑤키워드 분석
자동분류 데이터 지식사전
색인
색인볼륨
⑦서비스 API
분류결과 감성분석 결과
키워드 데이터
Crawler NLP & Text Mining 검색 & Service API
②NLP (형태소분석, 청킹, 개체명인식, 구문분석)
News
Blog
Cafe
Etc.
USER
Architecture of OMP
Core Tech.
원문
문장분리, 띄어쓰기& 철자교정
윤남텍 가습기 세척이 쉬워 마음에 들어요 디자인은 좀 더 예뻣으면... 용량도 조금 더 크면 더 좋을것 같네요~
윤남텍 가습기 세척이 쉬워 마음에 들어요. 디자인은 좀 더 예뻤으면...
용량도 조금 더 크면 더 좋을 것 같네요~
형태소분석 & 태깅
윤남텍/고유명사 가습기/명사 세척/명사+이/조사 쉽/형용사+어/연결어미 마음/명사+에/조사 들/동사+어요/어미+./문장기호
디자인은 좀 더 예뻤으면... 용량도 조금 더 크면 더 좋을 것 같네요~
복합명사 & 개체명 인식
[윤남텍/고유명사 가습기/명사]/상품명 세척/명사+이/조사 쉽/형용사+어/연결어미 마음/명사+에/조사 들/동사+어요/어미+./문장기호
디자인은 좀 더 예뻤으면... 용량도 조금 더 크면 더 좋을 것 같네요~
복합용언구 및 양태분석
[윤남텍/고유명사 가습기/명사]/상품명 세척/명사+이/조사 쉽/형용사+어/연결어미 마음/명사+에/조사 들/동사+어요/어미+./문장기호
디자인/명사+은/조사 좀/부사 더/부사 예쁘/형용사+었으면/어미+.../말줄임기호 용량/명사+도/조사 조금/부사 더/부사 크/형용사+면/어미 더/부사 좋/형용사+을/어
미 것/의존명사 같/보조용언+네요/어미~
NLP
분류결과
수집문서 통계기반 자동분류 학습기
카테고리 관련 문서 검색 및 수집 모듈
카테고리 관련 수집문서
군집화 및 랭킹 대표문서 추출
분류 학습집합 자동분류기
자동분류 학습결과
관리자에 의한 학습문서 승인
카테고리별 주제어 사전
수집기에서 실시간으로 수집되는 비정형 문서들을 정의된 카테고리 체계로 자동 분류하는 기술로, 군집화 기술을 활용하여 분류기 학습데이터를 효율적으로 구축함
주요 기능 및 특징
① Hybrid Categorization 기술
② 지속적인 카테고리 확장 편의성을 위해 반자동 학습집합 구축 및 관리 도구 연동
News Blog,
Cafe SNS
Core Tech. Doc. Classification
Catetory1 Catetory1-1 Catetory1-1-1
Catetory1-1-2
주제어사전
감성사전
주제어사전
감성사전
주제어사전
Aspect
카테고리 분류
주제어 인식
감성분석
1단계 2단계 3단계
감성분석은 감성지식 기반의 패턴기반 방법론과 기계학습 방법론을 혼용, 문서에 표현된 의견을 주제어사전과 감성사전에 기반하여 분석하며, 지식 재사용성을 고려하여 계층적 지식관리 체계를 설계/구축함
Core Tech. Topic Detection & Sentiment Analysis
다양한 채널로부터 수집된 문서의 주요 키워드를 추출하여, 분석한 결과를
채널/카테고리에 따라 다양한 형태로 가공하여 제공하는 기술
[ 아이폰5 관련 이슈 키워드 분석: 2013.01] [공기청정기 관련 연관키워드 네트워크 분석]
• 급상승-이슈 키워드 분석: 단위 시간(시간/일/주) 내 급상승/이슈가 되고 있는 키워드 분석
• 시계열 분석: 키워드의 기간별 관심도 변화 및 긍부정 변화율 등의 정보를 제공
• 연관 키워드 분석 : 특정 키워드를 기준으로 연관된 키워드들의 네트워크를 구성하여 제공
Core Tech. Keyword Analysis
blog news café sns 애플 아이폰 5 sk텔레콤 애플 아이폰 5 캐리어 아이폰4 스마트폰 sk텔레콤 퍼펙트매치 아이폰4s lg전자 아이폰4 미스터피자 아이패드 아이폰4s 스마트폰 애플바베치킨피자 sk텔레콤 갤럭시노트 공동구매 sk텔레콤 아이튠즈 갤럭시 갤럭시노트 요금혜택 갤럭시 갤럭시s3 갤럭시s3 출장개통
갤럭시노트 lg유플러스 아이폰4s 아이엠스쿨 보호필름 방송통신위원회 보호필름 예약가입진행 그립감 애플코리아 예약판매 아이폰4
안드로이드 이동통신 보상기변 한정판케이스 갤럭시s3 애널리스트 삼성전자 트윅스
OMP 적용사례
Pick@t Social Network 기반의 생활정보 공유 서비스로 상황/위치에 따라 이용자의 Context에 적합한 지역 컨텐츠를 제공하는 모바일 앱 서비스
OMP 활용 POI 관련 문서 수집, POI별 감성 분석을 통해 대표속성별 긍/부정도 측정 POI 와 테마(서비스 주제어)를 자동 매핑하여, POI 메타정보를 Rich하게 만듦
[ 테마별 POI 매핑 및 랭킹 ] [ POI 감성랭킹 및 대표속성별 감성분석]
Pickat
API
Index
Hadoop
HBase
Crawler Text Mining
OMP: Opinion Mining Platform
급상승/이슈 제품 및 POI 조회
제품 및 POI 감성 검색
카테고리별 제품 및 POI 조회
요약/상세/비교정보 검색
Seekret
OMP 적용사례 SeekRet
Entity-Driven Opinion Summary 실시간 리뷰 문서 수집, 감성 분석, 키워드 분석 및 실시간 색인 질의 연관키워드 및 관련 상품의 평판 요약 정보와 근거 리뷰 제시 다양한 형태의 사용자 질의 지원 및 그에 적합한 검색결과 제공 - 자연어기반 감성검색, 비교검색 - 검색범위 내 스크롤 바를 이용한 관심속성 가중치 제약 검색
User / Topic 정보 수집
자연어처리 적용
성향 분석 (취향 및 관심사)
Service API (추천, 검색, 광고, 타겟팅)
User Modeling
정보수집: 댓글, 메타, 별점, 구매로그
자연어처리 적용
토픽 모델링, 감성분석, 키워드 추출
추천
영화 추천
OMP 적용사례 영화추천
【 OMP 활용 가능 영역 】
전략
인사관리
Finance
연구/생산
마케팅
CS/고객관리
홍보/PR
【 주요 활용 분야 】
시장 동향 파악
Privacy 보호
Risk 대응 평판 증대
미래예측 ROI측정
마케팅 PR CS 인물 정보
Trend 프로모션효과 기업/브랜드 경쟁관계
상품/서비스 경쟁관계
Media 분석 평판 분석 리스크 분석 SNA 분석
VOC 분석 고객요청사항 전문채널 정보 관리
온라인 히스토리 온라인 이미지 인물평가 분석 비교 분석
OMP는 Biz Process 전 과정에서 적용 가능하나, 우선 마케팅/ PR/CS 등 4개 분야를 대상으로 SKP의 Business Insight 발굴 및 Business Intelligence에 활용
OMP 적용사례 BINS