meta stars
TRANSCRIPT
META-STARS 2016.01.27
서울시립대학교 데이터 마이닝 연구실
김소현
: Multidimensional Modeling Social Business Intelligence
INTRODUCTION
➤ SBI(Social Business Intelligence) : textual UGC를 사용하여 의사결정하는 것이 중요하다.
➤ UGC(User Generated Content) : 블로그, 포럼, SNS에서 얻을 수 있는 사람들의 글, 지역정보, 선호도, 의견, 뉴스
➤ textual UGC를 이용하기 위해서는 topic과 topic hierarchy를 정의하는 것이 중요하다.
➤ topic은 논의하고 있는 영역에서 의미있는 keyword
➤ ex) mobile technology : Samsung, Galaxy 3, Touchscreen
INTRODUCTION
➤ UGC 분석 툴들은 기존의 BI System과 분리되어서 운영된다.
➤ UGC와 기업의 비즈니스 데이터의 통합이 어렵다.
➤ Meta-Stars를 이용하여 topic hierarchy를 정하면 이를 해결할 수 있다.
INTRODUCTION
➤ topic의 리스트는 의사결정자와 전문가에 의해서 결정하고 알고리즘을 통해서 확장한다.
➤ 의사결정자는 사용자들이 topic에 대해 얼마나 많이 이야기 하는지, 해당 topic의 평판이 어떠한지 등에 관심을 가진다.
➤ 따라서 topic을 SBI 큐브의 디멘션으로 사용할 수 있다.
INTRODUCTION
➤ #1 non-leaf topic 들이 fact와 관련이 있다.
➤ #2 다양한 종류의 급변하는 Trendy topic들을 수용할 수 있도록 정의된다.
➤ #3 제품명과 같은 topic들은 EDW(Enterprise Data Warehouse)와 쉽게 연결할 수 있다.
➤ #4 topic 들간의 Roll-up relationships가 다른 의미를 가진다.
➤ “Galaxy 3 has brand Samsung”
➤ “Galaxy 3 has type smartphone”
<기존의 hierarchy와 제안하는 topic hierarchy의 차이점>
INTRODUCTION
➤ #1 brand reputation : 사람들이 Samsung을 어떻게 생각하는지
➤ Samsung, Galaxy, Galaxy Tab의 긍정, 부정 횟수
<topic hierarchy를 통해서 분석 할 수 있는 것들>
INTRODUCTION
➤ #2 talking volume : Mobile tech에 관한 topic의 양이 얼마나 되는지
➤ Nokia, Samsung을 제외한 topic이 언급된 횟수
<topic hierarchy를 통해서 분석 할 수 있는 것들>
INTRODUCTION
➤ #3 Health rumors : 사용자들의 터치스크린에 대한 걱정
➤ Touchscreen과 Finger Pathologies이 언급된 횟수
<topic hierarchy를 통해서 분석 할 수 있는 것들>
ARCHITECTURAL OVERVIEW
➤ Crawling : 논의하는 영역에서 크롤링
➤ ODS(Operational data store) : Crawling된 반정형데이터를 정형데이터로 바꿔서 저자, 채널 등과 같은 관련된 데이터를 저장
➤ document-oriented DB : ODS와 연결하여 clip을 저장
➤ Semantic Enrichment : Clip text에서 숨은 의미 정보를 파악하여 확장시킴
➤ ETL : 주기적으로 clip과 topic을 추출, EDW과 통합하여 DM에 로드
ARCHITECTURAL OVERVIEW
➤ DM은 축적된 데이터를 다차원 큐브의 형태로 저장하고 의사결정에 활용한다.
➤ #1 OLAP & Dashboard
➤ UGC를 다양한 관점에서 탐색할 수 있다.
➤ #2 DataMining
➤ 제품에 대한 의견이 비즈니스 이벤트에 얼마나 영향을 미치는가를 분석할 수 있다.
➤ #3 Simulation
➤ 주어진 UGC와 비즈니스 이벤트를 이용하여 미래의 비즈니스 이벤트를 예상할 수 있다.
META-STARS
➤ Topic share : 주어진 기간 내에서 전체 topic 중 한 topic의 출현 비율
➤ Topic awareness : 전체 clip 중 topic이 언급된 clip 의 비율
➤ Market beat : 한 topic에 대한 긍정/부정 의견의 퍼센트
➤ Average sentiment : 한 topic에 대한 biased opinions 평균
<다차원 큐브의 지표>
META-STARS
<Roll-up partial orders>Component
Product
Type
Category
Brand
한 topic은 하나의 anc(ancestor)관계에 대해 하나의 topic만을 가질 수 있다.
Galaxy3 와 Smartphone : Product > Type (o)
Galaxy3이 다른 Type과 anc(ancestor)관계 될 수 없다.
Galaxy3과 Touchscreen은 anc(ancestor)관계 가능하다.
META-STARS
<Roll-up partial orders>Component
Product
Type
Category
Brand
➤ ρ = (isPartOf, hasType, hasBrand, hasCategory, has, causedBy)
➤ (8MP Camera, Smartphone) : 110000
META-STARS
➤ topic table
➤ 각 row당 하나의 topic을 저장
➤ level은 디자인 시점에 static하게 결정
<Meta-stars 스키마의 topic table과 roll-up table>
QUERYING META-STARS
➤ roll-up table
➤ ChildId, FatherId는 topic table을 참조하는 FK
➤ ρ = (isPartOf, hasType, hasBrand, hasCategory, has, causedBy)
➤ (8MP Camera, Smartphone) : 110000
<Meta-stars 스키마의 topic table과 roll-up table>
➤ 다양한 의미의 집계가 가능하다.
➤ Smartphone의 출현횟수를 계산할 때 :
➤ Smartphone만 언급만 UGC를 고려할 것인가
➤ Product(Calaxy3)까지 고려할 것인가
➤ Component(8MP Camera)까지 고려할 것인가
QUERYING META-STARS
➤ Queries without Topic Aggregation
➤ level이 static한 경우
➤ level이 static 하지 않은 경우
06/22/2013의 Mobile Tech의 topic들의 출현 횟수를 구하여라.
QUERYING META-STARS
➤ Queries with Semantics-Aware Topic Aggregation
➤ Brand reputation anaysis
➤ ρ = (isPartOf, hasType, hasBrand, hasCategory, has, causedBy)
hasBrand
QUERYING META-STARS
hasBrand 관계에 있는 topic 까지 고려해서
Brand의 긍정, 부정을 구하라.