meta stars

23
META-STARS 2016.01.27 서울시립대학교 데이터 마이닝 연구실 김소현 : Multidimensional Modeling Social Business Intelligence

Upload: sohyeon-kim

Post on 14-Apr-2017

195 views

Category:

Data & Analytics


1 download

TRANSCRIPT

META-STARS 2016.01.27

서울시립대학교 데이터 마이닝 연구실

김소현

: Multidimensional Modeling Social Business Intelligence

INTRODUCTION

➤ SBI(Social Business Intelligence) : textual UGC를 사용하여 의사결정하는 것이 중요하다.

➤ UGC(User Generated Content) : 블로그, 포럼, SNS에서 얻을 수 있는 사람들의 글, 지역정보, 선호도, 의견, 뉴스

➤ textual UGC를 이용하기 위해서는 topic과 topic hierarchy를 정의하는 것이 중요하다.

➤ topic은 논의하고 있는 영역에서 의미있는 keyword

➤ ex) mobile technology : Samsung, Galaxy 3, Touchscreen

INTRODUCTION

➤ UGC 분석 툴들은 기존의 BI System과 분리되어서 운영된다.

➤ UGC와 기업의 비즈니스 데이터의 통합이 어렵다.

➤ Meta-Stars를 이용하여 topic hierarchy를 정하면 이를 해결할 수 있다.

INTRODUCTION

➤ topic의 리스트는 의사결정자와 전문가에 의해서 결정하고 알고리즘을 통해서 확장한다.

➤ 의사결정자는 사용자들이 topic에 대해 얼마나 많이 이야기 하는지, 해당 topic의 평판이 어떠한지 등에 관심을 가진다.

➤ 따라서 topic을 SBI 큐브의 디멘션으로 사용할 수 있다.

INTRODUCTION

➤ #1 non-leaf topic 들이 fact와 관련이 있다.

➤ #2 다양한 종류의 급변하는 Trendy topic들을 수용할 수 있도록 정의된다.

➤ #3 제품명과 같은 topic들은 EDW(Enterprise Data Warehouse)와 쉽게 연결할 수 있다.

➤ #4 topic 들간의 Roll-up relationships가 다른 의미를 가진다.

➤ “Galaxy 3 has brand Samsung”

➤ “Galaxy 3 has type smartphone”

<기존의 hierarchy와 제안하는 topic hierarchy의 차이점>

INTRODUCTION

➤ #1 brand reputation : 사람들이 Samsung을 어떻게 생각하는지

➤ Samsung, Galaxy, Galaxy Tab의 긍정, 부정 횟수

<topic hierarchy를 통해서 분석 할 수 있는 것들>

INTRODUCTION

➤ #2 talking volume : Mobile tech에 관한 topic의 양이 얼마나 되는지

➤ Nokia, Samsung을 제외한 topic이 언급된 횟수

<topic hierarchy를 통해서 분석 할 수 있는 것들>

INTRODUCTION

➤ #3 Health rumors : 사용자들의 터치스크린에 대한 걱정

➤ Touchscreen과 Finger Pathologies이 언급된 횟수

<topic hierarchy를 통해서 분석 할 수 있는 것들>

INTRODUCTION

➤ topic hierarchy와 이를 효과적으로 모델링하는 것

<논문에서 집중하는 것>

<논외>

➤ topic을 정의하는 방법

➤ 극성 분석을 하는 방법

ARCHITECTURAL OVERVIEW

➤ Crawling : 논의하는 영역에서 크롤링

➤ ODS(Operational data store) : Crawling된 반정형데이터를 정형데이터로 바꿔서 저자, 채널 등과 같은 관련된 데이터를 저장

➤ document-oriented DB : ODS와 연결하여 clip을 저장

➤ Semantic Enrichment : Clip text에서 숨은 의미 정보를 파악하여 확장시킴

➤ ETL : 주기적으로 clip과 topic을 추출, EDW과 통합하여 DM에 로드

ARCHITECTURAL OVERVIEW

➤ DM은 축적된 데이터를 다차원 큐브의 형태로 저장하고 의사결정에 활용한다.

➤ #1 OLAP & Dashboard

➤ UGC를 다양한 관점에서 탐색할 수 있다.

➤ #2 DataMining

➤ 제품에 대한 의견이 비즈니스 이벤트에 얼마나 영향을 미치는가를 분석할 수 있다.

➤ #3 Simulation

➤ 주어진 UGC와 비즈니스 이벤트를 이용하여 미래의 비즈니스 이벤트를 예상할 수 있다.

META-STARS

➤ Topic share : 주어진 기간 내에서 전체 topic 중 한 topic의 출현 비율

➤ Topic awareness : 전체 clip 중 topic이 언급된 clip 의 비율

➤ Market beat : 한 topic에 대한 긍정/부정 의견의 퍼센트

➤ Average sentiment : 한 topic에 대한 biased opinions 평균

<다차원 큐브의 지표>

META-STARS

➤ Product나 Brand 같은 보편적인 level을 정의함으로써 미래에 나올 topic까지 쉽게 수용할 수 있다.

META-STARS

<Roll-up partial orders>Component

Product

Type

Category

Brand

: prec(precede) symbol

META-STARS

<Roll-up partial orders>Component

Product

Type

Category

Brand

한 topic은 하나의 anc(ancestor)관계에 대해 하나의 topic만을 가질 수 있다.

Galaxy3 와 Smartphone : Product > Type (o)

Galaxy3이 다른 Type과 anc(ancestor)관계 될 수 없다.

Galaxy3과 Touchscreen은 anc(ancestor)관계 가능하다.

META-STARS

<Roll-up partial orders>Component

Product

Type

Category

Brand

➤ ρ = (isPartOf, hasType, hasBrand, hasCategory, has, causedBy)

➤ (8MP Camera, Smartphone) : 110000

META-STARS

➤ topic table

➤ 각 row당 하나의 topic을 저장

➤ level은 디자인 시점에 static하게 결정

<Meta-stars 스키마의 topic table과 roll-up table>

QUERYING META-STARS

➤ roll-up table

➤ ChildId, FatherId는 topic table을 참조하는 FK

➤ ρ = (isPartOf, hasType, hasBrand, hasCategory, has, causedBy)

➤ (8MP Camera, Smartphone) : 110000

<Meta-stars 스키마의 topic table과 roll-up table>

➤ 다양한 의미의 집계가 가능하다.

➤ Smartphone의 출현횟수를 계산할 때 :

➤ Smartphone만 언급만 UGC를 고려할 것인가

➤ Product(Calaxy3)까지 고려할 것인가

➤ Component(8MP Camera)까지 고려할 것인가

QUERYING META-STARS

➤ Queries without Topic Aggregation

06/22/2013의 brand들의 total 출현횟수를 구하여라

QUERYING META-STARS

➤ Queries without Topic Aggregation

➤ level이 static한 경우

➤ level이 static 하지 않은 경우

06/22/2013의 Mobile Tech의 topic들의 출현 횟수를 구하여라.

QUERYING META-STARS

➤ Queries with Semantics-Aware Topic Aggregation

➤ Brand reputation anaysis

➤ ρ = (isPartOf, hasType, hasBrand, hasCategory, has, causedBy)

hasBrand

QUERYING META-STARS

hasBrand 관계에 있는 topic 까지 고려해서

Brand의 긍정, 부정을 구하라.

FINAL REMARKS

➤ An expressive solution to model topic hierarchies based on same specific requirements :

➤ Heterogeneity and dynamics of topic classifications

➤ integrability with business hierarchies

➤ semantics-aware aggregation