unsupervised clickstream clustering for user behavior analysis chi2016

30
Unsupervised Clickstream Clustering for User Behavior Analysis + CHI 2016 -Gang Wang et al. / 이이이 x 2016 Spring

Upload: hyunjeong-lee

Post on 08-Feb-2017

183 views

Category:

Technology


2 download

TRANSCRIPT

Page 1: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

Unsupervised Clickstream Clustering for User Behavior Analysis+ CHI 2016-Gang Wang et al./이현정x 2016 Spring

Page 2: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

PAPER

Unsupervised ClickStream Clustering for User Behavior

Analysis

Page 3: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

PAPER

Page 4: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

PAPER

??

Page 5: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

INTRODUCTION

User participation 이 미래 인터넷 서비스의 핵심이다 .

그러나 User Behavior 를 이해한다는 것은 Complex 하고 Difficult.

User Behavior 에 관심을 가지는 것에 대한 정당성

User Behavior 파악에 있어서의 어려움 이유 . 인터넷 시스템 사용자는 수십만명인데 , 이를 어찌 다 분석 ?-> 자신들의 시스템의 강점을 이유로 들고 있음

Page 6: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

INTRODUCTION

User participation 이 미래 인터넷 서비스의 핵심이다 .

그러나 User Behavior 를 이해한다는 것은 Complex 하고 Difficult.

User Behavior 에 관심을 가지는 것에 대한 정당성

User Behavior 파악에 있어서의 어려움 이유 . 인터넷 시스템 사용자는 수십만명인데 , 이를 어찌 다 분석 ?-> 자신들의 시스템의 강점을 이유로 들고 있음

기존 접근 방식의 한계기존접근방식 = 설문 (survey)한계 1. conduct 하고 analyse 하는데 비용이 높기 때문에 large scale 진행 불가능 한계 2. 사용자들의 self-identify 하지 못하는 부분이 있음한계 3. 이미 알고 있는 지식체계 혹은 가정을 바탕으로함

data 를 받는다는 점 data 를 받는다는 점 Clustering 한다는 점

대안적인 접근 방식Clickstream

data-driven approach!그중에서도 우리는 ClickstreamClickstream 이란 sequences of timestamped events generated by user actions ( 우리가 흔히 말하는 로그와 비슷한 개념 )

Page 7: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

INTRODUCTION

User participation 이 미래 인터넷 서비스의 핵심이다 .

그러나 User Behavior 를 이해한다는 것은 Complex 하고 Difficult.

User Behavior 에 관심을 가지는 것에 대한 정당성

User Behavior 파악에 있어서의 어려움 이유 . 인터넷 시스템 사용자는 수십만명인데 , 이를 어찌 다 분석 ?-> 자신들의 시스템의 강점을 이유로 들고 있음

기존 접근 방식의 한계기존접근방식 = 설문 (survey)한계 1. conduct 하고 analyse 하는데 비용이 높기 때문에 large scale 진행 불가능 한계 2. 사용자들의 self-identify 하지 못하는 부분이 있음한계 3. 이미 알고 있는 지식체계 혹은 가정을 바탕으로함

data 를 받는다는 점 data 를 받는다는 점 Clustering 한다는 점

대안적인 접근 방식Clickstream

data-driven approach!그중에서도 우리는 ClickstreamClickstream 이란 sequences of timestamped events generated by user actions ( 우리가 흔히 말하는 로그와 비슷한 개념 )

clickstream

Page 8: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

INTRODUCTION

User participation 이 미래 인터넷 서비스의 핵심이다 .

그러나 User Behavior 를 이해한다는 것은 Complex 하고 Difficult.

User Behavior 에 관심을 가지는 것에 대한 정당성

User Behavior 파악에 있어서의 어려움 이유 . 인터넷 시스템 사용자는 수십만명인데 , 이를 어찌 다 분석 ?-> 자신들의 시스템의 강점을 이유로 들고 있음

기존 접근 방식의 한계기존접근방식 = 설문 (survey)한계 1. conduct 하고 analyse 하는데 비용이 높기 때문에 large scale 진행 불가능 한계 2. 사용자들의 self-identify 하지 못하는 부분이 있음한계 3. 이미 알고 있는 지식체계 혹은 가정을 바탕으로함

data 를 받는다는 점 data 를 받는다는 점 Clustering 한다는 점

대안적인 접근 방식Clickstream

data-driven approach!그중에서도 우리는 ClickstreamClickstream 이란 sequences of timestamped events generated by user actions ( 우리가 흔히 말하는 로그와 비슷한 개념 )

기존 ClickStream연구의 한계 Navigation Path Within a website 에 머물고 있음 혹은 Markov Chain Models 에 의존하여 popular webpage를 예측한다 .

요구사항 1. large noisy clickstream dataset 에도 잘 돌아가야한다요구사항 2. 기존에는 알지 못했던 사용자 행동도 캐치해야한다요구사항 3. help others understand 할 수 있도록 interactive해야한다 .

한계를 극복하기 위한 시스템 요구사항

clickstream

Page 9: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

What they made

요구사항 1. large noisy clickstream dataset 에도 잘 돌아가야한다요구사항 2. 기존에는 알지 못했던 사용자 행동도 캐치해야한다요구사항 3. help others understand 할 수 있도록 interactive해야한다 .

한계를 극복하기 위한 시스템 요구사항Clickstream tool

Interactive Visualisation

Clickstream Analysis- hierarchical clustering approach- iterative feature pruning

Clickstream Visualization

Page 10: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

How they made it- Clickstream Analysis

Page 11: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

How they made it- Clickstream Analysis

Sybil 은 Fake identities and user accounts

Page 12: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

How they made it- Clickstream Analysis

dataset= Σ event event = Σdata?

Clickstream Datasets- Server side

Page 13: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

How they made it- Clickstream Analysis

Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering

포스팅을 눈팅 Heart 누르기한 유저 친구요청 보내기

Formatting User Clickstream

Page 14: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

How they made it- Clickstream Analysis

Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering

A(t1) B(t2)한 유저 C(t3)

t1 t2 t3

Formatting User Clickstream

3m 40s 10s

Page 15: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

How they made it- Clickstream Analysis

Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering

A(t1) B(t2)한 유저 C(t3)

g1 g2 g3

Formatting User Clickstream

3m 40s 10s

range of time gap = bucket

Page 16: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

Clickstream Similarity Graph

How they made it- Clickstream Analysis

Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering

A(g1)B(g2)C(g3)A(g4)B(g5)

C(g1)C(g2)C(g3)D(g4)A(g5)

node

node

edge = similarity distance

Page 17: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

Clickstream Similarity Graph

How they made it- Clickstream Analysis

Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering

A(g1)B(g2)C(g3)A(g4)B(g5)

C(g1)C(g2)C(g3)D(g4)A(g5)

node

node

edge = similarity distance

A(g1)B(g2)C(g3)A(g4)B(g5)

node

A(g1)B(g2)C(g3)A(g4)B(g5)

node

A(g1)B(g2)C(g3)A(g4)B(g5)

node

Page 18: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

Clickstream Similarity Graph

How they made it- Clickstream Analysis

Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering

A(g1)B(g2)C(g3)A(g4)B(g5)

C(g1)C(g2)C(g3)D(g4)A(g5)

node

node

edge = similarity distance

A(g1)B(g2)C(g3)A(g4)B(g5)

node

A(g1)B(g2)C(g3)A(g4)B(g5)

node

A(g1)B(g2)C(g3)A(g4)B(g5)

node

Page 19: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

Iterative Feature Pruning & Clustering

How they made it- Clickstream Analysis

Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering

-> fine grained user behavior clusters 를 찾아내기 위해서

full feature set (union of all k-grams)parent cluster 탄생 !!

Page 20: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

Iterative Feature Pruning & Clustering

How they made it- Clickstream Analysis

Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering

-> fine grained user behavior clusters 를 찾아내기 위해서

C2 이고 아니고를 결정하는 top feature(K-grams) 를 제외하고 돌림C5-6-7 탄생 !!

Page 21: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

How they made it- Clickstream Analysis

Iterative Feature Pruning & Clustering

Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering

-> fine grained user behavior clusters 를 찾아내기 위해서

대한민국 국민

여성낫 여성 no insight

Page 22: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

How they made it- Clickstream Analysis

Iterative Feature Pruning & Clustering

Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering

-> fine grained user behavior clusters 를 찾아내기 위해서

대한민국 국민

여성낫 여성

귀염 도발청순 some insight

Page 23: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

How they made it- Clickstream Analysis

Application

Page 24: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

User Study Results

해석가능한 정보인가 ? “ 왜”를 알 수 있는가 ?• 컴공과 대학원생 15 명을 대상으로 함• each level 에서 dominant 한 cluster 를 보여줌 -> 한문장으로 해석해봐라• 사전에 app 을 써보게 해서 , 대략의 기능을 익힘• 사전에 visualization 이 어떻게 작동하고 어떤 정보가 있는지 quick instruction session 을 함

Page 25: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

User Study Results

해석가능한 정보인가 ? “ 왜”를 알 수 있는가 ?• 컴공과 대학원생 15 명을 대상으로 함• each level 에서 dominant 한 cluster 를 보여줌 -> 한문장으로 해석해봐라• 사전에 app 을 써보게 해서 , 대략의 기능을 익힘• 사전에 visualization 이 어떻게 작동하고 어떤 정보가 있는지 quick instruction session 을 함

• 총 555 개의 description 을 받음• 그 중에서 530 개에 사람들이 “해석가능 -> 한문장으로 표현” , 25 개 “해석 불가능 -> 해석못하겠다고 표현”• 한 cluster 당 평균 46 초 만에 답함• 외부전문가들에게 consistency 를 검증함

Page 26: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

기존 ClickStream연구의 한계 3) 기존의 clustering methods 들은 largely supervised 혹은 semi-supervised4) 왜 그렇게 행동하는가 ? 에 관한 답은 black box 로 놔둠

Q3. Supervised 의 의미는 무엇인가 Q4. 그럼 이 시스템은 “왜”그런지도 분석해주는가 ?

[ 정답이 없음 =exploratory] Unsupervised learning is the machine learning task of inferring a function to describe hidden structure from unlabeled data.

[ 정답이 있음 ] Supervised learning is the machine learning task of inferring a function from labeled training data.

vs.

not exactly.visualization 을 통해 human 의 해석을 도울뿐

DISCUSSION

Page 27: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

DISCUSSION

기존 ClickStream연구의 한계 1) Navigation Path Within a website 에 머물고 있음 2) Markov Chain Models 에 의존하여 popular webpage 를 예측한다 .

Q1. Navigation Path 하고 Clickstream 이 어떻게 다른가

이동Action

-> Markov Chain Model 이 문제가 아니라 , popular webpage 가 한계였던것

Dependent Condition 이어도 converge on predictable

distribution

@=0.85

Q2. Markov Chain Model 에 의존하여 Popular Webpage 를 예측하는것이 왜 한계인가

Page 28: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

DISCUSSION

machine 이 잘하는 일 human 이 잘하는 일

How can machines help humans?

Page 29: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

How can/should machines and humans cooperate?

DISCUSSION

machine 이 잘하는 일 human 이 잘하는 일

Page 30: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

Unsupervised Clickstream Clustering for User Behavior Analysis+ CHI 2016-Gang Wang et al./이현정x 2016 Spring

Thank You!