온라인 커뮤니티 상의 게시글에 대해 louvain method와 클러스터링 기법을...

17
온라인 커뮤니티 상의 게시글에 대해 Louvain method와 클러스터링 기법을 적용한 내부 커뮤니티 성향 탐지 기법 Community Detection Technique for Online Community using Louvain Method and Clustering Technique 김선영 김동현 박상현 박석* 서강대학교 컴퓨터공학과 데이터베이스 연구실

Upload: sun-young-kim

Post on 08-Apr-2017

110 views

Category:

Engineering


2 download

TRANSCRIPT

Page 1: 온라인 커뮤니티 상의 게시글에 대해 Louvain method와 클러스터링 기법을 적용한 내부 커뮤니티 성향 탐지 기법

온라인 커뮤니티 상의 게시글에 대해Louvain method와 클러스터링 기법을 적용한

내부 커뮤니티 성향 탐지 기법Community Detection Technique for Online Community using Louvain Method and Clustering Technique

김선영 김동현 박상현 박석* 서강대학교 컴퓨터공학과 데이터베이스 연구실

Page 2: 온라인 커뮤니티 상의 게시글에 대해 Louvain method와 클러스터링 기법을 적용한 내부 커뮤니티 성향 탐지 기법

1

연구 개요SNS 와 커뮤니티 게시글에는 현재 사람들의 실제 관심사가 실시간으로 반영되고 있으므로 이를 분석하여 정부나 기업 등의 조직에서 의사 결정을 내리기 위한 핵심자료로써 사용될 수있다. 이에 다양한 분석 시도들이 이루어지고 있으나 다양하게 활용되고 있는 SNS와 달리커뮤니티는 사용자간의 관계성이 명시적으로 드러나 있지 않고, 게시글 자체도 구조화되어있지 않아 이에 대한 분석이 활발하게 이루어지지 않고 있다. 그러나 커뮤니티 역시 사용자들의 현재 관심사와 특정 사안에 대한 의견을 파악할 수 있는 자료로써 SNS에 못지않은 잠재적 가치를 지니고 있으므로 분석 기법에 대한 연구가 필요하다.

현재 존재하는 대부분의 커뮤니티 분석 서비스는 분석 대상이 되는 커뮤니티 전체 데이터를 대상으로 단어 중심의 이슈 트렌딩에 초점을 맞추고 있다. 그러나 위에서도 언급하였듯이 커뮤니티는 주제에 따라 다양한 내부 커뮤니티들이 형성되어 있으므로 전체 커뮤니티를 대상으로 한 분석으론 각 커뮤니티 내의 오가는 다양한 이슈를 충분히 파악할 수 없다.

제안 연구는 커뮤니티별로 커뮤니티 사용자에 의해 작성된 게시글과 댓글을 수집하여 분석함으로써 커뮤니티 내부에 존재하는 사용자 그룹과 각 사용자 그룹별 특성 및 영향력 있는 사용자를 파악하는 것을 목표로 한다.

Page 3: 온라인 커뮤니티 상의 게시글에 대해 Louvain method와 클러스터링 기법을 적용한 내부 커뮤니티 성향 탐지 기법

2

사용 데이터• 얼마나 클러스터링이 잘 되었는지는 평가하기 위하여 특정 이슈가 발생한 일자를 선정하여 실험을 진행. 검파 드레스 논란이 이슈가 된 2 월 27 일 데이터를 선정.

• 검파 드레스 논란: 스코틀랜드 출신 가수 케이틀린 맥네일이 sns 에 올린 사진으로 보는 사람에 따라서 드레스의 색깔이 다르게 보여서 그 이유 혹은 각자 무슨 색으로 보는가에 관한 글이 지속적으로 많이 올라옴.

Page 4: 온라인 커뮤니티 상의 게시글에 대해 Louvain method와 클러스터링 기법을 적용한 내부 커뮤니티 성향 탐지 기법

3

컨텐츠 기반 분석

• 사용자가 작성한 게시글간의 유사도를 계산하여 비슷한 사용자들끼리 그룹화

• 최적의 k개의 중심점을 찾아주는 x-means 클러스터링 기법을 사용

• 각 사용자의 게시글로부터 TF-IDF를 사용, 적합한 사용자별 대표 키워드를 추출및 특징 사용

1 개요 2 Featrue 선택 3 클러스터링

Page 5: 온라인 커뮤니티 상의 게시글에 대해 Louvain method와 클러스터링 기법을 적용한 내부 커뮤니티 성향 탐지 기법

4

• TF-IDF

• 어떤 단어가 특정 문서 내에서 얼마나 중요한지를 나타내는 통계적 가중치

• TF-IDF 를 이용하여 핵심어들을 추출하고 사용자별로 사용한 단어에 대하여 TF-IDF 값을 계산.

• TF-IDF 값이 높은 상위 5000개의 단어 중 m명 이상의 사용자가 사용한 단어를 뽑아 PCA를 이용하여 200개의 feature 선정.

BTF =

|D|X

j=1

nk,jNTF =BTFi

Max{BTF} IDF = log

|D|dj : tj 2 dj

컨텐츠 기반 분석1 개요 2 Featrue 선택 3 클러스터링

Page 6: 온라인 커뮤니티 상의 게시글에 대해 Louvain method와 클러스터링 기법을 적용한 내부 커뮤니티 성향 탐지 기법

컨텐츠 기반 분석: 클러스터링• X-means

• 기존에 널리 알려진 k-means 을 확장하여 향상된 속도와 최적화된 k 값을 제공.

• 코사인유사도를 측정 기준으로 하여 x-means 클러스터링을 수행.

A, B = 두 개의 문서에서 각 feature에 해당하는 단어가 나타난 횟수 벡터

5

컨텐츠 기반 분석1 개요 2 Featrue 선택 3 클러스터링

Page 7: 온라인 커뮤니티 상의 게시글에 대해 Louvain method와 클러스터링 기법을 적용한 내부 커뮤니티 성향 탐지 기법

• 커뮤니티의 사용자 간 관계로 만들어진 네트워크 그래프에서 만들어진 서브 네트워크에 대해, 타 네트워크와의 연결성에 대한 서브 네트워크 내의 연결의 밀도를 나타내는 측정 척도로 아래와 같은 modularity Q 를 정의

• Newman, 2004

Q =1

2m

X

vw

Avw � kvkw

2m

��(cv, cw)

Avw =

⇢10if vertices v and w are connected,

otherwise.

�(cv, cw) =

⇢01if vertices v and w are not in the same community

otherwise.

kv =X

w

Avw ci : the cluster where the vertex i assignedm =1

2

X

i,j

Aij

• Modularity 값이 클수록 각 서브 네트워크 내의 연결성은 높고, 외부와의 연결성은 낮다.

6

1 Modularity 2 Model 3 Preprocessing 4 Method그래프 기반 분석

Page 8: 온라인 커뮤니티 상의 게시글에 대해 Louvain method와 클러스터링 기법을 적용한 내부 커뮤니티 성향 탐지 기법

그래프 기반 분석: Model• Clien 커뮤니티 내의 각 사용자가 하나의 정점이 됨.

• 사용자 u가 사용자 v가 작성한 글 또는 댓글에 댓글을 작성했으면 간선 (u,v)의 가중치에 2 추가.

• v가 작성한 글에 작성된 댓글에 댓글을 작성했으면 간선 (u, v)의 가중치에 1 을 추가.

• 2가 추가된 경우는 u, v간의 직접적인 상호작용이고, 1이 추가된 경우는 작성된 글을 통한 간접적인 상호작용이기 때문에 가중치에 차이를 둠.

7

1 Modularity 2 Model 3 Preprocessing 4 Method그래프 기반 분석

A, B, C, D: 사용자

Page 9: 온라인 커뮤니티 상의 게시글에 대해 Louvain method와 클러스터링 기법을 적용한 내부 커뮤니티 성향 탐지 기법

• u라는 사용자가 v라는 사용자에게 댓글을 n개 달았을 때, n > Count 이상이면 edge (u, v) 생성

• Count가 증가함에 따라 modularity가 증가하다 일정 시점이 되면 감소하는 경향을 보임

• 발생 빈도가 적은 교류에 대해서는 제외하고 분석하는 것이 performance가 좋으나 약 20회 이상 일어나는 경우 제외하지 않는 것이 좋음 (2014년 12월 데이터에 대해 count가 17일 때 modularity가 가장 높은 값을 보임)

8

1 Modularity 2 Model 3 Preprocessing 4 Method그래프 기반 분석

Page 10: 온라인 커뮤니티 상의 게시글에 대해 Louvain method와 클러스터링 기법을 적용한 내부 커뮤니티 성향 탐지 기법

• Self edge를 제외: 자신이 작성한 글에 댓글을 작성하는 경우 빈번

• Singleton들을 제외

• Singleton은 modularity가 높아지게 하지만 분석에 있어 실질적 의미가 없음.

• 기존의 모델에서 singleton과 self edge를 제외한 후 다시 계산한 modularity를 보면 제외한 경우가 제외하지 않은 경우보다 좋은 결과를 나타냄

9

1 Modularity 2 Model 3 Preprocessing 4 Method그래프 기반 분석

Page 11: 온라인 커뮤니티 상의 게시글에 대해 Louvain method와 클러스터링 기법을 적용한 내부 커뮤니티 성향 탐지 기법

• 목표: modularity가 최대가 되도록 네트워크 분할 • VD Blondel et al.

�Q =h⌃

in

+ ki,in

2m�

⇣⌃tot

+ ki

2m

⌘2i�

h⌃in

2m�

⇣⌃tot

2m

⌘2�

⇣ ki

2m

⌘2i

10

1 Modularity 2 Model 3 Preprocessing 4 Method그래프 기반 분석

Page 12: 온라인 커뮤니티 상의 게시글에 대해 Louvain method와 클러스터링 기법을 적용한 내부 커뮤니티 성향 탐지 기법

중심 사용자 분석:

• Closeness Centrality (근접 중심성)

• 자신과 연결된 모든 노드의 거리를 계산

• Betweeness Centrality (매개 중심성)

• 자신을 지나가는 최단 경로의 수

Cc(Pk) =h nX

i=1

d(Pi, Pk)i�1

CB(Pk) =h X

s 6=v 6=t2V

�(v)�st

i�1

11

1 Modularity 2 Model 3 Preprocessing 4 Method그래프 기반 분석

Page 13: 온라인 커뮤니티 상의 게시글에 대해 Louvain method와 클러스터링 기법을 적용한 내부 커뮤니티 성향 탐지 기법

실험 환경• Python 의 BeautifulSoup 라이브러리를 사용하여 커뮤니티 사이트의 게시물 정보를 가져와 MongoDB 에 저장.

• Python 한국어 정보처리 패키지인 KoNLPy를 사용하여 각 게시물에 등장하는 단어를 형태소 분석 및 추출. 단어의 등장 횟수를 카운트하여 업데이트.

• 데이터는 인터넷 커뮤니티 사이트 Clien의 2014 년 12 월 데이터를 수집하여 사용.

12

데이터 처리

Page 14: 온라인 커뮤니티 상의 게시글에 대해 Louvain method와 클러스터링 기법을 적용한 내부 커뮤니티 성향 탐지 기법

실험 결과: 컨텐츠 기반 분석

• 최소 n 명(n = 5, 10, 15) 이상의 사용자가 사용한 단어들로 feature 단어를 보정하였으며 3 번의 실험에서 모두 6 개의 클러스터로 나누어짐.

• 2번 클러스터에 드레스 이슈에 관련된 단어들이 몰려 있음을 확인.

• 가장 엄밀하게 평가한 n의 값이 15인 경우에도 2번 클러스터에 드레스 논란에 관련된 단어 (검, 사진, 색, 옷, 화골, 드레스, 눈, 흰색, 파, 골드, 논란, 검정, 화이트, 느낌, 경우, 파란색, 검파, 파랑, 조명, 금색, 빛)를 사용한 사용자들이 높은 빈도로 등장.

13

실험 결과 1 컨텐츠 기반 분석 2 그래프 기반 분석

Page 15: 온라인 커뮤니티 상의 게시글에 대해 Louvain method와 클러스터링 기법을 적용한 내부 커뮤니티 성향 탐지 기법

실험 결과: 그래프 기반 분석• 2015년 2월 27일의 데이터로 분석한 결과.

• 크기가 큰 정점이 betweenness centrality가 가장 큰 사용자, 외곽선이 두꺼운 정점이 closeness centrality가 가장 큰 사용자.

사용자 수 Betweenness 중심 Closeness 중심

37 두둠칫님 종삼님

35 리트님 Darth Vader님

34 외선님 외선님

31 PARALLEL님 PARALLEL님

29 타락천사님 타락천사님

28 고구미세트님 고구미세트님

23 일격에주님곁님 일격에주님곁님

21 류시화님 볼빨간복숭아님

21 SAVIESA님 SAVIESA님

21 스퀴니님 스퀴니님

20 Nabesna님 Nabesna님

20 Myayu님 Myayu님

15 칼킨님 칼킨님

11 클리양님 앗싸가오리님

14

실험 결과 1 컨텐츠 기반 분석 2 그래프 기반 분석

Page 16: 온라인 커뮤니티 상의 게시글에 대해 Louvain method와 클러스터링 기법을 적용한 내부 커뮤니티 성향 탐지 기법

결론

온라인 커뮤니티에서 사용자들이 올린 게시글을 수집하여 내부 커뮤니티를 탐지하는 기법 제안.그래프 기반과 컨텐츠 기반의 2가지 방법을 교차 사용하여 각 기법이 지닌 단점을 보완.분석 결과 컨텐츠 기반 기법은 특정 일에 이슈가 되었던 화제와 해당 화제를 주로 언급한 사용자의 그룹을 분석하는데 성공하였으며, 그래프 기반의 경우 사용자들의 관계를 파악하였음.향후 일정 시간대동안의 변화 상황을 반영하여 동적인 커뮤니티 탐지를 수행할 계획.

15

결론

Page 17: 온라인 커뮤니티 상의 게시글에 대해 Louvain method와 클러스터링 기법을 적용한 내부 커뮤니티 성향 탐지 기법

결론

• DE MEO, Pasquale, et al. “Generalized louvain method for community detection in large networks”, In: Intelligent Systems Design and Applications (ISDA), 2011. p. 88-93.

• AYNAUD, Thomas, GUILLAUME, J.-L, “Static community detection algorithms for evolving networks. In: Modeling and Optimization in Mobile”, Ad Hoc and Wireless Networks (WiOpt), 2010. p. 513-519

• M. E. J. Newman and M. Girvan, Finding and evaluating community structure in networks. Phys. Rev. E 69, 026113, 2004

• VD Blondel et al. Fast unfolding of communities in large networks, 2008

16

References