detecting research topics via the correlation between graphs and texts

23
論文紹介 Detecting Research Topics via the Correlation between Graphs and Texts KDD’07 August 12-15 筑波大学CS専攻1年 北川データ工学研究室 伊藤寛祥

Upload: shunya-ueta

Post on 15-Apr-2017

396 views

Category:

Engineering


1 download

TRANSCRIPT

Page 1: Detecting Research Topics via the Correlation between Graphs and Texts

論文紹介

Detecting Research Topics via the Correlation between Graphs and Texts

KDD’07 August 12-15

筑波大学CS専攻1年 北川データ工学研究室

伊藤寛祥

Page 2: Detecting Research Topics via the Correlation between Graphs and Texts

発表の流れ• 概要

• 提案手法

• 実験

• 結論

2

Page 3: Detecting Research Topics via the Correlation between Graphs and Texts

概要• 近年,トピック分析に関する研究は活発に行われている

• この論文では,リンク情報を持つ大規模なテキストデータからのトピック分析に焦点を当てる

• この論文では,グラフ分析を用いた新しいトピック検出手法を提案する

3

Page 4: Detecting Research Topics via the Correlation between Graphs and Texts

手法のアプローチ• この手法では

• 単語がトピックとして振る舞うときの文書集合における分布

• 引用関係のグラフの形状

から単語の“トピック”らしさを算出

• 単語がトピックとして振る舞うときはグラフが密に結合しているはずである

4

Page 5: Detecting Research Topics via the Correlation between Graphs and Texts

単語と引用グラフ5

α

α

α

α

α

α

α

α α

α

α

Page 6: Detecting Research Topics via the Correlation between Graphs and Texts

単語と引用関係6

α

α

αα

α

α

α

αα

α

α

α

η

η

η η

ηη

ηη

η η

ηη

η

単語αを含む文書の引用関係 単語ηを含む文書の引用関係

単語αはトピック 単語ηはトピックではない

単語の引用関係のグラフの形状から 単語のトピックらしさを算出する

Page 7: Detecting Research Topics via the Correlation between Graphs and Texts

定義• この論文で扱う“単語”は n-gram として扱う

• 例.“network”, “for the”, “association rule mining”

• 単語Aをもつ文書のグラフ  は,文書全体からなる引用グラフ の部分グラフである

• 単語Aの引用グラフ は以下で定義される

7

GA

Gall

V (GA) = {d|document d contains a term A, d 2 V (Gall)}E(GA) = {e(di, dj)|di, dj 2 G(GA), e(di, dj) 2 E(Gall)}

GA

Page 8: Detecting Research Topics via the Correlation between Graphs and Texts

トピックらしさの算出• ある単語Aが与えられた時,単語Aがトピックとして振る舞うか否かを数値として算出する

• H1  : “単語Aはトピックとして振る舞う”

• H0  : “単語Aはトピックとして振る舞わない”

•    :  の形状

• H1が与えられた時の    の尤度とH0が与えられた時の    の尤度との差をTopicScore(A)とする

8

TopicScore(A)= log(P (O(GA)|H1))� log(P (O(GA)|H0))

= log

✓P (O(GA)|H1)

P (O(GA)|H0)

O(GA)

O(GA) O(GA)

GA

Page 9: Detecting Research Topics via the Correlation between Graphs and Texts

単語グラフの形状が「トピックらしい」とは

•   における各ノードに関して,少なくとも一本   内のノードにつながるリンクが存在しているか

•    :   のノードの数

•   :   のノードのうち少なくとも一本   内につながるリンクを持つノードの数

• :単語Aをトピックと過程したとき,各ノードのリンクが少なくとも一本   内に

つながる確率(1に近い値.パラメータ)

9

GA GA

log(P (O(GA)|H1))

= log

Y

i

P (Oi(GA)|H1)

!

= nc.Alog(pc) + (nA � nc.A)log(1� pc)

nc.A

nA GA

GA GA

pc

トピックとして振る舞う単語は引用元にも存在しているは

ずである

GA

Page 10: Detecting Research Topics via the Correlation between Graphs and Texts

トピックらしさ

• 単純なリンクの多さで“トピックらしさ”を算出することは不可能

10

Page 11: Detecting Research Topics via the Correlation between Graphs and Texts

単語グラフの形状が「トピックらしくない」とは

•   における各ノードに関して少なくとも一本  におけるノードにランダムにつながっていないか

11

GA GA

単語Aはストップワードではないか

• H0は,“単語Aはストップワードとして振る舞う”

Page 12: Detecting Research Topics via the Correlation between Graphs and Texts

単語グラフの形状が「トピックらしくない」とは

•   における各ノードに関して少なくとも一本  におけるノードにランダムにつながっていないか

12

GA GA

GA

GA   におけるノード i においてランダム

な選出で  内にリンクがつながる確率GA

nA � 1

N � 1

??

   におけるノード i においてランダムな選出

で  内に一本でもリンクがつながる確率

GA

GA

1�✓1� nA � 1

N � 1

◆li

li :ノード i における引用リンクの総数N :グラフ全体におけるノードの数

Page 13: Detecting Research Topics via the Correlation between Graphs and Texts

単語グラフの形状が「トピックらしくない」とは

•   における各ノードに関して少なくとも一本  におけるノードにランダムにつながっていないか

13

GA GA

log(P (O|H0))

=X

i

log(P (Oi(GA)|H0))

=X

i2Vc(GA)

log

1�

✓1� nA � 1

N � 1

◆li!

+X

i2(V (GA)�Vc(GA))

li log

✓1� nA � 1

N � 1

Vc(GA) : におけるノードのうち少なくとも 一本  にリンクを持つノード

GA

GA

Page 14: Detecting Research Topics via the Correlation between Graphs and Texts

実験 1• 論文データベースでこの手法の有用性を検証する

• ArXiv • 物理学が中心の論文データベース

• 1991~2006年の主要な7分野の論文を取得

• 214,546件の論文,2,165,170の引用リンクを取得

• 論文の内容は,アブストラクト,引用情報

• 137,098単語(bi-gram)に関して解析(出現頻度があまりに少ない単語は除去)

14

Page 15: Detecting Research Topics via the Correlation between Graphs and Texts

ArXivにおけるトピックらしい単語ランキング:上位15

n :   におけるノード数GA

nc :  におけるノード のうち,少なくとも一本   へつながるリンク を持っているノード数

GA

GA

|E| :  におけるノードが 持つリンクの総数GA

Page 16: Detecting Research Topics via the Correlation between Graphs and Texts

ArXivにおけるトピックらしい単語ランキング:下位16

ランキング下位は ストップワード

TopicScore = log(P (O(GA)|H1))� log(P (O(GA)|H0))

帰無仮説が優位になったため

Page 17: Detecting Research Topics via the Correlation between Graphs and Texts

ArXivにおけるトピックらしい単語ランキング:中位17

1,971位 : “two-dimensional qcd” のグラフ

かなり粒度の細かい トピックまで発見できる

Page 18: Detecting Research Topics via the Correlation between Graphs and Texts

グラフのノード数とランキングの関係18

縦軸:log(グラフのノード数) 横軸:単語のランク

Page 19: Detecting Research Topics via the Correlation between Graphs and Texts

実験 2• CiteSeerX

• 計算機科学に関する論文データベース

• 1994~2004年の論文を取得

• 716,771件の論文,1,740,326の引用リンクを取得

• 論文の内容は,タイトル,アブストラクト,引用情報

• 631,839単語(bi-gram)に関して解析(出現頻度があまりに少ない単語は除去)

19

Page 20: Detecting Research Topics via the Correlation between Graphs and Texts

CiteSeerXにおけるトピックランキングの変遷20

1999年までの文書からのトピック

2000年からの文書 からのトピック

1999年までのランキングには存在しなかった単語が上位に

Page 21: Detecting Research Topics via the Correlation between Graphs and Texts

トピックの発展• 全文書における,トピックを含む文書の割合からトピックの流行度を算出

21

・縦軸:トピックを持つ 文書の割合

・横軸:年

Page 22: Detecting Research Topics via the Correlation between Graphs and Texts

トピックの発展22

Page 23: Detecting Research Topics via the Correlation between Graphs and Texts

結論• この論文では,グラフの形状と単語の分布の関係からトピックらしい単語を検出する手法を提案した

• トピックらしさによる単語のランキング

• ストップワードの検出

• ランキングによるトピックの粒度の算出

• 単語の流行度の算出

23