detecting research topics via the correlation between graphs and texts

論文紹介

Detecting Research Topics via the Correlation between Graphs and Texts

KDD’07 August 12-15

筑波大学CS専攻１年　北川データ工学研究室

伊藤寛祥

発表の流れ• 概要

• 提案手法

• 実験

• 結論

2

概要• 近年，トピック分析に関する研究は活発に行われている

• この論文では，リンク情報を持つ大規模なテキストデータからのトピック分析に焦点を当てる

• この論文では，グラフ分析を用いた新しいトピック検出手法を提案する

3

手法のアプローチ• この手法では

• 単語がトピックとして振る舞うときの文書集合における分布

• 引用関係のグラフの形状

から単語の“トピック”らしさを算出

• 単語がトピックとして振る舞うときはグラフが密に結合しているはずである

4

単語と引用グラフ5

α

α

α

α

α

α

α

α α

α

α

単語と引用関係6

α

α

αα

α

α

α

αα

α

α

α

η

η

η η

ηη

ηη

η η

ηη

η

単語αを含む文書の引用関係単語ηを含む文書の引用関係

単語αはトピック単語ηはトピックではない

単語の引用関係のグラフの形状から単語のトピックらしさを算出する

定義• この論文で扱う“単語”は n-gram として扱う

• 例．“network”, “for the”, “association rule mining”

• 単語Aをもつ文書のグラフ　　は，文書全体からなる引用グラフの部分グラフである

• 単語Aの引用グラフは以下で定義される

7

GA

Gall

V (GA) = {d|document d contains a term A, d 2 V (Gall)}E(GA) = {e(di, dj)|di, dj 2 G(GA), e(di, dj) 2 E(Gall)}

GA

トピックらしさの算出• ある単語Aが与えられた時，単語Aがトピックとして振る舞うか否かを数値として算出する

• H1　　: “単語Aはトピックとして振る舞う”

• H0　　: “単語Aはトピックとして振る舞わない”

• 　　　：　の形状

• H1が与えられた時の　　　の尤度とH0が与えられた時の　　　の尤度との差をTopicScore(A)とする

8

TopicScore(A)= log(P (O(GA)|H1))� log(P (O(GA)|H0))

= log

✓P (O(GA)|H1)

P (O(GA)|H0)

◆

O(GA)

O(GA) O(GA)

GA

単語グラフの形状が「トピックらしい」とは

• 　　における各ノードに関して，少なくとも一本　　　内のノードにつながるリンクが存在しているか

• 　　　：　　　のノードの数

• 　：　　　のノードのうち少なくとも一本　　内につながるリンクを持つノードの数

• ：単語Aをトピックと過程したとき，各ノードのリンクが少なくとも一本　　　内に

つながる確率（１に近い値．パラメータ）

9

GA GA

log(P (O(GA)|H1))

= log

Y

i

P (Oi(GA)|H1)

!

= nc.Alog(pc) + (nA � nc.A)log(1� pc)

nc.A

nA GA

GA GA

pc

トピックとして振る舞う単語は引用元にも存在しているは

ずである

GA

トピックらしさ

• 単純なリンクの多さで“トピックらしさ”を算出することは不可能

10

単語グラフの形状が「トピックらしくない」とは

• 　における各ノードに関して少なくとも一本　　におけるノードにランダムにつながっていないか

11

GA GA

単語Aはストップワードではないか

• H0は，“単語Aはストップワードとして振る舞う”



12

GA GA

GA

GA　　　におけるノード i においてランダム

な選出で　　内にリンクがつながる確率GA

nA � 1

N � 1

??

　　　におけるノード i においてランダムな選出

で　　内に一本でもリンクがつながる確率

GA

GA

1�✓1� nA � 1

N � 1

◆li

li ：ノード i における引用リンクの総数N ：グラフ全体におけるノードの数



13

GA GA

log(P (O|H0))

=X

i

log(P (Oi(GA)|H0))

=X

i2Vc(GA)

log

1�

✓1� nA � 1

N � 1

◆li!

+X

i2(V (GA)�Vc(GA))

li log

✓1� nA � 1

N � 1

◆

Vc(GA) : におけるノードのうち少なくとも一本　　にリンクを持つノード

GA

GA

実験 1• 論文データベースでこの手法の有用性を検証する

• ArXiv • 物理学が中心の論文データベース

• 1991~2006年の主要な７分野の論文を取得

• 214,546件の論文，2,165,170の引用リンクを取得

• 論文の内容は，アブストラクト，引用情報

• 137,098単語(bi-gram)に関して解析（出現頻度があまりに少ない単語は除去）

14

ArXivにおけるトピックらしい単語ランキング：上位15

n : 　　におけるノード数GA

nc :　　におけるノードのうち，少なくとも一本　　へつながるリンクを持っているノード数

GA

GA

|E| :　　におけるノードが持つリンクの総数GA

ArXivにおけるトピックらしい単語ランキング：下位16

ランキング下位はストップワード

TopicScore = log(P (O(GA)|H1))� log(P (O(GA)|H0))

帰無仮説が優位になったため

ArXivにおけるトピックらしい単語ランキング：中位17

1,971位 : “two-dimensional qcd” のグラフ

かなり粒度の細かいトピックまで発見できる

グラフのノード数とランキングの関係18

縦軸：log(グラフのノード数) 横軸：単語のランク

実験 2• CiteSeerX

• 計算機科学に関する論文データベース

• 1994~2004年の論文を取得

• 716,771件の論文，1,740,326の引用リンクを取得

• 論文の内容は，タイトル，アブストラクト，引用情報

• 631,839単語(bi-gram)に関して解析（出現頻度があまりに少ない単語は除去）

19

CiteSeerXにおけるトピックランキングの変遷20

1999年までの文書からのトピック

2000年からの文書からのトピック

1999年までのランキングには存在しなかった単語が上位に

トピックの発展• 全文書における，トピックを含む文書の割合からトピックの流行度を算出

21

・縦軸：トピックを持つ文書の割合

・横軸：年

トピックの発展22

結論• この論文では，グラフの形状と単語の分布の関係からトピックらしい単語を検出する手法を提案した

• トピックらしさによる単語のランキング

• ストップワードの検出

• ランキングによるトピックの粒度の算出

• 単語の流行度の算出

23

detecting research topics via the correlation between graphs and texts

Engineering