unsupervised graph-based topic labelling using dbpedia
DESCRIPTION
SEXI/WSDM2013 読み会にて発表した内容 beamerは筑波大学を拝借TRANSCRIPT
. . . . . .
.
......
Unsupervised Graph-based Topic Labelling usingDBpedia
Authors: Ioana Hulpus, Conor Hayes, Derek GreeneSEXI/WSDM2013読み会
@Quasi-quant2010
Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 1 / 21
. . . . . .
Outline
.. Content
...1 Abstruct動機
主要結果
...2 分析の流れ
フレームワーク
実行例
定式化
...3 DBpediaからのグラフ作成Sense Graph Connectivity within a Topic Graphラべリング
...4 実験
データ
評価方法
結果
Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 2 / 21
. . . . . .
Abstruct 動機
.. Outline
...1 Abstruct動機
主要結果
...2 分析の流れ
フレームワーク
実行例
定式化
...3 DBpediaからのグラフ作成Sense Graph Connectivity within a Topic Graphラべリング
...4 実験
データ
評価方法
結果
Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 3 / 21
. . . . . .
Abstruct 動機
...1 文書からラベル抽出をする LDAモデル等には現実的でない仮定正しいラベルは必ずしも文書に存在するとは限らない
正しいラベルを判定できるほどコーパスが十分とは限らない
...2 これらの問題を外部情報を付加する事で解決したい
...3 著者が 2012に発表した Eigen-WSDと DBpedia(外部情報)の組み合わせモデルと、確率モデルとの比較実験を行った
Q. Mei, X. Shen, and C. Zhai. Automatic labeling of multinomialtopic models. In SIGKDD ’07, pages 490-499, 2007
Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 4 / 21
. . . . . .
Abstruct 主要結果
.. Outline
...1 Abstruct動機
主要結果
...2 分析の流れ
フレームワーク
実行例
定式化
...3 DBpediaからのグラフ作成Sense Graph Connectivity within a Topic Graphラべリング
...4 実験
データ
評価方法
結果
Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 5 / 21
. . . . . .
Abstruct 主要結果
...1 ラベルが持つ意味の包括範囲がベースラインモデルより向上
...2 ラベルの正確性がベースラインモデルより向上
Figure : 1,縦軸:Precision, Coverage,横軸 top-k. Precision is the relevance fora topic at top-k. Coverage is the topics with at least one Hit at rank
Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 6 / 21
. . . . . .
分析の流れ フレームワーク
.. Outline
...1 Abstruct動機
主要結果
...2 分析の流れ
フレームワーク
実行例
定式化
...3 DBpediaからのグラフ作成Sense Graph Connectivity within a Topic Graphラべリング
...4 実験
データ
評価方法
結果
Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 7 / 21
. . . . . .
分析の流れ フレームワーク
.. The Canopy Framework : Four main components
...1 トピック抽出コーパスに LDAを適用しトピックを抽出
...2 the word-sense disambiguation (WSD)The WSD determines a set Cθ of DBpedia concepts, where eachC ∈ Cθ represents the identified sense of one of the top-k words ofa topic.
...3 グラフ抽出a good candidate set by extracting a topic graph G from DBpediaconsisting of the close neighbours of concepts Ci and the linksbetween themwe investigate how to define the relation r(Cθ,C∗)
...4 抽出したグラフへのラべリングWe adopt principles from social network analysis to identify in G themost prominent concepts for labelling a topic θ
Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 8 / 21
. . . . . .
分析の流れ 実行例
.. Outline
...1 Abstruct動機
主要結果
...2 分析の流れ
フレームワーク
実行例
定式化
...3 DBpediaからのグラフ作成Sense Graph Connectivity within a Topic Graphラべリング
...4 実験
データ
評価方法
結果
Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 9 / 21
. . . . . .
分析の流れ 実行例
..
Unsupervised Graph-based Topic Labelling usingDBpedia
Figure : 2Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 10 / 21
. . . . . .
分析の流れ 定式化
.. Outline
...1 Abstruct動機
主要結果
...2 分析の流れ
フレームワーク
実行例
定式化
...3 DBpediaからのグラフ作成Sense Graph Connectivity within a Topic Graphラべリング
...4 実験
データ
評価方法
結果
Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 11 / 21
. . . . . .
分析の流れ 定式化
Let Cθ be a set of n DBpedia concepts Ci , i = 1,...n, thatcorrespond to a subset of the top-k words representing one topicThe problem is to identify the concept C∗ from all availableconcepts in DBpedia, such that the relation r(Cθ,C∗) is done byCentrality
Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 12 / 21
. . . . . .
DBpedia からのグラフ作成 Sense Graph Connectivity within a Topic Graph
.. Outline
...1 Abstruct動機
主要結果
...2 分析の流れ
フレームワーク
実行例
定式化
...3 DBpediaからのグラフ作成Sense Graph Connectivity within a Topic Graphラべリング
...4 実験
データ
評価方法
結果
Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 13 / 21
. . . . . .
DBpedia からのグラフ作成 Sense Graph Connectivity within a Topic Graph
.. 計測法
PairConnectivityCθ=
∑Ci∈Cθ,Cj∈Cθ IndicatorFunct(Vi ∩ Vj ̸= 0)
|Cθ|(Cθ − 1)
111トピックによる検証では、PairConnectivityの基本統計量が以下のようになった;
...1 NonRandom平均 0.46標準偏差 0.07
...2 RandomShuffle平均 0.07標準偏差 0.02.
従って、DBpediaを用いた Eigen-WSDにより得られたトピックグラフ内の意味グラフは互いに共通する偶然でない要素がある
Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 14 / 21
. . . . . .
DBpedia からのグラフ作成 ラべリング
.. Outline
...1 Abstruct動機
主要結果
...2 分析の流れ
フレームワーク
実行例
定式化
...3 DBpediaからのグラフ作成Sense Graph Connectivity within a Topic Graphラべリング
...4 実験
データ
評価方法
結果
Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 15 / 21
. . . . . .
DBpedia からのグラフ作成 ラべリング
.. 中心性
...1 一般的:最短経路のみ考慮Closeness centralityBetweenness centrality
...2 最短経路でなく、ネットワークの接続全接続可能性を考慮Information centralityRandom walk betweenness centrality
...3 筆者が採用した方法Focused Closeness Centrality(fCC)Focused Information Centrality(fIC)Focused Betweenness Centrality(fBC)Focused Random Walk Betweenness Centrality(fRWB)
The above measures fCC; fIC; fBC and fRWB are the ones thatwe experimented with for defining the target function r, whichquantifies the strength of the relation between each candidateconcept and all other concepts in the topic graph G
Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 16 / 21
. . . . . .
実験 データ
.. Outline
...1 Abstruct動機
主要結果
...2 分析の流れ
フレームワーク
実行例
定式化
...3 DBpediaからのグラフ作成Sense Graph Connectivity within a Topic Graphラべリング
...4 実験
データ
評価方法
結果
Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 17 / 21
. . . . . .
実験 データ
British AcademicWritten English Corpus
BBC corpus
StackExchange dataset
ただし、ストップ URLによりデータ圧縮
Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 18 / 21
. . . . . .
実験 評価方法
.. Outline
...1 Abstruct動機
主要結果
...2 分析の流れ
フレームワーク
実行例
定式化
...3 DBpediaからのグラフ作成Sense Graph Connectivity within a Topic Graphラべリング
...4 実験
データ
評価方法
結果
Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 19 / 21
. . . . . .
実験 評価方法
モニターユーザーに ”Good Fit”, ”Too Broad”, ”Related but not a goodlabel”, ”Unrelated”というラベルをつけさせ、評価には以下の 2つのクラスに分類したデータを使用;
...1 Good FitGood Fit
...2 Good-Fit-or-BroaderGood FitToo Broad
Precision(k) =Hits with rank ≤ k
k
Coverage(k) =topics with at least one Hit at rank ≤ k
topics
Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 20 / 21
. . . . . .
実験 結果
.. Outline
...1 Abstruct動機
主要結果
...2 分析の流れ
フレームワーク
実行例
定式化
...3 DBpediaからのグラフ作成Sense Graph Connectivity within a Topic Graphラべリング
...4 実験
データ
評価方法
結果
Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 21 / 21
. . . . . .
実験 結果
Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 21 / 21
. . . . . .
実験 結果
Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 21 / 21