wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

25
1 Wikipedia を用いた Web検索結果の多様性の改善 2013/01/28

Upload: logicaldash

Post on 24-May-2015

179 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

1

Wikipedia を用いた Web検索結果の多様性の改善

2013/01/28

Page 2: Wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

2

出典

Wikipedia as Sense Inventory to Improve Diversity in Web Search ResultsCelina Santamaria, Julio Gonzalo and Javier ArtilesACL 2010

Page 3: Wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

3

Web検索結果の多様性の改善

クエリw語義A

語義B

語義C

Google検索結果

1 A2 A3 A 4 B5 A6 A7 A8 B9 A10 B …100

再ランキング

1 A2 B3 C 4 B5 A6 C7 A8 B9 C10 B …100

クエリw

検索結果ページp

w

w

語義曖昧性解消

A

語彙資源(Wikipedia)

トップ10はAばかりCについてはない

トップ10をA,B,C均一化

Page 4: Wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

4

概要

問題提起: 知識ベースを用いて単一多義語クエリによるWeb検索結果の多様性を改善できるか?

WordNetとWikipediaの比較実験

実験結果(1) 語義のカバー率: Wikipedia >> WordNet

(2) 検索結果中の検索語の語義分布を Wikipediaの内部リンク構造を使って推定

(3) WebページをWikipediaの語義で分類することで, GoogleランキングよりもWikipediaの語義を70%多くカバー

Page 5: Wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

5

1 動機(背景)

語義曖昧性解消(以下WSD)の情報検索への応用

M. Sanderson, 2000単語の意味, 意図をインデキシングすることで, 検索における多義性や同義性の問題をうまく扱えるのではないか

✖ クエリが長い場合, 暗にWSDがされている(TREC, CLEF) ✖非常に短いクエリの場合, WSDは不可能(Web検索エンジン)

Web検索での語義曖昧性の処理方法(1) 検索結果ランキングの多様化の促進(Clarke et al., SIGIR 2008)(2) 検索結果をラベル付きクラスタリング(Carpineto et al., 2009)(3) 検索提案によるナビゲーション(Anick, ACM SIGIR 2003)

Page 6: Wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

6

2 テストセット2.1 単語セット

40個の名詞(単一語クエリ)

・Web検索エンジンで単一語クエリとして用いられやすい・1つ以上の固有表現を表す・一部Sensevalで使われている(WSDの先行研究との比較)

(1) Senseval-3 lexical sample dataset から15の名詞(2) 曖昧で,音楽バンドを表す意味を持つ25の語

各名詞について, 考えられる語義をWordNet3.0とWikipediaのWSDページを使って調べる

Wikipedia : average 22 意味/単語 (Band:25.2, Senseval: 16.1)WordNet : 4.5 (Band:3.12, Senseval: 6.13)

Page 7: Wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

7

2 テストセット2.1 単語セット

Senseval set :argument, arm, atmosphere, bank, degree, difference, disc, image, paper, party, performance, plan, shelter, sort, source

band setamazon, apple, camel, cell, columbia, cream, foreigner, fox, genesis, jaguar, oasis, pioneer, police, puma, rainbow, shell, skin, sun, tesla, thunder, total, traffic, trapeze, triumph, yes

Page 8: Wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

8

2 テストセット2.2 文書セット

各名詞につきGoogle検索結果上位150文書各文書のスニペットとHTMLをストア

→ 利用できる上位100文書を利用 (計4,000文書)

Page 9: Wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

9

2 テストセット2.3 人手による文書の注釈付け

注釈: (単語,文書) : [語義,...]数人の注釈者1. 各注釈者が4,000の(単語,文書)の語義を決定2. 注釈者で話し合って総意を得る

仮定: "1つの文書に対し1つの語義"

ほぼ正しい複数のWordNetの語義が割り当てられた文書はわずか9つWikipedia : 44(全注釈付けされたページの1.1%)

Page 10: Wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

10

3 Web検索結果のカバレッジ: Wikipedia vs WordNet

bandsコーパスの検索結果上位10で Wikipediaは68%のカバー率Wikipediaが多様性を向上し検索結果のクラスタリングに役立つ

Page 11: Wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

11

3 Web検索結果のカバレッジ: Wikipedia vs WordNet

Wikipedia使えば, WordNetは不要

Total

WordNet

Wikipedia

26

29

41

3

Page 12: Wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

12

4 Google 検索結果の多様性

検索結果がWikipediaの語義からどの程度多様性を重視しているか

多様性はランキング結果では重視されてないWikipedia 中の平均語義個数は22各単語の最頻出語義の頻度: 平均63%

Page 13: Wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

13

5 Wikipediaにおける語義頻度の推定

語義の分布を推定し, WSDアルゴリズムに活用

各名詞の各語義wiにおける 3つの値

(1) 人手で各wiに割り当てられたwで検索された文書の割合

(2) inlinks(wi): w

i のページへのWikipedia内の相対内部リンク数

(3) visits(wi): w

i のページへの相対訪問数

両推定器の線形結合: freq(wi) = k*inlinks(w

i) +(1-k)*visits(w

i)

重み: (k,1-k), k = 0,0.1,...,0.9,1

テストセット中の相対頻度との相関(線形回帰相関係数)で推定精度を評価k=0.9のとき,最大の相関0.73

Page 14: Wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

14

6 Wikipediaの語義とWebページの関連

検索結果を検索結果中のクエリ語の語義で分類

2つの異なる技法1 基本的なIRアプローチ, ベクトル空間モデル(以下VSM)2 最新の教師ありWSDシステムに基づくアプローチ, Wikipediaのコンテンツから自動的に教師データを抽出

2つのベースライン1 ランダム割り当て(精度は語義数の逆数)2 語義頻度を推定し, 最頻出の語義を全ての文書に割り当てる

Page 15: Wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

15

6.1 VSM(ベクトル空間モデル) アプローチ

各語義のWikipediaページと文書pをベクトル表現(TF-IDF)最もpとのcos類似度が高いWikipediaページの語義

語義頻度の推定を使うアプローチ複数の語義の類似度スコアが近い場合, 最大推定頻度の語義を選択

Page 16: Wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

16

6.1 VSMアプローチ : IDFの計算

1. VSM 検索された文書(単語が考慮される)のコレクション中での 文書頻度の逆数を計算

2. VSM-GT Google Terabyte コレクション(Web 1T 5-gram Corpus) から得られた統計を利用

3. VSM-mixed 1,2の組み合わせ(Chen et al., ACM 2009)

Page 17: Wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

17

6.2 WSD アプローチ最新の教師ありWSDシステムTiMBL (Daelemans et al., 2001)

Wikipediaから自動的に教師データを抽出する方法各語義(単語と意味のセット)に対し, 3つの教師データを用意1 各語義のWikipediaページ2 各語義のWikipediaページへリンクしているWikipediaページ3 各語義のWikipediaページへリンクしている外部ページ

3はノイズが多すぎるので除外1 page: w

Wikipedia

page

w 2 内部リンク

3 外部リンク

page

w

Page 18: Wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

18

6.2 WSD アプローチ

1 TiMBL-core: 1だけを用いてトレーニング2 TiMBL-inlinks: 2だけを用いてトレーニング3 TiMBL-all : 1,2両方を用いてトレーニング

単語wの語義に基づいてページpを分類 1 p中のwのWSDを行う2 TiMBLの結果に従い, ページ中で最頻出の語義を選択

TiMBL-core+freq2つ以上の語義が同数の場合, どの語義も30%に達しなかった場合語義頻度推定器に基づいて最頻出の語義を選択

Page 19: Wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

19

6.3 分類結果

表4 分類結果精度(正解数/全予想数)評価

TiMBL WSDとVSMは同等の結果(0.67 vs 0.69) VSMのほうがシンプルで効率的

VSMとほぼ変わらない

大きな差

TiMBL-core(.60)→TiMBL-core+freq(.67)

Page 20: Wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

20

6.4 精度とカバレッジのトレードオフ

0.8→0.5

0.9→0.7

Page 21: Wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

21

6.5 分類を用いた多様性の向上

検索結果をランキングし直し, トップ10を作成トップ10中の語義の種類数とカバレッジを評価

カバレッジ=トップ10中の語義の種類全検索結果中の語義の数

・本手法: Wikipediaを活用(後述)・クラスタリング(クラスタ数: 10) , HAC (Artiles, 2009) ・クラスタリング1: 各クラスタのセントロイド ・クラスタリング2: 各クラスタのGoogleランキングトップ・ランダム: 全検索結果からランダムに10個・上限: 語義の種類数とカバレッジの上限

本手法: 検索結果文書中の検索語の語義で分類クラスタリング: 検索結果文書間の類似度でクラスタリング

Page 22: Wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

22

6.5 分類を用いた多様性の向上

検索語

文書

文書

文書

語義

Wikipedia

文書

文書

文書

語義

Wikipedia

文書

文書

文書

語義

Wikipedia

類似度

VSM-GT+freq

Page 23: Wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

23

6.5 分類を用いた多様性の向上

大幅な改善

改善なし

Page 24: Wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

24

7 関連研究

Web検索結果のクラスタリングと多様性

検索結果の多様性の改善にWikipediaを明示的に利用した先行研究はない

Gollapudi and Sharma, 2009検索結果の多様化アルゴリズムの評価指標として利用検索結果の文書とWikipediaページの類似度を計算

Carmel et al., 2009Wikipediaを用いた自動クラスタラベリング文書から直接抽出した重要タームを用いたラベリングよりも,人手でのクラスタラベリングに合致

Page 25: Wikipedia as sense_inventory_to_improve_diversity_in_web_search_results3

25

8 結論

一般的な語彙資源が, 曖昧な単一語クエリによるWeb検索結果の多様性を向上するのに役立つか

WordNetとWikipediaを比較(1) Wikipediaは良い語義のカバレッジを持ち,本タスクに適切

(2) 検索結果の語義分布はWikipediaの内部リンクを用いて 推定可能

(3) WebページをWikipediaの語義に関連付け, 従来の検索エンジンのランキングより70%多くの Wikipediaの語義をカバーするようにランキングを修正