web ページのグループ化による 静的動的スコアリング

72
Web ペペペペペペペペペペペペ ペペペペペペペペペペ 大大大大大大大大大 大大大大大大 大大大大大大大 039606 大大大

Upload: willoughby-roland

Post on 03-Jan-2016

31 views

Category:

Documents


0 download

DESCRIPTION

Web ページのグループ化による 静的動的スコアリング. 大阪教育大学大学院 教育学研究科 数理情報コース 039606 中窪仁. 背景. WWW 空間上には膨大な情報が存在 必要な情報のみの抽出は困難 ロボット型 Web 検索システム 大量の情報を蓄積 全文検索により必要と思われる情報を抽出 全文検索のみによる検索精度向上は困難. 他の手法と全文検索を併用し,精度向上を図る. 関連研究. リンク構造解析による手法 PageRank アルゴリズム 各 Web ページの有用性を示す Scam Web *1 の影響を受けにくい HITS アルゴリズム - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Web ページのグループ化による 静的動的スコアリング

Web ページのグループ化による

静的動的スコアリング

大阪教育大学大学院 教育学研究科 数理情報コース

039606 中窪仁

Page 2: Web ページのグループ化による 静的動的スコアリング

背景

• WWW 空間上には膨大な情報が存在– 必要な情報のみの抽出は困難

• ロボット型 Web 検索システム– 大量の情報を蓄積– 全文検索により必要と思われる情報を抽出– 全文検索のみによる検索精度向上は困難

他の手法と全文検索を併用し,精度向上を図る

Page 3: Web ページのグループ化による 静的動的スコアリング

関連研究

• リンク構造解析による手法– PageRank アルゴリズム

• 各 Web ページの有用性を示す• Scam Web*1 の影響を受けにくい

– HITS アルゴリズム• 各 Web ページの有用性を示す• 類似情報をもつ Web ページ群の抽出が可能

*1 Scam Web: Web ページのスコアをあげるため,複数ダミーページからリンクを行う構造

Page 4: Web ページのグループ化による 静的動的スコアリング

PageRank アルゴリズム概要

• 基本概念– ランダムウォークモデル– リンク行為=リンク先 Web ページの推薦– 推薦元 Web ページの質と推薦数を考慮

• スコアの特徴– 各 Web ページの遷移確率を表す固定値– 検索語句に左右されない静的スコア

Page 5: Web ページのグループ化による 静的動的スコアリング

HITS アルゴリズム概要

• 基本概念– Web ページを 2 種類の観点で評価

• 情報源として有用な Web ページ( Authority )• リンク集として有用な Web ページ( Hub )

• スコアの特徴– 類似情報をもつ Web ページ群を抽出可能– 検索語句に左右される動的スコア

Page 6: Web ページのグループ化による 静的動的スコアリング

各既存手法の問題点

• PageRank アルゴリズム– リンク行為=推薦行為?

• 特定ページ以外へのリンクを拒否する Web サイト

• 掲示板などの揮発性情報

• HITS アルゴリズム– 既知の問題

• 常に適切なコミュニティを抽出できるとは限らない

Page 7: Web ページのグループ化による 静的動的スコアリング

各既存手法の問題点解決案

• PageRank アルゴリズム– 問題発生の原因

• リンク構造上隣接関係を基にしていること

– 問題解決案• 再帰的に解決されるリンク構造上隣接関係を

考慮– アルゴリズムの拡張– リンク構造の拡張

リンク元

リンク先

中継点×

中継によりリンク元の影響力が減衰

Page 8: Web ページのグループ化による 静的動的スコアリング

各既存手法の問題点解決案

• HITS アルゴリズム– 問題発生の原因

• 検索語句に関係ない Web ページが考慮されること

– 問題解決案• アルゴリズム適用対象の精査

– 検索語句との関連性を考慮

全文検索結果集合

アルゴリズム適用範囲

検索語句に無関係の Web ページが存在

Page 9: Web ページのグループ化による 静的動的スコアリング

提案手法

• グループ化– Web ページを一定法則においてグループ

化• 静的 / 動的スコアリング

– グループ化を併用しリンク構造解析を適用• ランキング

– 複数スコアの併合により最終評価を決定

Page 10: Web ページのグループ化による 静的動的スコアリング

ランキング

提案システム文書データ

リンク構造デー

動的スコア #2

静的スコア

グルー

プ化

動的スコア #1

全文検索スコア

全文検索結果

スコアリング

Page 11: Web ページのグループ化による 静的動的スコアリング

グループ化

• 目的– リンク構造上隣接関係の拡張– Web ページ集合への意味付与

• 基本概念– 類似情報をもつ Web ページ集合をグループ化

• 類似情報:同一作成者 / 同一コンテンツ扱い• 2 種類の方式:ディレクトリ構造 / リンク構造

– グループ内リンク構造を削除

Page 12: Web ページのグループ化による 静的動的スコアリング

• リンク構造方式• ディレクトリ構造方式

グループ化アルゴリズム

B

C E

DAB

C E

DA

Document Root

HTML Root

Document Root

HTML Root

Page 13: Web ページのグループ化による 静的動的スコアリング

静的スコアリング

• 目的– Web ページの重要度を決定– PageRank アルゴリズム問題点を軽減

• 基本概念– スコアリング対象は全 Web ページ– グループ化済みリンク構造を解析 / 評価

Page 14: Web ページのグループ化による 静的動的スコアリング

• リンク構造方式• ディレクトリ構造方式

静的スコアリング例

B

C E

DA

HG

F

B

C E

DA

HG

F

B

C E

DA

H

F

G

B

C E

DA

H

F

G

Web Site Web Site

Page 15: Web ページのグループ化による 静的動的スコアリング

動的スコアリング

• 目的– 検索語句依存の Web ページ重要度を決定– HITS アルゴリズム問題点を軽減

• 基本概念– スコアリング対象は全文検索結果集合– グループ化なしリンク構造を解析 / 評価( #

1 )– グループ化ありリンク構造を解析 / 評価( #

2 )

Page 16: Web ページのグループ化による 静的動的スコアリング

Y

• 動的スコア #2• 動的スコア #1

動的スコアリング例

V W X

U

Z

Y

V W X

U

Z

Retrieved Documents Retrieved Documents

Page 17: Web ページのグループ化による 静的動的スコアリング

ランキング

• 目的– 複数スコアを併合し,最終的なスコアを決

定• 基本概念

– 各スコアの特性を生かす併合方式を採用• 重み付け加算を利用

– 重み係数の適正値は実験により決定

– 各スコアの粒度を揃えた上で併合• 各スコアに累乗根を適用

Page 18: Web ページのグループ化による 静的動的スコアリング

実験

• 目的– 提案手法の有効性を検証– 既存手法との比較検証

• 実験項目– グループ化評価– 全文検索 / 静的 / 動的スコア単体評価– 併合スコア評価 / 重み係数最適値検証

Page 19: Web ページのグループ化による 静的動的スコアリング

プロトタイプ

• 全文検索– 可変長グラムベースインデクス– tf-idf 法 + 確率モデルによるスコアリング– スコアリング結果上位 2500件を抽出

• リンク構造解析– PageRank アルゴリズムによるスコアリン

Page 20: Web ページのグループ化による 静的動的スコアリング

検索対象

• NTCIR-4 Web テストコレクション *2

– 文書データ• NW100G-01 (元 HTML データ 100GB分)• Web ページ総数:約 1100万Web ページ

– リンク構造データ• リンク総数:約 8000万リンク

*2 NTCIR: 情報検索システム評価用テストコレクション構築プロジェクト( NII-NACSIS Test Collection for IR Systems )

Page 21: Web ページのグループ化による 静的動的スコアリング

検索課題

• NTCIR-4 Web Task B Formal Run– 検索課題総数: 300課題

• 有効課題数: 197課題

• 本実験で利用した検索課題– 検索課題数: 77課題

• NTCIR-4 Web における有効課題より抽出– 全文検索による抽出文書数が一定数以上の検索課題

Page 22: Web ページのグループ化による 静的動的スコアリング

評価手法

• Weighted Reciprocal Rank ( WRR )–高適合文書の抽出ランクを評価

• Discounted Cumulative Gain ( DCG )– 適合文書抽出の連続性を評価

• 11 点平均適合率(適合率,再現率)– 特定再現率における適合率を評価

• 累積適合課題数– 適合文書抽出課題数を評価

Page 23: Web ページのグループ化による 静的動的スコアリング

グループ化処理結果

Web ページ数

最小値 1

平均値 5

最大値 30,466

中央値 1• グループあたり Web ページ数に偏り

– グループあたりリンク数に影響する可能性

グループ化手法の再検討が必要

Page 24: Web ページのグループ化による 静的動的スコアリング

グループ化処理結果比較

静的スコアリング 動的スコアリンググループ

化なし あり なし あり

ノード数 23,670,000 4,500,000 192,500 124,041

リンク数 79,700,000 18,140,000 95,848 120,292• 静的スコアリング:ノード数減 / リンク数減• 動的スコアリング:ノード数減 / リンク数増

提案手法において期待した処理結果

>>

><

Page 25: Web ページのグループ化による 静的動的スコアリング

各スコアリング結果比較

全文検索 静的スコア 動的スコアグループ

化- なし あり なし あり

最小値 2.283 7.314E-9 3.344E-8 6.846E-5 7.675E-5

平均値 10.389 4.223E-8 2.223E-7 4.000E-4 6.369E-4

最大値 30.260 2.613E-4 4.199E-7 4.863E-1 5.687E-2

中央値 9.482 8.386E-9 2.261E-7 7.012E-5 5.101E-4

グループ化によるスコアの平均化

→適合文書の抽出能力低下

Page 26: Web ページのグループ化による 静的動的スコアリング

各スコアリング結果比較

グループ化有無でスコア分布傾向が変化最大値:グループ化なし > グループ化あり最小値:グループ化なし < グループ化あり

全文検索 静的スコア 動的スコアグループ

化- なし あり なし あり

最小値 2.283 7.314E-9 3.344E-8 6.846E-5 7.675E-5

平均値 10.389 4.223E-8 2.223E-7 4.000E-4 6.369E-4

最大値 30.260 2.613E-4 4.199E-7 4.863E-1 5.687E-2

中央値 9.482 8.386E-9 2.261E-7 7.012E-5 5.101E-4

<<><

<<><

Page 27: Web ページのグループ化による 静的動的スコアリング

各スコアリング評価Weighted Reciprocal Rank

0.00

0.01

0.02

0.03

0.04

0.05

0 20 40 60 80 100Ranks

WRR V

alue

s tf- idf

StaticN

StaticG

DynamicN

DynamicG

グループ化あり静的スコア単体では適合文書抽出不可能

Page 28: Web ページのグループ化による 静的動的スコアリング

各スコアリング評価Weighted Reciprocal Rank

0.00

0.01

0.02

0.03

0.04

0.05

0 20 40 60 80 100Ranks

WRR V

alue

s tf- idf

StaticN

StaticG

DynamicN

DynamicG

動的スコアはランクにより優位性が変化

Page 29: Web ページのグループ化による 静的動的スコアリング

静的スコアリング評価結果詳細

手法別 適合文書抽出課題数

49%

12%

12%26%

13% 1%

グループ化ありグループ化なし

グループ化有無未抽出

グループ化ありグループ化なし

グループ化なし: 61% / グループ化あり: 13%

Page 30: Web ページのグループ化による 静的動的スコアリング

動的スコアリング評価結果詳細

手法別 適合文書抽出課題数

19%

13%17%

37%

27%

14%

グループ化ありグループ化なし

グループ化有無未抽出

グループ化ありグループ化なし

グループ化なし: 32% / グループ化あり: 31%

Page 31: Web ページのグループ化による 静的動的スコアリング

各スコアリング手法特徴

静的スコアリング グループ化なし

グループ化あり

スコアの分布範囲 広 狭スコアリング効果発揮

帯高ランク帯 低ランク帯

ランクへの影響度 高 低適合課題中の占有率 82% 18%

動的スコアリング グループ化なし

グループ化あり

スコアの分布範囲 広 狭スコアリング効果発揮

帯低ランク帯 高ランク帯

ランクへの影響度 同等 同等適合課題中の占有率 42% 58%

Page 32: Web ページのグループ化による 静的動的スコアリング

スコア併合式検討

• 各スコア単体ではランクへの影響が微小• グループ化有無でスコアの特徴が正反対

• 特定のスコアをベースにスコア併合を行う– 全文検索スコアをベースと扱う

• グループ化有無ともに併合を行う– グループ化なし静的スコアを考慮

Page 33: Web ページのグループ化による 静的動的スコアリング

検討後スコア併合式

• 併合スコア( p ) = Wr× 全文検索スコア( p ) +静的スコア( p ) +動的スコア( p )

• 静的スコア( p ) = Ws1× グループ化なし静的スコア( p )

+Ws2× グループ化あり静的スコア( p )

• 動的スコア( p ) = Wd1× 動的スコア #1 ( p ) +Wd2× 動的スコア #2 ( p )

Page 34: Web ページのグループ化による 静的動的スコアリング

0.000.020.040.060.080.100.120.14

(2,1,

*,0,0)

[ 1]

(2,2,

1,0,0)

[ 4]

(2,2,

2,0,0)

[ 5]

(1,1,

*,0,0)

[ 6]

(2,2,

2,0,1)

[ 10

]

(2,2,

2,0,2)

[ 20

]

(2,2,

2,1,0)

[ 22

]

(2,2,

0,2,0)

[ 58

]

(1,0,

1,2,1)

[160

]

(1,0,

0,2,2)

[161

]

(1,0,

0,2,1)

[162

]

Method(Wr,Wsn,Wsg,Wd1,Wd2) & Result

WRR V

alue

s

Rank 10Rank 100

適正重み係数調査結果

… … … …

動的スコアなし 動的スコア #1 or #2 単体

動的スコア併合

(Wr, Ws1, Ws2, Wd1, Wd2) [ Rank ]Wr = {1, 2}, Wx = {0, 1, 2}, x {∈ s1, s2, d1, d2}

Page 35: Web ページのグループ化による 静的動的スコアリング

vs. “tf-idf+PageRank”Weighted Reciprocal Rank

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0 20 40 60 80 100Ranks

WRR V

alue

s tf- idf

tf- idf +PageRank提案手法

+180%

+6%

Page 36: Web ページのグループ化による 静的動的スコアリング

vs. “tf-idf+PageRank”11 点平均適合率

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Recall

Pre

cisi

on

tf- idf

tf- idf +PageRank

提案手法

+6%

+140%

Page 37: Web ページのグループ化による 静的動的スコアリング

提案手法考察グループ化

• 手法– 各グループの粒度に格差

• 効果– 静的スコアリング:ノード数減 / リンク数

減– 動的スコアリング:ノード数減 / リンク数増グループ化の有効性を確認

グループ化手法については再検討が必要

Page 38: Web ページのグループ化による 静的動的スコアリング

提案手法考察静的スコアリング

• グループ化適用によるスコアへの影響– スコア適用先が変更

• グループ化なしスコアと異なる文書にスコアリング

– スコアの平均化• ランキングへの影響度が減少

既存手法では抽出できない文書を抽出可能ランキングを大きく変動させることは不可能

Page 39: Web ページのグループ化による 静的動的スコアリング

提案手法考察動的スコアリング

• 精度面で非常に劣る結果–不適合文書を多く抽出

• グループ化精度の影響

• 各スコアリングの特徴– #1 :既存手法と同様の文書に僅かな影響

力– #2 :既存手法と異なる文書に大きな影響

力グループ化手法検討後に再実験が必要

Page 40: Web ページのグループ化による 静的動的スコアリング

提案手法考察ランキング

• 評価結果– 動的スコアを併合しない算出式が最良結果

• グループ化精度の影響

– 既存手法に比べ 6%程度の精度向上• スコア併合式 / 適正重み係数

–今回の実験では決定不可能

提案手法による精度向上を確認

Page 41: Web ページのグループ化による 静的動的スコアリング

まとめ

• グループ化によるランキング手法を提案– 各提案手法の有効性を確認– 提案手法による精度向上を確認

• 今後の課題– グループ化手法の再検討– スコア併合式 / 適正重み係数の検討

Page 42: Web ページのグループ化による 静的動的スコアリング

ありがとうございました

Page 43: Web ページのグループ化による 静的動的スコアリング

付録

Page 44: Web ページのグループ化による 静的動的スコアリング

PageRank アルゴリズム例

53

50

100

5050

93

3

3

Page 45: Web ページのグループ化による 静的動的スコアリング

Base

HITS アルゴリズム例

H: 0A: 0.408

H: 0A: 0.816

H: 0A: 0.408

H: 0.408A: 0

H: 0.408A: 0

H: 0.408A: 0

• スコアリング

Root

• 適用手順

Page 46: Web ページのグループ化による 静的動的スコアリング

スコア併合式

• 併合スコア( p ) = Wr× 全文検索スコア( p ) +Ws× 静的スコア( p ) +Wd× 動的スコア( p )

• 動的スコア( p ) = Wd1× 動的スコア #1 ( p ) +Wd2× 動的スコア #2 ( p )

Page 47: Web ページのグループ化による 静的動的スコアリング

評価方式

• NTCIR-4 Web Task B 適合判定結果–多値適合レベル

• 高適合,適合,部分適合,不適合の 4 レベル

– 適合文書• 高適合,適合,部分適合

–不適合文書• 不適合

Page 48: Web ページのグループ化による 静的動的スコアリング

処理時間

全文検索 所要時間全文検索用インデクス作成 2080min.

検索課題あたり平均検索時間 707msec.

リンク構造解析 所要時間ドキュメント ID→PageRank スコア算出用

データ40min.

グループ化なし静的スコアリング 1004min.

グループ化あり静的スコアリング 4min.

PageRank スコア算出結果→ドキュメントID

14min.

グループ化なし動的スコアリング 16min.

グループ化あり動的スコアリング 20min.

Page 49: Web ページのグループ化による 静的動的スコアリング

ディスク /メモリ使用量

全文検索 外部記憶使用量元データ 100GB

インデクス 30.2GB

リンク構造解析 外部記憶使用量リンク構造データ 10GB

PageRank スコア算出用データ 1.5GB

リンク構造解析 内部記憶使用量PageRank スコア算出プログラ

ム1.6GB

Page 50: Web ページのグループ化による 静的動的スコアリング

各スコアリング評価Discounted Cumulative Gain

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0 20 40 60 80 100Ranks

DC

G V

alue

s tf- idf

StaticN

StaticG

DynamicN

DynamicG

Page 51: Web ページのグループ化による 静的動的スコアリング

各スコアリング評価累積適合課題数

0

5

10

15

20

25

30

35

0 20 40 60 80 100Ranks

Top

ics

tf- idf

StaticN

StaticG

DynamicN

DynamicG

Page 52: Web ページのグループ化による 静的動的スコアリング

各スコアリング評価11 点平均適合率

0.00

0.01

0.02

0.03

0.04

0.05

0.06

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Recall

Pre

cisi

on

tf- idf

StaticN

StaticG

DynamicN

DynamicG

Page 53: Web ページのグループ化による 静的動的スコアリング

各スコアリング評価比較

全文検索 静的スコア 動的スコアグループ化 - × ○ × ○

WRR 10 0.03090 0.03510 0 0.00162 0.00325

100 0.03895 0.04307 0.00043 0.00619 0.00492

DCG 10 0.19169 0.21926 0 0.00866 0.02417

100 0.43771 0.65954 0.02146 0.09893 0.09364

累積課題 10 9 9 0 1 1

100 29 23 2 9 8

Page 54: Web ページのグループ化による 静的動的スコアリング

各スコアリング評価比較Weighted Reciprocal Rank

0.00

0.01

0.02

0.03

0.04

0.05

tf-idf

StaticN

StaticG

Dyna

micN

Dyna

micG

Method

WRR V

alue

s

Rank 10Rank 100

Page 55: Web ページのグループ化による 静的動的スコアリング

各スコアリング評価比較Discounted Cumulative Gain

0.00.10.20.30.40.50.60.7

tf-idf

StaticN

StaticG

Dyna

micN

Dyna

micG

Method

DC

G V

alue

s

Rank 10Rank 100

Page 56: Web ページのグループ化による 静的動的スコアリング

各スコアリング評価比較累積適合課題数

05

101520253035

tf-idf

StaticN

StaticG

Dyna

micN

Dyna

micG

Method

Top

ics

Rank 10Rank 100

Page 57: Web ページのグループ化による 静的動的スコアリング

スコア粒度調整

• 全文検索スコア– 最小値: 2.2831– 最大値: 30.2596

• リンク構造解析スコア– 最小値: 7.3143E-9– 最大値: 4.8634E-1

2乗根を適用

101 のオーダーに圧縮(対応範囲:1~100)

16乗根を適用

10-1 のオーダーに圧縮(対応範囲: 1~ 1.0E-16 )

Page 58: Web ページのグループ化による 静的動的スコアリング

全文検索スコアベース静的スコアリング評価比較

全文検索 静的スコアグループ化 - × ○ ×○

WRR 10 0.03090 0.09665 0.02960 0.10314

100 0.03895 0.10574 0.03872 0.11225

DCG 10 0.19169 0.56869 0.18330 0.56989

100 0.43771 1.31375 0.43811 1.32008

累積課題 10 9 17 8 17

100 29 37 29 37

Page 59: Web ページのグループ化による 静的動的スコアリング

全文検索スコアベース評価比較

Weighted Reciprocal Rank

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0 20 40 60 80 100Ranks

WRR V

alue

s (1,0,0,0,0)(1,1,0,0,0)(1,0,1,0,0)(1,1,1,0,0)(1,0,0,1,0)(1,0,0,0,1)(1,0,0,1,1)(1,1,1,1,1)

Page 60: Web ページのグループ化による 静的動的スコアリング

全文検索スコアベース評価比較

Discounted Cumulative Gain

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

0 20 40 60 80 100Ranks

DC

G V

alue

s (1,0,0,0,0)(1,1,0,0,0)(1,0,1,0,0)(1,1,1,0,0)(1,0,0,1,0)(1,0,0,0,1)(1,0,0,1,1)(1,1,1,1,1)

Page 61: Web ページのグループ化による 静的動的スコアリング

全文検索スコアベース評価比較

累積適合課題数

0

5

10

15

20

25

30

35

40

0 20 40 60 80 100Ranks

Top

ics

(1,0,0,0,0)(1,1,0,0,0)(1,0,1,0,0)(1,1,1,0,0)(1,0,0,1,0)(1,0,0,0,1)(1,0,0,1,1)(1,1,1,1,1)

Page 62: Web ページのグループ化による 静的動的スコアリング

全文検索スコアベース評価比較

11 点平均適合率

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Recall

Pre

cisi

on

(1,0,0,0,0)(1,1,0,0,0)(1,0,1,0,0)(1,1,1,0,0)(1,0,0,1,0)(1,0,0,0,1)(1,0,0,1,1)(1,1,1,1,1)

Page 63: Web ページのグループ化による 静的動的スコアリング

全文検索スコアベース評価比較

Weighted Reciprocal Rank

0.00

0.02

0.04

0.06

0.08

0.10

0.12

(1,0,

0,0,0)

(1,1,

0,0,0)

(1,0,

1,0,0)

(1,1,

1,0,0)

(1,0,

0,1,0)

(1,0,

0,0,1)

(1,0,

0,1,1)

(1,1,

1,1,1)

Method

WRR V

alue

s

Rank 10Rank 100

Page 64: Web ページのグループ化による 静的動的スコアリング

全文検索スコアベース評価比較

Discounted Cumulative Gain

0.00.20.40.60.81.01.21.4

(1,0,

0,0,0)

(1,1,

0,0,0)

(1,0,

1,0,0)

(1,1,

1,0,0)

(1,0,

0,1,0)

(1,0,

0,0,1)

(1,0,

0,1,1)

(1,1,

1,1,1)

Method

DC

G V

alue

s

Rank 10Rank 100

Page 65: Web ページのグループ化による 静的動的スコアリング

全文検索スコアベース評価比較

累積適合課題数

0

10

20

30

40

(1,0,

0,0,0)

(1,1,

0,0,0)

(1,0,

1,0,0)

(1,1,

1,0,0)

(1,0,

0,1,0)

(1,0,

0,0,1)

(1,0,

0,1,1)

(1,1,

1,1,1)

Method

DC

G V

alue

s

Rank 10Rank 100

Page 66: Web ページのグループ化による 静的動的スコアリング

適正重み係数調査結果上位 3パターン

全文検索

提案手法( 1,1,1,0,

0 )( 2,2,1,0,

0 )( 1,1,2,0,

0 )

WRR 10 0.03090 0.103139 0.103139 0.103139

100 0.03895 0.112253 0.112279 0.112088

DCG 10 0.19169 0.569888 0.568694 0.566949

100 0.43771 1.320078 1.314444 1.316460

累積課題 10 9 17 17 17

100 29 37 37 37

Page 67: Web ページのグループ化による 静的動的スコアリング

上位 3パターン評価結果比較Weighted Reciprocal Rank

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0 20 40 60 80 100Ranks

WRR V

alue

s tf- idf

(1,1,1,0,0)

(2,2,1,0,0)

(1,1,2,0,0)

Page 68: Web ページのグループ化による 静的動的スコアリング

上位 3パターン評価結果Discounted Cumulative Gain

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

0 20 40 60 80 100Ranks

DC

G V

alue

s tf- idf

(1,1,1,0,0)

(2,2,1,0,0)

(1,1,2,0,0)

Page 69: Web ページのグループ化による 静的動的スコアリング

上位 3パターン評価結果累積適合課題数

0

5

10

15

20

25

30

35

40

0 20 40 60 80 100Ranks

Top

ics

tf- idf

(1,1,1,0,0)

(2,2,1,0,0)

(1,1,2,0,0)

Page 70: Web ページのグループ化による 静的動的スコアリング

上位 3パターン評価結果11 点平均適合率

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Recall

Pre

cisi

on

tf- idf

(1,1,1,0,0)

(2,2,1,0,0)

(1,1,2,0,0)

Page 71: Web ページのグループ化による 静的動的スコアリング

Vs tf-idf+PageRank Discounted Cumulative Gain

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

0 20 40 60 80 100Ranks

DC

G V

alue

s tf- idf

tf- idf +PageRank提案手法

Page 72: Web ページのグループ化による 静的動的スコアリング

Vs tf-idf+PageRank累積適合課題数

0

5

10

15

20

25

30

35

40

0 20 40 60 80 100Ranks

Top

ics

tf- idf

tf- idf +PageRank提案手法