iir 輪講復習 #8 evaluation in information retrieval

Post on 13-Jan-2016

49 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

IIR 輪講復習 #8 Evaluation in information retrieval. お知らせ. たつをさんによる補足情報 http://chalow.net/clsearch.cgi?cat=IIR 復習資料おきば http://bloghackers.net/~naoya/iir/ppt/. 参考. http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html 本資料は書籍の輪読会に向けたサマリ 本資料内で一部上記ドキュメント , スライドからの引用あり. 8 章のテーマ. - PowerPoint PPT Presentation

TRANSCRIPT

IIR 輪講復習#8 Evaluation in information retr

ieval

お知らせ

たつをさんによる補足情報 http://chalow.net/clsearch.cgi?cat=IIR

復習資料おきば http://bloghackers.net/~naoya/iir/ppt/

参考

http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html

本資料は書籍の輪読会に向けたサマリ 本資料内で一部上記ドキュメント , スライド

からの引用あり

8 章のテーマ

検索結果の妥当性評価 テストの方法 定量的な評価指標 フォーマルな指標とユーザー有用性のギャッ

テストの方法

テストに必要なもの

文書のコレクション クエリ群 ( 情報ニーズ ) 適合性 (relevance) 判定の集合

r(qi, dj) = 0 or 1

情報ニーズ

適合性はクエリではなく情報ニーズと比較して評価されるべき

クエリだけでは適合かどうかは不明 「心臓発作の危険を減らすためには白ワイン

より赤ワインってほんと ? 」 → wine red white heart attack effective

∴ 人力による適合性判定データが必要

標準的なテストコレクション

Cranfield パイオニア。現在では小さすぎる

TREC NIST による Text Retrieval Conference で使われたもの。 450 の情報ニーズ、 189 万文書

GOV2 NIST による。現在研究目的に利用できる最大の Web コレクション。 2,500 万ページ

NTCIR 東アジア言語、クロス言語にフォーカス。 TREC と同程度の規模。

CLEF ヨーロッパ言語と言語横断情報検索に集中

Reuters Reuter-21578, Reuter-RCV1 。テキスト分類のために最もよく使われてきた。 RCV1 は 806,791 文書

20 Newsgroups Usenet の 20 グループの記事。テキスト分類で広く利用される。 18,941 記事。

※ 最近は Wikipedia のアーカイブも良く利用されるとか。

検索結果の評価

サマリ

ランク付けなしの検索結果の評価 基本 Precision と Recall P と R のトレードオフ指標 → F 値

ランク付けされた検索結果の評価 Presicion - Recall 曲線

補完適合率 曲線を調べる統計手法 ... 11 point interpolated average precision

→ より良い統計指標に MAP MAP では判断しづらい物 (Web 検索 etc) → Precision-top K → R-Prec

ision ほか

ROC 曲線 NDCG

情報ニーズに対する適合性の評価 kappa statistic

ランク付けなしの検索結果の評価

Precision と Recall

Precision ... 適合率 Recall ... 再現率

Precision

検索結果にゴミが入ってない率

Recall

検索して適合した文書を適合文書全体からどれだけ拾えたか率

比喩

チョコと酢昆布をまとめて取れるクレーンゲームでチョコが欲しい !

Precision ... 取って来たものがチョコばかりだったら嬉しい 「酢昆布とかいらねーし」

Recall ... ゲーム台にあるチョコ全部取れたら嬉しい 「チョコ全部欲しいし」

チョコ ... relevant な検索結果 酢昆布 ... non-relevant な検索結果

分割表と P, R

Accuracy は適切でない

情報ニーズに対して 99% が non relevant 全部 non relevant にすると Accuracy が高くなってしまう

Precision と Recall のトレードオフ

全ドキュメントを返すと R = 1 ゲーム台にあるの全部の景品を取る ... チョ

コは全部手に入る。「チョコ全部欲しいし」→ OK!

「酢昆布いらねーし」な人は超不満 Precision → 0

F 値 (F measure)

P と R のトレードオフの指標 加重調和平均

αは P と R の重み P も R も同価値なら α = 0.5 → β = 1

F 値考察

P ≦ 1, R ≦ 1 → F ≦ 1

なぜ調和平均 ? 相加平均は不適切 ... R か P を 100% にす

るとどんなに極端でも 50% は稼げてしまう 調和平均なら ok 。トレードオフを表現する

のに適切。

Recall 70% での各指標グラフ

ランク付けありの検索結果の評価

ランクありの検索結果

Precision, Recall, F 値は集合ベースの方法 → ランクありでは拡張する必要あり

検索された文書の集合 = top K の検索結果

Precision - Recall 曲線

top K に対する Precision - Recall 曲線

Interpolated Precision (Pinterp)

11 point interpolated average precision

recall を 0.0 → 1.0 まで 0.1 刻み 情報ニーズごとに、各 recall level の Pint

erp の平均

8.2 → 11point... の結果グラフ

※ グラフを見て妙な特異点がないかなどを調査する

MAP

Mean Average Precision 複数の情報ニーズへの評価を一つの値にまとめる指標

"Average precision" を各情報ニーズに付いて算出 → それを全情報ニーズについて平均したもの

MAP式

Q 情報ニーズの集合 mj 適合文書の数 R set of ranked retrieval results

MAP の特徴

適合文書が全くない = 0 一つの情報ニーズに対して Average Preci

sion は Precision - Recall 曲線に近似 MAP は Precision - Recall 曲線の平均エ

リアを表現する IR システム毎に MAP を求めて比較する

MAP で判断できないケース

MAP は全 recall level に渡る指標 Web 検索では top 10 から 30 の preci

sion が重要 → precision at K, R-Precision

R-Precision

set of relevant document of size ... |Rel| として top Rel 個の Precision を調べる。Precision at K より○

完璧なシステムでは ... 例 : 100 ドキュメントに 8 つの適合文書、

検索結果 top 20 完璧なシステムなら r = 8 Precision at K ... r / K → 8 / 20 = 0.4 R-Precision ... |Rel| = 8 → r / |Rel| = 8/8 = 1

R-Precision の考察

R-Precision は precision - recall 曲線に渡る有効性ではない → あくまで曲線の一点

曲線の最高点 → F 値 R-Precision は損益分岐点

P = R = r / |Rel|

その他の指標

ROC 曲線

縦軸を recall 、横軸を false-positive 率 ( fp / (fp + tn) ) ... " 見えたゴミ率 "

ゴミが見えるのをどの程度許容できたら recall が上がるか

NDCG

"marginal" な適合性判断を加味した指標 機械学習による適合性判断をした場合な

どに使われる

情報ニーズに対する適合性の評価

適合性の評価

そもそも適合とは 主観的な判断 そのテストデータが真に適合かどうか →

統計指標でその品質を算出

kappa 統計

社会学 判断の一致率 カテゴリの判断のために設計された " 偶然の一致 " を補正する統計指標

Kappa = P(A) – P(E) / 1 – P(E) 0 ... 偶然の一致 1 ... 完全に一致

Kappa Measure: Example (from lecture08...ppt)

Number of docs

Judge 1 Judge 2

300 Relevant Relevant

70 Nonrelevant Nonrelevant

20 Relevant Nonrelevant

10 Nonrelevant relevant

Kappa Example (from lecture08...ppt)

P(A) = 370/400 = 0.925 P(nonrelevant) = (10+20+70+70)/800 = 0.2125 P(relevant) = (10+20+300+300)/800 = 0.7878 P(E) = 0.2125^2 + 0.7878^2 = 0.665 Kappa = (0.925 – 0.665)/(1-0.665) = 0.776

Kappa > 0.8 = good agreement 0.67 < Kappa < 0.8 -> “tentative conclusions”

(Carletta ’96) Depends on purpose of study For >2 judges: average pairwise kappas

8 章 その他の話題 ( 読み物的 )

検索結果のフォーマルな指標以外に、ユーザーが快適度を判断する軸

検索スピード、ユーザビリティ、 etc 二値判断でなく "marginal" な判断をどう加味する

定量的な評価 vs 人間の主観による評価 A/B testing

Snnipets 静的 / 動的

top related