2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索...

24
2回目 情報検索の適用と評価 422

Upload: others

Post on 18-Jan-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク

2回目 情報検索の適用と評価

4月22日

Page 2: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク

情報検索の適用例と関連技術

サーチエンジン

情報フィルタリング

文書の自動分類

言語横断情報検索

マルチメディア情報検索

情報抽出

マーケティングツール

Page 3: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク

サーチエンジン

GoogleGooYahoo!LYCOSなど

メタ・サーチャー

Page 4: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク

サーチエンジンの構成

World WideWebユーザ

検索システムインデックス・データベース

ロボット(スパイダー,クローラー)

照合

インデキシング

Webページ収集

検索質問 検索結果

Page 5: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク

情報フィルタリング

検索質問が長期的(静的)

情報ストリームよりユーザの興味や関心のある記事を抜き出す.不要な情報を削除する.

具体例

電子メールからユーザに興味のある記事を推定する

インターネット上の未成年者にとって不適切なサイトへのアクセス制御

Page 6: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク

文書の自動分類

WWWのインデックスサイト(Yahoo!など)Webページを内容やトピックに応じて階層的に分類

一般的なトピック検索ではきわめて有用

ページの分類や索引付けを人手で行うためサーチエンジンに比べると小規模

文書の自動分類の必要性

Page 7: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク

文書の自動分類の分類

与えられた文書の内容があらかじめ設定されているカテゴリ(たとえば,政治,経済,科学など)のいずれに属するかを決定するもの

類似した文書をグループ化(クラスタリング)することにより文書集合全体をいくつかのグループに分割するもの

Page 8: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク

言語横断情報検索

検索対象となる文書とは異なる言語で検索質問を与えることができる

Page 9: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク

マルチメディア情報検索

内容型検索:マルチメディア情報そのものから得られる特徴量に基づき類似検索を行う.

画像の検索

映像の検索

音声の検索

Page 10: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク

情報抽出

TipsterのMUCIREX

Page 11: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク

マーケティングツール

顧客ニーズの解析

Amazon.comなどで利用されている.

Page 12: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク

情報検索システムの評価尺度

情報検索システムの有効性

再現率と適合率

再現率・適合率曲線

平均適合率

その他の評価尺度

Page 13: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク

情報検索システムの有効性

評価指標

適合性(relevance):検索質問に対して,客観的に見て適合する文書を検索したか?

適切性(pertinence):検索質問に対して,ユーザが目的とする文書を検索したか?

有用性(usefullness):ユーザにとって役立つ文書を検索したか

Page 14: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク

再現率と適合率

適合性に基づく評価

完全性:検索質問に適合する文書をもれなく検索しているか?...再現率正確性:検索質問に適合する文書だけを検索しているか?...適合率

Page 15: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク

再現率と適合率2

再現率(recall):完全性を評価するための尺度であり,検索対象となる文書集合の中の検索質問に適合する文書のうち,実際に検索された文書の割合を示す.検索漏れの少なさを示す尺度である.

適合率(precision):正確性を評価するための尺度であり,検索された文書集合の中で,検索質問に適合する文書の割合を示す.検索ノイズの少なさを示す尺度である.

Page 16: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク

再現率と適合率3

全文書集合

適合文書 検索された文書

A BC

BC

AC

==

==

検索された文書の数

合文書の数検索された文書中の適適合率

数全文書中の適合文書の

合文書の数検索された文書中の適再現率

Page 17: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク

再現率・適合率曲線

適合率

での適合率再現率レベル iR

iR 再現率

Page 18: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク

再現率・適合率曲線2

iR

適合率

ABC

再現率

Page 19: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク

平均適合率

平均適合率:各再現率レベルでの適合率の平均値(適合文書が検索された時点での適合率の平均)

n点平均適合率:あらかじめ決められたn個の再現率レベルでの適合率の平均値

Page 20: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク

その他の評価尺度

R適合率:上位からR番目までの検索結果を出力した時点での適合率

F尺度

E尺度

PR

F 112

+=

PRb

bE1

11 2

2

+

+−=

Page 21: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク

問題

検索システムが右のような検索結果を出したとします.

右の表を見て平均適合率,R適合率(R=2),F尺度,E尺度(b=0.5)を計算しなさい.ただし文書数100,適合文書10

○5×4○3×2○1適合性順位

Page 22: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク

情報検索用テスト・コレクション

テストコレクション

情報検索コンテスト

Page 23: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク

テスト・コレクション

文書集合

検索質問集合

適合情報

Page 24: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク

情報検索コンテスト

TRECIREXNTCIR

NTCIR4言語横断検索タスク

特許検索タスク

質問応答タスク

テキスト要約タスク

Webタスク情報指向検索,ナビゲーション指向検索,地理情報,トピック分類