資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by...

39
資資資資資資資資資資資資 資資資資資資資資 29 資 (1999 資 5 資 ) by 資資資 資資資 資資資資資資資資資

Post on 19-Dec-2015

227 views

Category:

Documents


6 download

TRANSCRIPT

Page 1: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

資訊檢索系統測試集之比較

圖書與資訊學刊第 29 期 (1999 年 5 月 )

by 江玉婷,陳光華台大圖資所碩士論文

Page 2: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 2

測試集 (Test Collections)

組成要素 文件集 (Document Set; Document Collection) 查詢問題 (Query; Topic) 相關判斷 (Relevant Judgement)

用途 設計與發展 : 系統測試 評估 : 系統效能 (Effectiveness) 之測量 比較 : 不同系統與不同技術間之比較

評比 根據不同的目的而有不同的評比項目 量化的測量準則,如 Precision 與 Recall

Page 3: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 3

測試集 (Test Collections) ( 續 )

小型測試集 早期 : Cranfield

英文 : SMART, OHSUMED, Cystic Fibrosis, LISA….

日文 : BMIR-J2

大型評比環境 : 提供測試集及研討的論壇 美國 : TREC

日本 : NTCIR, IREX,

歐洲 : AMARYLLIS

Page 4: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

表一、各測試集之基本資料

相關判斷層次

測試集 文件數文件集大小

(MB)平均字數

/文件

查詢問題數 平均字數

/查詢問題

平均相關文件數

/查詢問題主題領域

相關

不相關

語文

Cranfield II 1,400 1.6 53.1 225 9.2 7.2 太空動力學 4 1 英文ADI 82 0.04 27.1 35 14.6 9.5 文獻學 N/A 英文MEDLARS 1,033 1.1 51.6 30 10.1 23.2 醫學 2 2 英文TIME 423 1.5 570 24 16.0 8.7 世界情勢 N/A 英文CACM 3,204 2.2 24.5 64 10.8 15.3 ACM通訊 N/A 英文CISI 1,460 2.2 46.5 112 28.3 49.8 資訊科學 N/A 英文

NPL 11,429 3.1 20.0 100 7.2 22.4 電子、電腦、物理、地理

N/A 英文

INSPEC 12,684 N/A 32.5 84 15.6 33.0 物理、電子、控制

2 1 英文

ISILT 800 N/A N/A 63 N/A 8.4 文獻學 1 1 英文UKCIS 27,361 N/A 182 193 N/A 57 生化 2 2 英文UKAEA 12,765 N/A N/A 60 N/A N/A 核子科學 2 1 英文LISA 6,004 3.4 N/A 35 N/A 10.8 N/A N/A 英文CysticFibrosis

1,239 N/A 49.7 100 6.8 6.4-31.9 醫學 6 1 英文

OSHUMED 348,566 N/A 250 101 10 17/19.4 N/A 2 1 英文BMIR-J2 5,080 N/A 621.8 60 102.2 10.6/28.4 經濟、工程 2 1 日文TREC(TREC-1~6)

1,754,896 ~5GB 481.6 350 105.8 185.3 多主題 1 1 英文

AMARYLLIS 336,000 201 N/A 56 N/A N/A 多主題 N/A 法文NTCIR 300,000 N/A N/A 100 N/A N/A 多主題 2 1 日文IREX N/A N/A N/A N/A N/A N/A 多主題 2 1 日文

Page 5: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 5

Cranfield II

比較 33 種不同索引方式之檢索效益蒐集 1400 篇有關太空動力學的文件 ( 摘要形式 )請每位作者根據這些文件與其當時研究的主題提出問題,經篩選後產生 200 餘個查詢問題

Page 6: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 6

Cranfield II (Continued)

Cranfield II 測試集中相關判斷建立四個步驟 首先請提出查詢問題的建構者對文件後所附之引用及參考文獻進

行相關判斷 接著請五位該領域的研究生將查詢問題與每篇文件逐一檢視,共

花了 1500 小時進行了 50 萬次以上的相關判斷,希望能找出所有的相關文件。

為了避免前述過程仍有遺漏,又利用文獻耦合的概念計算文件間之相關性,發掘更多的可能相關文件。若有兩篇以上的文獻共同引用了一篇或多篇論文,則稱這些文獻間具有耦合關係。

最後,將以上找出的所有文件,再一併送回給原作者進行判斷。

Page 7: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 7

TREC ~簡介

TREC: Text REtrieval Conference主辦 : NIST 及 DARPA ,為 TIPSTER 文件計劃之子

計劃之一 文件集

5GB 以上 數百萬篇文件

Page 8: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 8

Volume Revised SourcesSize

(M B )Docs

Median #Terms/Doc

Mean #Terms/Doc

1March1994

Wall Street Journal, 1978-1989

Associated Press newswire, 1989

Computer Selects Articles, Ziff-Davis

Federal Register, 1989

Abstracts of U.S. DOE publications

267

254

242

260

184

98,732

84,678

75,180

25,960

226,087

245

446

200

391

111

434.0

473.9

473.0

1315.9

120.4

2March1994

Wall Street Journal, 1990-1992(WSJ)

Associated Press newswire(1988)(AP)

Computer Selects articles, Ziff-Davis(ZIFF)

Federal Register(1988)(FR88)

242

237

175

209

74,520

79,919

56,920

19,860

301

438

182

396

508.4

468.7

451.9

1378.1

3March1994

San Jose Mercury News, 1991

Associated Press newswire, 1990

Computer Selects articles, Ziff-Davis

U.S. patents, 1993

287

237

345

243

90,257

78,321

161,021

6,711

379

451

122

4445

453.0

478.4

295.4

5391.0

4 May 1996

The Financial Times, 1991-1994(FT)

Federal Register, 1994(FR94)

Congressional Record, 1993(CR)

564

395

235

210,158

55,630

27,922

316

588

288

412.7

644.7

1373.5

5April1997

Foreign Broadcast Information Service(FBIS)

Los Angeles Times (1989, 1990)

470

475

130,471

131,896

322

351

543.6

526.5

RoutingTestData

Foreign Broadcast Information Service(FBIS) 490 120,653 348 581.3

TREC 文件集

Page 9: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 9

TREC 之文件標示

<DOC>

<DOCN0>FT911-3</DOCN0>

<PROFILE>AN-BE0A7AAIFT</PROFILE>

<DATE>910514 </DATE>

<HEADLINE>

FT 14 MAY 91 / International Company News: Contigas plans DM900m east German project

</HEADLINE>

<BYLINE>

By DAVID GOODHART

</BYLINE>

<DATELINE>

BONN

</DATELINE>

<TEXT>

CONTIGAS, the German gas group 81 per cent owned by the utility Bayernwerk, said yesterday that it intends to investDM900m (Dollars 522m) in the next jour years to build a new gas distribution system in the east German state ofThuringia. …

</TEXT>

</DOC>

Page 10: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 10

TREC-1 and TREC-2 查詢主題<top><head> Tipster Topic Description<num> Number: 037<dom> Domain: Science and Technology<title> Topic: Identify SAA components<desc> Description:Document identifies software products which adhere to IBM's SAA standards.<narr> Narrative:To be relevant, a document must identify a piece of software which is considered a Systems ApplicationArchitectural (SAA) component or one which conforms to SAA.<con> Concept(s):1. SAA2. OfficeVision3. IBM4. Standards, Interfaces, Compatibility<fac> Factor(s):<def> Definition(s):OfficeVision - A series of integrated office automation applications from IBM that runs across all of itsmajor coputer families.Systems Application Architecture (SAA) - A set of IBM standards that provide consistent userinterfaces, programming interfaces, and communications protocols among all IBM computers frommicro to mainframe.</top>

Page 11: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 11

TREC-3 查詢主題

<top>

<num> Number: 177

<title> Topic: English as the Official Language in U.S.

<desc> Description:

Document will provide arguments supporting the making of English the standard language of theU.S.

<narr> Narrative:

A relevant document will note instances in which English is favored as a standard language.Examples are the positive results achieved by immigrants in the areas of acceptance, greatereconomic opportunity, and increased academic achievement. Reports are also desired whichdescribe some of the language difficulties encountered by other nations and groups of nations, e.g.,Canada, Belgium, European Community, when they have opted for the use of two or morelanguages as their official means of communication. Not relevant are reports which promotebilingualism or multilingualism.

</top>

Page 12: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 12

TREC-4 查詢主題

<top>

<num> Number: 217

<desc> Description:

Reporting on possibility of and search for extra-terrestrial life/intelligence.

</top>

Page 13: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 13

TREC ~查詢主題

字數 (包含停字)

欄位 最小字數

最大字數

平均字數

Total 44 250 107.4

Title 1 11 3.8

Description 5 41 17.9

Narrative 23 209 64.5

TREC-1

(51-100)

Concepts 4 111 21.2

Total 54 231 130.8

Title 2 9 4.9

Description 6 41 18.7

Narrative 27 165 78.8

TREC-2

(101-150)

Concepts 3 88 28.5

Total 49 180 103.4

Title 2 20 6.5

Description 9 42 22.3

TREC-3

(151-200)

Narrative 26 146 74.6

Total 8 33 16.3TREC-4

(201-250) Description 8 33 16.3

Total 29 213 82.7

Title 2 10 3.8

Description 6 40 15.7

TREC-5

(251-300)

Narrative 19 168 63.2

Total 47 156 88.4

Title 1 5 2.7

Description 5 62 20.4

TREC-6

(301-350)

Narrative 17 142 65.3

主題結構與長度主題建構主題篩選

pre-search

判斷相關文件的數量

Page 14: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 14

TREC-6 之主題篩選程序

前 25篇文章中有多少篇是相關的?

0 1-5 6-20 ≧ 20

不採

納此

主題

繼續閱讀檢索出的

第 26-100篇文件,

判斷其相關性

根據相關回饋等方

式,輸入更多的查

詢問句,再次執行

檢索,並判斷前 100

篇文件的相關性

記錄相關文件的數量

不採

納此

主題

在 PRISE系統中輸入關鍵字執行檢索

Page 15: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 15

TREC ~相關判斷

判斷方法 Pooling Method 人工判斷

判斷基準 : 二元式 , 相關與不相關相關判斷品質

完整性 一致性

Page 16: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 16

Pooling 法

針對每個查詢主題,從參與評比的各系統所送回之測試結果中抽取出前 n 篇文件,合併形成一個Pool

視為該查詢主題可能的相關文件候選集合,將集合中重覆的文件去除後,再送回給該查詢主題的原始建構者進行相關判斷。

利用此法的精神是希望能透過多個不同的系統與不同的檢索技術,盡量網羅可能的相關文件,藉此減少人工判斷的負荷。

Page 17: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 17

TREC 候選集合與實際相關文件之對照表

Adhoc Routing

各系統送至Pool 內之文件總數

Pool中實際之文件數

(去除重覆)

實際相關文件數

各系統送至Pool 內之文件總數

Pool中實際之文件數

(去除重覆)

實際相關文件數

TREC-1 8800 1279(39%) 277(22%) TREC-1 2200 1067(49%) 371(35%)

TREC-2 4000 1106(28%) 210(19%) TREC-2 4000 1466(37%) 210(14%)

TREC-3 2700 1005(37%) 146(15%) TREC-3 2300 703(31%) 146(21%)

TREC-4 7300 1711(24%) 130(08%) TREC-4 3800 957(25%) 132(14%)

TREC-5 10100 2671(27%) 110(04%) TREC-5 3100 955(31%) 113(12%)

TREC-6 8480 1445(42%) 92(6.4%) TREC-6 4400 1306(30%) 140(11%)

Page 18: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 18

TREC ~評比Tasks/Tracks TREC1 TREC2 TREC3 TREC4 TREC5 TREC6 TREC7

Routing Main Tasks

Adhoc

Confusion Confusion Spoken Document

Retrieval

Database Merging

Filtering

High Precision

Interactive

Cross Language

Spanish Multilingual

Chinese

Natural Language Processing

Query

Very Large Corpus

Page 19: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 19

TREC ~質疑與負面評價測試集方面

查詢主題並非真實的使用者需求 , 過於人工化缺乏需求情境的描述

相關判斷二元式的相關判斷不實際pooling method會遺失相關文件 , 導致回收率不準確品質與一致性

效益測量方面 只關注量化測量 回收率的問題 適合作系統間的比較 , 但不適合作評估

Page 20: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 20

TREC ~質疑與負面評價 ( 續 )

評比程序方面 互動式檢索

缺乏使用者介入靜態的資訊需求不切實際

Page 21: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 21

BMIR-J2 ~簡介

第一個日文資訊檢索系統測試集 BMIR-J1: 1996

BMIR-J2: 1998.3

發展單位 : IPSG-SIGDS

文件集 : 主要為新聞文件 每日新聞 : 5080 篇 經濟與工程

查詢主題 : 60 個

Page 22: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 22

BMIR-J2 ~相關判斷

以布林邏輯結合關鍵詞檢索 1-2 個 IR 系統由資料庫檢索者做進一步的相關判斷由建構測試集的人員再次檢查

Page 23: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 23

BMIR-J2 ~查詢主題Q: F=oxoxo: “Utilizing solar energy”Q: N-1: Retrieve texts mentioning user of solar energyQ: N-2: Include texts concerning generating electricity and drying

things with solar heat.

查詢主題的分類 目的 : 標明該測試主題的特性 , 以利系統選擇 標記 : o(necessary), x(unnecessary) 類別

The basic functionThe numeric range functionThe syntactic functionThe semantic functionThe world knowledge function:

Page 24: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 24

NTCIR ~簡介NTCIR: NACSIS Test Collections for IR主辦 : NACSIS( 日本國家科學資訊系統中心 ) 發展背景

大型日文標竿測試集的需求 跨語言檢索的研究發展需要

文件集 來源為 NACSIS Academic Conference Papers Database 主要為會議論文的摘要 超過 330,000 篇文件 , 其中超過 1/2 為英日文對照之文件 有部分包含 part-of-speech tags

Page 25: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 25

NTCIR ~查詢主題來源 : 搜集真實的使用者需求 , 再據其修正改寫每個學科主題領域各有 100 個測試主題組成結構

<TOPIC q=nnnn>編號 <title> 標題 </title>

<description> 資訊需求之簡短描述 </description>

<narrative> 資訊需求之細部描述 , 包括更進一步的解釋 , 名詞的定義 , 背景知識 , 檢索的目的 , 預期的相關文件數量 , 希望的文件類型 , 相關判斷的標準等 </narrative>

<concepts> 相關概念的關鍵詞 </concepts>

Page 26: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 26

NTCIR ~相關判斷判斷方法

利用 pooling method 先進行篩選 由各主題專家 , 及查詢主題的建構者進行判斷

判斷基準 A: 相關 B: 部分相關 C: 不相關

精確率計算 : 依測試項目的不同而有不同 Relevant: B 與 C均視為不相關 Partial Relevant : A 與 B均視為相關

Page 27: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 27

NTCIR ~評比Ad-hoc Information Retrieval TaskCross-lingual Information Retrieval Task

利用日文查詢主題檢索英文文件 共有 21 個查詢主題 , 其相關判斷包括英文文件與日文文件 系統可選擇自動或人工建立查詢問題 系統需送回前 1000 篇檢索結果

Automatic Term Extraction and Role Analysis Task Automatic Term Extraction: 從題名與摘要中抽取出

technical terms Role Analysis Task: 抽取出主旨 , 研究方法 , 研究程序

Page 28: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 28

IREX ~簡介

IREX: Information Retrieval and Extraction Exercise

主辦 : IREX Committee參加者 : 約 20隊 ( 或以上 )

預備測試:利用 BMIR-J2 測試集中之查詢主題文件集

每日新聞 , 1994-1995

參加者必須購買新聞語料

Page 29: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 29

IREX ~查詢主題組成結構

<topic_id>編號 </topic_id>

<description> 簡短的資訊需求 , 主要為名詞與其修飾語 構成的名詞詞組 </description>

<narrative> 詳細的資訊需求 , 以自然語言敘述 , 通常為2 至 3 個句子組 成 , 亦包含名詞解釋 ,

同義詞 或實例 . </narrative>

description欄位中的詞彙必須包含在 narrative欄位中

Page 30: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 30

IREX ~相關判斷判斷依據 : 測試主題的所有欄位判斷方法 : 由學生二名進行判斷

若二人之判斷結果一致 , 則完成相關判斷 若二人之判斷結果不一致或不確定 , 則由三人來作最後的判定

判斷基準 學生 : 6 個判斷層次

A: 相關 A?: 不確定是否為相關B: 部分相關 B?: 不確定是否為部分相關C: 不相關 C?: 不確定是否為不相關

Page 31: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 31

IREX ~相關判斷 ( 續 )

最終判斷者 : 3 個判斷層次A: 相關B: 部分相關C: 不相關

相關判斷的修正

Page 32: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 32

IREX ~評比評比項目

Name Entity Task (NE)與 MUC 相似 , 測試系統自動抽取專有名詞的能力 , 如組織名 , 人名 , 地名等 .

一般領域文件抽取 v.s. 特殊領域文件抽取 Information Retrieval (IR)

與 TREC 相似評比規則

送回文件:前 300 篇 Query 的建構:一律由系統自動建構

Page 33: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 33

BMIR-J2 ~簡介

第一個日文資訊檢索系統測試集 BMIR-J1: 1996

BMIR-J2: 1998.3

發展單位 : IPSG-SIGDS

文件集 : 主要為新聞文件 每日新聞 : 5080 篇 經濟與工程

查詢主題 : 60 個

Page 34: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 34

BMIR-J2 ~相關判斷

以布林邏輯結合關鍵詞檢索 1-2 個 IR 系統由資料庫檢索者做進一步的相關判斷由建構測試集的人員再次檢查

Page 35: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 35

BMIR-J2 ~查詢主題Q: F=oxoxo: “Utilizing solar energy”Q: N-1: Retrieve texts mentioning user of solar energyQ: N-2: Include texts concerning generating electricity and drying

things with solar heat.

查詢主題的分類 目的 : 標明該測試主題的特性 , 以利系統選擇 標記 : o(necessary), x(unnecessary) 類別

The basic functionThe numeric range functionThe syntactic functionThe semantic functionThe world knowledge function:

Page 36: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 36

AMARYLLIS ~簡介

主辦: INIST (INstitute of Information Scientific and Technique)

參加者 : 約近 10隊文件集

新聞文件 : the World, 共 2 萬餘篇 Pascal(1984-1995) 及 Francis(1992-1995) 資料中抽取出來的文件題名與摘要部分 , 共 30 餘萬篇

Page 37: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 37

AMARYLLIS ~查詢主題

組成結構<num>編號 </num>

<dom> 所屬之學科領域 </dom>

<suj> 標題 </suj>

<que> 資訊需求之簡單描述 </que>

<cinf> 資訊需求之詳細描述 </cinf>

<ccept><c> 概念 , 敘述語 </ccept></c>

Page 38: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 38

AMARYLLIS ~相關判斷

原始的相關判斷 由文件集之擁有者負責建構

標準答案的修正 加入

不在最初的標準答案中,但被一半以上的參加者檢索出來的文件

參加者所送回的檢索結果中的前 10 篇的文件 減去

在原始的標準答案中出現,但在參加者送回的檢索結果中未出現的文件

Page 39: 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 39

AMARYLLIS ~評比

系統需送回檢索結果的前 250 篇系統可選擇採取自動或人工的方式建立 query

評比項目 Routing Task

Adhoc Task