資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by...
Post on 19-Dec-2015
227 views
TRANSCRIPT
資訊檢索系統測試集之比較
圖書與資訊學刊第 29 期 (1999 年 5 月 )
by 江玉婷,陳光華台大圖資所碩士論文
IR System Evaluation - 2
測試集 (Test Collections)
組成要素 文件集 (Document Set; Document Collection) 查詢問題 (Query; Topic) 相關判斷 (Relevant Judgement)
用途 設計與發展 : 系統測試 評估 : 系統效能 (Effectiveness) 之測量 比較 : 不同系統與不同技術間之比較
評比 根據不同的目的而有不同的評比項目 量化的測量準則,如 Precision 與 Recall
IR System Evaluation - 3
測試集 (Test Collections) ( 續 )
小型測試集 早期 : Cranfield
英文 : SMART, OHSUMED, Cystic Fibrosis, LISA….
日文 : BMIR-J2
大型評比環境 : 提供測試集及研討的論壇 美國 : TREC
日本 : NTCIR, IREX,
歐洲 : AMARYLLIS
表一、各測試集之基本資料
相關判斷層次
測試集 文件數文件集大小
(MB)平均字數
/文件
查詢問題數 平均字數
/查詢問題
平均相關文件數
/查詢問題主題領域
相關
不相關
語文
Cranfield II 1,400 1.6 53.1 225 9.2 7.2 太空動力學 4 1 英文ADI 82 0.04 27.1 35 14.6 9.5 文獻學 N/A 英文MEDLARS 1,033 1.1 51.6 30 10.1 23.2 醫學 2 2 英文TIME 423 1.5 570 24 16.0 8.7 世界情勢 N/A 英文CACM 3,204 2.2 24.5 64 10.8 15.3 ACM通訊 N/A 英文CISI 1,460 2.2 46.5 112 28.3 49.8 資訊科學 N/A 英文
NPL 11,429 3.1 20.0 100 7.2 22.4 電子、電腦、物理、地理
N/A 英文
INSPEC 12,684 N/A 32.5 84 15.6 33.0 物理、電子、控制
2 1 英文
ISILT 800 N/A N/A 63 N/A 8.4 文獻學 1 1 英文UKCIS 27,361 N/A 182 193 N/A 57 生化 2 2 英文UKAEA 12,765 N/A N/A 60 N/A N/A 核子科學 2 1 英文LISA 6,004 3.4 N/A 35 N/A 10.8 N/A N/A 英文CysticFibrosis
1,239 N/A 49.7 100 6.8 6.4-31.9 醫學 6 1 英文
OSHUMED 348,566 N/A 250 101 10 17/19.4 N/A 2 1 英文BMIR-J2 5,080 N/A 621.8 60 102.2 10.6/28.4 經濟、工程 2 1 日文TREC(TREC-1~6)
1,754,896 ~5GB 481.6 350 105.8 185.3 多主題 1 1 英文
AMARYLLIS 336,000 201 N/A 56 N/A N/A 多主題 N/A 法文NTCIR 300,000 N/A N/A 100 N/A N/A 多主題 2 1 日文IREX N/A N/A N/A N/A N/A N/A 多主題 2 1 日文
IR System Evaluation - 5
Cranfield II
比較 33 種不同索引方式之檢索效益蒐集 1400 篇有關太空動力學的文件 ( 摘要形式 )請每位作者根據這些文件與其當時研究的主題提出問題,經篩選後產生 200 餘個查詢問題
IR System Evaluation - 6
Cranfield II (Continued)
Cranfield II 測試集中相關判斷建立四個步驟 首先請提出查詢問題的建構者對文件後所附之引用及參考文獻進
行相關判斷 接著請五位該領域的研究生將查詢問題與每篇文件逐一檢視,共
花了 1500 小時進行了 50 萬次以上的相關判斷,希望能找出所有的相關文件。
為了避免前述過程仍有遺漏,又利用文獻耦合的概念計算文件間之相關性,發掘更多的可能相關文件。若有兩篇以上的文獻共同引用了一篇或多篇論文,則稱這些文獻間具有耦合關係。
最後,將以上找出的所有文件,再一併送回給原作者進行判斷。
IR System Evaluation - 7
TREC ~簡介
TREC: Text REtrieval Conference主辦 : NIST 及 DARPA ,為 TIPSTER 文件計劃之子
計劃之一 文件集
5GB 以上 數百萬篇文件
IR System Evaluation - 8
Volume Revised SourcesSize
(M B )Docs
Median #Terms/Doc
Mean #Terms/Doc
1March1994
Wall Street Journal, 1978-1989
Associated Press newswire, 1989
Computer Selects Articles, Ziff-Davis
Federal Register, 1989
Abstracts of U.S. DOE publications
267
254
242
260
184
98,732
84,678
75,180
25,960
226,087
245
446
200
391
111
434.0
473.9
473.0
1315.9
120.4
2March1994
Wall Street Journal, 1990-1992(WSJ)
Associated Press newswire(1988)(AP)
Computer Selects articles, Ziff-Davis(ZIFF)
Federal Register(1988)(FR88)
242
237
175
209
74,520
79,919
56,920
19,860
301
438
182
396
508.4
468.7
451.9
1378.1
3March1994
San Jose Mercury News, 1991
Associated Press newswire, 1990
Computer Selects articles, Ziff-Davis
U.S. patents, 1993
287
237
345
243
90,257
78,321
161,021
6,711
379
451
122
4445
453.0
478.4
295.4
5391.0
4 May 1996
The Financial Times, 1991-1994(FT)
Federal Register, 1994(FR94)
Congressional Record, 1993(CR)
564
395
235
210,158
55,630
27,922
316
588
288
412.7
644.7
1373.5
5April1997
Foreign Broadcast Information Service(FBIS)
Los Angeles Times (1989, 1990)
470
475
130,471
131,896
322
351
543.6
526.5
RoutingTestData
Foreign Broadcast Information Service(FBIS) 490 120,653 348 581.3
TREC 文件集
IR System Evaluation - 9
TREC 之文件標示
<DOC>
<DOCN0>FT911-3</DOCN0>
<PROFILE>AN-BE0A7AAIFT</PROFILE>
<DATE>910514 </DATE>
<HEADLINE>
FT 14 MAY 91 / International Company News: Contigas plans DM900m east German project
</HEADLINE>
<BYLINE>
By DAVID GOODHART
</BYLINE>
<DATELINE>
BONN
</DATELINE>
<TEXT>
CONTIGAS, the German gas group 81 per cent owned by the utility Bayernwerk, said yesterday that it intends to investDM900m (Dollars 522m) in the next jour years to build a new gas distribution system in the east German state ofThuringia. …
</TEXT>
</DOC>
IR System Evaluation - 10
TREC-1 and TREC-2 查詢主題<top><head> Tipster Topic Description<num> Number: 037<dom> Domain: Science and Technology<title> Topic: Identify SAA components<desc> Description:Document identifies software products which adhere to IBM's SAA standards.<narr> Narrative:To be relevant, a document must identify a piece of software which is considered a Systems ApplicationArchitectural (SAA) component or one which conforms to SAA.<con> Concept(s):1. SAA2. OfficeVision3. IBM4. Standards, Interfaces, Compatibility<fac> Factor(s):<def> Definition(s):OfficeVision - A series of integrated office automation applications from IBM that runs across all of itsmajor coputer families.Systems Application Architecture (SAA) - A set of IBM standards that provide consistent userinterfaces, programming interfaces, and communications protocols among all IBM computers frommicro to mainframe.</top>
IR System Evaluation - 11
TREC-3 查詢主題
<top>
<num> Number: 177
<title> Topic: English as the Official Language in U.S.
<desc> Description:
Document will provide arguments supporting the making of English the standard language of theU.S.
<narr> Narrative:
A relevant document will note instances in which English is favored as a standard language.Examples are the positive results achieved by immigrants in the areas of acceptance, greatereconomic opportunity, and increased academic achievement. Reports are also desired whichdescribe some of the language difficulties encountered by other nations and groups of nations, e.g.,Canada, Belgium, European Community, when they have opted for the use of two or morelanguages as their official means of communication. Not relevant are reports which promotebilingualism or multilingualism.
</top>
IR System Evaluation - 12
TREC-4 查詢主題
<top>
<num> Number: 217
<desc> Description:
Reporting on possibility of and search for extra-terrestrial life/intelligence.
</top>
IR System Evaluation - 13
TREC ~查詢主題
字數 (包含停字)
欄位 最小字數
最大字數
平均字數
Total 44 250 107.4
Title 1 11 3.8
Description 5 41 17.9
Narrative 23 209 64.5
TREC-1
(51-100)
Concepts 4 111 21.2
Total 54 231 130.8
Title 2 9 4.9
Description 6 41 18.7
Narrative 27 165 78.8
TREC-2
(101-150)
Concepts 3 88 28.5
Total 49 180 103.4
Title 2 20 6.5
Description 9 42 22.3
TREC-3
(151-200)
Narrative 26 146 74.6
Total 8 33 16.3TREC-4
(201-250) Description 8 33 16.3
Total 29 213 82.7
Title 2 10 3.8
Description 6 40 15.7
TREC-5
(251-300)
Narrative 19 168 63.2
Total 47 156 88.4
Title 1 5 2.7
Description 5 62 20.4
TREC-6
(301-350)
Narrative 17 142 65.3
主題結構與長度主題建構主題篩選
pre-search
判斷相關文件的數量
IR System Evaluation - 14
TREC-6 之主題篩選程序
前 25篇文章中有多少篇是相關的?
0 1-5 6-20 ≧ 20
不採
納此
主題
繼續閱讀檢索出的
第 26-100篇文件,
判斷其相關性
根據相關回饋等方
式,輸入更多的查
詢問句,再次執行
檢索,並判斷前 100
篇文件的相關性
記錄相關文件的數量
不採
納此
主題
在 PRISE系統中輸入關鍵字執行檢索
IR System Evaluation - 15
TREC ~相關判斷
判斷方法 Pooling Method 人工判斷
判斷基準 : 二元式 , 相關與不相關相關判斷品質
完整性 一致性
IR System Evaluation - 16
Pooling 法
針對每個查詢主題,從參與評比的各系統所送回之測試結果中抽取出前 n 篇文件,合併形成一個Pool
視為該查詢主題可能的相關文件候選集合,將集合中重覆的文件去除後,再送回給該查詢主題的原始建構者進行相關判斷。
利用此法的精神是希望能透過多個不同的系統與不同的檢索技術,盡量網羅可能的相關文件,藉此減少人工判斷的負荷。
IR System Evaluation - 17
TREC 候選集合與實際相關文件之對照表
Adhoc Routing
各系統送至Pool 內之文件總數
Pool中實際之文件數
(去除重覆)
實際相關文件數
各系統送至Pool 內之文件總數
Pool中實際之文件數
(去除重覆)
實際相關文件數
TREC-1 8800 1279(39%) 277(22%) TREC-1 2200 1067(49%) 371(35%)
TREC-2 4000 1106(28%) 210(19%) TREC-2 4000 1466(37%) 210(14%)
TREC-3 2700 1005(37%) 146(15%) TREC-3 2300 703(31%) 146(21%)
TREC-4 7300 1711(24%) 130(08%) TREC-4 3800 957(25%) 132(14%)
TREC-5 10100 2671(27%) 110(04%) TREC-5 3100 955(31%) 113(12%)
TREC-6 8480 1445(42%) 92(6.4%) TREC-6 4400 1306(30%) 140(11%)
IR System Evaluation - 18
TREC ~評比Tasks/Tracks TREC1 TREC2 TREC3 TREC4 TREC5 TREC6 TREC7
Routing Main Tasks
Adhoc
Confusion Confusion Spoken Document
Retrieval
Database Merging
Filtering
High Precision
Interactive
Cross Language
Spanish Multilingual
Chinese
Natural Language Processing
Query
Very Large Corpus
IR System Evaluation - 19
TREC ~質疑與負面評價測試集方面
查詢主題並非真實的使用者需求 , 過於人工化缺乏需求情境的描述
相關判斷二元式的相關判斷不實際pooling method會遺失相關文件 , 導致回收率不準確品質與一致性
效益測量方面 只關注量化測量 回收率的問題 適合作系統間的比較 , 但不適合作評估
IR System Evaluation - 20
TREC ~質疑與負面評價 ( 續 )
評比程序方面 互動式檢索
缺乏使用者介入靜態的資訊需求不切實際
IR System Evaluation - 21
BMIR-J2 ~簡介
第一個日文資訊檢索系統測試集 BMIR-J1: 1996
BMIR-J2: 1998.3
發展單位 : IPSG-SIGDS
文件集 : 主要為新聞文件 每日新聞 : 5080 篇 經濟與工程
查詢主題 : 60 個
IR System Evaluation - 22
BMIR-J2 ~相關判斷
以布林邏輯結合關鍵詞檢索 1-2 個 IR 系統由資料庫檢索者做進一步的相關判斷由建構測試集的人員再次檢查
IR System Evaluation - 23
BMIR-J2 ~查詢主題Q: F=oxoxo: “Utilizing solar energy”Q: N-1: Retrieve texts mentioning user of solar energyQ: N-2: Include texts concerning generating electricity and drying
things with solar heat.
查詢主題的分類 目的 : 標明該測試主題的特性 , 以利系統選擇 標記 : o(necessary), x(unnecessary) 類別
The basic functionThe numeric range functionThe syntactic functionThe semantic functionThe world knowledge function:
IR System Evaluation - 24
NTCIR ~簡介NTCIR: NACSIS Test Collections for IR主辦 : NACSIS( 日本國家科學資訊系統中心 ) 發展背景
大型日文標竿測試集的需求 跨語言檢索的研究發展需要
文件集 來源為 NACSIS Academic Conference Papers Database 主要為會議論文的摘要 超過 330,000 篇文件 , 其中超過 1/2 為英日文對照之文件 有部分包含 part-of-speech tags
IR System Evaluation - 25
NTCIR ~查詢主題來源 : 搜集真實的使用者需求 , 再據其修正改寫每個學科主題領域各有 100 個測試主題組成結構
<TOPIC q=nnnn>編號 <title> 標題 </title>
<description> 資訊需求之簡短描述 </description>
<narrative> 資訊需求之細部描述 , 包括更進一步的解釋 , 名詞的定義 , 背景知識 , 檢索的目的 , 預期的相關文件數量 , 希望的文件類型 , 相關判斷的標準等 </narrative>
<concepts> 相關概念的關鍵詞 </concepts>
IR System Evaluation - 26
NTCIR ~相關判斷判斷方法
利用 pooling method 先進行篩選 由各主題專家 , 及查詢主題的建構者進行判斷
判斷基準 A: 相關 B: 部分相關 C: 不相關
精確率計算 : 依測試項目的不同而有不同 Relevant: B 與 C均視為不相關 Partial Relevant : A 與 B均視為相關
IR System Evaluation - 27
NTCIR ~評比Ad-hoc Information Retrieval TaskCross-lingual Information Retrieval Task
利用日文查詢主題檢索英文文件 共有 21 個查詢主題 , 其相關判斷包括英文文件與日文文件 系統可選擇自動或人工建立查詢問題 系統需送回前 1000 篇檢索結果
Automatic Term Extraction and Role Analysis Task Automatic Term Extraction: 從題名與摘要中抽取出
technical terms Role Analysis Task: 抽取出主旨 , 研究方法 , 研究程序
IR System Evaluation - 28
IREX ~簡介
IREX: Information Retrieval and Extraction Exercise
主辦 : IREX Committee參加者 : 約 20隊 ( 或以上 )
預備測試:利用 BMIR-J2 測試集中之查詢主題文件集
每日新聞 , 1994-1995
參加者必須購買新聞語料
IR System Evaluation - 29
IREX ~查詢主題組成結構
<topic_id>編號 </topic_id>
<description> 簡短的資訊需求 , 主要為名詞與其修飾語 構成的名詞詞組 </description>
<narrative> 詳細的資訊需求 , 以自然語言敘述 , 通常為2 至 3 個句子組 成 , 亦包含名詞解釋 ,
同義詞 或實例 . </narrative>
description欄位中的詞彙必須包含在 narrative欄位中
IR System Evaluation - 30
IREX ~相關判斷判斷依據 : 測試主題的所有欄位判斷方法 : 由學生二名進行判斷
若二人之判斷結果一致 , 則完成相關判斷 若二人之判斷結果不一致或不確定 , 則由三人來作最後的判定
判斷基準 學生 : 6 個判斷層次
A: 相關 A?: 不確定是否為相關B: 部分相關 B?: 不確定是否為部分相關C: 不相關 C?: 不確定是否為不相關
IR System Evaluation - 31
IREX ~相關判斷 ( 續 )
最終判斷者 : 3 個判斷層次A: 相關B: 部分相關C: 不相關
相關判斷的修正
IR System Evaluation - 32
IREX ~評比評比項目
Name Entity Task (NE)與 MUC 相似 , 測試系統自動抽取專有名詞的能力 , 如組織名 , 人名 , 地名等 .
一般領域文件抽取 v.s. 特殊領域文件抽取 Information Retrieval (IR)
與 TREC 相似評比規則
送回文件:前 300 篇 Query 的建構:一律由系統自動建構
IR System Evaluation - 33
BMIR-J2 ~簡介
第一個日文資訊檢索系統測試集 BMIR-J1: 1996
BMIR-J2: 1998.3
發展單位 : IPSG-SIGDS
文件集 : 主要為新聞文件 每日新聞 : 5080 篇 經濟與工程
查詢主題 : 60 個
IR System Evaluation - 34
BMIR-J2 ~相關判斷
以布林邏輯結合關鍵詞檢索 1-2 個 IR 系統由資料庫檢索者做進一步的相關判斷由建構測試集的人員再次檢查
IR System Evaluation - 35
BMIR-J2 ~查詢主題Q: F=oxoxo: “Utilizing solar energy”Q: N-1: Retrieve texts mentioning user of solar energyQ: N-2: Include texts concerning generating electricity and drying
things with solar heat.
查詢主題的分類 目的 : 標明該測試主題的特性 , 以利系統選擇 標記 : o(necessary), x(unnecessary) 類別
The basic functionThe numeric range functionThe syntactic functionThe semantic functionThe world knowledge function:
IR System Evaluation - 36
AMARYLLIS ~簡介
主辦: INIST (INstitute of Information Scientific and Technique)
參加者 : 約近 10隊文件集
新聞文件 : the World, 共 2 萬餘篇 Pascal(1984-1995) 及 Francis(1992-1995) 資料中抽取出來的文件題名與摘要部分 , 共 30 餘萬篇
IR System Evaluation - 37
AMARYLLIS ~查詢主題
組成結構<num>編號 </num>
<dom> 所屬之學科領域 </dom>
<suj> 標題 </suj>
<que> 資訊需求之簡單描述 </que>
<cinf> 資訊需求之詳細描述 </cinf>
<ccept><c> 概念 , 敘述語 </ccept></c>
IR System Evaluation - 38
AMARYLLIS ~相關判斷
原始的相關判斷 由文件集之擁有者負責建構
標準答案的修正 加入
不在最初的標準答案中,但被一半以上的參加者檢索出來的文件
參加者所送回的檢索結果中的前 10 篇的文件 減去
在原始的標準答案中出現,但在參加者送回的檢索結果中未出現的文件
IR System Evaluation - 39
AMARYLLIS ~評比
系統需送回檢索結果的前 250 篇系統可選擇採取自動或人工的方式建立 query
評比項目 Routing Task
Adhoc Task