the cranfield tests on index language devices

35
1 The Cranfield Tests on Index Language D evices 課課 課課課課課 課課課 課課課 課課2008.12.1

Upload: frank-chou

Post on 20-Aug-2015

909 views

Category:

Documents


0 download

TRANSCRIPT

1

The Cranfield Tests on Index Language Devices

課程:資訊學研討報告人:鍾士芳日期: 2008.12.1

2

書目資料 Author :

Cyril Cleverdon

Title : The Cranfield Tests on Index Language Devices

Citation : ASLIB Proceedings.19:6 (1967): 173-194

3

大綱 Cranfield 第一期計畫 Cranfield 第二期計畫 SMART 系統 Cranfield 33 種索引語言測試 Comment

4

Cranfield 第一期計畫 研究操作執行四種不同索引系統

Universal Decimal Classification 國際十進分類法 Facet Classification 層面分類法 Alphabetical subject catalogue 按字母順排列的主題索引

Uniterm system of co-ordinate indexing 單詞組合索引系統

背景 Western Reserve University 館藏 主題:冶金術文獻 數量: 1100 篇文件

5

Cranfield 第一期計畫 測量方式

Recall ratio 回收率 Precision ratio 精確率

設備 Recall devices 回收設備

可能增加取得更多相關文件 例如:回收設備可以群組同義字,混合字的形式,形成各類相關字詞

Precision devices 精確率設備 確認非相關文件不會取得 例如:精確設備是 co-ordination 組合 ( 不管是 pre-co-ordinati

on 前組合或 post-co-ordination 後組合 ) , links 連結和 roles角色

6

Cranfield 第一期計畫 以 Universal Decimal Classification 國際十進分類法為例

透過字母順序排列的索引 Air Cushion Vehicles 629.137 Ground-effect machines 629.137 Hovercraft 629.137

文字形式也帶來字母順序排列的索引 Weld 621.791 Welded 621.791 Welding 621.791

7

Cranfield 第一期計畫 一般關係呈現在清單清單 (schedules) 中

662 Beverages 662.3 Wines

前組合詞彙經常發生在清單 (schedules) 中 s33.6.071 Wind tunnels s33.6.071.4 Wind tunnel instruments

二者擇一地,組合可以獲得使用冒號或括號 338:633.1 Cereal production 942(42) English history

8

Cranfield 第一期計畫 連結也以冒號顯示

669.71 : 621.791 Welding of aluminium

角色是表明背景清單 (schedules) Input Wood(fuel) 662.63 Output Wood(forestry) 634.08

9

Cranfield 第二期計畫 目的

第二期 Cranfield 計畫主要設計研究隔離 index language device 索引語言設備,並且企圖測量每個設備執行效果

背景 數量:測試館藏建立了 1400 篇研究文章 主題:主要在航空動力學領域。

10

Cranfield 第二期計畫 建立方式

每份文件以三種不同方式索引 ( 圖 1)

11

Cranfield 第二期計畫 建立方式

221 個問題是從一些作者的研究論文而來並提供作為測試。決定館藏中針對每個問題每篇文件的相關度。這個相關決定將會由詢問者決定,並給予 1-4 的等級,並且必須符合以下需求: 參考文獻可以完整回答問題 參考文獻有高度相關,缺少任何一方讓研究不能實行或有相

當數量的額外作品結果 參考文獻是有用的,無論是作為一般背景的作品 參考文獻最低興趣,例如:有包含從歷史的觀點

12

Cranfield 第二期計畫 測量方式

在標準的檢索中,文件收藏被分為兩個群組取得和未被取得,這些群組可被分為哪些是相關和不相關的文件 ( 圖 2)

13

Cranfield 第二期計畫 測量方式

recall ratio 回收率 precision ratio 精確率 fallout ratio 誤檢率

14

Cranfield 第二期計畫 Index Language 索引語言類型

Single Terms 單一詞彙 ( 圖 3)

15

Cranfield 第二期計畫 Index Language 索引語言類型

Index Language concept 索引語言概念 ( 圖 4)

16

Cranfield 第二期計畫 Index Language 索引語言類型

Controlled Term 控制詞彙 ( 圖 5)

17

Cranfield 第二期計畫 範例: Small deflection theory of simple support

ed cylinders 小撓度理論的簡支氣瓶 I.1 比對所有 6 個詞彙, 3 個文件取得 比對任何 5 個詞彙, 10 個文件取得 比對任何 4 個詞彙, 14 個文件取得 比對任何 3 個詞彙, 43 個文件取得 比對任何 2 個詞彙, 177 個文件取得 比對任何 1 個詞彙, 722 個文件取得

18

Cranfield 第二期計畫 範例: Small deflection theory of simple support

ed cylinders 小撓度理論的簡支氣瓶 I.6 比對 6 個詞彙, 4 個文件被取得 比對 5 個詞彙, 14 個文件被取得 比對 4 個詞彙, 38 個文件被取得 比對 3 個詞彙, 123 個文件被取得

19

Cranfield 第二期計畫 圖 6 表現索引語言 I.1 的結果,使用單一詞彙在自然語言

20

Cranfield 第二期計畫 圖 7 表現索引語言 I.6 的結果,單一詞彙分類成 synonym

s 同義字、 word forms 文字形式、 quasi-synonyms 類同義字

21

Cranfield 第二期計畫 圖 8 :匯整圖 6 和圖7 的回收率與精確率

22

Cranfield 第二期計畫 圖 9

顯示某些檢索規則的影響

23

Cranfield 第二期計畫 圖 10

顯示 4 種不同相關程度所造成的影響 ( 回收率和誤檢率 )

24

Salton 的 SMART 系統 SMART 系統 V.S. Cranfield 研究 相似處

兩者都希望比較使用不同的機制所產生的影響 不同處

Salton 的 SMART 系統使用大量電腦運算 Cranfield 使用簡單卻需人工分類的技術

25

Salton 的 SMART 系統 SMART 研究會將結果排序後輸出 ( 圖 11) ,這種方式基於每個組合階層中相關和不相關文件的檢索,計算出 Normalized recall ratio 常態化回收率。

26

Salton 的 SMART 系統 從 Cranfield 檢索模擬輸出 方法是根據檢索的相關性和非相關性文件在每個組合層 審議結果從 Q 100 檢索 200 份文件收藏

27

Salton 的 SMART 系統 圖 12

28

Salton 的 SMART 系統 圖 13

29

Salton 的 SMART 系統評估研究使用了 Cranfield II 計畫中所蒐集的實驗性館藏,因此兩者採用之方法是可對照的。

對照結果顯示 Cranfield Normalized recall ratio常態化回收率之排序表現和原先 SMART 測量的結果非常相近。

因此, Cranfield 研究又針對 33 種不同的檢索方式結果重新計算其 Normalized recall ratio 常態化回收率。

30

Cranfield 33 種索引語言測試 圖 14

呈現在 Cranfield 33 種索引語言測試,並依據常態回收率排序

31

Cranfield 33 種索引語言測試 每個索引語言的詳細關係在圖 3、 4、 5 有詳細描述。

本研究結果發現 單一詞彙語言( single term index languages)整個的表現最佳

簡單概念索引語言( simple concept index languages)的表現墊底

控制詞彙索引( controlled term index languages)則在兩者之間

32

Cranfield 33 種索引語言測試 策劃 normalized recall ratio 常態化回收率對比一些索引語

言詞彙,並且結果呈現在圖 15

33

Cranfield 33 種索引語言測試 圖 16 呈現 5 個詳盡層次詞彙平均數和 normalized recall r

atio 常態化回收率

34

Cranfield 33 種索引語言測試 圖 17 呈現圖 16 數據的曲線圖

35

Comment recall ratio 回收率 V.S precision ratio 精確率 Index Language 索引語言 SMART V.S. Cranfield Cranfield 33 種索引語言測試 系統評估現在與未來