資訊檢索之策略與技巧 the strategy & techniques of ir 邱子恆 [email protected]...

50
資資資資資資資資資資 The Strategy & Technique s of IR 資資資 [email protected] 2011.03.29

Post on 22-Dec-2015

250 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

資訊檢索之策略與技巧The Strategy & Techniques of IR

邱子恆[email protected]

2011.03.29

Page 2: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

大綱• 資訊檢索之基本概念• 檢索策略• 檢索技巧• 網路資源之檢索

Page 3: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

學習目標• 瞭解資訊檢索之基本概念• 瞭解資訊檢索之策略• 瞭解資訊檢索之技巧• 熟悉網路資源之檢索

Page 4: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

I. 資訊檢索之基本概念• IS&R

• 自然語言 vs. 控制字彙• precision vs. recall

• 布林邏輯運算元• 切截• 相近運算元• Known item search vs. subject search

Page 5: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

資訊儲存與檢索 (IS&R Model)

Page 6: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

資料 需求

分析內容

選擇關鍵詞

轉譯

系統關鍵詞

分析需求

選擇關鍵詞

轉譯

系統關鍵詞

索引典

資料庫

關鍵詞比對檢索結果

索引作業 檢索作業

Page 7: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

自然語言

• 自然語言是相對於人工語言的一種人類語言,也是最合乎人類教談行為的溝通方式,它依循著人類自然進化而發展,成為人和人之間溝通的最基本工具,如中文、英文、日文等都是自然語言。

Page 8: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

控制字彙• 標題表 (Medical Subject Heading)

• 索引典– Scope note

– BT

– NT

– RT

– Use / Use for

Page 9: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

標題表 (Subject Headings)

• LCSH=Library of Congress Subject Headings

• MeSH=Medical Subject Headings

• 是“控制字彙”的工具 (vs. 自然語言 )

• 以“詞彙”來表達文獻內容的“主題”

Page 10: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

標題表 (Subject Headings)

• 按字母順排序,以 BT,NT, RT(SA=See also)來表現詞彙間的關係– BT= 廣義詞– NT= 狹義詞– RT= 相關詞

• Use ( See ) = 指引使用者由系統不用的詞到系統選用的詞–例 : Cancer USE Neoplasms

Page 11: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

MeSH 之例子– 範圍註

定義

Page 12: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

MeSH 之例子—範圍註

相關詞

不用的詞

Page 13: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

MeSH 之例子 – 樹狀結構

Page 14: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

MeSH 之例子 – 複分

Page 15: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

以 OVID-Medline 實例說明

Page 16: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

自然語言檢索 :cancer 於所有與主題相關之欄位

共 193,949 篇

Page 17: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

自然語言檢索 :cancer 出現於文獻的篇名

共 104,998 篇

Page 18: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

控制字彙檢索

勾選此項

Page 19: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

自動 mapping to MeSH

聚焦擴展

Page 20: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

顯現主概念與子概念之文獻數

Page 21: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

可選擇需要的主題複分

Page 22: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

得到比自然語言檢索更精確的結果

共 42,583 篇

Page 23: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

Explode 之功能 : 找更多相關文獻

共 463,333 篇

Page 24: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

Focus 之功能 : 找更少相關文獻

共 32,318 篇

Page 25: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

Focus 之意義

* 表示為此文獻之主要主題

Page 26: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

回收率&精確率• Recall(回收率 /查全率 ) & Precision(精確率 /查準

率 )

b+d a+c總數

dc未檢索到

ba檢索到

不相關相關

回收率 =a

a+c = 檢索所得之相關文章筆數資料庫中所有相關文章筆數

精確率 = aa+b = 檢索所得之相關文章筆數

檢索所得之所有書目筆數

Page 27: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

查全率 =a/(a+c) 查準率 =a/(a+b)

無關相關

c

a b

d

Page 28: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

布林邏輯 (AND、 OR、 NOT) A AND B A AND B AND C

A OR B A OR B NOT C

Page 29: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

切截 (truncation)

Library, libraries, librarian, librarians, librarianship --> lib* ( 單複數 , 詞性不同 , 使用 右切截 )

Woman, Women --> Wom#n ( 單複數 , 使用中間切截 )

Color, Colour --> Colo#r ( 美式 / 英式拚音 , 使用中間切截 )

Page 30: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

相近運算元 (adjacent/near)

ANALOG* ADJ1 DIGITAL* 482(1999)

ANALOG* NEAR1 DIGITAL* 506(1999)

Page 31: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

Known item search

• 已知書目之檢索 , 即精確檢索–用已知的書目資料來檢索 , 包括 : 作者 , 題名 , 期刊名 , 出版商 , 出版年… etc.

Page 32: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

Subject search

• 主題檢索• 想檢索一下到底有那些關於某主題的文獻存在

Page 33: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

II. 檢索策略• 針對一檢索問題之通盤考量或全面性規劃–分區組合檢索法 (Block Building)

–引用文獻滾雪球法 (Citation Pearl Growing)

–簡易檢索 (Brief search)

–主題層面連續檢索 (successive facet strategies)

–主題層面配對檢索 (pairwise facets strategies)

Page 34: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

分區組合檢索法• 1. 選擇資料庫• 2. 確定問題之主要概念及其布林邏輯關係• 3. 依序找出代表每個概念之所有詞彙• 4. 將各概念下所有詞彙以“ OR” 連結• 5. 將步驟 4 所得結果以步驟 2 所決定之布林邏輯關係進行結合

• 6. 依步驟 1 至步驟 5 規劃檢索敘述• 7. 輸入檢索敘述• 8. 評估檢索成果

Page 35: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

分區組合檢索法示意圖

Page 36: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

引用文獻滾雪球法• 事先掌握一篇或數篇相關文章 , 利用這些相關文章找尋更多相關的文章 , 如此相關文章就像雪球一樣越滾越大 .

• 在資訊檢索上的應用 : 以相關文章的關鍵字或敘述語繼續檢索 .

• 是由 precision反向追求 recall 的方法• 通常必須進行多次檢索 , 才能找到足夠的相關文章 .

Page 37: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

簡易檢索• 最常見的檢索• 通常用簡單的幾個關鍵字 , 加上布林邏輯的組合

• 快速 , 同時檢索到的文章不多 , recall低• 適用情形 :–檢索者只想閱讀“幾篇”相關文章–執行已知書目檢索時–檢索概念相當專指 (specific) 時

Page 38: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

主題層面連續檢索• 在決定檢索問題的主題層面之後 , 必須確認各主題層面的優先順序 .

• 在最專指概念或是可能產生最少資料的概念輸入系統後 , 如果產生太多資料 , 再輸入其他次要概念與之結合 .

• 直到檢索者認為檢索筆數可以接受為止 .

Page 39: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

主題層面連續檢索• 適用情形 :–當所有主題層面以布林運算元結合 , 可能產生零筆資料時

–當檢索問題中有一至二個主題層面涵義相當模糊時

–當檢索問題具備其他非主題之檢索條件時 ( 如 : 資料類型 , 語文 , 出版年代 ), 可將此非主題檢索條件視為第一個檢索概念

Page 40: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

主題層面連續檢索• 適用情形 : ( 續 )–當檢索者寧願忍受誤引 , 而不願失去相關文章時

–當加入其他主題層面所花費的時間和金錢 , 可能會超過直接列出檢索結果 , 每筆一一審視時

–當相關文獻過少 , 檢索者願意檢視一些相關度較低的文章時

Page 41: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

主題層面連續檢索示意圖

Page 42: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

主題層面配對檢索

• 是先將主題層面兩兩配對 , 並取其交集• 也就是取任意二主題層面的交集而後聯集之• 適用情形 :–當所有主題層面都同樣重要時–當主題層面之專指性或模糊性相差不大時–當將所有主題層面結合可能導致零筆資料時

Page 43: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

主題層面配對檢索示意圖

Page 44: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

比較圖

Page 45: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

III. 檢索技巧• 為完成特性目的所採取的行動–當檢索所得資料筆數過多時 ( 通常指誤引太多 )

–當檢索所得資料筆數過少時 ( 包括零筆資料 )

–當檢索者想提高 recall 時–當檢索者想提高 precision 時

Page 46: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

當檢索所得資料筆數過多時• 是否過份簡化問題 ?

• 是否需要重新釐清檢索概念 ?

• 是否使用了正確的布林邏輯運算元 ?

• 是否使用過份含混或一般性之名詞 ?

• 是否應考慮使用控制字彙 ?

• 是否相近運算元限制過鬆 ?

• 是否切截應用過鬆 ?

Page 47: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

當檢索所得資料筆數過少時• 是否將問題過份複雜化 ?

• 是否真有文獻探討該主題 ?

• 是否每個概念都使用足夠的檢索詞彙來表達 ?

• 是否相近運算元限制過緊 ?

• 是否使用了正確的布林邏輯運算元 ?

• 是否有語法或拼字上的錯誤 ?

• 是否該改用自然語言進行檢索 ?

• 是否考慮使用切截 ?

Page 48: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

當檢索者想提高 recall 時• 增加同義詞和類同義詞的數目• 使用較廣義的檢索詞彙• 以自然語言檢索代替控制字彙檢索• 檢索其他主題欄位• 刪除布林邏輯運算元“ AND” 及“ NOT”• 增加切截的範圍• 使用較鬆的相近運算元• 刪除一些非主題之檢索限制 ( 如 : 年代 , 資料類型 )• 刪除一主題層面

Page 49: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

當檢索者想提高 precision 時• 刪除部份類同義詞或是詞意含糊的檢索詞彙• 使用專指性較高的詞彙進行檢索• 當有適當的控制字彙工具時 , 盡量使用其來代替自然語言

• 增加一主題層面• 使用“ NOT” 除去不相關文章• 減弱切截的範圍• 加上非主題之檢索限制 ( 如年代 , 資料類型 )

Page 50: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29

Q & A?