information retrieval and extraction 2008 期末專題 – 跨語言資訊檢索 (clir) advisor: ...

9
Information Retriev Information Retriev al and Extraction al and Extraction 2008 2008 期期期期 – 期期期期期期期 期期期期 – 期期期期期期期 (CLIR) (CLIR) Advisor: Advisor: 期期期 期期期 TA: TA: 期期期 期期期 期期期 期期期

Upload: deanna-blankenship

Post on 30-Dec-2015

115 views

Category:

Documents


0 download

DESCRIPTION

Information Retrieval and Extraction 2008 期末專題 – 跨語言資訊檢索 (CLIR) Advisor: 陳信希 TA: 許名宏、蔡銘峰. Overview. 專題目標 建構跨語言資訊檢索系統並測試其效能 以英文 query 檢索中文相關文件 分組 1~4 人 / 組,請將組員名單 ( 學號、姓名 ) e-mail 給 TA 方法 不限,可使用任何 toolkit or resource on web Demo 及報告繳交 期末考後一星期 評分標準 檢索效能 (training & testing) - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Information Retrieval and Extraction 2008  期末專題  – 跨語言資訊檢索  (CLIR) Advisor:  陳信希 TA:  許名宏、蔡銘峰

Information Retrieval aInformation Retrieval and Extractionnd Extraction2008 2008 期末專題 – 跨語言資訊檢索 期末專題 – 跨語言資訊檢索 (CLIR)(CLIR)

Advisor: Advisor: 陳信希陳信希TA: TA: 許名宏、蔡銘峰許名宏、蔡銘峰

Page 2: Information Retrieval and Extraction 2008  期末專題  – 跨語言資訊檢索  (CLIR) Advisor:  陳信希 TA:  許名宏、蔡銘峰

OverviewOverview

專題目標專題目標– 建構跨語言資訊檢索系統並測試其效能建構跨語言資訊檢索系統並測試其效能

以英文以英文 queryquery 檢索中文相關文件檢索中文相關文件 分組分組

– 1~41~4 人人 // 組,請將組員名單組,請將組員名單 (( 學號、姓名學號、姓名 ) e-mail) e-mail 給給 TATA 方法方法

– 不限,可使用任何 不限,可使用任何 toolkit or resource on webtoolkit or resource on web DemoDemo 及報告繳交及報告繳交

– 期末考後一星期期末考後一星期 評分標準評分標準

– 檢索效能 檢索效能 (training & testing)(training & testing)– Effort for implementation / per person Effort for implementation / per person – 報告完整性、分工及檢索結果分析報告完整性、分工及檢索結果分析

Page 3: Information Retrieval and Extraction 2008  期末專題  – 跨語言資訊檢索  (CLIR) Advisor:  陳信希 TA:  許名宏、蔡銘峰

Cross-Lingual Cross-Lingual Information RetrievalInformation Retrieval

Cross-LingualIR System

(Indexing and Searching)English

Query (Topic)

ChineseDocument Collection

OutstandingResource

Ranking List

.

.

.

Doc1

Doc3

Doc2

• Challenges: translation ambiguity, out-of-vocabulary (OOV), … etc

Page 4: Information Retrieval and Extraction 2008  期末專題  – 跨語言資訊檢索  (CLIR) Advisor:  陳信希 TA:  許名宏、蔡銘峰

Experimental DatasetExperimental Dataset

TopicsTopics– Selected from NTCIR4 CLIR taskSelected from NTCIR4 CLIR task– 20 topics for training20 topics for training– 10 topics for testing in demo10 topics for testing in demo

Document collectionDocument collection– 部份部份 NTCIR4 UDNNTCIR4 UDN 新聞文件新聞文件

Page 5: Information Retrieval and Extraction 2008  期末專題  – 跨語言資訊檢索  (CLIR) Advisor:  陳信希 TA:  許名宏、蔡銘峰

Topic ExampleTopic Example

<TOPIC><TOPIC><NUM><NUM>005005</NUM></NUM><SLANG>CH</SLANG><SLANG>CH</SLANG><TLANG>EN</TLANG><TLANG>EN</TLANG><TITLE><TITLE>Dioxin, Human body, Effect, ThreatDioxin, Human body, Effect, Threat</TITLE></TITLE><DESC><DESC>Find articles describing Dioxin and its effects on the human Find articles describing Dioxin and its effects on the human

bodybody</DESC></DESC><NARR><NARR><BACK>Fowl products of Belgium were polluted by Dioxin in 1999. <BACK>Fowl products of Belgium were polluted by Dioxin in 1999.

Because dairy products of Belgium are exported to countries all around Because dairy products of Belgium are exported to countries all around the world, customers of importing countries were afraid of buying the world, customers of importing countries were afraid of buying contaminated products. Therefore, stores around the world removed contaminated products. Therefore, stores around the world removed products from shelves and prohibited the importation of Belgium products from shelves and prohibited the importation of Belgium products in order to secure the health of civilians. Please query an products in order to secure the health of civilians. Please query an introduction to Dioxin and what threat and danger it might cause the introduction to Dioxin and what threat and danger it might cause the human body.</BACK>human body.</BACK>

<REL>Documents about introduction to Dioxin and its threat to human <REL>Documents about introduction to Dioxin and its threat to human bodies are relevant. Reports on Dioxin pollution in Belgium and other bodies are relevant. Reports on Dioxin pollution in Belgium and other countries only are not relevant.</REL>countries only are not relevant.</REL>

</NARR></NARR></TOPIC></TOPIC>

Page 6: Information Retrieval and Extraction 2008  期末專題  – 跨語言資訊檢索  (CLIR) Advisor:  陳信希 TA:  許名宏、蔡銘峰

Document ExampleDocument Example<DOCNO>udn_xxx_19980101_0005</DOCNO><DOCNO>udn_xxx_19980101_0005</DOCNO><LANG>CH</LANG> <LANG>CH</LANG> <HEADLINE> <HEADLINE> 一 警員 判刑 一 警員 判刑 十九 人 無罪 十九 人 無罪 </HEADLINE> </HEADLINE> <DATE> 1998 - 01 - 01 </DATE> <DATE> 1998 - 01 - 01 </DATE> <TEXT> <TEXT> <P> <P> 高雄縣茄萣鄉興達港警察分駐所 廿 名 員警 , 被 控 縱 放 高雄籍 天 利 十二號 漁船 私 運 鱉 苗 到 大陸 的 集體 貪汙 高雄縣茄萣鄉興達港警察分駐所 廿 名 員警 , 被 控 縱 放 高雄籍 天 利 十二號 漁船 私 運 鱉 苗 到 大陸 的 集體 貪汙

案 , 高雄 地方 法院 昨天 宣判 , 法官 認為 僅 警員 張清泉 收受 賄賂 , 將 他 判處 有期徒刑 七年六月 , 另 十九 名 案 , 高雄 地方 法院 昨天 宣判 , 法官 認為 僅 警員 張清泉 收受 賄賂 , 將 他 判處 有期徒刑 七年六月 , 另 十九 名 員警 無罪 。 船長 鄭叔雄 與 鱉 商 等 八 人 分 被 判決 八個月 到 四年 徒刑 , 船員 鄭博文 無罪 。 員警 無罪 。 船長 鄭叔雄 與 鱉 商 等 八 人 分 被 判決 八個月 到 四年 徒刑 , 船員 鄭博文 無罪 。 </P> </P>

<P> <P> 檢察官 當初 起訴 本 案 時 認為 , 保安警察 第五 總隊 支援 興達港 警察 分駐所 勤務 的 警員 張清泉 , 與 該 所 兩 名 檢察官 當初 起訴 本 案 時 認為 , 保安警察 第五 總隊 支援 興達港 警察 分駐所 勤務 的 警員 張清泉 , 與 該 所 兩 名 巡佐 、 十一 名 警員 及 六 名 保五總隊 支援 的 警員 , 共 廿 人 「 集體 」 縱 放 走私 , 所以 將 他們 依 貪汙 罪 提起巡佐 、 十一 名 警員 及 六 名 保五總隊 支援 的 警員 , 共 廿 人 「 集體 」 縱 放 走私 , 所以 將 他們 依 貪汙 罪 提起公訴 , 使 興達港 警察 分駐所 除了 主管 之 外 , 所有 員警 都 是 被 告 。 但 高雄 地方 法院 昨天 的 判決 認為 , 這 公訴 , 使 興達港 警察 分駐所 除了 主管 之 外 , 所有 員警 都 是 被 告 。 但 高雄 地方 法院 昨天 的 判決 認為 , 這 件 貪汙 案 僅 警員 張清泉 涉案 , 並 非 集體 貪汙 。 件 貪汙 案 僅 警員 張清泉 涉案 , 並 非 集體 貪汙 。 </P> </P>

<P> <P> 判決書 指出 , 有 走私 前科 的 高雄籍 天 利 十二號 漁船 船長 鄭叔雄 五 十 五 歲 判決書 指出 , 有 走私 前科 的 高雄籍 天 利 十二號 漁船 船長 鄭叔雄 五 十 五 歲 ) ) ,, </P> </P> <P> <P> 判決書 表示 , 這 段 期間 , 警員 張清泉 利用 在 興達港 警察 分駐所 負責 執行 漁船 出港 安檢 工作 的 機會 , 連續 判決書 表示 , 這 段 期間 , 警員 張清泉 利用 在 興達港 警察 分駐所 負責 執行 漁船 出港 安檢 工作 的 機會 , 連續

五 次 明知 天 利 十二號 漁船 私 運 價值 超過 十 萬元 , 並 被 行政院 列為 管制 物品 的 鱉 苗 與 青蛙 , 但 仍 予 放行 五 次 明知 天 利 十二號 漁船 私 運 價值 超過 十 萬元 , 並 被 行政院 列為 管制 物品 的 鱉 苗 與 青蛙 , 但 仍 予 放行 , 由於 調查 人員 監聽到 張清泉 與 船長 及 鱉 商 的 電話 通話 , 罪證 確鑿 , 因此 判處 七年六月 徒刑 , 褫奪 公權 , 由於 調查 人員 監聽到 張清泉 與 船長 及 鱉 商 的 電話 通話 , 罪證 確鑿 , 因此 判處 七年六月 徒刑 , 褫奪 公權 五年 。 五年 。 </P> </P>

<P> <P> 承審 法官 指出 , 根據 懲治 走私 條例 第九 條 規定 「 依 法令 負責 檢查 人員 , 明知 為 走私 物品 而 放 行 」 之 罪 ,承審 法官 指出 , 根據 懲治 走私 條例 第九 條 規定 「 依 法令 負責 檢查 人員 , 明知 為 走私 物品 而 放 行 」 之 罪 , 是 以 行為 人 明知 的 直接 故意 為限 , 若 僅 為 間接 故意 或 過失 , 均 難 以 這 項 條文 定罪 , 所以 另 十 九 名 員 是 以 行為 人 明知 的 直接 故意 為限 , 若 僅 為 間接 故意 或 過失 , 均 難 以 這 項 條文 定罪 , 所以 另 十 九 名 員警 在 天 利 十二號 漁船 出港 時 , 雖然 每 次 都 有 登船 檢查 , 但 未 查到 私貨 , 並 無 故意 縱 放 的 犯行 , 因此 警 在 天 利 十二號 漁船 出港 時 , 雖然 每 次 都 有 登船 檢查 , 但 未 查到 私貨 , 並 無 故意 縱 放 的 犯行 , 因此 全部 判決 無罪 。 此外 , 也 無 證據 顯示 船員 鄭博文 參與 鄭叔雄 等 人 走私 鱉 苗, 判決 無罪 。全部 判決 無罪 。 此外 , 也 無 證據 顯示 船員 鄭博文 參與 鄭叔雄 等 人 走私 鱉 苗, 判決 無罪 。 </P> </P>

<P> <P> 判決書 並 指出 , 天 利 十二號 漁船 船長 鄭叔雄依 走私罪 判處 四年 徒刑 , 船員 吳坤 油 、 吳丁木 與 吳石玉 各 三判決書 並 指出 , 天 利 十二號 漁船 船長 鄭叔雄依 走私罪 判處 四年 徒刑 , 船員 吳坤 油 、 吳丁木 與 吳石玉 各 三年四月 ; 鱉 商 鄭吳碧 三年二月 ; 紀進福 與 余必卿 各 三年 ; 郭健 豐 八個月 , 緩刑 三年 。 年四月 ; 鱉 商 鄭吳碧 三年二月 ; 紀進福 與 余必卿 各 三年 ; 郭健 豐 八個月 , 緩刑 三年 。 </P> </P>

</TEXT> </TEXT> </DOC> </DOC>

Page 7: Information Retrieval and Extraction 2008  期末專題  – 跨語言資訊檢索  (CLIR) Advisor:  陳信希 TA:  許名宏、蔡銘峰

EvaluationEvaluation

Evaluate top 1000 retrieved documentsEvaluate top 1000 retrieved documents Evaluation MetricsEvaluation Metrics

– Mean average precision (MAP)Mean average precision (MAP)– R-precisionR-precision

使用 使用 trec_evaltrec_eval 評估檢索結果評估檢索結果– Usage of Usage of trec_evaltrec_eval

Page 8: Information Retrieval and Extraction 2008  期末專題  – 跨語言資訊檢索  (CLIR) Advisor:  陳信希 TA:  許名宏、蔡銘峰

Dataset Description Dataset Description (1/2)(1/2) ““dict.txtdict.txt” (file)” (file)

– A small English-Chinese dictionaryA small English-Chinese dictionary ““Docs-CH-seg.txtDocs-CH-seg.txt” (file)” (file)

– Word-segmented Chinese documentsWord-segmented Chinese documents ““Docs-CH(no-seg)Docs-CH(no-seg)” (directory)” (directory)

– Raw Chinese documents, same as “Raw Chinese documents, same as “Docs-CH-seg.txtDocs-CH-seg.txt” exc” except without word-segmentationept without word-segmentation

““TrainingTopics(EN).txtTrainingTopics(EN).txt” (file)” (file)– Training topics (in English) for system developmentTraining topics (in English) for system development

““TrainingTopics-qrel(CH).txtTrainingTopics-qrel(CH).txt” (file)” (file)– Relevance assessment of training topics for “Relevance assessment of training topics for “Docs-CH*Docs-CH*””

– Format of each line in the file:Format of each line in the file:<topic_num> 0 <doc_num> <relevant(1) or irrelevant(0)><topic_num> 0 <doc_num> <relevant(1) or irrelevant(0)>

Page 9: Information Retrieval and Extraction 2008  期末專題  – 跨語言資訊檢索  (CLIR) Advisor:  陳信希 TA:  許名宏、蔡銘峰

Dataset Description Dataset Description (2/2)(2/2) ““Docs-EN.txtDocs-EN.txt” (file)” (file)

– An additional (not necessary) English document collectiAn additional (not necessary) English document collectionon

““TrainingTopics-qrel(EN).txtTrainingTopics-qrel(EN).txt” (file)” (file)– Relevance assessment of training topics for “Relevance assessment of training topics for “Docs-EN.txDocs-EN.txtt””

– Same format as “Same format as “TrainingTopics-qrel(CH).txtTrainingTopics-qrel(CH).txt” ” ““trec_eval(win32).exetrec_eval(win32).exe” (file)” (file)

– Program for evaluation in win32 platformProgram for evaluation in win32 platform ““trec_eval(UNIX_source).tar.gztrec_eval(UNIX_source).tar.gz” (file)” (file)

– Source of evaluation program for UNIXSource of evaluation program for UNIX