sewm2005 中文 web 信息检索评测

22
1 SEWM2005 SEWM2005 中中 中中 Web Web 中中中中中中 中中中中中中 中中中 中中中 , , [email protected] [email protected] 中中中中中中中中中 中中中中中中中中中 2005-09-27 2005-09-27

Upload: varana

Post on 16-Jan-2016

94 views

Category:

Documents


0 download

DESCRIPTION

SEWM2005 中文 Web 信息检索评测. 闫宏飞 , [email protected] 北京大学网络实验室 2005-09-27. System = t 1 + t 2 + … + t n. 系统包含若干技术, t 某人发明了一个新的 t ,评价它的方式 : 用它替换系统中的相应技术,看对总的效果的贡献 单独在一个评测环境中评价 前者往往代价较高(时间,费用) 例如研究搜索引擎排序算法的不一定有机会摆弄真正的,有大规模用户的搜索引擎 后者可能和真实系统应用有距离 能对这距离有把握也行. Outline. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: SEWM2005  中文 Web 信息检索评测

1

SEWM2005 SEWM2005 中文中文WebWeb

信息检索评测信息检索评测闫宏飞闫宏飞 ,,[email protected]@net.pku.edu.cn

北京大学网络实验室北京大学网络实验室

2005-09-272005-09-27

Page 2: SEWM2005  中文 Web 信息检索评测

2

System = tSystem = t1 1 + t+ t2 2 +…+ t+…+ tnn

系统包含若干技术,系统包含若干技术, tt 某人发明了一个新的 某人发明了一个新的 tt ,评价它的方式,评价它的方式 ::

用它替换系统中的相应技术,看对总的效果的贡献用它替换系统中的相应技术,看对总的效果的贡献 单独在一个评测环境中评价单独在一个评测环境中评价

前者往往代价较高(时间,费用)前者往往代价较高(时间,费用) 例如研究搜索引擎排序算法的不一定有机会摆弄真正的,例如研究搜索引擎排序算法的不一定有机会摆弄真正的,

有大规模用户的搜索引擎有大规模用户的搜索引擎 后者可能和真实系统应用有距离后者可能和真实系统应用有距离

能对这距离有把握也行能对这距离有把握也行

Page 3: SEWM2005  中文 Web 信息检索评测

3

OutlineOutline

TRECTREC ( (TText ext REREtrieval trieval CConference)onference) GOV2GOV2 等等

CWIRF CWIRF ((CChinese hinese WWeb eb IInformation nformation RRetrival etrival FForum)orum) CWT100gCWT100g(Chinese Web T(Chinese Web Test collection est collection

with with 100100 ggigabyte web pages)igabyte web pages)

Page 4: SEWM2005  中文 Web 信息检索评测

4

What is TREC?What is TREC?

A workshop series that provides the A workshop series that provides the infrastructure for large-scale testing infrastructure for large-scale testing of (text) retrieval technologyof (text) retrieval technology realistic test collectionsrealistic test collections uniform, appropriate scoring proceduresuniform, appropriate scoring procedures a forum for the exchange of research a forum for the exchange of research

ideas and for the discussion of research ideas and for the discussion of research methodologymethodology

Page 5: SEWM2005  中文 Web 信息检索评测

5

TREC ConferenceTREC Conference Established in 1992 to evaluate large-scale IREstablished in 1992 to evaluate large-scale IR

Retrieving documents from a gigabyte collectionRetrieving documents from a gigabyte collection Has run continuously since thenHas run continuously since then

TREC 2004(13TREC 2004(13thth) meeting is in November) meeting is in November Run by NIST’s Information Access DivisionRun by NIST’s Information Access Division Probably most well known IR evaluation settingProbably most well known IR evaluation setting

Started with 25 participating organizations in 1992 Started with 25 participating organizations in 1992 evaluationevaluation

In 2003, there were 93 groups from 22 different countriesIn 2003, there were 93 groups from 22 different countries Proceedings available on-line (Proceedings available on-line (http://trec.nist.govhttp://trec.nist.gov ) )

Overview of TREC 2003 at Overview of TREC 2003 at http://trec.nist.gov/pubs/trec12/papers/OVERVIEW.12.pdfhttp://trec.nist.gov/pubs/trec12/papers/OVERVIEW.12.pdf

Page 6: SEWM2005  中文 Web 信息检索评测

6

TREC General FormatTREC General Format TREC consists of IR research tracksTREC consists of IR research tracks

Ad hoc, routing, confusion ( scanned documents, speech Ad hoc, routing, confusion ( scanned documents, speech recognition ), video, filtering, multilingual ( cross-language, recognition ), video, filtering, multilingual ( cross-language, Spanish, Chinese ), question answering, novelty, high precision, Spanish, Chinese ), question answering, novelty, high precision, interactive, Web, database merging, NLP, Terabyte…interactive, Web, database merging, NLP, Terabyte…

Each track works on roughly the same modelEach track works on roughly the same model November: track approved by TREC communityNovember: track approved by TREC community Winter: track’s members finalize format for trackWinter: track’s members finalize format for track Spring: researchers train system based on specificationSpring: researchers train system based on specification Summer: researchers carry out format evaluationSummer: researchers carry out format evaluation

Usually a “blind” evaluation: research do not know answerUsually a “blind” evaluation: research do not know answer Fall: NIST carries out evaluationFall: NIST carries out evaluation November: Group meeting (TREC) to find out:November: Group meeting (TREC) to find out:

How well your site didHow well your site did How others tackled the programHow others tackled the program

Many tracks are run by volunteers outside of NIST (e.g. Web)Many tracks are run by volunteers outside of NIST (e.g. Web) ““Coopetition” model of evaluationCoopetition” model of evaluation

Successful approaches generally adopted in next cycleSuccessful approaches generally adopted in next cycle

Page 7: SEWM2005  中文 Web 信息检索评测

7

Yearly Conference CycleYearly Conference Cycle

Collection

Page 8: SEWM2005  中文 Web 信息检索评测

8

TRECTREC 追求的四个目标追求的四个目标以以大规模测试集大规模测试集为基础,推动信息检索的研究; 为基础,推动信息检索的研究; 经由经由开放式的论坛开放式的论坛,使与会者能交流研究的成果与,使与会者能交流研究的成果与

心得,以增进学术界、产业界与政府的交流互通; 心得,以增进学术界、产业界与政府的交流互通; 经由对经由对真实检索环境真实检索环境的模拟与重要改进,加速将实的模拟与重要改进,加速将实

验室研究技术转化为商业产品; 验室研究技术转化为商业产品; 发展适当且具应用性的发展适当且具应用性的评估技术评估技术,供各界遵循采用,,供各界遵循采用,

包括开发更适用于现有系统的新的评估技术。 包括开发更适用于现有系统的新的评估技术。

Page 9: SEWM2005  中文 Web 信息检索评测

9

SEWM2005SEWM2005 评测任务 评测任务

中文中文 WebWeb 检索检索 主题提取主题提取 导航搜索方法导航搜索方法

中文网页分类中文网页分类

Page 10: SEWM2005  中文 Web 信息检索评测

10

WebWeb 测试集的设计原则测试集的设计原则测试集(测试集( test collectiontest collection )就包括文档集)就包括文档集(( documentsdocuments )、查询集()、查询集( queriesqueries )和相关)和相关结果集(结果集( relevance judgmentsrelevance judgments )三个部分。)三个部分。

WebWeb 测试集设计中最基本的问题是:文档集测试集设计中最基本的问题是:文档集 || 尽尽可能真实代表所要研究的对象可能真实代表所要研究的对象

文档集应当是静态样本还是动态样本文档集应当是静态样本还是动态样本 ? ? 在多大程度上可以成为研究对象的代表在多大程度上可以成为研究对象的代表 ?? 为了使文档集能满足通用的或特定的研究目标,总体为了使文档集能满足通用的或特定的研究目标,总体

规模应当有多大规模应当有多大 ??

Page 11: SEWM2005  中文 Web 信息检索评测

11

测试集使用框架测试集使用框架

Page 12: SEWM2005  中文 Web 信息检索评测

12

主题提取(主题提取( Topic DistillationTopic Distillation )) 目的是对于一个特定主题发现一组关键资源。注重以站点作为资源的查询。要求是在前目的是对于一个特定主题发现一组关键资源。注重以站点作为资源的查询。要求是在前

十个结果中寻找尽可能多的不同站点(用它们的网站 的入口页面表示)。十个结果中寻找尽可能多的不同站点(用它们的网站 的入口页面表示)。

例如对于主题例如对于主题‘‘ linux’linux’ ,在,在 CWT100gCWT100g 中的下面站点可能被认为是中的下面站点可能被认为是关键资源关键资源::

http://www.oldlinux.org/ linux orghttp://www.oldlinux.org/ linux org

http://www.mhdn.net/os/29/ http://www.mhdn.net/os/29/ 明辉开发者网络 明辉开发者网络 linuxlinux 区区

http://www.redflag-linux.com/ http://www.redflag-linux.com/ 红旗红旗 LinuxLinux

被判断为是一个关键资源,返回页面应该是一个站点的好的首页面。判断是否一个好的首被判断为是一个关键资源,返回页面应该是一个站点的好的首页面。判断是否一个好的首页面页面 ,, 应该考查结果是否符合下面应该考查结果是否符合下面三个条件三个条件 ::

1)1) 是否大部分切合主题;是否大部分切合主题;

2)2) 提供主题的可靠的信息;提供主题的可靠的信息;

3)3) 不是一个更大的切合主题站点的一部分。不是一个更大的切合主题站点的一部分。

对于对于 'linux''linux' 这一主题,页面这一主题,页面 'www.mhdn.net' 'www.mhdn.net'

不符合第一个条件,而页面不符合第一个条件,而页面 'http://www.redflag-linux.com/chanpin/Desktop/i'http://www.redflag-linux.com/chanpin/Desktop/i

ndex.html'ndex.html' 不符合第三个条件。不符合第三个条件。

Page 13: SEWM2005  中文 Web 信息检索评测

13

TopicTopic 示例示例 : : 主题提取(主题提取( TDTD ))

<top><top>

<num><num> Number: TD74 Number: TD74

<title> <title> CC 语言程序设计 语言程序设计 </title></title>

<desc> <desc> Description:Description:

与与 CC 语言程序相关的程序,源码,论坛等语言程序相关的程序,源码,论坛等</top></top>

Page 14: SEWM2005  中文 Web 信息检索评测

14

TopicTopic 示例示例 : : 导航搜索(导航搜索( HP/NPHP/NP ))

<top><top>

<num><num>Number: NP383Number: NP383

<title><title> 龙厨美食网龙厨美食网 </title></title>

</top></top>

<top><top>

<num><num>Number: NP287Number: NP287

<title><title>““求职信”网络蠕虫病毒解决方案求职信”网络蠕虫病毒解决方案 </title></title>

</top></top>

Page 15: SEWM2005  中文 Web 信息检索评测

15

构建相关结果集构建相关结果集 工作形式,招募人员方式工作形式,招募人员方式

初步评估:通过发布招募广告招募人员来完成 初步评估:通过发布招募广告招募人员来完成 检查:招募天网组内的成员来完成 检查:招募天网组内的成员来完成

工作内容工作内容 针对针对 7575 个个 TDTD ,每个主题通过,每个主题通过 poolingpooling 给出了给出了 500500 个左个左

右的右的 URLURL 组织人员组织人员

组织人:李静静组织人:李静静 协助人:秦琦,郭化楠协助人:秦琦,郭化楠

Page 16: SEWM2005  中文 Web 信息检索评测

16

20052005 年提交结果的参赛队年提交结果的参赛队

TEAMTEAM NAMENAMETD-TD-RUNSRUNS

NPHP-NPHP-RUNSRUNS

北京大学计算机科学技术研北京大学计算机科学技术研究所究所 ICSTICST 33 33

华南理工大学木棉队华南理工大学木棉队 KSEKSE 55 55

大连理工大学大连理工大学 DLUTDLUT 11 11

北航软件所北航软件所 BUAASEIBUAASEI 33 22

Page 17: SEWM2005  中文 Web 信息检索评测

17

TDTD 评测结果评测结果

根据答案超过根据答案超过 33 个的个的 6060 个主题各做评分个主题各做评分

Page 18: SEWM2005  中文 Web 信息检索评测

18

NPHPNPHP 评测结果评测结果

与给出答案具有相同与给出答案具有相同 MD5MD5 的结果都算正确结果的结果都算正确结果

Page 19: SEWM2005  中文 Web 信息检索评测

19

评测过程中评测过程中 FAQFAQ

发现一些网页在发现一些网页在 050722url.no050722url.no 中没有对应中没有对应的编号。 的编号。

对于相同网页内容,网页地址不同的问题 对于相同网页内容,网页地址不同的问题 要求是在前十个结果中寻找尽可能多的不同站要求是在前十个结果中寻找尽可能多的不同站

点(用它们的网站首页面表示)点(用它们的网站首页面表示) ,,发现发现 20042004年给出的年给出的 judgmentjudgment 有问题有问题

关于输出格式的具体化规定关于输出格式的具体化规定 …………

Page 20: SEWM2005  中文 Web 信息检索评测

20

总结及讨论总结及讨论 测试集的改进测试集的改进

文档集文档集 CWT100g CWT100g CWT200g CWT200g 质量和发布形式质量和发布形式

评测形式评测形式 评测任务的设定评测任务的设定 查询集合和答案集合的生成查询集合和答案集合的生成

Page 21: SEWM2005  中文 Web 信息检索评测

21

谢谢谢谢 !!

Page 22: SEWM2005  中文 Web 信息检索评测

22

研讨会时间表研讨会时间表 22 个个 Overview, Overview, 四支队伍,大约每个报告四支队伍,大约每个报告 4040 分钟,共计分钟,共计 44 小时小时

13:30-14:10 13:30-14:10 北大网络实验室,闫宏飞,北大网络实验室,闫宏飞, 20052005 评测评测OverviewOverview ,记,记 Web TrackWeb Track 的的 OverviewOverview

14:10-14:50 14:10-14:50 龚笔宏,中文网页分类龚笔宏,中文网页分类 OverviewOverview 14:50-15:20 14:50-15:20 江西师范大学网络所,曾雪强,参加网页分类报告江西师范大学网络所,曾雪强,参加网页分类报告 15:20-16:50 15:20-16:50 华南理工大学华南理工大学 ,, 朱旭圻朱旭圻 ,, 参加网页分类报告参加网页分类报告 15:50-16:00 break15:50-16:00 break 16:00-16:40 16:00-16:40 北航软件所,曹勇刚,参加北航软件所,曹勇刚,参加 Web TrackWeb Track 报告报告 16:40-17:20 16:40-17:20 北大计算机所,路斌,参加北大计算机所,路斌,参加 Web TrackWeb Track 报告报告 17:20-18:00 17:20-18:00 华南理工大学木棉队华南理工大学木棉队 , , 欧健文,参加欧健文,参加 Web TrackWeb Track

报告报告