闫宏飞 , [email protected] 北京大学计算机系网络与分布式系统实验室 2004 年 11 月...

27
北北北北北北北北北北北北北 闫闫闫 , [email protected] 闫闫闫闫闫闫闫闫闫闫闫闫闫闫闫 闫闫闫 2004 闫 11 闫 13 闫 httP://net.pku.edu.cn/~we bg/cwt

Upload: sivan

Post on 18-Mar-2016

97 views

Category:

Documents


3 download

DESCRIPTION

httP://net.pku.edu.cn/~webg/cwt. 闫宏飞 , [email protected] 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日. 主要内容. 介绍 构建 CWT100g 提议. TREC 追求的四个目标. 以 大规模测试集 为基础,推动信息检索的研究; 经由 开放式的论坛 ,使与会者能交流研究的成果与心得,以增进学术界、产业界与政府的交流互通; 经由对 真实检索环境 的模拟与重要改进,加速将实验室研究技术转化为商业产品; - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Accumulate history pages, reemerge all variations

北京大学网络与分布式实验室

闫宏飞 , [email protected]

北京大学计算机系网络与分布式系统实验室

2004 年 11 月 13 日

httP://net.pku.edu.cn/~webg/cwt

Page 2: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking University主要内容

介绍构建 CWT100g提议

Page 3: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking UniversityTREC 追求的四个目标

以大规模测试集为基础,推动信息检索的研究; 经由开放式的论坛,使与会者能交流研究的成果与心得,以增进

学术界、产业界与政府的交流互通; 经由对真实检索环境的模拟与重要改进,加速将实验室研究技术

转化为商业产品; 发展适当且具应用性的评估技术,供各界遵循采用,包括开发更

适用于现有系统的新的评估技术。

Page 4: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking University背景介绍

1996 1999 2000 2002 2004

Cycles: experience requirement experience requirement experience requirement

Key ideas:

Web pages preserve easier preserve

Web pages FTP files grow vanishing web resources mass system

exponentially pages Mile- Tianwang 1.0 Bingle 1.0 Tianwang 2.0 Web InfoMall 1.0 CDAL 1.0, World MEMEX stones: Web InfoMall 2.0

Page 5: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking University大纲

介绍构建 CWT100g提议

Page 6: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking UniversityWeb 测试集的设计原则

测试集( test collection )就包括文档集( documents )、查询集( queries )和相关结果集( relevance judgments )三个部分。

Web 测试集设计中最基本的问题是:文档集能否真正代表所要研究的对象(此处即 Web )?

文档集应当是静态样本还是动态样本 ?

在多大程度上可以成为研究对象的代表 ?

为了使文档集能满足通用的或特定的研究目标,总体规模应当有多大 ?

Page 7: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking University测试集使用框架

Page 8: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking UniversityCWT100g 构建时间表

2004.2.1 6.16 10.8 -20 11.3 11.10

CWT100g idea Document query pooling judgment ......

√ √ √

我是一小步,人类的一大步 !

Page 9: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking University构建文档集

文档集,根据天网搜索引擎截止 2004 年 2 月 1 日发现的中国范围内提供 Web 服务的 1,000,614 个主机,从中采样 17,683 个站点,在 2004 年 6 月搜集获得 5,712,710 个网页,包括网页内容和 Web 服务器返回的信息,容量为 90GB 。其中每个网页对应的服务器返回信息中的 MIME 类型都是 "text/html" 或者 "text/pl

ain" 。 [Yan, et al.,11,2004] H. F. Yan, B. Peng, C. C., and X. M. Li,

"On the Construction of a Large Scale Chinese Web Test Co

llection," submitted to Journal of Computer Science and Te

chnology, 11,2004.

Page 10: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking UniversityTianwang Storage format

version: 1.0 // version numberurl: http://www.pku.edu.cn/ // URLorigin: http://www.somewhere.cn/ // original URLdate: Tue, 15 Apr 2003 08:13:06 GMT // time of harvestip: 162.105.129.12 // IP addressunzip-length: 30233 // If included, the data must be compressedlength: 18133 // data length

// a blank lineXXXXXXXX // the followings are data partXXXXXXXX….XXXXXXXX // data end

// insert a new line

[Yan, et al.,2004] H. F. Yan, L. N. Huang, C. Chen, and Z. M. Xie, "A New Data Storage and Service Model of China Web InfoMall," presented at the 4th International Web Archiving Workshop (IWAW04) of 8th European Conference on Research and Advanced Technologies for Digital Libraries (ECDL08), Bath, UK, 2004.

Page 11: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking University发布 CWT100g

Page 12: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking University

Page 13: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking University

Page 14: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking University北大燕穹数据共享情况

2.0/6.4 = 31.3%

Page 15: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking University构建查询集

查询集,首先从 2002 年 4 月到 2004 年 6 月天网日志中采样获得待选集合,然后人工挑选编辑完成。

包括 : 主题提取和导航搜索 ( 包括主页和指定页面查询 ).

[ 郭化楠 , et al.,11,2004] 郭化楠 , 李静静 , 吴霞 , " 如何制作 C

WT100g 的 topics," 11,2004. ( http://net.pku.edu.cn/~webg/cwt/

ConstructCWT100gTopics.pdf ).

Page 16: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking University主题提取( Topic Distillation )

目的是对于一个特定主题发现一组关键资源。在今年的任务中我们将只注重以站点作为资源的查询。要求是在前十个结果中寻找尽可能多的不同站点(用它们的网站 的入口页面表示)。

例如对于主题 'linux' , CWT100G 中的下面站点可能被认为是关键资源: http://www.oldlinux.org/ linux org http://www.mhdn.net/os/29/ 明辉开发者网络 linux区 http://www.redflag-linux.com/ 红旗 Linux 被判断为是一个关键资源,返回页面应该是一个站点的好的首页面。判断是否一个好的首页面 , 应该考查结果是否符合下面三个条件 :

1) 是否大部分切合主题; 2) 提供主题的可靠的信息; 3)不是一个更大的切合主题站点的一部分。 对于 'linux'这一主题,页面 'www.mhdn.net' 不符合第一个条件,而页面 'http://w

ww.redflag-linux.com/chanpin/Desktop/index.html'不符合第三个条件。

Page 17: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking UniversityTopic 示例 : 主题提取( TD )

<top>

<num> Number: TD3

<title>户外运动 </title>

<desc>Description:

介绍户外运动的网站,比如装备、注意事项、团体。</top>

Page 18: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking UniversityTopic 示例 : 导航搜索( HP/NP )

<top><num>Number: NP152<desc>Description:中国人口网</top>

<top><num>Number: NP97<desc>Description:美国航天委员会研究报告内容简介</top>

Page 19: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking University构建相关结果集

结合北大天网在 WWW 搜索方面的优势,和 TREC 的 Pooling法辅助相关结果判断。

传统的 Pooling 作法为:针对每个查询主题, 从参与评比的各系统所送回的测试结果中抽取出前 n篇文档,合并形成一个 Pool ,视之为该查询主题可能的相关文档候选集合,将集合中重复的文档去除后,再送给该查询集的构建者进行相关判断。这种做法的一个局限是,当参加队较少的时候,可汇集的结果权威性较差。

北大天网设计了能够弥补这一局限性的方法, Pooling Plus, 即:将搜索引擎转换为虚拟参赛队,参与结果集合成。这样,即使参赛队数量不多,也能合成质量较高的结果集,达到检验参赛系统检索质量的目的。

Page 20: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking University中文 Web 检索评测

申请获得 CWT100g数据,参加单位用自己的信息检索技术在 C

WT100g 上建立一个查询系统,由评测组提供一个查询测试集,收集各个参加系统的查询结果。

报名截止日期 2004 年 10 月 20 日。 10 月 21 日发查询测试集,10 月 31 日各参加队提交查询结果。

12 个参加队, 7 个参加队提交结果。

Page 21: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking University已提交结果的参加队

TEAM NAME TD-RUNS

NPHP-RUNS

上海交通大学 APEX实验室 APEX 5 5

北京大学计算机科学技术研究所 ANS 3 2

TRS公司 TRS 5 2华南理工大学木棉一队 MUMIAN1 3 1华南理工大学木棉二队 MUMIAN2 2 1华南理工大学计算机学院数据库应用研究室 SCUTDB 5 5

福建师大附中 WLL   1

注: pooling 还包括 google,yisou,baidu,sogou,zhongsou五个 SE 的检索结果。

Page 22: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking University相关性判别工具

Page 23: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking University工具说明

Page 24: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking University评测结果

主题提取 导航搜索

其中 TIANWANG_RUN仅供参考

Page 25: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking University大纲

介绍构建 CWT100g提议

Page 26: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking University规模是关键

发动 IR 相关的研究人员,一起协作来扩大数据集规模。把 judgment 工作分散开,由大家一起分担。 采取 ftp 上常见的按上载贡献分配下载权利的方式,使用数据资源

的必须先提交一定量的 judgment 工作结果 我们来提供基础文档集合(动态集合好像比较难),和一个开放式

的平台 (web site) ,大家可以通过这个平台来参与构建工作 SEWM-2004 中文 Web 检索评测,是我们在这个方向

上的一个初步尝试。目标始终应该是构建出大规模可用的数据集,更好的帮助大家中文信息检索研究工作。

Page 27: 闫宏飞  , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

Networks lab, CS, Peking University

谢谢!