sewm 2007 中文 web 检索测评报告

16
SEWM 2007 中中 Web 中中中中中中 木木木木木 中中中 中中中 中中 中中中 中中中 http://search.scut.edu.cn

Upload: summer

Post on 14-Jan-2016

221 views

Category:

Documents


0 download

DESCRIPTION

SEWM 2007 中文 Web 检索测评报告. 木棉检索队 陈晓锋 罗嘉明 李雯 任利辉 何章鸿 http://search.scut.edu.cn. 目录. 系统设计 运行结果 总结与展望. 系统设计. 基于 Nutch 实现; 对 URL 、 Title 、 Anchor text 、 Content 进行索引; 应用 PageRank 算法; 加入中文分词模块;. 网页. 系统框架 —— 索引. 锚点文本 网页 url 网页标题 网页主题内容. 转换成 nutch 的格式. 中 文 分 词. 文档库. 索引库. 链 接 分 析. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: SEWM 2007 中文 Web 检索测评报告

SEWM 2007 中文 Web 检索测评报告SEWM 2007 中文 Web 检索测评报告

木棉检索队陈晓锋 罗嘉明 李雯 任利辉 何章鸿

http://search.scut.edu.cn

Page 2: SEWM 2007 中文 Web 检索测评报告

2

目录 系统设计 运行结果 总结与展望

Page 3: SEWM 2007 中文 Web 检索测评报告

3

系统设计

基于 Nutch 实现; 对 URL 、 Title 、 Anchor text 、 Conte

nt 进行索引; 应用 PageRank 算法; 加入中文分词模块;

Page 4: SEWM 2007 中文 Web 检索测评报告

4

系统框架——索引

转换成 nutch 的格式

中文分词

链接分析

文档库 索引库网页

链接库

锚点文本网页 url网页标题网页主题内容

简单 pagerank ( SPR )算法

( ) ln ( )PR P C inlink

Page 5: SEWM 2007 中文 Web 检索测评报告

5

中文分词:使用两组词库 采用正向最大匹配算法 分别使用两组词库,测试词库对检索结果的影响 小词库:包含 6 万个常用词 大词库:采用搜狐研发中心免费提供的搜狗互联

网词库 互联网词库来自于对搜狗搜索引擎所索引到的中

文互联网语料的统计分析,统计所进行的时间是2006 年 10 月,涉及到的互联网语料规模在 1 亿页面以上。统计出的词条数约为 15 万条高频词,除标出这部分词条的词频信息之外,还标出了常用的词性信息。

Page 6: SEWM 2007 中文 Web 检索测评报告

6

系统框架——检索

用户输入查询词 索引库

检索策略 结果

TD:查询扩展

NP/HP:对 title 域进行不同的

加权

Page 7: SEWM 2007 中文 Web 检索测评报告

7

检索策略: TD 扩展查询

自动抽取 baidu 的相关搜索,对查询词进行扩展,比如:

<top>

<num>Number:TD216

<title> 计算机等级考试 </title>

<desc>Description:

查找与计算机等级考试有关的比较全面的信息,等级考试的介绍,考题答疑,考试大纲,考试试题等

</top>

Page 8: SEWM 2007 中文 Web 检索测评报告

8

百度相关搜索

扩展后为:计算机等级考试时间、国家计算机等级考试、计算机等级考试网、计算机等级考试查询、计算机等级考试试题、电脑等级考试、江苏计算机等级考试、 2007 计算机等级考试

用扩展后的查询词搜索,每个查询词均返回 300 条结果;

合并扩展查询结果。

Page 9: SEWM 2007 中文 Web 检索测评报告

9

检索策略: NPHP 对 Title 域进行不同加权

我们发现,对于 NPHP 任务, Title 域显得比其他 url 域和 contont 域更加重要。

于是,我们对 Title 域设定不同的权值,取值范围在 1 ~ 15 ,并使用去年导航搜索在 200g 上的答案进行测试。测试结果表明,权值为 10 的时候效果最佳,权值为 3次之。– title : anchor text : content = 10 : 2 : 1

– title : anchor text : content = 3 : 2: 1

Page 10: SEWM 2007 中文 Web 检索测评报告

10

二次排序 TD :主要进行 url 简单聚类,将同一网站

的得分最高的 url 放到最前 对于查询扩展

– 对每个扩展词的 300 条结果进行站内聚合,并将每个网站内的 ROOT 、 SUBROOT 、 url 深度小于 3 的 PATH 的 url 提前

– 对所有被提前的网页按照得分排序,并尽量保证前十条出现不同网站的 url ,将这些网页放在结果集的前面;

– 对其他网页按照得分进行排序,按顺序排列在前面得到的结果的后面。

Page 11: SEWM 2007 中文 Web 检索测评报告

11

NPHP 二次排序

对搜索结果进行二次排序。算法主要是基于 sewm2006 的论文《基于 URL 类型优先级入口页面查询算法》。

Page 12: SEWM 2007 中文 Web 检索测评报告

12

CWT200g—TD 结果序号 中文分词

( 小词库)中文分词

( 互联网词库)

扩展查询 PageRank

二次排序

RUN1 √ √ √ √

RUN2 √ √ √

RUN3 √ √

RUN4 √ √ √

RUN5 √ √

Page 13: SEWM 2007 中文 Web 检索测评报告

13

CWT200g—NPHP 结果序号 中文分词

( 小词库)

中文分词( 互联网词库)

PageRank 二次排序 Title 域权重

RUN1 √ √ √ 10

RUN2 √ √ √ 10

RUN3 √ √ √ 3

RUN4 √ √ 3

RUN5 √ √ 3

Page 14: SEWM 2007 中文 Web 检索测评报告

14

总结

主要测试了中文分词模块中,互联网词库对检索结果的影响

考察了 Title 设置不同的权重对 NPHP 结果的影响

利用百度相关搜索进行扩展查询

Page 15: SEWM 2007 中文 Web 检索测评报告

15

展望

使用百度相关搜索进行扩展查询也存在问题,很多相关查询没有结果,例如,“ 2007 计算机等级考试”。最好的方式是根据描述来自动产生扩展查询词。

尝试将分类、聚类应用到检索任务中,提高检索精度

Page 16: SEWM 2007 中文 Web 检索测评报告

16

谢谢大家!欢迎交流!谢谢大家!欢迎交流!