sewm 2007 中文 web 检索测评报告

SEWM 2007 中文 Web 检索测评报告SEWM 2007 中文 Web 检索测评报告

木棉检索队陈晓锋罗嘉明李雯任利辉何章鸿

http://search.scut.edu.cn

2

目录系统设计运行结果总结与展望

3

系统设计

基于 Nutch 实现；对 URL 、 Title 、 Anchor text 、 Conte

nt 进行索引；应用 PageRank 算法；加入中文分词模块；

4

系统框架——索引

转换成 nutch 的格式

中文分词

链接分析

文档库索引库网页

链接库

锚点文本网页 url网页标题网页主题内容

简单 pagerank （ SPR ）算法

( ) ln ( )PR P C inlink

5

中文分词：使用两组词库采用正向最大匹配算法分别使用两组词库，测试词库对检索结果的影响小词库：包含 6 万个常用词大词库：采用搜狐研发中心免费提供的搜狗互联

网词库互联网词库来自于对搜狗搜索引擎所索引到的中

文互联网语料的统计分析，统计所进行的时间是2006 年 10 月，涉及到的互联网语料规模在 1 亿页面以上。统计出的词条数约为 15 万条高频词，除标出这部分词条的词频信息之外，还标出了常用的词性信息。

6

系统框架——检索

用户输入查询词索引库

检索策略结果

TD:查询扩展

NP/HP:对 title 域进行不同的

加权

7

检索策略： TD 扩展查询

自动抽取 baidu 的相关搜索，对查询词进行扩展，比如：

<top>

<num>Number:TD216

<title> 计算机等级考试 </title>

<desc>Description:

查找与计算机等级考试有关的比较全面的信息，等级考试的介绍，考题答疑，考试大纲，考试试题等

</top>

8

百度相关搜索

扩展后为：计算机等级考试时间、国家计算机等级考试、计算机等级考试网、计算机等级考试查询、计算机等级考试试题、电脑等级考试、江苏计算机等级考试、 2007 计算机等级考试

用扩展后的查询词搜索，每个查询词均返回 300 条结果；

合并扩展查询结果。

9

检索策略： NPHP 对 Title 域进行不同加权

我们发现，对于 NPHP 任务， Title 域显得比其他 url 域和 contont 域更加重要。

于是，我们对 Title 域设定不同的权值，取值范围在 1 ～ 15 ，并使用去年导航搜索在 200g 上的答案进行测试。测试结果表明，权值为 10 的时候效果最佳，权值为 3次之。– title : anchor text : content = 10 : 2 : 1

– title : anchor text : content = 3 : 2: 1

10

二次排序 TD ：主要进行 url 简单聚类，将同一网站

的得分最高的 url 放到最前对于查询扩展

– 对每个扩展词的 300 条结果进行站内聚合，并将每个网站内的 ROOT 、 SUBROOT 、 url 深度小于 3 的 PATH 的 url 提前

– 对所有被提前的网页按照得分排序，并尽量保证前十条出现不同网站的 url ，将这些网页放在结果集的前面；

– 对其他网页按照得分进行排序，按顺序排列在前面得到的结果的后面。

11

NPHP 二次排序

对搜索结果进行二次排序。算法主要是基于 sewm2006 的论文《基于 URL 类型优先级入口页面查询算法》。

12

CWT200g—TD 结果序号中文分词

( 小词库）中文分词

( 互联网词库）

扩展查询 PageRank

二次排序

RUN1 √ √ √ √

RUN2 √ √ √

RUN3 √ √

RUN4 √ √ √

RUN5 √ √

13

CWT200g—NPHP 结果序号中文分词

( 小词库）

中文分词( 互联网词库）

PageRank 二次排序 Title 域权重

RUN1 √ √ √ 10

RUN2 √ √ √ 10

RUN3 √ √ √ 3

RUN4 √ √ 3

RUN5 √ √ 3

14

总结

主要测试了中文分词模块中，互联网词库对检索结果的影响

考察了 Title 设置不同的权重对 NPHP 结果的影响

利用百度相关搜索进行扩展查询

15

展望

使用百度相关搜索进行扩展查询也存在问题，很多相关查询没有结果，例如，“ 2007 计算机等级考试”。最好的方式是根据描述来自动产生扩展查询词。

尝试将分类、聚类应用到检索任务中，提高检索精度

16

谢谢大家！欢迎交流！谢谢大家！欢迎交流！

sewm 2007 中文 web 检索测评报告

Documents