sewm 2007 中文 web 检索测评报告
DESCRIPTION
SEWM 2007 中文 Web 检索测评报告. 木棉检索队 陈晓锋 罗嘉明 李雯 任利辉 何章鸿 http://search.scut.edu.cn. 目录. 系统设计 运行结果 总结与展望. 系统设计. 基于 Nutch 实现; 对 URL 、 Title 、 Anchor text 、 Content 进行索引; 应用 PageRank 算法; 加入中文分词模块;. 网页. 系统框架 —— 索引. 锚点文本 网页 url 网页标题 网页主题内容. 转换成 nutch 的格式. 中 文 分 词. 文档库. 索引库. 链 接 分 析. - PowerPoint PPT PresentationTRANSCRIPT
SEWM 2007 中文 Web 检索测评报告SEWM 2007 中文 Web 检索测评报告
木棉检索队陈晓锋 罗嘉明 李雯 任利辉 何章鸿
http://search.scut.edu.cn
2
目录 系统设计 运行结果 总结与展望
3
系统设计
基于 Nutch 实现; 对 URL 、 Title 、 Anchor text 、 Conte
nt 进行索引; 应用 PageRank 算法; 加入中文分词模块;
4
系统框架——索引
转换成 nutch 的格式
中文分词
链接分析
文档库 索引库网页
链接库
锚点文本网页 url网页标题网页主题内容
简单 pagerank ( SPR )算法
( ) ln ( )PR P C inlink
5
中文分词:使用两组词库 采用正向最大匹配算法 分别使用两组词库,测试词库对检索结果的影响 小词库:包含 6 万个常用词 大词库:采用搜狐研发中心免费提供的搜狗互联
网词库 互联网词库来自于对搜狗搜索引擎所索引到的中
文互联网语料的统计分析,统计所进行的时间是2006 年 10 月,涉及到的互联网语料规模在 1 亿页面以上。统计出的词条数约为 15 万条高频词,除标出这部分词条的词频信息之外,还标出了常用的词性信息。
6
系统框架——检索
用户输入查询词 索引库
检索策略 结果
TD:查询扩展
NP/HP:对 title 域进行不同的
加权
7
检索策略: TD 扩展查询
自动抽取 baidu 的相关搜索,对查询词进行扩展,比如:
<top>
<num>Number:TD216
<title> 计算机等级考试 </title>
<desc>Description:
查找与计算机等级考试有关的比较全面的信息,等级考试的介绍,考题答疑,考试大纲,考试试题等
</top>
8
百度相关搜索
扩展后为:计算机等级考试时间、国家计算机等级考试、计算机等级考试网、计算机等级考试查询、计算机等级考试试题、电脑等级考试、江苏计算机等级考试、 2007 计算机等级考试
用扩展后的查询词搜索,每个查询词均返回 300 条结果;
合并扩展查询结果。
9
检索策略: NPHP 对 Title 域进行不同加权
我们发现,对于 NPHP 任务, Title 域显得比其他 url 域和 contont 域更加重要。
于是,我们对 Title 域设定不同的权值,取值范围在 1 ~ 15 ,并使用去年导航搜索在 200g 上的答案进行测试。测试结果表明,权值为 10 的时候效果最佳,权值为 3次之。– title : anchor text : content = 10 : 2 : 1
– title : anchor text : content = 3 : 2: 1
10
二次排序 TD :主要进行 url 简单聚类,将同一网站
的得分最高的 url 放到最前 对于查询扩展
– 对每个扩展词的 300 条结果进行站内聚合,并将每个网站内的 ROOT 、 SUBROOT 、 url 深度小于 3 的 PATH 的 url 提前
– 对所有被提前的网页按照得分排序,并尽量保证前十条出现不同网站的 url ,将这些网页放在结果集的前面;
– 对其他网页按照得分进行排序,按顺序排列在前面得到的结果的后面。
11
NPHP 二次排序
对搜索结果进行二次排序。算法主要是基于 sewm2006 的论文《基于 URL 类型优先级入口页面查询算法》。
12
CWT200g—TD 结果序号 中文分词
( 小词库)中文分词
( 互联网词库)
扩展查询 PageRank
二次排序
RUN1 √ √ √ √
RUN2 √ √ √
RUN3 √ √
RUN4 √ √ √
RUN5 √ √
13
CWT200g—NPHP 结果序号 中文分词
( 小词库)
中文分词( 互联网词库)
PageRank 二次排序 Title 域权重
RUN1 √ √ √ 10
RUN2 √ √ √ 10
RUN3 √ √ √ 3
RUN4 √ √ 3
RUN5 √ √ 3
14
总结
主要测试了中文分词模块中,互联网词库对检索结果的影响
考察了 Title 设置不同的权重对 NPHP 结果的影响
利用百度相关搜索进行扩展查询
15
展望
使用百度相关搜索进行扩展查询也存在问题,很多相关查询没有结果,例如,“ 2007 计算机等级考试”。最好的方式是根据描述来自动产生扩展查询词。
尝试将分类、聚类应用到检索任务中,提高检索精度
16
谢谢大家!欢迎交流!谢谢大家!欢迎交流!