sewm2007 中文 web 检索评测
DESCRIPTION
SEWM2007 中文 Web 检索评测. 李静静 , [email protected] 北京大学网络实验室 2007-03. 提纲. 评测任务介绍 CWT200g 测试集构建 评测结果 总结. 评测任务之一:主题提取( Topic Distillation ). 对于一个特定主题发现一组关键资源 注重以站点作为资源的查询 要求是在前十个结果中寻找尽可能多的不同站点(用它们的网站的入口页面表示) 判断是否一个好的入口页面 , 应该考查结果是否符合下面三个条件 : 是否大部分切合主题; 提供主题的可靠的信息; 不是一个更大的切合主题站点的一部分. - PowerPoint PPT PresentationTRANSCRIPT
提纲
评测任务介绍 CWT200g 测试集构建 评测结果 总结
评测任务之一:主题提取( Topic Distillation)
对于一个特定主题发现一组关键资源– 注重以站点作为资源的查询– 要求是在前十个结果中寻找尽可能多的不同站点(用
它们的网站的入口页面表示) 判断是否一个好的入口页面 , 应该考查结果是否
符合下面三个条件 :– 是否大部分切合主题;– 提供主题的可靠的信息;– 不是一个更大的切合主题站点的一部分
评测任务之二:导航搜索 (Navigation search)
主页查询 (Home Page finding , HP)– 通常是一个网站的主页
指定页面查询 (Named Page finding , NP )– 满足用户需求的特定页面
评测准则– 第一个正确答案出现位置的倒数平均值( MRR )
测试集使用框架
CWT200g文档集
CWT200g– 根据天网搜索引擎在 2005 年 11 月份数据中的 627,
036 个站点为数据基础– 容量 :197GB– 覆盖 29,100 个网站, 37,482,913 个网页– 网页本身是压缩保存 , 以天网格式保存
Topic 示例:主题提取 (TD)
<top><num>Number:TD217<title> 体育新闻 </title><desc>Description:足球,篮球,奥运,亚运等等的新闻报道</top>
Topic 示例:导航搜索 (HP/NP)
<top><num>Number:NP890<title> 中国政法大学学工部 </title></top><top><num>Number:NP1145<title> 政府网站 2005 年十件大事 </title></top>
相关答案集的构建
采用 pooling 方法, pooling 的深度比去年加大– 每个主题 1000 个待判断的文档
相关判断结果– 保留了 56 个主题,共 1848 个相关文档– 各主题平均答案数
SEWM2007 : 33 个 vs. SEWM2006 : 33.5 个
各主题相关答案数分布
020406080
100120140160180
1 6 11 16 21 26 31 36 41 46 51 56 61
Rank of topi c(by rel evant number)
Numb
er r
elev
ant
per
topi
c
SEWM2007SEWM2006
pool深度对相关答案数的影响之一
0
200
400
600
800
1000
1200
1400
1600
1800
2000
250 300 350 400 450 500 550 600 650 700 750 800 850 900 950 1000
pool 深度
总的
相关
答案
数
pool深度对相关答案数的影响之二
0
20
40
60
80
100
120
140
160
180
216
219
222
225
228
231
235
239
242
249
254
258
261
264
267
270
274
278
282
主题号
相关
答案
数
depth 300depth 400depth 500depth 600depth 700depth 800depth 900depth 1000
2007年提交结果的参赛队
TEAM NAME TD-RUNS NPHP-RUNS
北京工业大学 BJUT 5 5
大连理工大学 DUT 4 5
江西师范大学 JXNU 3 3
华南理工大学木棉队 SCUT 5 5
山东大学计算机科学与技术学院 IRSDU 5 5
TD评测结果
根据保留的 56 个主题来评分的结果
不同 pool深度结果与评测结果一致性
0. 8
0. 82
0. 84
0. 86
0. 88
0. 9
0. 92
0. 94
0. 96
0. 98
1
1. 02
250 300 350 400 450 500 550 600 650 700 750 800 850 900 950
pool 深度
Kend
all
tau值
P@10R- Pbpref
NPHP评测结果
HP评测结果
NP评测结果
HP/NP/NPHP的MRR分布图
00. 10. 20. 30. 40. 50. 60. 70. 80. 9
1
BJUT
_NPH
P_RU
N_1
BJUT
_NPH
P_RU
N_2
BJUT
_NPH
P_RU
N_3
BJUT
_NPH
P_RU
N_4
BJUT
_NPH
P_RU
N_5
Dut_
I RLa
b_NP
HP_R
UN1
Dut_
I RLa
b_NP
HP_R
UN2
Dut_
I RLa
b_NP
HP_R
UN3
Dut_
I RLa
b_NP
HP_R
UN4
Dut_
I RLa
b_NP
HP_R
UN5
I RSD
U_NP
_RUN
1
I RSD
U_NP
_RUN
2
I RSD
U_NP
_RUN
3
I RSD
U_NP
_RUN
4
I RSD
U_NP
_RUN
5
J XNU
_NPH
P_RU
N1
J XNU
_NPH
P_RU
N2
J XNU
_NPH
P_RU
N3
SCUT
_KSE
_NPH
P_RU
N1
SCUT
_KSE
_NPH
P_RU
N2
SCUT
_KSE
_NPH
P_RU
N3
SCUT
_KSE
_NPH
P_RU
N4
SCUT
_KSE
_NPH
P_RU
N5
Average
NP
HP
总结
人工评测耗费的资源较大 pooling 深度对评测结果的影响不大,即答案
集不全对评测的影响不大 不同的主题对 pooling 深度的要求不同,采用
更好的 pooling 方法可提高构建答案集的效率
谢谢!