sewm2007 中文 web 检索评测

SEWM2007中文Web检索评测

李静静 , [email protected]北京大学网络实验室

2007-03

提纲

评测任务介绍 CWT200g 测试集构建评测结果总结

评测任务之一：主题提取（ Topic Distillation）

对于一个特定主题发现一组关键资源– 注重以站点作为资源的查询– 要求是在前十个结果中寻找尽可能多的不同站点（用

它们的网站的入口页面表示）判断是否一个好的入口页面 , 应该考查结果是否

符合下面三个条件 :– 是否大部分切合主题；– 提供主题的可靠的信息；– 不是一个更大的切合主题站点的一部分

评测任务之二：导航搜索 (Navigation search)

主页查询 (Home Page finding ， HP)– 通常是一个网站的主页

指定页面查询 (Named Page finding ， NP ）– 满足用户需求的特定页面

评测准则– 第一个正确答案出现位置的倒数平均值（ MRR ）

测试集使用框架

CWT200g文档集

CWT200g– 根据天网搜索引擎在 2005 年 11 月份数据中的 627,

036 个站点为数据基础– 容量 :197GB– 覆盖 29,100 个网站， 37,482,913 个网页– 网页本身是压缩保存 , 以天网格式保存

Topic 示例：主题提取 (TD)

<top><num>Number:TD217<title> 体育新闻 </title><desc>Description:足球，篮球，奥运，亚运等等的新闻报道</top>

Topic 示例：导航搜索 (HP/NP)

<top><num>Number:NP890<title> 中国政法大学学工部 </title></top><top><num>Number:NP1145<title> 政府网站 2005 年十件大事 </title></top>

相关答案集的构建

采用 pooling 方法， pooling 的深度比去年加大– 每个主题 1000 个待判断的文档

相关判断结果– 保留了 56 个主题，共 1848 个相关文档– 各主题平均答案数

SEWM2007 ： 33 个 vs. SEWM2006 ： 33.5 个

各主题相关答案数分布

020406080

100120140160180

1 6 11 16 21 26 31 36 41 46 51 56 61

Rank of topi c(by rel evant number)

Numb

er r

elev

ant

per

topi

c

SEWM2007SEWM2006

pool深度对相关答案数的影响之一

0

200

400

600

800

1000

1200

1400

1600

1800

2000

250 300 350 400 450 500 550 600 650 700 750 800 850 900 950 1000

pool 深度

总的

相关

答案

数

pool深度对相关答案数的影响之二

0

20

40

60

80

100

120

140

160

180

216

219

222

225

228

231

235

239

242

249

254

258

261

264

267

270

274

278

282

主题号

相关

答案

数

depth 300depth 400depth 500depth 600depth 700depth 800depth 900depth 1000

2007年提交结果的参赛队

TEAM NAME TD-RUNS NPHP-RUNS

北京工业大学 BJUT 5 5

大连理工大学 DUT 4 5

江西师范大学 JXNU 3 3

华南理工大学木棉队 SCUT 5 5

山东大学计算机科学与技术学院 IRSDU 5 5

TD评测结果

根据保留的 56 个主题来评分的结果

不同 pool深度结果与评测结果一致性

0. 8

0. 82

0. 84

0. 86

0. 88

0. 9

0. 92

0. 94

0. 96

0. 98

1

1. 02

250 300 350 400 450 500 550 600 650 700 750 800 850 900 950

pool 深度

Kend

all

tau值

P@10R- Pbpref

NPHP评测结果

HP评测结果

NP评测结果

HP/NP/NPHP的MRR分布图

00. 10. 20. 30. 40. 50. 60. 70. 80. 9

1

BJUT

_NPH

P_RU

N_1

BJUT

_NPH

P_RU

N_2

BJUT

_NPH

P_RU

N_3

BJUT

_NPH

P_RU

N_4

BJUT

_NPH

P_RU

N_5

Dut_

I RLa

b_NP

HP_R

UN1

Dut_

I RLa

b_NP

HP_R

UN2

Dut_

I RLa

b_NP

HP_R

UN3

Dut_

I RLa

b_NP

HP_R

UN4

Dut_

I RLa

b_NP

HP_R

UN5

I RSD

U_NP

_RUN

1

I RSD

U_NP

_RUN

2

I RSD

U_NP

_RUN

3

I RSD

U_NP

_RUN

4

I RSD

U_NP

_RUN

5

J XNU

_NPH

P_RU

N1

J XNU

_NPH

P_RU

N2

J XNU

_NPH

P_RU

N3

SCUT

_KSE

_NPH

P_RU

N1

SCUT

_KSE

_NPH

P_RU

N2

SCUT

_KSE

_NPH

P_RU

N3

SCUT

_KSE

_NPH

P_RU

N4

SCUT

_KSE

_NPH

P_RU

N5

Average

NP

HP

总结

人工评测耗费的资源较大 pooling 深度对评测结果的影响不大，即答案

集不全对评测的影响不大不同的主题对 pooling 深度的要求不同，采用

更好的 pooling 方法可提高构建答案集的效率

谢谢！

sewm2007 中文 web 检索评测

Documents