sewm'05 中文网页分类评测

SEWM'05 SEWM'05 中文网页分类评测中文网页分类评测

龚笔宏龚笔宏 ,,[email protected]@net.pku.edu.cn

北京大学网络与分布式系统实验室北京大学网络与分布式系统实验室2005-09-272005-09-27

主要内容主要内容

网页分类评测介绍网页分类评测介绍评测流程评测流程评测结果评测结果总结及讨论总结及讨论

1.1.中文网页分类评测介绍中文网页分类评测介绍

中文网页分类在各个领域的广泛应用中文网页分类在各个领域的广泛应用挑战和机遇挑战和机遇 :: 在传统的模式识别的技术基础之在传统的模式识别的技术基础之

上，开展针对上，开展针对 WebWeb 网页特性的研究工作。网页特性的研究工作。存在的问题：缺乏一个标准的评测工具以及存在的问题：缺乏一个标准的评测工具以及

评测方法评测方法 ,, 不同的数据集将会得到不同的评测不同的数据集将会得到不同的评测结果。结果。

1.1.中文网页分类评测介绍中文网页分类评测介绍第一次中文网页分类评测：第一次中文网页分类评测：

20032003 年第一届全国搜索引擎及年第一届全国搜索引擎及 WebWeb 挖掘大挖掘大会会

评测流程评测流程现场手工选取测试网页（共现场手工选取测试网页（共 2828 个）个）现场各参赛队进行分类现场各参赛队进行分类检查分类结果，打分并给出结果检查分类结果，打分并给出结果

规模小，不足以真实的反应分类器的情况规模小，不足以真实的反应分类器的情况

1.1.中文网页分类评测介绍中文网页分类评测介绍

我们的目的：我们的目的：为这个领域的研究人员提供一个交流的机会为这个领域的研究人员提供一个交流的机会希望在国内外各个研究小组的共同参与下建希望在国内外各个研究小组的共同参与下建

立并完善以中文为主的分类训练集，以进一立并完善以中文为主的分类训练集，以进一步促进中文步促进中文 WebWeb 分类技术的发展。分类技术的发展。

评测网页分类的核心技术评测网页分类的核心技术 ,, 考察分类结果的考察分类结果的准确性以及全面性。准确性以及全面性。

2.2.评测流程评测流程训练集说明训练集说明 :2002:2002 年秋天年秋天

北京大学网络与分布式实北京大学网络与分布式实验室天网小组通过动员不验室天网小组通过动员不同专业的几十个学生，人同专业的几十个学生，人工选取形成了一个全新的工选取形成了一个全新的大规模中文网页样本集。大规模中文网页样本集。它包括它包括 1167811678 个训练网个训练网页实例和页实例和 36303630 个测试网个测试网页实例。页实例。

类别名称类别名称人文与艺术人文与艺术商业与经济商业与经济娱乐与休闲娱乐与休闲计算机与因特网计算机与因特网教育教育各国风情各国风情自然科学自然科学政府与政治政府与政治社会科学社会科学医疗与健康医疗与健康社会与文化社会与文化

2.2.评测流程评测流程手工选取测试网页手工选取测试网页

没有直接采用训练集中的一部分网页作为测试没有直接采用训练集中的一部分网页作为测试集的原因集的原因

为了公平起见为了公平起见训练集中的网页都是手工挑选的，类别特征明训练集中的网页都是手工挑选的，类别特征明

显的页面显的页面另行选取测试网页，更能够真实的体现互联网另行选取测试网页，更能够真实的体现互联网

上网页的特征上网页的特征

2.2.评测流程评测流程

测试网页的选取原则测试网页的选取原则不是纯英文网页不是纯英文网页不限编码格式不限编码格式网页平均分布于各类别中网页平均分布于各类别中 ,, 每个类别每个类别 100100 个测个测

试页面试页面不限网页文字多少不限网页文字多少

2.2.评测流程评测流程测试网页的选取流程测试网页的选取流程

从从 CWT100gCWT100g 中随机抽取中随机抽取 20002000 个网页个网页手工对这手工对这 20002000 个网页进行分类（但是由于随机页面个网页进行分类（但是由于随机页面

的类别分布并不均匀，分类结果并没有达到预期目标的类别分布并不均匀，分类结果并没有达到预期目标））

以以 20002000 个网页为种子，在个网页为种子，在 CWT100gCWT100g 中寻找同站点中寻找同站点的页面作为候选页面的页面作为候选页面

手工加程序辅助对候选页面进行分类，直至达到预期手工加程序辅助对候选页面进行分类，直至达到预期目标目标

最终得到一共最终得到一共 11001100 个测试页面，每个类别个测试页面，每个类别 100100 个个

2.2.评测流程评测流程参赛队的参赛流程参赛队的参赛流程

参赛队申请获得所需数据（包括参赛队申请获得所需数据（包括 CWT100G ,CWT100G , 以及以及分类器训练集数据）分类器训练集数据）

各参加评测单位建立分类系统，给出各参加评测单位建立分类系统，给出 CWT100GCWT100G 中中所有网页的类别号所有网页的类别号

20052005 年年 88 月月 2525日零点之前提交结果日零点之前提交结果根据前文所人工选取的测试集，检查每份结果的分根据前文所人工选取的测试集，检查每份结果的分

类质量类质量最终提交了有效结果集的共有最终提交了有效结果集的共有 55 个单位，个单位， 99 份份

结果结果

2.2.评测流程评测流程评测指标：主要有精度评测指标：主要有精度 presicion,presicion,召回率召回率

recall,recall,宏观宏观 F1F1值值 PP 值值其中是经分类系统输出分类结果为第其中是经分类系统输出分类结果为第ii类的文档个数类的文档个数 , , 是在中分类正确的文档个数。是在中分类正确的文档个数。

RR 值值其中为所有测试文档中，属于第其中为所有测试文档中，属于第 ii类类的文档个数；是经分类系统输出分类结果为第的文档个数；是经分类系统输出分类结果为第 ii类且结果正确的文档个数类且结果正确的文档个数

F1F1值值

i

ii mlp mi

l i

i

ii nlp

l i

n i

)(**2

1 rprpF

3.3.评测结果评测结果

队伍队伍队名队名提交结果数提交结果数北京大学计算机科学技术北京大学计算机科学技术研究所研究所 pkupku 11

江西师范江西师范 11 队队 jxsf1jxsf1 22

江西师范江西师范 22 队队 Jxsf2Jxsf2 22

清华清华 TsinghuaTsinghua 11

华南理工华南理工 scutscut 33

总计结果数总计结果数 99

已提交结果的队伍：

99 组结果的组结果的 Macro_p,Macro_R,Macro_f1Macro_p,Macro_R,Macro_f1 值如下：值如下：

0

10

20

30

40

50

60

70

Macro_pMacro_rMacro_f1

Macro pMacro p Macro RMacro R Macro f1Macro f1

Scut_run1Scut_run1 63.3763.37 58.8158.81 61.0161.01

Jxsf1_run2Jxsf1_run2 62.3162.31 57.5457.54 59.8359.83

Scut_run2Scut_run2 59.5259.52 54.4554.45 56.8756.87

jxsf1_run1jxsf1_run1 59.5359.53 5252 55.5355.53

pkupku 57.3557.35 5050 53.6453.64

Jxsf2_run1Jxsf2_run1 64.7164.71 4444 52.3852.38

TsinghuaTsinghua 55.8555.85 45.8345.83 50.2350.23

Scut_run2Scut_run2 50.9150.91 48.2748.27 49.5549.55

Jxsf2_run2Jxsf2_run2 9.059.05 4.634.63 6.136.13

1111 个类别上各组结果的表现个类别上各组结果的表现 (f1)(f1)

0102030405060708090100

pkuj xnu1_run1j xnu1_run2j xnu2_run1j xnu2_run2tsi nghuascut_run1scut_run2scut_run3

评测结果的分析评测结果的分析

所有结果的所有结果的 f1f1值都在值都在 50%~60% 50%~60% 之之间间

同一分类器在不同类别上的表现大不同一分类器在不同类别上的表现大不相同相同 ,“,“ 医疗与健康”，“教育”等类医疗与健康”，“教育”等类别普遍表现较好。别普遍表现较好。

4.4.总结及讨论总结及讨论下一步的工作讨论：下一步的工作讨论：

测试集的大小测试集的大小目前测试集共目前测试集共 11001100 个测试页面，平均每个类个测试页面，平均每个类别别 100100 个网页个网页

分类评测与信息检索评测的不同分类评测与信息检索评测的不同是不是有必要扩大规模？扩大有没有意义？是不是有必要扩大规模？扩大有没有意义？

评测形式评测形式单独的分类评测单独的分类评测 vs. vs. 结合其他的应用结合其他的应用

谢谢谢谢 !!

sewm'05 中文网页分类评测

Documents