华南木棉中文网页分类器

华南木棉中文网页分类器华南木棉中文网页分类器华南理工大学信息网络工程研究中心

　广东省计算机网络重点实验室　

曹鸿 (队长 ) 李嘉林陈胜荣朱旭圻　

全国搜索引擎与网上信息学术研讨会SEWM 2006--- 中文文本分类

目录

• 系统模块• 系统流程• 测试结果• 总结与展望

模块结构

中文文本分类系统

网页去噪

特征空间压缩

中文分词处理

文本分类系统

网页模板去噪

大规模数据集分块

去网页

Html信息

自动中文切词

去除英文禁止词

构建中文词库

英文单词

Stemming

根据IG确定模型词库大小

用tfidf修正向量权重

形成

VSM

向量

SVMlight算法分类

形成标准输出格式

网页去噪模块

• 预处理对天网格式的训练集 1 ，训练集 2 及 CWT20G 文件

进行解压，得到三个网页文档集合 (11 类别训练集， 8类别训练集，待分类网页集），一个网页对应一个文档，以 docID 命名。

• 去除标签去掉无用的 HTML 语法标签信息

• 模板去噪对 45M 训练集进行

数据集原来大小去噪后大小11 类别训练集 200M 68M 8 类别训练集 45M 18MCWT20G 20G 11G

模板去噪

• 使用模板去噪以后，可以比较好的去除网页中导航栏，广告条，网站介绍，公司信息，无关链接等与网页主题内容无关的噪音信息。

• 网页模板选取– 选取一个结构相似的网页模板。我们使用网页 URL 作

为衡量网页模板相似性的因子。– 在训练集找出一个网页，它的 URL 与待分类网页 URL

具有最长相同前缀，这个网页就被视为网页模板。• 模板去噪

– 记待去噪网页为 t, 选取的模板为 s. 然后利用 JTidy 建立两个网页的 DOM 树，从根结点开始，依次比较，如果有相同的结点，则认为该结点为噪音信息而删除。

中文分词模块

• 中文分词使用开源中文分词系统 ICTCLAS ，只保留名词。

• 进行中文分词后继续进行 stemming 处理。• Rainbow 的禁止词是 SMART system 的 524

个，我们进行扩充达到 1500 个。

特征空间压缩

• 采用了 IG （ Information Gain: IG ）特征选择算法对数据集进行特征降维，压缩特征空间。

• 200M 数据集的特征空间维数为：– 65565 （共 138365 维）

• 45M 数据集的特征空间维数为：– 4800 （共 13024 维）

分类模块

• NB ：朴素贝叶斯（ Naïve Bayes ）算法• SVM ：支持向量机（ Support Vector Machi

ne ）算法• SVMlight 算法：对 joachims 的二元分类器进

行了改进（结合 OVA 算法），使其可用于多元分类，并引入加权策略（ OVA-WWT ），提高分类精度。

OVA-WWT 策略：One Vs All With Weighted Threshold

• 传统 OVA ，只是比较文档对 N 个类别的相似度，简单地取相似度最大的那个类别，由于这 N 个相似度是由 N 个不同的分类器产生，简单地取最大值作为阈值策略并不合适

• 我们提出 OVA-WWT （ One-Vs-All-With-Weighted Threshold ）算法，在 OVA 算法的结果融合阶段引入加权阈值策略，以提高类别公平度，从而提高分类精度。

人工操作

• CWT20G 中有 1900 个文件由于具有某些无法识别的字符，使用本系统不能进行特征表示。我们会先统计 20G 网页的分类分布情况，然后将这些网页归入到分布概率最大的那个类别中去。

目录

• 系统模块• 系统流程• 测试结果• 总结与展望

中文分词中文分词

特征压缩特征压缩

去除 HTML 标签及模板去噪

去除 HTML 标签及模板去噪按天网格式

解压按天网格式

解压

去除 HTML 标签及模板去噪

去除 HTML 标签及模板去噪按天网格式

解压按天网格式

解压

参数调优参数调优

特征建模特征建模

分类模型

中文分词中文分词

特征表示特征表示

训练集网页文档

训练集网页文档

训练集训练集

CWT20G

CWT20G 待分类

网页文档待分类网页文档

分类器分类结果分类结果出错处理出错处理

测试结果

• 用 200M 网页集的训练集部分建模，测试集部分进行测试，本分类系统的宏平均正确率达到 87.61% ，宏平均召回率达到 84.02% ，宏平均 F1 值达 85.78% 。

• 用 45M 网页集的训练集部分建模，测试集部分进行测试，本分类系统的宏平均正确率达到 87.96% ，宏平均召回率达到 85.79% ，宏平均 F1 值达 86.86% 。

20G 类别分布（ 200M 模型）

0%

20%

40%

60%

80%

100%

run1 run2 run3 run4

' 14' 13' 12' 11' 10' 08' 07' 05' 04' 03' 01

目录

• 系统结构• 系统模块• 算法描述• 总结与展望

总结与展望

• 相比去年的木棉分类器，增加了模板去噪技术，改进了 SVMlight 算法。

• 展望：– 分块权重技术：网页中不同 HTML 标签所表示的内容

块，应该给以不同的权重– 分层过滤：将易混淆的若干类别集中起来，独立进行第二层的分类

– 使用同义词词典– 考虑网页间的链接关系

谢谢大家！

华南木棉中文网页分类器

Documents