木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、 ...

23
木木木木木 木木木 ( 木木 ) 木木木木 木木木 、、、 木木 木木木木 木木木 、、 [email protected] 华华华华华华华华华华华

Upload: devi

Post on 13-Jan-2016

157 views

Category:

Documents


14 download

DESCRIPTION

木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、 农双、刘鹏飞、张启蕊 [email protected]. 华南木棉中文网页分类器. 目录. 系统模型 技术平台 实现方案 未来展望. 系统模型. CWT1G. CWT100G. 单个网页集合. 网页转换. 预处理. 00. 01. 03. 02. 87. 88. WEB BENCH. 中文分词. 预处理. 特征选择. 中文分词. 特征压缩. CCT100G. 00. 88. 分类系统. 。。. 结果效验. 00. 出错处理. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

木棉分类队:朱旭圻 (队长 )、李嘉林、曹鸿、 农双、刘鹏飞、张启蕊

[email protected]

华南木棉中文网页分类器

Page 2: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

目录

系统模型

技术平台

实现方案

未来展望

Page 3: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

系统模型CWT100G 网页转换 单个网页集合

00 01 02 03 87 88

。。

CWT1G

预处理

WEBBENCH

预处理 中文分词 特征选择 中文分词

特征压缩

分类系统

CCT100G

00 88

出错处理00 88结果效验 。。

Page 4: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

技术平台

开源分类软件 RAINBOW

中科院的开源中文分词系统 ICTCLAS

开源分类软件 SVMlight

网页转换器与网页预处理器

运行监控器

Page 5: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

实现方案说明

数据源

网页转换

预处理

中文分词

特征选择

分类系统

Page 6: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

数据源CWT100G 网页转换 单个网页集合

00 01 02 03 87 88。。。。

CWT1G

预处理

WEBBENCH

预处理 中文分词 特征选择 中文分词

特征压缩

分类系统

CCT100G

00 88。。

出错处理00 88。。结果效验

Page 7: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

网页转换CWT100G 网页转换 单个网页集合

00 01 02 03 87 88。。。。

CWT1G

预处理

训练集 预处理 中文分词 特征选择 中文分词

特征压缩

分类系统

CCT100G

00 88。。

出错处理00 88。。结果效验

完成 URL 和 DOCID 的转换

WEBBENCH

Page 8: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

预处理CWT100G 网页转换 单个网页集合

00 01 02 03 87 88。。。。

CWT1G

预处理

训练集 预处理 中文分词 特征选择 中文分词

特征压缩

分类系统

CCT100G

00 88。。

出错处理00 88。。结果效验

WEBBENCH

Page 9: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

预处理,就是去掉网页的标签。只保留内容块。预处理后, CWT100G 剩余的网页大小约 21.83G 。约占原来的 24.26%, 提高后面的分类速度和精度。训练集在进行中文分词后也经过 stemm

ing 处理

预处理

Page 10: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

中文分词CWT100G 网页转换 单个网页集合

00 01 02 03 87 88。。。。

CWT1G

预处理

训练集 预处理 中文分词 特征选择 中文分词

特征压缩

分类系统

CCT100G

00 88。。

出错处理00 88。。结果效验

WEBBENCH

Page 11: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

系统模型说明-中文

中文分词

Rainbow 嵌入 ICTCLAS ,形成一个完整的中文网页分类系统。 中文分词使用开源中文分词系统 ICTCLA

S ,只保留名词( n , an,vn )。训练集在进行中文分词后也经过 stemming

处理Rainbow 的禁止词是 SMART system 的 5

24 个,我们进行扩充达到 1500 个。

Page 12: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

特征选择CWT100G 网页转换 单个网页集合

00 01 02 03 87 88。。。。

CWT1G

预处理

训练集 预处理 中文分词 特征选择 中文分词

特征压缩

分类系统

CCT100G

00 88。。

出错处理00 88。。结果效验

WEBBENCH

Page 13: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

特征选择图

Page 14: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

特征选择

按照 IG( 信息增益 ) 来计算,取 IG

较大的前 63400 (全部约 81000 )个

63400 个特征项 = 中文 36531 个 +267

13 个其他词

中文 36531 个 =34505 个名词 +1895

个动名词 +131 个形容词名词

Page 15: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

特征选择

信息增益最大的前 20 位疾病 /n临床 /vn患者 /n症状 /n药物 /n病人 /n研究 /vn应用 /vn细胞 /n医院 /n

企业 /n数据 /n经济 /n比赛 /vn医学 /n功能 /n皮肤 /n系统 /n免疫 /vn国家 /n

Page 16: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

分类系统CWT100G 网页转换 单个网页集合

00 01 02 03 87 88。。。。

CWT1G

预处理

训练集 预处理 中文分词 特征选择 中文分词

特征压缩

分类系统

CCT100G

00 88。。

出错处理00 88。。结果效验

WEBBENCH

Page 17: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

系统模型说明 - 分类系统

分类系统

Rainbow NB

Rainbow SVM

SVMlight

Page 18: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

rainbow中文分词100G待分类中文网页

SVMlight格式的分类文件

SVMlight分类处理

分类结果处理

分类结果输出

200M训练集 Rainbow中文分词

SVMlight格式的训练文件

分类系统

Page 19: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

出错处理与结果效验CWT100G 网页转换 单个网页集合

00 01 02 03 87 88。。。。

CWT1G

预处理

训练集 预处理 中文分词 特征选择 中文分词

特征压缩

分类系统

CCT100G

00 88。。

出错处理00 88。。结果效验

WEBBENCH

Page 20: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

系统模型说明 - 出错处理与结果效验出错处理与结果效验

天网数据有一些是多媒体数据,往往导致系统出错,所以进行错误处理。

把已经分好类的文件移走,导致出错的文件也移走。本系统根据文件的 URL ,通过浏览其 UR

L ,根据其内容进行人工判断,相似度则认为 1 。

Page 21: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

出错处理与结果效验

去 CWT100G 的文件列表,与 CT100G 的

文件列表进行比较,查缺补漏。漏掉的则

进行人工判断。

天网源数据中存在一定的重复页面,应该

是不同时刻抓取同一 URL 。直接提交给

系统处理。

Page 22: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

存在的问题

未来展望

网页中不同 HTML 标签所表示的

内容块,应该给以不同的权重

文本预处理:网页文本提取考虑模

板技术

Page 23: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

谢谢各位来宾!谢谢各位来宾!