sewm2008 中文 web 检索评测

35
SEWM2008 中中 Web 中中中中 中中中 School of EECS, Peking University 4/13/2008

Upload: kaveri

Post on 19-Jan-2016

117 views

Category:

Documents


0 download

DESCRIPTION

SEWM2008 中文 Web 检索评测. 闫宏飞 School of EECS, Peking University 4/13/2008. 内容. 评测任务介绍 Task1 :主题网页发现和网页内信息块发现 Task2 :非网页数字资源分类 Task3 :垃圾邮件过滤 http://www2.scut.edu.cn/antispam/ 见华南理工大学,陈彬报告 测试集构建 Task1 评测结果 总结. Task1 :主题网页发现和网页内信息块发现. 包括两个子任务 Task1.1 :主题型网页发现 Task1.2 :网页内容信息块发现. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: SEWM2008 中文 Web 检索评测

SEWM2008 中文 Web 检索评测

闫宏飞

School of EECS, Peking University4/13/2008

Page 2: SEWM2008 中文 Web 检索评测

内容• 评测任务介绍

– Task1 :主题网页发现和网页内信息块发现– Task2 :非网页数字资源分类– Task3 :垃圾邮件过滤

• http://www2.scut.edu.cn/antispam/ • 见华南理工大学,陈彬报告

• 测试集构建• Task1 评测结果• 总结

Page 3: SEWM2008 中文 Web 检索评测

Task1 :主题网页发现和网页内信息块发现

• 包括两个子任务– Task1.1 :主题型网页发现– Task1.2 :网页内容信息块发现

Page 4: SEWM2008 中文 Web 检索评测

Task2 :非网页数字资源分类

Page 5: SEWM2008 中文 Web 检索评测

Task2 背景• 对非网页资源的访问需求首次超过网页信

息查找和邮件,成为拉动网民使用互联网的第一因素。 [2007.12 , CNNIC 报告 ]

• 非网页资源– 通过互联网传播共享– 以文件目录为主要存储组织结构– 内容独立、构成完整、主题明确。具有一定质

量和公共访问需求的数字化实体

Page 6: SEWM2008 中文 Web 检索评测

Task2 研究意义• 网络资源现状

– 数量越来越多– 发布和管理是无序的– 命名、传播、组织都具有较大随意性

• 对随意性强的非网页资源的自动组织可应用于数字图书馆、网络教学资源库藏、专题内容管理系统等领域

• 首要任务:自动分类——给定资源实体的属性,预测其主题类别。

Page 7: SEWM2008 中文 Web 检索评测

Task2 可行性探讨• 本次评测提出:

– 利用资源中包含的文件、子目录的名字、大小、内部目录结构等信息,合理形成特征,找到适当的分类方法,预测资源的内容类别

• 理由:– 1 )这些属性比资源文件本身更容易获取– 2 )是各种资源共有的属性– 3 )避免了对内容分析的复杂和限制– 4 )名字提供了多种浓缩信息(内容类别、关联、时间、

版本等)• 探讨:通过这些“低成本”特征,利用已知的自动学习技术,

解决非网页资源这种带有自身结构,具有复杂数据类型的实体分类。

Page 8: SEWM2008 中文 Web 检索评测

Task2 评测主旨• 如何从给定资源属性中确立适用于分类的特征

• 什么样的分类方法适合解决数字资源分类问题

Page 9: SEWM2008 中文 Web 检索评测

CDAL16th 数据集介绍• CDAL16th

– 互联网上搜集近 1.7 万数字资源– 人工标注主题类别。类别体系是层次分类式– 是 CWT 数据集系列的一种。

• 评测使用:– 1 个训练数据集 cwt_cdal_train(9346)– 1 个用于评测结果的数据集 cwt_cdal_test(622

3)– 类别的样本分布不均匀,剔除样本稀少的类别,

共选用 26 个中等层次的类别及其中资源。

Page 10: SEWM2008 中文 Web 检索评测

Task2 评测指标• 总体正确率

• Macro-F1

set data totalof num data

correct and foundcategory totalof num dataA ccuracy

ii

iii callecision

callecisionF

RePr

RePr21

m

iiFm

FMacro1

1

11 ,其中 m表示类别数

found icategory of num data

correct and found icategory of num dataP irecision

icategory of num data

correct and found icategory of num dataRe icall

Page 11: SEWM2008 中文 Web 检索评测

参赛队所使用的方法 (1/3)

• SDU :– 特征选择:

• 文件格式(理由:一种文件格式往往只存在于特定类)• 一定格式文件的平均大小(理由:相同格式的文件在不同类资

源中大小不相近)• 资源大小• 上下文环境(通过资源名、文件名、子目录名作关键词,提交

搜索引擎返回相关网页。对网页内容分析,提取高频词)– 分类方法:

• KNN • SVM• 使用了资源上下文环境中提取出的高频词

Page 12: SEWM2008 中文 Web 检索评测

参赛队所使用的方法 (2/3)

• PKU :– 特征选择:

• 前缀:资源名、文件名、子目录名切分出的片段;– 名字浓缩了用户想要表述的信息,处于书写习惯会有分割

信号将其彼此隔开;– 资源名承载了用户命名的行为,同类资源有趋同模式。典

型例子:如 divx格式的电影名多是点号分割、软件类资源中 win 、 tar 等高频词汇片段

– 组成片段之间语序和位置关系不强,近似相互独立• 后缀:文件格式

– 文件名后缀( 理由:后缀对类别有一定提示作用 )

Page 13: SEWM2008 中文 Web 检索评测

参赛队所使用的方法 (3/3)

• PKU– 分类方法:

• Naive Bayes+Simple Good-Turing平滑(理由:特征满足条件独立假设;分类方法的理论基础简洁而坚实。且好的平滑方法能够处理统计方法中经常遭遇的稀疏问题)

• 名字切分依据:字符类型变化 + 出现标点符号 + 大小写转换。

• 训练中尝试了使用所有特征的 60% 、 80% 和 100% 对分类效果的影响,最后选用 100% 特征(名字切分所得片段)训练模型参数

Page 14: SEWM2008 中文 Web 检索评测

Task2 评测结果CDAL16th

Page 15: SEWM2008 中文 Web 检索评测

Task2 资源类别编号

类别 编号

类别

1 Image.影象 /TV.电视 20 Image.影象 /Pictures. 图片5 Sound.声音 /VoiceListening.听讲听力 21 Sound.声音 /Music.乐曲6 Software.软件 /Multimedia. 多媒体类 22 Software.软件 /HardwareDriver.硬件驱动7 Image.影象 /Photographs.照片 23 Software.软件 /Network. 网络软件8 Software.软件 /ApplicationSoftware. 应用软

件24 Image.影象 /Film.电影

9 Image.影象 /VideoMaterial.视频资料 26 Software.软件 /Graphic. 图形图像10 Software.软件 /EducationSoftware. 教育教

学27 Software.软件 /SystemSoftware. 系统软件

12 Software.软件 /DevelopTool.编程开发 28 Sound.声音 /Song.歌曲13 Software.软件 /SystemTool. 系统工具 29 Software.软件 /Security.安全相关15 Sound.声音 /Drama.戏剧曲艺 30 Image.影象 /Drawings. 图画16 Image.影象 /Maps.地图 31 Text. 文字 /Article. 文章18 Software.软件 /SourceCode. 源代码 32 Text. 文字 /Book. 书19 Text. 文字 /Reference. 学习资料 34 InteractiveResource.交互式资源 /Game.游

Page 16: SEWM2008 中文 Web 检索评测

Task2 评判• 对本次竞赛所使用的数据集而言:

– 宏观 F1 : SDU2 (使用了 SVM 方法 + 文件平均大小 + 资源大小 + 网页扩展信息)最高,其次是 SDU3 ( SVM )、 PKU1 ( Naive Bayes )、 SDU1 ( KNN )

– 总体正确率( AC ) : SDU3 (使用了网页扩展信息中提取的上下文高频词)最高、其次是SDU2; SDU1与 PKU1接近。

• 祝贺 SDU-邵海敏、王川川!

Page 17: SEWM2008 中文 Web 检索评测

结果分析 (1/3)

• 正确率的影响因素– 网页文本对数字资源实体的扩展

• 资源实体的样本分布不均匀——互联网上热点资源(影视、歌曲等)的样本数目远大于其他类别,这些资源在互联网上对应的相关文本描述又非常丰富,所以针对性地从网上搜集扩展信息,有助于提高资源的分类正确率。但是受限于类别。

• 对于大量存在的非热点资源,甚至多数是用户自行组织制作的有价值资源,网上并不能找到有关描述。而这部分资源可能更有保存价值(副本少易消失的智力财富)

Page 18: SEWM2008 中文 Web 检索评测

结果分析 (2/3)

• 词频与概率– 分类方法上:

• KNN & SVM 中每个分量的量化基于词频• Naive Bayes ,将词频信息化为概率分布

– 特征采集上:• 基于词频: SDU 一个很聪明的观察:”两个类别相同的资源,

其中的名字所在的上下文环境应有较大共性”。结合词汇对类别区分度的启发式处理,适应在样本规模不大、可用特征受限的情况。

• 基于概率:理论基础坚实,更少的主观因素。 NB 方法需要结合合理的平滑算法,能够用更低代价的特征采集方式(名字按照其中出现的分隔符或大小写等自然分隔切分形成特征)获得与较多处理手段得到的特征大致持平的精度。

Page 19: SEWM2008 中文 Web 检索评测

结果分析 (3/3)

– 特征的使用量• NB 方法只使用了名字的前缀、后缀。• KNN & SVM则采用了文件平均大小、资源总 size

等信息。从结果上看,文件大小和资源字节数对正确性做出贡献较少。

Page 20: SEWM2008 中文 Web 检索评测

组织本次任务评测的感受• 尽管数字资源分类有广泛的应用,多数研

究人员还没有开始重视这一领域,参赛队只有 2 个,共 4 组结果。事实上,该问题的难度和挑战都是值得认真对待的。

• 我们的宣传不够。首次组织,经验也不足。• 希望能有更多的人关注,想出更多更有效

的处理方法!

Page 21: SEWM2008 中文 Web 检索评测

内容• 评测任务介绍• 测试集构建• Task1 评测结果• 总结

Page 22: SEWM2008 中文 Web 检索评测

CWT70th 数据集介绍• 采样过程

– 用训练集做种子,抓取四层网页, 在 2008年1月搜集中国范围内 71,502 个网页

• CWT70th 中的 URL 列表 , 共计 71,502 个 – 网页数据文件 – 网页编号文件 文件格式

Page 23: SEWM2008 中文 Web 检索评测

Task1&2 :提交结果的参赛队TEAM NAME RUNS

大连理工大学 DULT dut1, dut2

四川大学 SCU scu1, scu2

华南理工大学 1队 SCUT1 scut1, scut2

华南理工大学 2队 SCUT2 scut3, scut4

山东大学 SDU sdu1,sdu2

人民大学 RUC ruc

北京大学 PKU pku

Page 24: SEWM2008 中文 Web 检索评测

Task1.1 评估准则 ( 1/2 )

• Macro-Precision = – 各组主题型网页判断正确的数目 / 各组认为是

主题型的网页总数• Macro-Recall =

– 各组主题型网页判断正确的数目 / 实际的主题型网页总数

• Macro-F1 = – 2* Macro-Precision * Macro-Recall / ( Mac

ro-Precision + Macro-Recall )

Page 25: SEWM2008 中文 Web 检索评测

Task1.1 评测结果( 1/2 )

Page 26: SEWM2008 中文 Web 检索评测

Task1.1 评测结果( 2/2 )TEAM Macro-Precision Macro-Recall Macro-F1

DLUT1 0.888888888889 0.869565217391 0.879120879121

DLUT2 0.89552238806 0.869565217391 0.882352941176

SCU1 0.846153846154 0.876811594203 0.861209964413

SCU2 0.840277777778 0.876811594203 0.858156028369

SCUT1 0.883211678832 0.876811594203 0.88

SCUT2 0.889705882353 0.876811594203 0.883211678832

SCUT3 0.82119205298 0.898550724638 0.858131487889

SCUT4 0.794871794872 0.898550724638 0.843537414966

SDU1 0.78125 0.905797101449 0.838926174497

SDU2 0.774566473988 0.971014492754 0.861736334405

RUC 0.670103092784 0.942028985507 0.78313253012

Page 27: SEWM2008 中文 Web 检索评测

Task1.2 评估准则

• Macro-Precision = – 各组内容信息正确提取的长度 / 各组提取的内

容信息总长度• Macro-Recall =

– 各组内容信息正确提取的长度 / 人工标记的内容信息总长度

• Macro-F1 = – 2* Macro-Precision * Macro-Recall / ( Mac

ro-Precision + Macro-Recall )

Page 28: SEWM2008 中文 Web 检索评测

Task1.2 评测结果( 1/2 )

Page 29: SEWM2008 中文 Web 检索评测

Task1.2 评测结果( 2/2 )TEAM Macro-Precision Macro-Recall Macro-F1

DLUT1 0.948241982858 0.895990483304 0.907111613404

DLUT2 0.916974796418 0.78011163593 0.800641946786

SCU1 0.421928878326 0.253235056464 0.286056385361

SCU2 0.421928878326 0.253235056464 0.286056385361

SCUT1 0.555072287002 0.392915434611 0.43368650087

SCUT2 0.555072287002 0.392915434611 0.43368650087

SCUT3 0.679200090711 0.306407428682 0.404795170073

SCUT4 0.659522262145 0.307243313285 0.401949693823

SDU1 0.386879266785 0.408527124722 0.374533440385

SDU2 0.386879266785 0.408527124722 0.374533440385

RUC 0.664387822235 0.382808621572 0.465854595858

PKU 0.93288255881 0.77966651466 0.821741363306

Page 30: SEWM2008 中文 Web 检索评测

评测从设计上和数据上总结• 数据集的不够有代表性,集中在几个网站。• 对主题型网页的定义不够清晰。• 对内容信息块的定义不够清晰。• 由于标记样本网页工作量很大,准备不够。• 弥补办法

–增加了评测指南附加说明–新标记了一些样本网页

Page 31: SEWM2008 中文 Web 检索评测

Task1.1 解题方法总结( 1/2 )• 结果较好的队伍华南理工一队和大连理工,

分别代表了– 网页整体性判断 ,综合使用了启发式规则和分

类器方法 – 网页分块判断 ,在网页分块的基础上,判断各

个网页块的类型 。

Page 32: SEWM2008 中文 Web 检索评测

Task1.1 解题方法总结( 2/2 )• 综合所有队伍提取和使用的特征信息,大致有如下几类:– url相关的特征信息

• URL 中数字的个数、 URL 的深度以及 URL 的后缀。– 链接相关的特征信息

• 包括链接数、链接文字与非链接文字比、链接标签占网页的所有标签的比率、链接文本内容占全文内容的比率、非链接文字的长度等等。

– 其他特征信息• 包括网页文本内容中标点符号的个数、正文的文字长度、特殊

标签(如 <p>, <br>,<h1> )是否出现,以及包含特殊关键词与否。

Page 33: SEWM2008 中文 Web 检索评测

Task1.2 解题方法总结( 1/2 )实现方法可大致分为• 网页整体性判断• 网页分块判断两种

– 各队的分块方法都比较简单。

Page 34: SEWM2008 中文 Web 检索评测

研讨会时间表• Overview:

– 14:00-14:30 北京大学,闫宏飞, SEWM2008 中文 Web 信息检索• 非网页数字资源分类

– 14:30-14:45 山东大学 , 陈竹敏• 主题网页发现和网页内信息块发现任务:

– 14:45-15:00 大连理工大学,孙晓玲,– 15:00-15:15 华南理工大学 2队 ,魏本洁– 15:15-15:30 山东大学,陈竹敏

• Overview:– 15:30-15:50 华南理工大学,陈彬, SEWM2008 垃圾邮件过滤

• 垃圾邮件过滤– 15:50-16:05 黑龙江工程学院,齐浩亮– 16:05-16:20山东大学,陈军– 16:20-16:35 大连理工大学,苏绥– 16:35-16:50 浙江大学 , 澎鹏

Page 35: SEWM2008 中文 Web 检索评测

CS402 Mass Data Processing/Cloud Computing(Summer 2008, preparing)

• http://net.pku.edu.cn/~course/cs402/ • Course description

– 网页全文索引,镜像网页消重,垃圾邮件过滤,天气模拟,星系模拟,上亿字符串的排序…… . ,你想不想了解如何在大型分布式网络上写少量的具体问题代码来做这些事情吗?

– 这些应用,可以使用 MapReduce 分布式计算完成,它已经在 Google 得到了广泛使用。在这为期 5 周的课程中,你会学习到:1 )分布式系统的相关知识; 2 ) MapReduce 理论和实践,包括:认识和理解 MapReduce 如何适用于分布式计算 ,明白它适合哪些应用,不适合哪些应用,实践中的提示和技巧; 3 )通过几个编程练习和一个课程项目,获得实际分布式程序设计技术经验。

– 课程练习和项目将使用 Hadoop (开放源代码实现的 MapReduce )。使用集群由网络实验室提供,需要学生自备能够无线上网的笔记本(用于连接集群操作),我们会尽量安排在能够无线上网的教室,并尽量为大家争取到上机实习的机会。