系统设计 & 实现

19
系系 & 系系 系系系 5090379107 系系系系系系系系网网网网网网网 网网网网网 系系系系 系系系系系

Upload: alfonso-roberts

Post on 31-Dec-2015

192 views

Category:

Documents


0 download

DESCRIPTION

系统设计 & 实现. 班允萌 5090379107 读李林涛学长论文 《 网页内容分析系统的设计与 实现 》 的第五章:系统设计与实现. 整体系统架构. 系统实现分三个模块. 页面抓取模块,用于获取网页 HTML 源文本; 正文抽取模块,用于从 HTML 源文本中抽取正文文本; 相似度计算模块,用于计算正文文本之间的相似度。. 网页分析流程图. 页面抓取模块. 分布式 效率 由于其他模块依赖于此模块,所以要稳定和健壮 针对不同应用,容易客户化 本 系统使用 Hadoop 的 Apache Nutch. 页面抓取模块为上 层应用提供数据支持. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 系统设计 & 实现

系统设计 & 实现班允萌5090379107

读李林涛学长论文《网页内容分析系统的设计与实现》的第五章:系统设计与实现

Page 2: 系统设计 & 实现

整体系统架构

Page 3: 系统设计 & 实现

系统实现分三个模块 页面抓取模块,用于获取网页 HTML 源文本; 正文抽取模块,用于从 HTML 源文本中抽取正

文文本; 相似度计算模块,用于计算正文文本之间的相

似度。

Page 4: 系统设计 & 实现

网页分析流程图

Page 5: 系统设计 & 实现

页面抓取模块 分布式 效率 由于其他模块依赖于此模块,所以要稳定和健

壮 针对不同应用,容易客户化 本系统使用 Hadoop 的 Apache Nutch

Page 6: 系统设计 & 实现

页面抓取模块为上层应用提供数据支持

完成网页抓取后数据库中应存储的网页信息包括:网页 URL 、网页上次修改的时间、原始 HTML 文档

Page 7: 系统设计 & 实现

数据库实现 ---HBase 高可靠性 高性能 面向列 可伸缩 / 应用可拓展 分布式存储系统 廉价

Page 8: 系统设计 & 实现

实现

Page 9: 系统设计 & 实现

Nutch 实现网页抓取

修改 Nutch 源码 vs 编写 Nutch 插件 效率 / 编译,读代码 vs 可拓展性 使用自带的 segmentReader 简单 / 效率低

Page 10: 系统设计 & 实现

正文抽取模块 作用:去噪,留下与主题相关的文本内容 目前正文抽取算法很多 没有能对所有网页适用的 高度可拓展性,可以增加或者替换已有的算法

Page 11: 系统设计 & 实现

实现过程 编码的识别与转换 正文抽取

Page 12: 系统设计 & 实现

基于行块分布函数的通用网页正文抽取方法

Page 13: 系统设计 & 实现
Page 14: 系统设计 & 实现

相似度计算模块 相似度算法复杂 可拓展性 特定的应用上下文,不适于所有应用,视应用

情况而定

Page 15: 系统设计 & 实现

中文分词的实现 使用 IKSegmenter 类提供的方法实现中文分

词的使用接口

Page 16: 系统设计 & 实现

词语权重计算 ---TF-IDF 权重

词频出现频率越高的词越重要

Page 17: 系统设计 & 实现

文本相似度计算

Page 18: 系统设计 & 实现

CosinSimilarityGenerator 类提供了余弦相似度计算的实现。它计算文本相似度的步骤如下:

调用 TextTokenizer 的 parse() 方法对两段文本分词;

调用 WordWeightCalculator 的 calc() 方法得到每个词语的权重;

对于两段文本的 Token 数组,去掉 text 域重复的 Token ;

构造两段文本的特征向量; 求出两个向量的单位向量,计算特征向量单位

向量的余弦相似度。

Page 19: 系统设计 & 实现

Thank you