系统设计 & 实现

系统设计 & 实现班允萌5090379107

读李林涛学长论文《网页内容分析系统的设计与实现》的第五章：系统设计与实现

整体系统架构

系统实现分三个模块页面抓取模块，用于获取网页 HTML 源文本；正文抽取模块，用于从 HTML 源文本中抽取正

文文本；相似度计算模块，用于计算正文文本之间的相

似度。

网页分析流程图

页面抓取模块分布式效率由于其他模块依赖于此模块，所以要稳定和健

壮针对不同应用，容易客户化本系统使用 Hadoop 的 Apache Nutch

页面抓取模块为上层应用提供数据支持

完成网页抓取后数据库中应存储的网页信息包括：网页 URL 、网页上次修改的时间、原始 HTML 文档

数据库实现 ---HBase 高可靠性高性能面向列可伸缩 / 应用可拓展分布式存储系统廉价

实现

Nutch 实现网页抓取

修改 Nutch 源码 vs 编写 Nutch 插件效率 / 编译，读代码 vs 可拓展性使用自带的 segmentReader 简单 / 效率低

正文抽取模块作用：去噪，留下与主题相关的文本内容目前正文抽取算法很多没有能对所有网页适用的高度可拓展性，可以增加或者替换已有的算法

实现过程编码的识别与转换正文抽取

基于行块分布函数的通用网页正文抽取方法

相似度计算模块相似度算法复杂可拓展性特定的应用上下文，不适于所有应用，视应用

情况而定

中文分词的实现使用 IKSegmenter 类提供的方法实现中文分

词的使用接口

词语权重计算 ---TF-IDF 权重

词频出现频率越高的词越重要

文本相似度计算

CosinSimilarityGenerator 类提供了余弦相似度计算的实现。它计算文本相似度的步骤如下：

调用 TextTokenizer 的 parse() 方法对两段文本分词；

调用 WordWeightCalculator 的 calc() 方法得到每个词语的权重；

对于两段文本的 Token 数组，去掉 text 域重复的 Token ；

构造两段文本的特征向量；求出两个向量的单位向量，计算特征向量单位

向量的余弦相似度。

Thank you

系统设计 & 实现

Documents