实习报告

实习报告

陈文强社区技术部RD Intern

2013-08-13

目录百科词条目录归一化

百科词条时效性内容判定

百科词条重复内容判定

百科词条主观性内容判定

百科词条目录归一化背景1 、词条目录过分口语化，命名不规范

2 、词条目录层次关系不合理，逻辑混乱

特点大部分目录与分类知识体系下的标准目录名称具有映射关系

百科词条目录归一化


目的帮助解决百科词条中目录名称不规范、目录逻辑混乱、层级关系不合理等问题，帮助提高百科可读性及全面性

策略概述与分类知识体系下标准目录名称具有映射关系，通过挖掘这种关联关系，识别并修改百科分类下与标准目录映射的其它目录表述，有效提升百科整体质量。

百科词条目录归一化百科分类内容

数据解析与分配

目录相似度计算

目录内容相似度计算

相似度排名并择优

目录映射结果

结束

策略流程

百科词条目录归一化策略 1- 目录间相似度计算

采用 LCS 算法来计算用户目录与标准目录之间的相似度，相似度越高，说明越应该关联

策略 2- 目录下内容相似度计算采用 TF-IDF 算法，计算用户目录与标准标注目录下内容的相似度，内容的相似度越高，说明就越应该关联


分类保准确算法准确率

扩大召回算法准确率

算法召回率

电视剧 98.7% 92.2% 77%

电影 98.5% 92.3% 67%

动物 99.3% 92.5% 68%

植物 98.7% 95.2% 66%

人体疾病 97.8% 93.8% 60%

影视演员 97.5% 94.6% 56%

结果

升级增加标注目录的量，召回低频目录，用wordsim 计算目录间相似度等

百科词条时效性内容判定背景百科词条内容含有大量如今年，去年等不能表示明确时间信息的时效性词语，影响用户的阅读质量

特点大部分时效性的百科词条语句都含有比较明显的关键词语，如今年，从现在开始， X 月 X 日等。本次主要是针对特殊关键词和 X 月 X 日时间这两种类型。

百科词条时效性内容判定目的

策略概述

删除时效性词语，减少时效性语句，使得百科的内容更加规整权威，提高阅读质量

利用统计的方法，对时效性语句进行特征提取，寻找强规则。

百科词条时效性内容判定开始

对输入字符串预处理

时效词识别

时效表达式识别

计算时效语句占比

结束

策略流程

百科词条时效性内容判定关键字词识别

黑名单

•去年，明年，今年，近日，近期等独立性词语

黄名单

•10以内的数字+关键词模式，模式前部分不包括具体的年，且后部分不包含最，包含年以来，年前等这样的词语

蓝名单

•包含目前，近年，现在等，且后面不含“最”的词语

白名单

•包含距，最近的，最近之等，为非时效性句子

百科词条时效性内容判定X 年 X 月类型的识

别

1

•表达式所在的语句中包含了具体的年份

2

•所在的段落包含“每”等特殊的关键字或者段落的前面包含了数字+年这样的类型

3

•表达式所在的目录包含具体的年份

4

•表达式所在的词条中包含数字+年这种特殊的类型

含有 X 年 X 月这样的句子都会被判定为时效性句子，除了以下四种情况：

百科词条时效性内容判定其他

如果识别出来的时效性词语被特殊的字符所包含，则视为非时效性


准确率为 93%, 召回率为 52%

结果

百科词条重复内容判定背景

百科的词条内容中，往往有大量的重复内容，这些重复内容包括句子级别的重复以及段落级别的重复，这浪费了用户的查阅时间，降低了整个词条的阅读质量

特点

单句重复，多句重复，段落级别重复

百科词条重复内容判定目的

策略概述

删除百科词条中的单句重复、多句重复以及段落级重复，使百科词条内容变简洁，提升阅读质量

采用 hash 的方法，来对词条中的句子进行重复性检查，然后再依次是多句重复性检查和段落级别的重复性检查

百科词条重复内容判定开始

对输入字符串分句

对分句单句判重

过滤无关重复

合并连续重复分句

计算重复率

结束

策略流程



结果

百科词条主观性内容判定背景

特点

百科的词条内容中，往往有大量的主观内容，如我认为，我说等。这样的主观性句子导致百科词条质量下降。

主观性的句子一般都含有特殊的关键字，如我认为，他说等。

百科词条主观性内容判定目的

策略概述

删除百科词条中的这些主观性句子，使得百科词条内容质量得到提升，词条内容更加专业。挖掘主观内容的召回率和准确率在 80% 以上。

主要采用统计的方法，挖掘能识别主观性词语的强规则，依靠这些强规则来挖掘主观性内容。


策略流程开始

词条分句

主观内容提取

计算主观句子比例

结束

情感值是否大于阈值

非主观句，弃掉判定为主观句子

否

是


词条分句

1

•因为每一个句子的主观色彩可能不一样，因此以句子为单位进行主观性分析

2

•叹号与其他符号不同，具有强烈的感情色彩，因此单独分析


主观内容的提取主观内容与“意见指示性动词”、“程度副词”、“情感词”、“人物代词”有很大关系，但是它们影响句子是否为主观内容的程序不同，即权重不同，其中“情感词”、“人物代词”的权重较大，而“意见指示性动词”、“程度副词”的权重较小。

利用这些词库匹配百科词条中的每个句子，当求出句子的主观性大于某一阈值时，将判定这个句子为主观句。


情感词的准备1 、 NLP积累了一部分的情感词，选用这一部分情感词为基本词库

2 、对原始预料进行标注，选取高频的形容词、代词和情感副词来来作为补充



结果

谢谢

实习 报告

Documents

实习报告