实习 报告
DESCRIPTION
实习 报告. 陈文 强 社区技术部 RD Intern 2013-08-13. 目录. 百科词条目录归一化. 背景. 1 、词条目录过分口语化,命名不规范. 2 、词条目录层次关系不合理,逻辑混乱. 特点. 大部分目录与分类知识体系下的标准目录名称具有映射关系. 百科词条目录归一化. 百科词条目录归一化. 目的. 帮助解决百科词条中目录名称不规范、目录逻辑混乱 、 层级关系不合理等问题,帮助提高百科可读性及全面性. 策略概述. - PowerPoint PPT PresentationTRANSCRIPT
实习报告
陈文强社区技术部RD Intern
2013-08-13
目录百科词条目录归一化
百科词条时效性内容判定
百科词条重复内容判定
百科词条主观性内容判定
百科词条目录归一化背景1 、词条目录过分口语化,命名不规范
2 、词条目录层次关系不合理,逻辑混乱
特点 大部分目录与分类知识体系下的标准目录名称具有映射关系
百科词条目录归一化
百科词条目录归一化
目的 帮助解决百科词条中目录名称不规范、目录逻辑混乱、层级关系不合理等问题,帮助提高百科可读性及全面性
策略概述 与分类知识体系下标准目录名称具有映射关系,通过挖掘这种关联关系,识别并修改百科分类下与标准目录映射的其它目录表述,有效提升百科整体质量。
百科词条目录归一化百科分类内容
数据解析与分配
目录相似度计算
目录内容相似度计算
相似度排名并择优
目录映射结果
结束
策略流程
百科词条目录归一化策略 1- 目录间相似度计算
采用 LCS 算法来计算用户目录与标准目录之间的相似度,相似度越高,说明越应该关联
策略 2- 目录下内容相似度计算 采用 TF-IDF 算法,计算用户目录与标准标注目录下内容的相似度,内容的相似度越高,说明就越应该关联
百科词条目录归一化
分类 保准确算法准确率
扩大召回算法准确率
算法召回率
电视剧 98.7% 92.2% 77%
电影 98.5% 92.3% 67%
动物 99.3% 92.5% 68%
植物 98.7% 95.2% 66%
人体疾病 97.8% 93.8% 60%
影视演员 97.5% 94.6% 56%
结果
升级 增加标注目录的量,召回低频目录,用wordsim 计算目录间相似度等
百科词条时效性内容判定背景 百科词条内容含有大量如今年,去年等不能表示明确时间信息的时效性词语,影响用户的阅读质量
特点 大部分时效性的百科词条语句都含有比较明显的关键词语,如今年,从现在开始, X 月 X 日等。本次主要是针对特殊关键词和 X 月 X 日时间这两种类型。
百科词条时效性内容判定目的
策略概述
删除时效性词语,减少时效性语句,使得百科的内容更加规整权威,提高阅读质量
利用统计的方法,对时效性语句进行特征提取,寻找强规则。
百科词条时效性内容判定开始
对输入字符串预处理
时效词识别
时效表达式识别
计算时效语句占比
结束
策略流程
百科词条时效性内容判定关键字词识别
黑名单
•去年,明年,今年,近日,近期等独立性词语
黄名单
•10以内的数字+关键词模式,模式前部分不包括具体的年,且后部分不包含最,包含年以来,年前等这样的词语
蓝名单
•包含目前,近年,现在等,且后面不含“最”的词语
白名单
•包含距,最近的,最近之等,为非时效性句子
百科词条时效性内容判定X 年 X 月类型的识
别
1
•表达式所在的语句中包含了具体的年份
2
•所在的段落包含“每”等特殊的关键字或者段落的前面包含了数字+年这样的类型
3
•表达式所在的目录包含具体的年份
4
•表达式所在的词条中包含数字+年这种特殊的类型
含有 X 年 X 月这样的句子都会被判定为时效性句子,除了以下四种情况:
百科词条时效性内容判定其他
如果识别出来的时效性词语被特殊的字符所包含,则视为非时效性
百科词条时效性内容判定
准确率为 93%, 召回率为 52%
结果
百科词条重复内容判定背景
百科的词条内容中,往往有大量的重复内容,这些重复内容包括句子级别的重复以及段落级别的重复,这浪费了用户的查阅时间,降低了整个词条的阅读质量
特点
单句重复,多句重复,段落级别重复
百科词条重复内容判定目的
策略概述
删除百科词条中的单句重复、多句重复以及段落级重复,使百科词条内容变简洁,提升阅读质量
采用 hash 的方法,来对词条中的句子进行重复性检查,然后再依次是多句重复性检查和段落级别的重复性检查
百科词条重复内容判定开始
对输入字符串分句
对分句单句判重
过滤无关重复
合并连续重复分句
计算重复率
结束
策略流程
百科词条时效性内容判定
准确率为 94%, 召回率为 87%
结果
百科词条主观性内容判定背景
特点
百科的词条内容中,往往有大量的主观内容,如我认为,我说等。这样的主观性句子导致百科词条质量下降。
主观性的句子一般都含有特殊的关键字,如我认为,他说等。
百科词条主观性内容判定目的
策略概述
删除百科词条中的这些主观性句子,使得百科词条内容质量得到提升,词条内容更加专业。挖掘主观内容的召回率和准确率在 80% 以上。
主要采用统计的方法,挖掘能识别主观性词语的强规则,依靠这些强规则来挖掘主观性内容。
百科词条主观性内容判定
策略流程开始
词条分句
主观内容提取
计算主观句子比例
结束
情感值是否大于阈值
非主观句,弃掉判定为主观句子
否
是
百科词条主观性内容判定
词条分句
1
•因为每一个句子的主观色彩可能不一样,因此以句子为单位进行主观性分析
2
•叹号与其他符号不同,具有强烈的感情色彩,因此单独分析
百科词条主观性内容判定
主观内容的提取 主观内容与“意见指示性动词”、“程度副词”、“情感词”、“人物代词”有很大关系,但是它们影响句子是否为主观内容的程序不同,即权重不同,其中“情感词”、“人物代词”的权重较大,而“意见指示性动词”、“程度副词”的权重较小。
利用这些词库匹配百科词条中的每个句子,当求出句子的主观性大于某一阈值时,将判定这个句子为主观句。
百科词条主观性内容判定
情感词的准备1 、 NLP积累了一部分的情感词,选用这一部分情感词为基本词库
2 、对原始预料进行标注,选取高频的形容词、代词和情感副词来来作为补充
百科词条主观性内容判定
准确率为 90%, 召回率为 77%
结果
谢谢