实习 报告

27
实实实实 实实实 实实实实实 RD Intern 2013-08-13

Upload: ivy-bradford

Post on 03-Jan-2016

30 views

Category:

Documents


6 download

DESCRIPTION

实习 报告. 陈文 强 社区技术部 RD Intern 2013-08-13. 目录. 百科词条目录归一化. 背景. 1 、词条目录过分口语化,命名不规范. 2 、词条目录层次关系不合理,逻辑混乱. 特点. 大部分目录与分类知识体系下的标准目录名称具有映射关系. 百科词条目录归一化. 百科词条目录归一化. 目的. 帮助解决百科词条中目录名称不规范、目录逻辑混乱 、 层级关系不合理等问题,帮助提高百科可读性及全面性. 策略概述. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 实习 报告

实习报告

陈文强社区技术部RD Intern

2013-08-13

Page 2: 实习 报告

目录百科词条目录归一化

百科词条时效性内容判定

百科词条重复内容判定

百科词条主观性内容判定

Page 3: 实习 报告

百科词条目录归一化背景1 、词条目录过分口语化,命名不规范

2 、词条目录层次关系不合理,逻辑混乱

特点 大部分目录与分类知识体系下的标准目录名称具有映射关系

Page 4: 实习 报告

百科词条目录归一化

Page 5: 实习 报告

百科词条目录归一化

目的 帮助解决百科词条中目录名称不规范、目录逻辑混乱、层级关系不合理等问题,帮助提高百科可读性及全面性

策略概述 与分类知识体系下标准目录名称具有映射关系,通过挖掘这种关联关系,识别并修改百科分类下与标准目录映射的其它目录表述,有效提升百科整体质量。

Page 6: 实习 报告

百科词条目录归一化百科分类内容

数据解析与分配

目录相似度计算

目录内容相似度计算

相似度排名并择优

目录映射结果

结束

策略流程

Page 7: 实习 报告

百科词条目录归一化策略 1- 目录间相似度计算

采用 LCS 算法来计算用户目录与标准目录之间的相似度,相似度越高,说明越应该关联

策略 2- 目录下内容相似度计算 采用 TF-IDF 算法,计算用户目录与标准标注目录下内容的相似度,内容的相似度越高,说明就越应该关联

Page 8: 实习 报告

百科词条目录归一化

分类 保准确算法准确率

扩大召回算法准确率

算法召回率

电视剧 98.7% 92.2% 77%

电影 98.5% 92.3% 67%

动物 99.3% 92.5% 68%

植物 98.7% 95.2% 66%

人体疾病 97.8% 93.8% 60%

影视演员 97.5% 94.6% 56%

结果

升级 增加标注目录的量,召回低频目录,用wordsim 计算目录间相似度等

Page 9: 实习 报告

百科词条时效性内容判定背景 百科词条内容含有大量如今年,去年等不能表示明确时间信息的时效性词语,影响用户的阅读质量

特点 大部分时效性的百科词条语句都含有比较明显的关键词语,如今年,从现在开始, X 月 X 日等。本次主要是针对特殊关键词和 X 月 X 日时间这两种类型。

Page 10: 实习 报告

百科词条时效性内容判定目的

策略概述

删除时效性词语,减少时效性语句,使得百科的内容更加规整权威,提高阅读质量

利用统计的方法,对时效性语句进行特征提取,寻找强规则。

Page 11: 实习 报告

百科词条时效性内容判定开始

对输入字符串预处理

时效词识别

时效表达式识别

计算时效语句占比

结束

策略流程

Page 12: 实习 报告

百科词条时效性内容判定关键字词识别

黑名单

•去年,明年,今年,近日,近期等独立性词语

黄名单

•10以内的数字+关键词模式,模式前部分不包括具体的年,且后部分不包含最,包含年以来,年前等这样的词语

蓝名单

•包含目前,近年,现在等,且后面不含“最”的词语

白名单

•包含距,最近的,最近之等,为非时效性句子

Page 13: 实习 报告

百科词条时效性内容判定X 年 X 月类型的识

1

•表达式所在的语句中包含了具体的年份

2

•所在的段落包含“每”等特殊的关键字或者段落的前面包含了数字+年这样的类型

3

•表达式所在的目录包含具体的年份

4

•表达式所在的词条中包含数字+年这种特殊的类型

含有 X 年 X 月这样的句子都会被判定为时效性句子,除了以下四种情况:

Page 14: 实习 报告

百科词条时效性内容判定其他

如果识别出来的时效性词语被特殊的字符所包含,则视为非时效性

Page 15: 实习 报告

百科词条时效性内容判定

准确率为 93%, 召回率为 52%

结果

Page 16: 实习 报告

百科词条重复内容判定背景

百科的词条内容中,往往有大量的重复内容,这些重复内容包括句子级别的重复以及段落级别的重复,这浪费了用户的查阅时间,降低了整个词条的阅读质量

特点

单句重复,多句重复,段落级别重复

Page 17: 实习 报告

百科词条重复内容判定目的

策略概述

删除百科词条中的单句重复、多句重复以及段落级重复,使百科词条内容变简洁,提升阅读质量

采用 hash 的方法,来对词条中的句子进行重复性检查,然后再依次是多句重复性检查和段落级别的重复性检查

Page 18: 实习 报告

百科词条重复内容判定开始

对输入字符串分句

对分句单句判重

过滤无关重复

合并连续重复分句

计算重复率

结束

策略流程

Page 19: 实习 报告

百科词条时效性内容判定

准确率为 94%, 召回率为 87%

结果

Page 20: 实习 报告

百科词条主观性内容判定背景

特点

百科的词条内容中,往往有大量的主观内容,如我认为,我说等。这样的主观性句子导致百科词条质量下降。

主观性的句子一般都含有特殊的关键字,如我认为,他说等。

Page 21: 实习 报告

百科词条主观性内容判定目的

策略概述

删除百科词条中的这些主观性句子,使得百科词条内容质量得到提升,词条内容更加专业。挖掘主观内容的召回率和准确率在 80% 以上。

主要采用统计的方法,挖掘能识别主观性词语的强规则,依靠这些强规则来挖掘主观性内容。

Page 22: 实习 报告

百科词条主观性内容判定

策略流程开始

词条分句

主观内容提取

计算主观句子比例

结束

情感值是否大于阈值

非主观句,弃掉判定为主观句子

Page 23: 实习 报告

百科词条主观性内容判定

词条分句

1

•因为每一个句子的主观色彩可能不一样,因此以句子为单位进行主观性分析

2

•叹号与其他符号不同,具有强烈的感情色彩,因此单独分析

Page 24: 实习 报告

百科词条主观性内容判定

主观内容的提取 主观内容与“意见指示性动词”、“程度副词”、“情感词”、“人物代词”有很大关系,但是它们影响句子是否为主观内容的程序不同,即权重不同,其中“情感词”、“人物代词”的权重较大,而“意见指示性动词”、“程度副词”的权重较小。

利用这些词库匹配百科词条中的每个句子,当求出句子的主观性大于某一阈值时,将判定这个句子为主观句。

Page 25: 实习 报告

百科词条主观性内容判定

情感词的准备1 、 NLP积累了一部分的情感词,选用这一部分情感词为基本词库

2 、对原始预料进行标注,选取高频的形容词、代词和情感副词来来作为补充

Page 26: 实习 报告

百科词条主观性内容判定

准确率为 90%, 召回率为 77%

结果

Page 27: 实习 报告

谢谢