新闻 综述报告自动生成研究

24
新新新新新新新新新新新新 路路 2013 路 11 路 19

Upload: lewis-cain

Post on 31-Dec-2015

142 views

Category:

Documents


0 download

DESCRIPTION

新闻 综述报告自动生成研究. 路璐 2013 年 11 月 19 日. 提纲. 新闻服务现状 NewsMiner 自动 新闻 综述报告 总结与展望. 新闻 服务现状. 新闻分析粒度 词、文档 新闻的组织形式 文档、文档列表 导航形式 分类导航、关联导航、检索 新闻的可视化 文本、图形 新闻专题分析. 如何更好的描述新闻? 如何帮助用户快速浏览新闻主旨? 新闻通过怎样的组织形式,才更符合用户的阅读和思维过程? 什么样的可视化才能更精确的展示新闻潜在的 信息?. 问题与挑战. NewsMiner. www.newsminer.net. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 新闻 综述报告自动生成研究

新闻综述报告自动生成研究

路璐2013 年 11 月19 日

Page 2: 新闻 综述报告自动生成研究

新闻服务现状 NewsMiner 自动新闻综述报告 总结与展望

2

提纲

Page 3: 新闻 综述报告自动生成研究

3

新闻服务现状

• 新闻分析粒度– 词、文档

• 新闻的组织形式– 文档、文档列表

• 导航形式– 分类导航、关联导航、检索

• 新闻的可视化– 文本、图形– 新闻专题分析

Page 4: 新闻 综述报告自动生成研究

4

问题与挑战

如何更好的描述新闻?

如何帮助用户快速浏览新闻主旨?

新闻通过怎样的组织形式,才更符合用户的阅读和思维过程?

什么样的可视化才能更精确的展示新闻潜在的信息?

Page 5: 新闻 综述报告自动生成研究

5

NewsMiner

www.newsminer.net

Page 6: 新闻 综述报告自动生成研究

6

NewsMiner 对新闻的描述

事件 E 话题 T 命名实体 N 关系 R 文档集 D

S = {E, T, N, D, R}

Page 7: 新闻 综述报告自动生成研究

7

多层次新闻分析框架

数据采集– 新闻文档、UGC、百科

数据处理– 话题建模– 新闻评论对齐– 知识库连接

数据读写– 数据库– 索引文件– 知识库

新闻服务– 新闻检索– 富交互可视化– 新闻综述报告– 热评对齐– 热门发现

Page 8: 新闻 综述报告自动生成研究

8

新闻的关联分析

话题间的关联

实体间的关联

话题与实体间的关联

Page 9: 新闻 综述报告自动生成研究

9

新闻的趋势分析

Page 10: 新闻 综述报告自动生成研究

10

新闻主题句

Page 11: 新闻 综述报告自动生成研究

11

新闻话题的自动标注

新闻话题标注的形式:– 关键词– 短语– 句子摘要

构成文法

建立候选短语集合

最优选择

二元文法: 名词短语 动词短语

Page 12: 新闻 综述报告自动生成研究

12

建立候选短语集合

话题热词法– LDA 模型中 P(W|Z)确定词元集合

– 按照文法用词元生成候选短语 标题首句法

新闻主题句法

构成文法

建立候选短语集合

最优选择

Page 13: 新闻 综述报告自动生成研究

13

选择最优话题标签

利用 LDA 模型中词在话题上的分布,计算每个候选标签的分数,并排序。

构成文法

建立候选短语集合

最优选择

Page 14: 新闻 综述报告自动生成研究

14

新闻综述报告

新闻综述报告 一种类似于新闻调查和新闻评论的新闻

报告形式。通过新闻调查的资料采集、综合量化分析的方法,结合新闻评论的行文方法,构成关于新闻事件、新闻实体、一段时间的新闻总结性报告。

传统的写作方法 过程复杂 效率低下 易受作者主观认识影响

计算机辅助生成 效率高 各种图表统计分析 较为客观

Page 15: 新闻 综述报告自动生成研究

15

新闻综述报告

图表描述

文字描述

Page 16: 新闻 综述报告自动生成研究

16

NewsMiner 提供的报告素材

文本内容– 事件、实体的知识关联– 关键词– 主题句– 话题标签– 代表新闻

统计图表– 关联关系图– 话题、实体等的分布图– 事件、话题等的趋势图– 评论分布图、趋势图

事件描述

When Where Who

How Why What

话题描述

话题描述

话题权重

话题趋势图、趋势对比图

实体分析

命名实体描述

实体发展趋势、趋势对

比图

评论分析

观点聚类

观点分布(基于位置、事件信息上

的分布)

关联关系

话题间的关联图

命名实体间的关联图

话题与实体间的关系图

Page 17: 新闻 综述报告自动生成研究

17

辅助新闻综述报告生成框架

单事件– 事件– 命名实体

多事件– 一系列相关事件– 一段时间的事件 (年报、月报)

人物分析

Page 18: 新闻 综述报告自动生成研究

18

行文规则文章结构

报告内容细节 素材来源

标题 关于“ XXX” 事件的综述报告 XXX 代表事件名称

事件简介 “XXX” 事件是 XX 时间, XX 地点, XX 人,发生的 XX 事情。

基于百科知识的关联和新闻信息统计。

相关实体简介

事件相关的实体有:X 人,是… …X 机构组织,是… …

话题列举 “XXX” 事件,影响方面很多,产生了很多话题,如话题 A 、话题 B 、话题 C 等等

基 于 NewsMiner 话 题分析和话题标签提取。话题 A 、 B 、 C 按其权重排序。

这些话题存在着相互联系,它们的关系图(分布图、演化趋势图)如下; 该话题的关键词有:… …主题句有 :… …

基 于 NewsMiner 的 层次关联分析。在此展示话题的关系图、分布图、趋势图。

综述 关于“ XXX” 事件,广大网民有如下观点: G1 、G2 、 G3

这些观点的分布情况如分布图。这些观点按地域的分布如分布图。

关 于 新 闻 评 论 , 利 用NewsMiner 进行 聚 类 发现 观 点G1 、 G2 、 G3 。 并研究观点的分布情况,或基于地点的分布情况。

Page 19: 新闻 综述报告自动生成研究

19

示例 关于新闻人物的新闻综述报告

数据来源: 关于“四川雅安地震”的 3114篇相关新闻,通过聚类获得 40 个相关话题,如:“房子倒塌”、“发生地震”、“参与救援”、“受到污染”、“恢复通信”等

Page 20: 新闻 综述报告自动生成研究

示例 关于新闻人物的新闻综述报告

数据来源: 关于“潘基文”的新闻事件共 1242篇相关新闻文档,有以色列全面进攻哈马斯、 叙利亚化武疑云、 海地发生 7.3级地震、 叙利亚局势持续紧张、 科索沃宣布独立、 巴以地区爆发新一轮冲突等新闻事件

Page 21: 新闻 综述报告自动生成研究

21

与类似工作对比

  话题提炼 热度趋势 统计图表 主题提取 语言流畅

NewsMiner 自动 全面 自动 自动 自动 一般

微博研究 人工分析 自动 人工统计 人工 好

Page 22: 新闻 综述报告自动生成研究

NewsMiner 系统生成详细客观的新闻语义分析、图形图表。

自动生成的新闻综述报告,具备一篇新闻综述报告的基本特征,对新闻话题、统计数据、主题句分析提取等高效、全面和准确。

22

总结与展望

Page 23: 新闻 综述报告自动生成研究

辅助综述报告的语义化完善

基于话题的新闻事件预测

跨语言新闻对比

23

总结与展望

Page 24: 新闻 综述报告自动生成研究

谢谢!

24