event extraction - hong.xmu.edu.cn filenlp的两个基本任务:词性标注和词短语分块 –...

24
-1- 郑晓晴 2017.03.15 EVENT EXTRACTION Techniques and Applications

Upload: others

Post on 28-Oct-2019

22 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: EVENT EXTRACTION - hong.xmu.edu.cn fileNLP的两个基本任务:词性标注和词短语分块 – 提取时间表达式、命名实体和事件短语 • T-POS标签系统 1. 使用来自Penn

- 1 -

郑晓晴

2017.03.15

EVENT EXTRACTION

Techniques and Applications

Page 2: EVENT EXTRACTION - hong.xmu.edu.cn fileNLP的两个基本任务:词性标注和词短语分块 – 提取时间表达式、命名实体和事件短语 • T-POS标签系统 1. 使用来自Penn

- 2 -

Content

Page 3: EVENT EXTRACTION - hong.xmu.edu.cn fileNLP的两个基本任务:词性标注和词短语分块 – 提取时间表达式、命名实体和事件短语 • T-POS标签系统 1. 使用来自Penn

- 3 -

1. Concepts

▪ Event——事件• 是一种复杂的关系组合,与文本的一组经验观察相联系

– [Aquisition]:<Company>< Buy>< Company>

– “Google acquires Picnik”,"Lala bought by Apple”, “Skype sold to Microsoft“

• 根据定义,由触发词和描述事件结构的元素构成

Page 4: EVENT EXTRACTION - hong.xmu.edu.cn fileNLP的两个基本任务:词性标注和词短语分块 – 提取时间表达式、命名实体和事件短语 • T-POS标签系统 1. 使用来自Penn

- 4 -

1. Concepts

▪ Event Extraction——事件抽取• 是文本挖掘的一个应用,可以推导文本中与事件相关的特定知识

• 即,把含有事件信息的非结构化文本以结构化的方式呈现

▪ 两大任务• 事件类别识别

– 分类问题(事件句的检测和事件句的分类)

– 如何选择合适的描述事件句的特征→提高分类精度

• 事件元素识别

– (Entity、Time Expression、Value)中识别真正的事件元素

▪ ACE会议(Automatic Content Extraction):事件抽取任务评测会议

▪ 核心问题:非结构化数据转化为结构化数据,应用于信息检索和信息抽取→要用何种文本挖掘技术?

Page 5: EVENT EXTRACTION - hong.xmu.edu.cn fileNLP的两个基本任务:词性标注和词短语分块 – 提取时间表达式、命名实体和事件短语 • T-POS标签系统 1. 使用来自Penn

- 5 -

2. Event extraction techniques

▪ 2. 1 Data-Driven Event Extraction (基于机器学习)

▪ NLP;利用位置、词频等信息发现统计上的关系

▪ 图论;聚类算法;分类算法

▪ 方法分类——按照不同的数据源驱动

– 基于事件元素驱动:构建判断事件各元素的分类器

– 基于事件触发词驱动:将每个词作为一个实例来训练并判断是否为触发

词,根据“触发词——事件类型”对照表,形成候选事件,再分类确定

类别

– 基于事件实例驱动:将每个句子看成候选事件的实例,将事件抽取任务

转化成对句子的聚类问题

Page 6: EVENT EXTRACTION - hong.xmu.edu.cn fileNLP的两个基本任务:词性标注和词短语分块 – 提取时间表达式、命名实体和事件短语 • T-POS标签系统 1. 使用来自Penn

- 6 -

2. Event extraction techniques

▪ 2. 2 Knowledge-Driven Event Extraction (基于模式匹配)

▪ 利用语法模式或者语义模式,从语言学的角度出发,进行句法分析和语

义理解

▪ 采用各种模式匹配算法将待抽取的句子和已经抽出的模板匹配

▪ 2. 3 Hybrid Event Extraction

Page 7: EVENT EXTRACTION - hong.xmu.edu.cn fileNLP的两个基本任务:词性标注和词短语分块 – 提取时间表达式、命名实体和事件短语 • T-POS标签系统 1. 使用来自Penn

- 7 -

3. Application

▪ Personalized news systems

▪ Risk analysis applications

▪ Monitoring systems

▪ Decision making supports tools

▪ Medical domain(抽取医学/生物事件)

▪ Financial markets

▪ …

Page 8: EVENT EXTRACTION - hong.xmu.edu.cn fileNLP的两个基本任务:词性标注和词短语分块 – 提取时间表达式、命名实体和事件短语 • T-POS标签系统 1. 使用来自Penn

- 8 -

3.1 TWICAL

▪ 提取事件的四元组表示

▪ 系统框架

Page 9: EVENT EXTRACTION - hong.xmu.edu.cn fileNLP的两个基本任务:词性标注和词短语分块 – 提取时间表达式、命名实体和事件短语 • T-POS标签系统 1. 使用来自Penn

- 9 -

▪ NLP的两个基本任务:词性标注和名词短语分块– 提取时间表达式、命名实体和事件短语

• T-POS标签系统

1. 使用来自Penn TreeBank标签集的标签手动注释了一组800条(16K)的推文,作为域内训练数据

2. OOV(out of vocabulary)问题,对5200W条推文进行聚类,得到词汇的变化情况

3. 条件随机场(CRFs)进行词性标注

• 浅层文法分析—提取名词短语、动词短语和介词短语等

1. 使用CoNLL的标签注释800篇推文(16k的域内训练数据)+来自CoNLL数据集的210K新闻文本

2. CRFs进行推断和学习

▪ 命名实体识别(NER)1.分割:用IOB编码表示分割,使用条件随机场进行学习和推断

2.分类:LabeledLDA

3.1 TWICAL

Page 10: EVENT EXTRACTION - hong.xmu.edu.cn fileNLP的两个基本任务:词性标注和词短语分块 – 提取时间表达式、命名实体和事件短语 • T-POS标签系统 1. 使用来自Penn

- 10 -

3.1 TWICAL

▪ 事件标注(Event Tagger)– 提取事件短语

• T-POS标签系统

1. 首先注释一个推特语料库1000tweets(19484 tokens)

2. 将事件触发词的识别看作是序列标记任务

3. CRFs

▪ 解析时间表达式– TempEx:将一个参考日期,一些文本和词性(来自T-POS)作为输入

,并用明确的日历引用标记时间表达式

▪ 事件分类– linkLDA(每类事件对应命名实体n的分布以及发生日期d的分布)

▪ 事件排序– 事件和日期的相关度

Page 11: EVENT EXTRACTION - hong.xmu.edu.cn fileNLP的两个基本任务:词性标注和词短语分块 – 提取时间表达式、命名实体和事件短语 • T-POS标签系统 1. 使用来自Penn

- 11 -

3.1 TWICAL

http://ec2-54-170-89-29.eu-west-1.compute.amazonaws.com:8000/

Page 12: EVENT EXTRACTION - hong.xmu.edu.cn fileNLP的两个基本任务:词性标注和词短语分块 – 提取时间表达式、命名实体和事件短语 • T-POS标签系统 1. 使用来自Penn

- 12 -

3.2 AZFinText System

▪ Q1:使用金融文本做股价预测的是否有效?

▪ Q2:在股价预测中哪种文本分析技术是最有价值的?

Page 13: EVENT EXTRACTION - hong.xmu.edu.cn fileNLP的两个基本任务:词性标注和词短语分块 – 提取时间表达式、命名实体和事件短语 • T-POS标签系统 1. 使用来自Penn

- 13 -

3.2 AZFinText System

▪ Dataset– 2005.10.26-11.28

– Stock Price: S&P500

– News : Yahoo Finance

▪ 5 weeks– 9211篇候选金融文章

– 1025W+个股价数据

Page 14: EVENT EXTRACTION - hong.xmu.edu.cn fileNLP的两个基本任务:词性标注和词短语分块 – 提取时间表达式、命名实体和事件短语 • T-POS标签系统 1. 使用来自Penn

- 14 -

3.2 AZFinText System

▪ Experiment– Step1:使用三种文本表示方法提取金融文本,得到三个单独的语料库

– Step2:获取每篇文章发布时的股价数据,做20min后股价的回归预测以及获取20min后的真实股价,作为训练数据并用于后期评估

– Step3:将前两步的数据作为系统输入,使用SVR进行回归预测

▪ Model evaluation

Q1:effective! (√)

Page 15: EVENT EXTRACTION - hong.xmu.edu.cn fileNLP的两个基本任务:词性标注和词短语分块 – 提取时间表达式、命名实体和事件短语 • T-POS标签系统 1. 使用来自Penn

- 15 -

3.2 AZFinText System

▪ Proper Noun

Q2:Proper Noun! (√)

Page 16: EVENT EXTRACTION - hong.xmu.edu.cn fileNLP的两个基本任务:词性标注和词短语分块 – 提取时间表达式、命名实体和事件短语 • T-POS标签系统 1. 使用来自Penn

- 16 -

3.2 AZFinText System

▪ Limitation• Small dataset

• Larger dataset—— offset market biases

▪ Future work• 其他机器学习方法,取得更高的精确度

• 将股票的选择扩大到S&P500之外

• 基于新闻和股价变化率建立一个模型,来观察股票波动的影响

• 更具选择性地训练文章(行业团体或者公司同行)

Page 17: EVENT EXTRACTION - hong.xmu.edu.cn fileNLP的两个基本任务:词性标注和词短语分块 – 提取时间表达式、命名实体和事件短语 • T-POS标签系统 1. 使用来自Penn

- 17 -

3.3 News-based trading framework

Page 18: EVENT EXTRACTION - hong.xmu.edu.cn fileNLP的两个基本任务:词性标注和词短语分块 – 提取时间表达式、命名实体和事件短语 • T-POS标签系统 1. 使用来自Penn

- 18 -

3.3 News-based trading framework

▪ Event extraction• ViewerPro tool(依赖于特定领域的知识库)

1. 将新闻词与领域本体中的概念相匹配

2. 基于语义、语态、语法的专有的启发式算法,对事件分组

3. 通过模式匹配来识别事件

▪ Data set – FTSE350;

– Stock price——Yahoo Finance;

– News-路透社(2007.01.01-2007.04.30)→2112 events

▪ News — Share Prices• Relative returns

• Excess returns

Page 19: EVENT EXTRACTION - hong.xmu.edu.cn fileNLP的两个基本任务:词性标注和词短语分块 – 提取时间表达式、命名实体和事件短语 • T-POS标签系统 1. 使用来自Penn

- 19 -

3.3 News-based trading framework

▪ Technical trading indicators• SMA(简单移动平均)、Bollinger Bands、EMA(指数移动平均)、

Roc(变化率)、MOM(动量)、MACD(移动平均收敛散度)

Page 20: EVENT EXTRACTION - hong.xmu.edu.cn fileNLP的两个基本任务:词性标注和词短语分块 – 提取时间表达式、命名实体和事件短语 • T-POS标签系统 1. 使用来自Penn

- 20 -

3.3 News-based trading framework

• 提取的事件大部分都给出了正向回报,说明可以用于交易策略

• 预定义的impact(影响因子)可以很好地反映事件对股价的影响。

Page 21: EVENT EXTRACTION - hong.xmu.edu.cn fileNLP的两个基本任务:词性标注和词短语分块 – 提取时间表达式、命名实体和事件短语 • T-POS标签系统 1. 使用来自Penn

- 21 -

3.3 News-based trading framework

Page 22: EVENT EXTRACTION - hong.xmu.edu.cn fileNLP的两个基本任务:词性标注和词短语分块 – 提取时间表达式、命名实体和事件短语 • T-POS标签系统 1. 使用来自Penn

- 22 -

3.3 News-based trading framework

▪ Evaluation——A general methodology• A domain expert knowledge

• Learn parameters

• population size

• number of generations

• the mutation rate

• crossover rate

▪ Future work • 考虑更多的交易技术指标

• 对新闻信息更细粒度的分析,例如和某种职业相关的事件新闻

• 考察同一天内发生的新闻的互相作用

Page 23: EVENT EXTRACTION - hong.xmu.edu.cn fileNLP的两个基本任务:词性标注和词短语分块 – 提取时间表达式、命名实体和事件短语 • T-POS标签系统 1. 使用来自Penn

- 23 -

4 Reference

【1】Hogenboom F, Frasincar F, Kaymak U, et al. An overview of event extraction from text[C]//Workshop on Detection, Representation, and Exploitation of Events in the Semantic Web (DeRiVE 2011) at Tenth International Semantic Web Conference (ISWC 2011). 2011, 779: 48-57.

【2】Ritter A, Etzioni O, Clark S. Open domain event extraction from twitter[C]//Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2012: 1104-1112.

【3】Schumaker R P, Chen H. Textual analysis of stock market prediction using breaking financial news: The AZFin text system[J]. ACM Transactions on Information Systems (TOIS), 2009, 27(2): 12.

【4】Nuij W, Milea V, Hogenboom F, et al. An automated framework for incorporating news into stock trading strategies[J]. IEEE transactions on knowledge and data engineering, 2014, 26(4): 823-835.

【5】赵妍妍, 秦兵, 车万翔, 等. 中文事件抽取技术研究[J]. 中文信息学报, 2008, 22(1): 3-8.

【6】许旭阳, 韩永峰, 宋文政. 事件抽取技术的回顾与展望[J]. 信息工程大学学报, 2011, 12(1): 113-118.

【7】许红磊, 陈锦秀, 周昌乐, 等. 自动识别事件类别的中文事件抽取技术研究[J]. 心智与计算, 2010, 4(1): 34-44.

【8】孙佩佩, 廖涛, 刘宗田. 基于事件要素的自动文摘抽取[J]. 计算机与数字工程, 2015, 43(10): 1829-1833.

【9】Ritter A, Clark S, Etzioni O. Named entity recognition in tweets: an experimental study[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011: 1524-1534.

【10】Sha F, Pereira F. Shallow parsing with conditional random fields[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1. Association for Computational Linguistics, 2003: 134-141.

【11】Pustejovsky J, Hanks P, Sauri R, et al. The timebank corpus[C]//Corpus linguistics. 2003, 2003: 40.

Page 24: EVENT EXTRACTION - hong.xmu.edu.cn fileNLP的两个基本任务:词性标注和词短语分块 – 提取时间表达式、命名实体和事件短语 • T-POS标签系统 1. 使用来自Penn

- 24 -

Thanks