nus presentation title 2006 -...

26
自然语言处理:变与不变之间 黄萱菁 复旦大学 1 中国中文信息学会2014战略研讨会

Upload: others

Post on 07-Oct-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

自然语言处理:变与不变之间

黄萱菁

复旦大学

1

中国中文信息学会2014战略研讨会

Page 2: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

内容

• 过去若干年见证了自然语言处理的巨大变化

– 文本数据

– 计算架构

– 计算模式

– 机器学习方法

• 自然语言处理的核心问题相对稳定

• 对“变与不变之间”的思考

• 我们的近期研究工作,以非规范文本处理为例

• 广告

2

Page 3: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

变化的文本数据

• 来源

– 从新闻媒体到社会媒体

– 结合用户(用户关系网络)、时间、空间

• 格式

– 从规范文本到非规范文本

– 结构化和半结构化(海量可用的知识资源)、非结构

– 标注语料和生语料

• 规模

– 句子篇章语料库

– MBGBTB互联网 3

应用社交媒体数据的论文数量

7

9

11

13

15

17

2010 2011 2012 2013

社会

媒体

论文

数量

年份

ACL

EMNLP

Page 4: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

变化的计算架构

MapReduce

4

GPU计算

Spark

Page 5: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

新的计算模式—群智计算(众包)

5

• 众包的应用

– 数据获取(感知)

– 数据挖掘

– 知识生产:wiki

– 人工评价

• 老问题的新思路

– 拼音输入

– 拼写校对

Page 6: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

新的机器学习方法

• 监督学习/半监督学习/非监督学习

• 判别模型/生成模型

• 明星模型

– SVM, MaxEnt, MEMM, CRF

– Topic Models

– MLN

• 深度学习!

6

Page 7: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

不变的自然语言处理核心技术

Coreference resolution

Question answering (QA)

Part-of-speech (POS) tagging Word sense disambiguation (WSD)

Paraphrase

Named entity recognition (NER)

Parsing

Summarization

Information extraction (IE)

Machine translation (MT)

Dialog

Sentiment analysis

mostly solved

making good progress

still really hard

Spam detection

Let’s go to Agra!

Buy V1AGRA …

Colorless green ideas sleep furiously.

ADJ ADJ NOUN VERB ADV

Einstein met with UN officials in Princeton

PERSON ORG LOC

You’re invited to our dinner party, Friday May 27 at 8:30

Party May 27 add

Best roast chicken in San Francisco!

The waiter ignored us for 20 minutes.

Carter told Mubarak he shouldn’t run again.

I need new batteries for my mouse.

The 13th Shanghai International Film Festival…

第13届上海国际电影节开幕…

The Dow Jones is up

Housing prices rose

Economy is good

Q. How effective is ibuprofen in reducing fever in patients with acute febrile illness?

I can see Alcatraz from the window!

XYZ acquired ABC yesterday

ABC has been taken over by XYZ

Where is Citizen Kane playing in SF?

Castro Theatre at 7:30. Do you want a ticket?

The S&P500 jumped

摘自 Dan Jurafsky讲义

Parsing

Page 8: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

变与不变之间

• 不变意味着什么?

– 语言学的内在规律

– 人类对语言现象的认知

– 人工智能的终极目标

• “变”意味着什么?

– 语言学研究外延的拓展

– 计算技术的进步

– 解决问题的新方法

8

• 两者都蕴含着“新的知识增长点”

• 如果寻找自然语言处理的蓝海?

• 我们的近期研究兴趣

– 面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

– 语言大数据的处理:Hadoop, MapReduce,GPU, MPI, NoSQL

– 自动问答与人机对话

– 自然语言处理开源工具

– 非规范文本处理

Page 9: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

非规范文本处理

• 非规范文本

向大妈学广场舞,跟土豪做朋友,已经成为全世界小伙伴的新潮流。

李教授非常professional,我们很fan他。

中国石油天然气有限公司中石油。

• 部分研究成果

利用动态特征对中英文混合文本进行联合分词和词性标注 (EMNLP 2012)

利用一阶谓词模型识别命名实体简称 (IJCNLP 2013)

中英语混合文本规范化 (WSDM 2014)

9

Page 10: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

中英文混合文本词性标注

• 英文单词或者字母经常出现在中文文本中

– 作为产品名、机构名、术语、缩略语、简称等,如“eBay”、“iPhone”、“GDP”、“Android”

– 出现在日常的对话沟通中,包括电子邮件和即时通讯软件

– 新浪微博抽样统计说明,14.8%微博含有至少一个英文单词

• 例子

– 提着行李在time square (NN) 的星巴克蹭网。

– 于是整个场面被我hold (VV)住了。

– 你微博忘记At (VV)他了。

• 难点

– 如何确定词性标记集?英文还是中文?

– OOV如何处理?

– 英文单词词性可以转换:我们出去Happy一下。

10

Page 11: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

动态特征

• 使用词级别的特征,以帮助提高中文词性标注的准确率

• 结合字符级别的特征和在解码阶段动态产生的动态的词级别特征,如词的内容、长度、词性等

11

静态特征

动态特征 可在纯中文语

料上训练!

Page 12: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

𝒚 = 𝑎𝑟𝑔max𝒚

𝐹(𝒘,𝜙(𝒙,𝒚))

实验

• 模型:序列标注模型

• 标注算法:Viterbi

• 训练算法:在线PA

• 标记集:{B, I, E, S}

12

Page 13: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

识别命名实体简称

• 命名实体简称示例

– 北京大学 北大

– 中国石油天然气集团公司 中石油

– 中国国际航空公司 国航

• 简称在文本中的比例

– 新闻文本:20%的句子含有简称

– UGC:更多

• 现有方法

– 基于数据的方法:需要大量(平行)语料

– 基于序列标注的方法:难以对长距离依赖关系建模

13

Page 14: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

利用一阶谓词模型识别实体简称

• 将简称的生成建模为字的删除和保留操作

• 将语言特征和操作间关系用逻辑公式表示

• 用MLN进行参数学习和预测

14

)()(),(,

)()(

ySmokesxSmokesyxFriendsyx

xCancerxSmokesx

1.1

5.1

Cancer(A)

Smokes(A) Friends(A,A)

Friends(B,A)

Smokes(B)

Friends(A,B)

Cancer(B)

Friends(B,B)

Two constants: Anna (A) and Bob (B) Weight of formula i No. of true

groundings

of formula i

in x

i

ii xnwZ

xP )(exp1

)(

Page 15: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

构建一阶谓词公式

15

• 局部特征

– 词汇特征:字或词的上下文,如

• character(i,c+) ^ entityType(t+) drop(i)

• character(i,c+) ^ word(j,w+) ^ cwMap(i,j) ^ lastWord(j) drop(i)

– 距离和位置特征,说明实体的哪个部分可以省略

• character(i,c) ^ lenWord(wn+) ^ cwPosition(i,wp+) drop(i)

– 后缀特征,说明简称中可以没有后缀

• character(i,c+) ^ cwMap(i,j) ^ word(j-1,w+) ^ (sufSchool(j) or

sufOrg(j) or sufGov(j)) drop(i)

• 全局特征:表示可以同时删去若干个字

– character(i, c1) ^ cwMap(i, j) ^ drop(i) ^ character(i + 1, c2) ^

cwMap(i + 1, j) drop(i + 1)

Page 16: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

实验

• 训练和测试数据

– 利用正则表达式从百度百科抓取

– 利用搜索引擎抓取

• 输入 “复旦大学 简称”

– 含有5万多简称/实体对

• 工具

– 中文分词:FudanNLP

– MLN:thebeast

16

Page 17: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

中英文混合文本规范化

• 微博中英语单词分类统计

• 采用分而治之策略加以处理

– In-vocabulary English words:翻译成中文

– Out-of-vocabulary English words :分类,如人名,机构名……

17

Page 18: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

词语翻译

18

翻译模型:从训练数据中计算:GIZA++

语言模型:神经语言模型

Page 19: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

未登录词分类

• 假设1: 属于相同类别的词语有相近的上下文

• 假设2: 词语及其属性描述倾向于共现

• 采用Label propagation算法进行迭代

19

Page 20: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

实验结果

20

词语翻译

未登录词分类

测试数据

1000条微博

1200个英文词语

Page 21: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

FudanNLP开源工具包

21

Page 22: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

FudanNLP:设计目标和流程

22

• 为中文自然语言处理研发一个开源平台,使用统一框架,集成先进研究成果,降低中文分析门槛,促进中文自然语言处理的发展 机器学习算法

数据集

LGPL3.0

Page 23: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

FudanNLP:使用情况

• 国内首家NLP开源系统

• 被国内外众多科研单位和公司使用

• 受到国内同行的好评

使用公司或产品:

使用科研单位:

清华大学、上海交通大学、中科院、北京邮电大学、新加坡国立大学、台湾中央研究院、怀卡托大学等

1 China 10575 2 United States 542 3 Taiwan 368 4 Japan 230 5 Hong Kong 165 6 Singapore 122 7 France 57

8 United

Kingdom 50

9 Canada 44

累计下载次数 截至到2013.11.26

Page 24: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

CIKM 2014

• General Chairs:

– Jianzhong Li: Harbin Institute of Technology, China

– X. Sean Wang: Fudan University, China

• PC Chairs

– (DB Track) Min Wang, Google

– (IR Track) Ian Soboroff NIST & Torsten Suel NYU Poly

– (KM Track) Minos Garofalakis, Tech Univ. Crete

24

Abstract Submission June 4, 2014

Paper Submission June 11, 2014

Acceptance Notification August 8, 2014

会议地点:上海富豪环球东亚大酒店,中国

上海市衡山路516号

CIKM Cup

Page 25: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

WSDM 2015

25

复旦皇冠酒店

Page 26: NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理:情感分析,话题发现,趋势分析

Questions?