基于社会媒体的观测与预测技术45.55.222.147/wp-content/uploads/2016/10/smp2015_liuting.pdf基于社会媒体的观测与预测技术...

71
基于社会媒体的观测与预测技术 哈工大社会计算与信息检索研究中心 第四届全国社会媒体处理大会(SMP2015)特邀报告 2015年11月17日,中国·广州

Upload: others

Post on 21-Feb-2020

45 views

Category:

Documents


0 download

TRANSCRIPT

基于社会媒体的观测与预测技术

刘 挺

哈工大社会计算与信息检索研究中心

第四届全国社会媒体处理大会(SMP2015)特邀报告

2015年11月17日,中国·广州

我研究中心的五个研究方向

LTP语言技术平台(句子级句法语义分析)

Language

Grounding

(命令执行) 阅读理解

(篇章级语义理解及推理)

知识图谱

(大词林)

作文评阅与

辅助写作 人机对话

(深度问答)

人机对话

(聊天机器人)

社会媒体

观测

社会媒体

预测

通过理解语言,实现认知社会

• 语言是思维的窗口,是人类特有的交流工具,透

过语言可以了解人的思想、情感和需求,可以认

识社会的现状,预测社会的发展趋势

自然语言处理

社会媒体处理

社会媒体

社会计算

大数据

刘挺教授

博士生导师

研究中心主任

秦兵教授 博士生导师

研究中心副主任

张宇教授 车万翔副教授 博士生导师

陈毅恒 博士/讲师

赵妍妍

博士/讲师

张伟男 博士/讲师

刘挺教授

博士生导师

研究中心主任

文本挖掘 情感分析

问答 社会计算

语言分析

丁效 博士

李生教授

重点实验室主任

深度学习(Deep Learning)简介

微软语音识别

• 1.神经网络,2.多个隐层,3.自动学习特征,4.需要大数据,5.端到端

• 在语音识别和图像识别中取得突破,在自然语言处理领域被高度重视,广泛应用,取得了一定的进展

谷歌虚拟大脑(Google Brain)

错误率减少30%以上

16000多个处理器、10亿个内部连接组

成的“虚拟大脑”,从1000万帧YouTube

的无标签图片中自主“学会”了猫的概念。

5

目录

1. 概述

2. 对消费意图的观测

3. 基于消费意图的预测技术

4. 对事件的观测

5. 基于事件的预测技术

社会媒体(Social Media)

• 社会媒体(Social Media)

– 以社会网络(Social Network)为基

础,以互联网用户创造和传播信息

为主要形式的在线交互媒体

• 与传统媒体的显著不同点

– 大众参与发布和传播消息

• 社会媒体的类型

– 微博、微信、论坛、豆瓣、大众点

评、百科、知道、爱奇艺、淘宝问

答等等

透过社会媒体观察社会

• 虚拟社会(社会媒体)

– 是现实社会的反映(折射)

• “今天雾霾呛死人啊”

• 可能夸大

– 与现实社会相互作用

• “八达岭高速完全堵死了”

• 看到此微博的人可能会绕行

– 是现实社会的一部分

• 马伊琍:“且行且珍惜”

• 暗示原谅文章,言论也是行为

语言大数据的社会用途

• “不出户,知天下”,“未出茅庐,已知三分天下”

• 像天文台观测宇宙一样观测社会

• 像卫星发射控制中心一样的展示效果

社会媒体中的客观信息

• 文本描述

– 人物节点的自我介绍

– 刻画事物

– 叙述行为、事件

• 网络结构

– 人物之间的社会网络关系;传播过程中的结构

• 时空信息

– 已标记的时空信息,需要从内容中识别的时空信息

• 操作行为

– 转发、评论、收藏、赞、签到

基于社会媒体的观测

基于社会媒体感知客观世界

事件 地震

时间 2013.4.20

地点 四川芦山

震级 7.0

深度 13公里 现实

人本传感器

社会媒体

重现

八维饮食地图[车万翔]

http://ys.8wss.com

饮食习惯分析结果

• 地区维度(食物分布对比)

元宵 汤圆

饮食行为识别结果

识别规则 含词语“吃/喝” 句法关系为VOB(动宾) “吃/喝”的宾语为名词

社会媒体中主观信息

• 观点(Opinion)

– 支持、中立、反对,“我支持异地高考”

• 情感(Sentiment)

– 喜、怒、悲、恐、惊,“太开心了”

• 意图(Intention)

– 自己想做,“我想买个土豪金”

• 建议(Suggestion)

– 希望别人做,“要是能重拍《红楼梦》就好了”

• 预测(Prediction)

– “我猜皇马能赢”

基于社会媒体的感知

基于社会媒体感知主观世界

人 微博 情绪

张三 心情不错 喜

李四 太压抑了 悲

王五 可气 怒

赵六 很开心 喜

社会媒体

对主观世界的分析

八维情绪地图 [秦兵、赵妍妍]

长江游轮倾覆

沉船内部有生命迹象

载客458人已救起8人

18

民众情绪透视分析

与人民网、新浪微博联合发布

智能的阶段

认知智能

感知智能

运算智能

“预测决策”智能

“创新”智能

什么是基于社会媒体的预测

• 基于社会媒体的预测

– 通过对社会媒体数据的挖掘,看清事实真相,聚集群体智

慧,对事物未来的状态和发展趋势做出科学的估计

• 社会媒体对预测的作用

– 行为、事件:“我感冒了”“我家里的灯在晃”

– 观点、情感:“我支持奥巴马”

– 意图:“我想去看《致青春》”

– 预测:“我认为奥巴马能赢得大选”

各种基于社会媒体的预测

• 选举结果预测

• 电影票房预测

• 流行病预测

• 奥斯卡获奖预测

• 足球比赛冠军预测

• 股票涨跌预测

• 地震传播预测

• 信息传播预测

2012年11月4日

Twitter情绪指数

“基于社会媒体的预测”研究框架

相关关系 因果关系

基于社会媒体的预测技术 (社会媒体+人工智能的典型代表)

微博声量 统计

情感倾向性 分析

话题抽取

事件抽取 消费意图 挖掘

由因导果

执果溯因

社会媒体

目录

1. 概述

2. 对消费意图的观测

3. 基于消费意图的预测技术

4. 对事件的观测

5. 基于事件的预测技术

用户意图

产品评价 论坛帖子 微博

搜索引擎

• 意图类别

– 消费意图、自杀意图、作案意图、„„

• 意图信息源

社会媒体用户意图与愿望分析

潜在客户

意向客户

需求客户

消费客户

明确提及产品品牌

对产品类型表达兴趣

需求表达宽泛

隐性消费意图

研究问题 消费意图

挖掘

显式消费意图挖掘

隐式消费意图挖掘

消费意图识别

消费对象抽取

消费意图识别

消费对象推荐

好想买一部手机,求推荐 显式消费意图

孩子缺钙怎么办? 隐式消费意图

触发词抽取 需求词抽取

显式消费意图识别

• 传统方法

– 模式匹配(<触发词+NP>)

– 有指导的分类方法

• 我们的方法

– 找到弱标注数据

– 利用消费意图表达的相似性

#求推荐#我想给儿子买个玩具。

我想给老妈买营养品。

<[我[SBV],买<VOB>,给[POB]>

<[我[SBV],买<VOB>,给[POB]>

消费对象抽取

• 例子:“我想买一台空气净化机,求推荐。”

给定触发词“想买”

根据依存句法VOB关系,找到“想买”的宾语“净化机”作为消费对象核心词

根据单语词对齐模型,对消费对象核心词“净化机”补全成“空气净化机”

空气 净化机

空气 净化机

实验结果

• 消费意图识别

• 消费对象抽取

隐式消费意图与事理图谱

• 从社会媒体中发现事理关系(因果、顺承)

– 问:“我儿子三岁,医生说有些缺钙怎么办?”(来

自淘宝)

– 答:“可以给孩子补充一些贝类食品”

我老婆怀孕了

妇产

喂养

早教

妇产医院

戒奶

补钙

妇产医院

基于领域自适应的卷积神经网络

• 基于卷积神经网络的隐性消费意图识别方法

– 通过CNN学习文本语义特征

– 不需要人工设计特征

我老婆怀孕了

Word Representation

Convolution

Pooling

Sentence level feature

通过Word Embeddings挖掘词汇的语义表示

通过卷积将局部词汇级语义表示合成为全局的句子级语义表示

领域迁移及自适应

领域自适应的卷积神经网络

• 卷积神经网络可以将词汇特征通过卷积层进行很好的语义

合成,进而生成句子级语义信息

• 学到的句子级表示可以在不同领域间共享

Bengio et al. 2013

基于淘宝问答的消费对象推荐

• 问:“我儿子三岁,医生说有些缺钙怎么办?”(来自淘宝问答)

• 答:“可以给孩子补充一些贝类食品”

获取候选产品名

根据词搭配计算消费对象概率

根据概率进行消费对象排序

隐性消费意图识别实验

• 实验数据

– 2000万条微博文本,7600万个句子,13亿个词训练Word Embedding

– 源领域:母婴领域,5000句正例,5000句负例

– 目标领域:电影领域,500句正例,500句负例

• 实验结果

– 消费意图识别结果

消费对象推荐结果

消费意图的研究层次

显式 消费意图

隐式消费意图

能够转化成行为的意图

消费意图转化行为的众包式调研

• 问题:如何知道用户的意图是否转化为行为了?

• 方法:

– 1.自动找到含有特定意图的微博

– 2.以评论的形式自动发出调查问卷

• 结果:一天之内收回4000多份问卷

问卷数 42814

用户回复数 4154

回复比例 10%

消费意图转化行为的众包式调研

• 除了“是否”回答外,我们还可以得到一些热心

用户更加详尽的回复

反馈结果

当时准备中考所以没有去

在家看碟

一般我去电影院看文章、白百合的电影美国动作、枪战片3D动画

排片太少了没有合适的场次

因为大部分人说不好看所以我就没去电影院看

当然有啦郑秀文主演的必须去影院支持的!

在电影院看了七八遍

消费意图观测方面的论文支持

• Xiao Ding, Ting Liu, Junwen Duan, Jianyun Nie. Mining User Consumption

Intention from Social Media via Domain Adaptive Convolutional Neural Network.

In Proc. of AAAI 2015

• Junwen Duan, Yiheng Chen, Ting Liu, Xiao Ding. Mining Intention-Related

Products on Online Q&A Community. Journal of Computer Science and

Technology. 2015

• 付博, 刘挺. 社交媒体用户的隐式消费意图识别. 软件学报录用. 2015

目录

1. 概述

2. 对消费意图的观测

3. 基于消费意图的预测技术

4. 对事件的观测

5. 基于事件的预测技术

透过社会媒体预测未来

•意图 •建议

•猜测

主观世界

•大众行为(产品销量)

•企业行为

•政府行为

客观世界 •观点、情感

主观世界

转化

时间轴

反作用

引起

基于社会媒体用户意图的预测

突发事件1

(来自社会媒体)

网民 情绪/意愿

时间

突发事件2

网民 情绪/意愿

预测曲线

实际曲线

(如票房)

如何发现网民的情绪、意愿与事物发展趋势的相关关系 如何发现突发事件与事物发展趋势的相关关系及因果关系

基于消费意图的预测系统架构

结构化信息处理

倾向性分析

查询分析

预测模型打分

评论

讨论

预测结果

社会媒体信息获取 社会媒体信息处理 基于社会媒体的预测模型

……

消费意图挖掘

输入 输出

查询

转发

基于消费意图的电影票房预测

• 消费意图相对于情感分析更能直接揭示用户内心的真实想

法,以此为依据的预测也会更加准确

– 用户表示喜欢某部电影不代表他会去看某部电影

• 《一九四二》,叫好不叫座

– 不喜欢,不意味着不去看

• 《三抢拍案惊奇》,恶评如潮,票房很高

• 消费意图是在电影上映前可以获得的,而情感倾向性只能

在电影上映后才会发生

消费意图正例

消费意图反例

基于高斯连接函数的票房预测模型

• 传统电影票房预测模型将

各个特征作为独立的输入

,而忽略了特征之间的相

互联系

• 高斯连接函数能够对服从

不同分布的特征之间的依

赖关系进行建模

• 实验数据集1:在中国上映的电影

– 188部

– 2012年-2014年

– 特征:排片数,相关微博数,消费意图数

基于高斯连接函数的票房预测结果

• 实验数据集2:在美国上映的电影

– 1718部

– 时间跨度:2005年-2009年

– 元数据特征:排片数,电影预算,演员,导演等

– 文本特征:词袋,词性,依存关系

基于高斯连接函数的票房预测结果

电影票房预测实例

预测总票房:2.9亿元

实际总票房:2.9亿元

预测总票房: 8,251万

当前总票房:5,151万

基于消费意图的预测方面的论文支持

• Ting Liu, Xiao Ding, Yiheng Chen, Hanchen Chen, Maosheng Guo.

Predicting Movie Box-Office Revenues by Exploiting Large-Scale. Journal

of Social Media Content. Multimedia Tools and Application. 2014.

• Junwen Duan, Xiao Ding, Ting Liu. Gaussian Copula Regression for

Movie Revenue Prediction from Social Media. In Proc. of SMP 2015.

目录

1. 概述

2. 对消费意图的观测

3. 基于消费意图的预测技术

4. 对事件的观测

5. 基于事件的预测技术

传统事件抽取及表示

• 事件类型、数目有限

• 有固定的模板槽

开放域事件抽取

• 优势

– 不受事件类型数量限制

– 不受领域限制

• 三元组事件表示

– (施事,事件词,受事)

– 例子(小明,吃,馒头)

• 抽取工具

– ReVerb,华盛顿大学Anthony Fader等人开发

开放域事件抽取

• 缺点

– 离散化事件表示

– 事件稀疏性

– 举例

• (小明,吃,馒头)

• (小明,啃,馒头)

• (小红,吃,馒头)

• (小明,吃,面条)

基于人工语义词典的解决方案

• 基于WordNet,VerbNet的事件泛化

• 缺点

– WordNet,VerbNet词覆盖有限

– 泛化到哪一级不明确,对于不同应用有不同要求

VerbNet:吃 WordNet:人

WordNet:食物

(小明,吃,馒头) (小明,啃,馒头) (小红,吃,馒头) (小明,吃,面条)

基于事件向量化的解决方案

• 事件向量化表示

– 低维度,稠密,实数值向量表示

(施事 = “微软”, 事件词 = “诉讼”, 受事 = “三星”) =

0.2860.792−0.177−0.2350.348−0.7840.9630.128−0.289

1 2 3 4 5 6 7 8 9 10

1

2

3

4

5

6

x2

x1

(施事 = “小明”, 事件词 = “吃”, 受事 = “馒头”)

(施事 = “小明”, 事件词= “啃”, 受事= “馒头”)

23

32.5

(施事 = “小红”, 事件词= “吃”, 受事= “馒头”) 2.52

基于张量神经网络的事件表示学习

• 输入:Word Embeddings

• 输出:Event Embedding

施事 受事 事件词

学习施事词与事件词之间的语义关系

学习受事词与事件词之间的语义关系

中间向量 中间向量

将中间向量进行语义合成

事件表示

事件聚类结果

• 将多维度向量基于主成分分析法(PCA)映射成二维向量

事件观测方面的论文支持

• Xiao Ding, Yue Zhang, Ting Liu, Junwen Duan. Using Structured Events to

Predict Stock Price Movement: An Empirical Investigation. In Proc. of

EMNLP 2014

• Xiao Ding, Bing Qin, Ting Liu. Building Chinese Event Type Paradigm

Based on Trigger Clustering. In Proc. of IJCNLP 2013

• Xiao Ding, Bing Qin, Ting Liu. BUEES: a Bottom-Up Event Extraction

System. Journal of Frontiers of Information Technology & Electronic

Engineering. 2015

目录

1. 概述

2. 对消费意图的观测

3. 基于消费意图的预测技术

4. 对事件的观测

5. 基于事件的预测技术

基于事件的股票涨跌预测

• 动机

– 事件可以影响人们的决策,而人们的决策行为又会影响到对

股票的买卖,这种买卖行为会导致股价的涨跌

– 传统股市预测方法更多依赖于浅层特征,例如词袋,名词短

语和命名实体

• 例子

• 需要以事件抽取为基础的预测技术

微软起诉三星侵权 → {“微软”, “起诉”, “三星”, “侵权”}

原告 被告

预测模型

• 线性模型

– 支撑向量机(SVM)

• 非线性模型

– 深度神经网络

– 事件与股市涨跌之间存在

非线性隐含的关系,神经

网络的隐含层结点可以很

好地建模该关系

预测模型存在的问题

• 长期影响的作用不如短期,但仍然有用,尤其是当短期新

闻很少时

• 前人工作很少将事件的长期影响与短期影响定量的联合建

模分析

基于卷积神经网络的预测模型

刻画长期的事件影响

刻画中期的事件影响

刻画短期的事件影响

实验数据

• 英国路透社以及美国彭博社 2006年10月到2013年

11月的全部新闻

• 美国标普500股指数据

Download URL: http://ir.hit.edu.cn/~xding/index_english.htm/

实验结果

• 评价指标:准确率

• 评价对象:美国标普500股指涨跌情况(当日收盘价相对

于开盘价的涨跌情况)

准确率

Luss and d’Aspremont [2012] 56.42%

Ding et al. [2014] (E-NN) 58.94%

WB-NN 60.25%

WB-CNN 61.73%

E-CNN 61.45%

EB-NN 62.84%

Ding et al. [2015] (EB-CNN) 65.08%

基于事件的预测技术论文支持

• Xiao Ding, Yue Zhang, Ting Liu, Junwen Duan. Deep Learning for Event-

Driven Stock Prediction. In Proc. of IJCAI 2015

• 刘挺, 丁效, 赵森栋, 段俊文. 基于社会媒体的预测技术[J]. 中国计算机

学会通讯,2015年第3期

• 赵森栋, 刘挺. 因果关系及其在社会媒体上的应用研究综述[J]. 软件学

报, 25(12). 2015

未来工作

消费意图挖掘 (开展事理图谱研究)

(加强隐式消费意图研究)

事件抽取 (从新闻事件到小道消息) (统计事件在微博中声量)

基于消费意图的预测技术 基于事件的预测技术

总结

• 重视社会媒体上的意图、建议、预测等主观信息的挖

• 消费意图的自动发现在商业上有重大价值

• 重视“事理图谱”的研究

• 事件(三元组)的分布式表示能够有效地进行同类事

件归并

• 深度神经网络中各隐层中的中间层能够概括不同领域

的共性,有利于领域移植

• 基于社会媒体的观测与预测,意义重大,难度也很大,

需要坚持不懈的努力

谢谢!

致谢: 哈工大博士生丁效、段俊文、付博

新加坡科技与设计大学(SUTD)张岳博士