中文产品评论的意见挖掘研究 research on opinion mining of product reviews in chinese

38
中中中中中中中中中中中中中 Research on Opinion Mining of Product Reviews in Chinese 报报报 报报报 报报报 2010 报 6 报

Upload: borka

Post on 26-Jan-2016

461 views

Category:

Documents


0 download

DESCRIPTION

中文产品评论的意见挖掘研究 Research on Opinion Mining of Product Reviews in Chinese. 报告人:严孙荣 导 师:瞿有利 时 间: 2010 年 6 月. 内容提纲. 研究背景和意义 整体褒贬分类研究 细颗粒意见分析研究 意见挖掘系统设计与实现 总结和展望 参考文献. 研究背景和意义. 问题的产生 电子商务飞速发展, 用户 在 使用产品之后会在 网 上发表对产品的评论 。 从纷繁复杂的网络世界中准确而快速地获取所需信息并非易事。 产品评论意见挖掘 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

中文产品评论的意见挖掘研究Research on Opinion Mining of

Product Reviews in Chinese

报告人:严孙荣导 师:瞿有利时 间: 2010年 6 月

Page 2: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

223/4/21

研究背景和意义 整体褒贬分类研究 细颗粒意见分析研究 意见挖掘系统设计与实现 总结和展望 参考文献

内容提纲

Page 3: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

323/4/21

问题的产生 电子商务飞速发展,用户在使用产品之后会在网上发表对产品的评论。 从纷繁复杂的网络世界中准确而快速地获取所需信息并非易事。

产品评论意见挖掘 对网上大量的评论信息进行挖掘,通过采用自然语言处理技术,对自

然语言描述的无结构的用户产品评论中进行自动挖掘,找到有用的信息,并以直观的方式对挖掘结果进行表示。

研究意义 帮助用户购买适合自己的产品。 帮助厂家生产符合社会需求的产品。

研究背景和意义

Page 4: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

研究现状

423/4/21

研究现状ReviewSeer :由 Dave 等人研究并开发,是世界上第一个情感分析工具和第一个针对给定产品评论区别其褒贬性的系统。Pulse :由 Gamon 等人研究并开发,可以自动挖掘网上用户所上载的自由文本中有关汽车评价中的贬褒信息和强弱程度。Opinion Observer :由 Liu 等人研究并开发的,可以处理网上在线顾客产品评价,并采用可视化方式对若干种产品特征的综合质量进行比较。WebFountain :由 Yi和 Niblack 研究并开发了, WebFountain 系统是一个基于多类型数据、开放领域意见挖掘的研究和开发平台。OpinionFinder :Wilson 等人研究并开发的 , 一个自动识别主观性句子以及句子中各种与 OpinionFinder 主观性有关的成分的系统。存在的问题 目前的研究主要是针对英文评论,中文评论的意见挖掘才刚刚起步。

Page 5: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

主要研究内容 整体褒贬分类(文档级情感分类)

判断给定文本片段所体现的说话者的情感倾向是正面肯定评价还是反面否定批判。例:“便宜,相当便宜。外型较酷!” -> 肯定

细颗粒意见分析(基于产品特征的意见分析) 挖掘评论中的产品特征和其所持有的情感方向。 例: “诺基亚 5230 不但样子漂亮,而且功能强大,不过电池不怎么耐用!”

样子 -> 漂亮(肯定) 功能 -> 强大(肯定) 电池 -> 不耐用(否定)

产品评论意见挖掘系统的实现北京交通大学计算机研究所 523/4/21

Page 6: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

整体褒贬分类

北京交通大学计算机研究所 623/4/21

分类实验整体设计训练语料

预处理

文本特征抽取

特征选择

分类算法

测试语料

预处理

文本特征抽取

分类模型

分类结果 分类性能评介

基于N-Gram的特征抽取基于后缀树的特征抽取

朴素贝叶斯分类器最大熵分类器支持向量机分类器

特征权重计算 特征权重计算TFBOOLTFI DF

CHI降维(N-Gram)关键子字串降维(后缀树)

中文分词去除停用词

Page 7: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

整体褒贬分类

北京交通大学计算机研究所 723/4/21

实验设计 为了分析不同因素对分类性能的影响,实验设计了相应的方案。刚所有的组合进行实验分析。整体如下:

Page 8: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

整体褒贬分类

北京交通大学计算机研究所 823/4/21

基于 N-Gram 特征抽取 基于词的 unigram(WBU) 基于词的 bigram(WBB) 基于字的 unigram(CBU) 基于字的 bigram(CBB) 基于字的 trigram(CBT)

Page 9: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

整体褒贬分类

北京交通大学计算机研究所 923/4/21

基于后缀树的特征抽取方法 后缀树( Suffix Tree )

由Weiner在 1973年提出的, Ukkonen在1995年进行了简化,并提供了第一个线性时间的在线构造后缀树的算法。

广义后缀树 由若干字符串组成的后缀树。对于两个字符串 S1,S2 ,我们可以看作是由 S1和 S2组成的S1$S2 # 字符串,也可以看作 S1和 S2依次加入所构成的后缀树。

特点 任何子串都是某个后缀的前缀。 子串可以按节点分成不同的组。

Page 10: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

整体褒贬分类

北京交通大学计算机研究所 1023/4/21

基于后缀树的特征抽取方法(续) 关键子串组( key Substring Group )

后缀树上的一个节点,可以看做是一个字符串的组( SubString Group )。

选择其中的部分组( key Substring Group )作为文本的特征表示。

提取方法 l :最低频次, SGv 所要出现的最低次数。 h :最大频次,超过这个频次,则过滤掉。 b :最小分支数,也就是孩子节点的个数。 p :最大的父亲 -孩子节点的条件概率。 q :最大的后缀链接的条件概率。

Page 11: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

整体褒贬分类

特征权重计算1.布尔权重 (Bool)

2.绝对词频权重 (TF)

3. TFIDF权重 特征选择(特征降维)

CHI 统计法

北京交通大学计算机研究所 1123/4/21

Page 12: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

整体褒贬分类

分类器选择朴素贝叶斯分类方法( Naïve Bayes, NB)

程序自己实现最大熵( Maximum Entropy,ME)

张乐博士的最大熵工具支持向量机( Support Vector Machine, SVM)

Joachims的 SVM-light 系统

北京交通大学计算机研究所 1223/4/21

Page 13: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

整体褒贬分类

性能评价指标 微平均( MicroF1)微平均是每一个实例(文档)的性能指标的算术平均,同一个数据集它的准确率、召回率和 F1 的微平均指标是相同的。

宏平均( MacroF1)宏平均是每一个类的 F1 的算术平均值。

北京交通大学计算机研究所 1323/4/21

rp

rpF

2

1

Page 14: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

整体褒贬分类

褒贬分类数据集构建选择京东商城( www.360buy.com )的部分产品评论。

北京交通大学计算机研究所 1423/4/21

Page 15: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

整体褒贬分类

北京交通大学计算机研究所 1523/4/21

评论内容 褒贬方向外观大方,价格合适。 优点全屏触摸,屏幕够大,带电时间长,菜单合理,操作方便! 优点屏幕大、字大、手写操作灵敏、外观精致,礼包很实用 优点包装盒子是新的,所有附件也是全新的,刚用了两天,感觉这个价格对得

起机子,非常值得购买!优点

便宜 实用! 优点便宜,相当便宜。打字方便,尤其是英文。外型较酷! 优点手机塑料感严重。 不足操作不方便,主题单调,上下滑动很费劲。 不足接口不标准,扩展能力弱,可安装程序少,只带一块电池。 不足反应较慢,尽然会死机。 不足刚买了就返修,嗨,什么运气啊。 不足

评论例子

Page 16: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

整体褒贬分类

数据集规模共从京东网抓紧大约 16000条评论。随机选择其中的 12000条评论作为实验数据集,9000条训练集, 3000条作为测试集。

文本长度分析

北京交通大学计算机研究所 1623/4/21

评论长度 (字 )

<=10 11-15 16-20 21-25 26-30 31-35 36-40 41-50 51-60 >=60

评论数 量(条)

4469 2762 1868 1281 924 596 536 667 441 954

所占比例 30.1% 18.6% 12.5% 8.6% 6.2% 4.0% 3.6% 4.5% 2.9% 6.4%

Page 17: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

整体褒贬分类

基于 N-Gram 特征抽取实验结果

基于词的 unigram特征维度( 6917 )

基于词的 bigram特征维度( 62187 )

北京交通大学计算机研究所 1723/4/21

TF BOOL TFIDF

microF1 macroF1 microF1 macroF1 microF1 macroF1

NB 0.9187 0.9159 0.916 0.9130 0.9091 0.9064

ME 0.9199 0.9164 0.9095 0.9055 0.914 0.9092

SVM 0.9289 0.9219 0.9201 0.9175 0.9104 0.9075

TF BOOL TFIDF

microF1 macroF1 microF1 macroF1 microF1 macroF1

NB 0.9206 0.9198 0.9133 0.9094 0.9109 0.9051

ME 0.9261 0.9220 0.9214 0.9168 0.9208 0.9193

SVM 0.9408 0.9301 0.9401 0.9394 0.9391 0.9361

Page 18: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

整体褒贬分类 基于 N-Gram 特征抽取的实验结果(续)

基于字的 unigram特征维度( 2687 )

基于字的 bigram特征维度( 37626 )

基于字的 trigram特征维度( 78031 )

北京交通大学计算机研究所 1823/4/21

TF BOOL TFIDF

microF1 macroF1 microF1 macroF1 microF1 macroF1

NB 0.9077 0.9035 0.9026 0.8980 0.8892 0.8851

ME 0.9135 0.9194 0.9134 0.9089 0.909 0.9043

SVM 0.9216 0.9204 0.9209 0.9203 0.9202 0.9240

TF BOOL TFIDF

microF1 macroF1 microF1 macroF1 microF1 macroF1

NB 0.9424 0.9395 0.939 0.9359 0.9343 0.9316

ME 0.9309 0.9278 0.9148 0.9107 0.9249 0.9212

SVM 0.9474 0.9455 0.9427 0.9405 0.9424 0.9395

TF BOOL TFIDF

microF1 macroF1 microF1 macroF1 microF1 macroF1

NB 0.9089 0.9026 0.9089 0.9028 0.9166 0.9124

ME 0.8924 0.8862 0.886 0.8788 0.8967 0.8908

SVM 0.9092 0.9041 0.9042 0.8996 0.8809 0.8699

Page 19: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

整体褒贬分类 基于后缀树特征抽取的实验结果

不同参数( l,h )对实验结果的影响,使用 TF 的加权方法在 SVM 分类器下的结果。

北京交通大学计算机研究所 1923/4/21

4000 5000 6000 7000 8000 9000

8 0.9484 0.9474 0.9471 0.9471 0.9471 0.9474

10 0.9488 0.9474 0.9468 0.9471 0.9474 0.9474

20 0.9474 0.9481 0.9481 0.9478 0.9471 0.9461

30 0.9478 0.9494 0.9491 0.9488 0.9481 0.9478

50 0.9447 0.9474 0.9451 0.9447 0.9444 0.9437

80 0.9441 0.9434 0.9420 0.9414 0.9407 0.9400

4000 5000 6000 7000 8000 9000

8 12078 12084 12095 12099 12103 12106

10 11737 11743 11754 11758 11762 11765

20 8535 8541 8552 8556 8560 8563

30 6528 6534 6545 6549 6553 6556

50 4408 4414 4425 4429 4433 4436

80 2915 2921 2932 2936 2940 2943

分类准确率分类准确率

特征维度特征维度

Page 20: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

整体褒贬分类 基于后缀树特征抽取的实验结果(续)

在参数( l=10,h=4000 )下不同特征加权方法,在不同分类器下的的实验结果

北京交通大学计算机研究所 2023/4/21

TF BOOL TFIDF

microF1 macroF1 microF1 macroF1 microF1 macroF1

NB 0.9319 0.9296 0.9350 0.9327 0.9245 0.9224

ME 0.9353 0.9325 0.9191 0.9155 0.9265 0.9233

SVM 0.9484 0.9462 0.9437 0.9413 0.9471 0.9448

Page 21: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

整体褒贬分类

实验结论 在特征表示上: Suffix>CBB>WBB>WBU>CBU>CBT

。 在特征加权方法上: TF>BOOL>TFID 。 分类器的性能: SVM>ME>NB 。 基于后缀树的特征抽取,避免了分词,同时避免了 N-

Gram 的高维度,并取得了比较满意的效果。

北京交通大学计算机研究所 2123/4/21

Page 22: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

细颗粒意见分析

整体设计

北京交通大学计算机研究所 2223/4/21

Page 23: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

细颗粒意见分析 产品特征库库构建

产品特征定义 1. 产品部件。 2. 产品属性。 3. 产品部件的属性。 4. 产品的总体评价。

产品特征类型 显式特征和隐式特征

产品特征词库构建方法 从产品规格说明书中提取 从产品评论中提取

北京交通大学计算机研究所 2323/4/21

Page 24: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

细颗粒意见分析 中文极性词典库构建

极性词 用来表达自己观点的直接描述工具 主要为形容词、动词、名词和部分

成语等 中文极性词典构建

极性词词典 极性修饰词词典

极性词的上下文极性

北京交通大学计算机研究所 2423/4/21

基础极性词典 网络极性词典

领域相关极性词典 产品特征相关词典

上下文极性

否定词词典

强调词词典

未登录词计算

Page 25: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

细颗粒意见分析 中文产品评论语言特点分析

中文句子分析 按结构分:单句,复句 按语气分:陈述(肯定句,否定句,双重否定句)、祈使句、

感叹句、疑问句。 产品评论特点

评论语言大都比较简短。 断句随意,标点符号不规范使用。 评论用词比较随意,口语化较重,出现较多的网络用词。 只表达了希望或者建议的态度。 “没有”、“尚未”句式。

北京交通大学计算机研究所 2523/4/21

Page 26: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

细颗粒意见分析

基于依存句法( Dependence Grammar )的意见分析 主要思想: SBV+VOB极性传递方法

SBV 主谓关系(如“性价比高”) ATT修饰关系(如“漂亮的外观”) VOB 动宾关系(如“喜欢它的屏幕”)

北京交通大学计算机研究所 2623/4/21

价格 -便宜(正面)外观 -不喜欢(负面)

价格 -便宜(正面)外观 -不喜欢(负面)

Page 27: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

细颗粒意见分析

基于关键字匹配的意见分析主要思想:使用关键字进行匹配,通过查找产品特征词的最近出现的极性词来计算极性。

北京交通大学计算机研究所 2723/4/21

评论文本

中文句式分析

切分分句

分词和词性标注

关键词标记

预处理

评论句子选择

计算极性词上下文极性

产品特征词词库中文极性词词典

否定词词典强调词词典

a)单产品特征词和单极性词

b)单产品特征词多个极性词

c)连续多产品特征词

d)只有特征词无极性词

e)非连续的多产品特征词

f )只有极性词

关键字匹配计算

统计分析结果

意见挖掘

关键字匹配计算

Page 28: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

细颗粒意见分析

细颗粒意见分析实验 从京东网随机选择 500条句子,包含 280 个褒义评论句子, 150

个贬义评论句和 70条个褒贬都有的评论句。 共标记极性词 904 个。其中含有否定词的句子比例为 18% ,含有

强调词的比例为 35% ,含有产品特征相关的极性词为 13% 。

北京交通大学计算机研究所 2823/4/21

评论句子内容 产品特征词 极性词 强度 褒贬色彩

Q8在运行速度上的表现,在目前同品牌的手机型号中绝对是最优秀的!

运行速度 优秀 +2 支持

它的外观设计新颖,拿在手上相当酷。 外观 新颖酷

+1+2

支持相当支持

我昨天刚买了诺基亚 5230 ,今天就降价了!不过它的性价比还是相当高的。

诺基亚性价比 高 +2

客观相当支持

这款手机的屏幕很炫,不过电池不怎么耐用! 屏幕电池

炫不耐用

+1-1

相当支持反对

Page 29: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

细颗粒意见分析

细颗粒意见分析实验(续) 共标记产品特征词 953 个,其中对特征词表达了有效的情感意见

的关系对共有 818 对。

北京交通大学计算机研究所 2923/4/21

算法 正确匹配数量 准确率

依存句法 515/818 62.9%

关键字匹配 777/818 96.2%

实验结论:关键匹配的方法的分析性能好于依存句法的方法分析。

分析原因:依存句法的方法对句法分析结果的依赖过重。

Page 30: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

意见挖掘系统设计与实现

整体设计

北京交通大学计算机研究所 3023/4/21

评论内容抽取

评论页面1 评论页面2 评论页面3

原始评论

评论意见结果

产品特征库

极性词典

整体褒贬分类

细粒度观点分析

评论意见分析数据库

评论下载与内容抽取

人机交互可视化

Page 31: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

意见挖掘系统设计与实现 评论下载与内容抽取

北京交通大学计算机研究所 3123/4/21

编号 XPath路径

1 /html/body/form/div[7]/div[2]/ul[2]/li[2]/div[2]/dl/dd

2 /html/body/form/div[7]/div[2]/ul[2]/li[2]/div[2]/dl[2]/dd

3 /html/body/form/div[7]/div[2]/ul[2]/li[2]/div[2]/dl[3]/dd

4 /html/body/form/div[7]/div[3]/div/p[2]/a

下载评论HTML文件

HTML文件转化为标记树

产品购物网站

提取指定节点内容

输出到评论库

查询XPath抽取节点信息

Page 32: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

意见挖掘系统设计与实现

北京交通大学计算机研究所 3223/4/21

产品评论管理界面产品评论管理界面

Page 33: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

意见挖掘系统设计与实现

北京交通大学计算机研究所 3323/4/21

产品意见比较查询界面产品意见比较查询界面

Page 34: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

意见挖掘系统设计与实现

北京交通大学计算机研究所 3423/4/21

产品意见查询界面产品意见查询界面

Page 35: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

总结

一. 采用机器学习的方法对产品评论进行整体褒贬分类研究。分析比较不同因素对分类结果的影响。

二. 设计并实现了基于依存句法分析的细颗粒评价分析算法和关键字匹配的细颗粒评价分析算法,并构建产品特征库和中文极性词典。

三. 设计并实现了产品评论意见挖掘系统。

北京交通大学计算机研究所 3523/4/21

Page 36: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

展望

一. 进一步挖掘针对情感分类的特征提取方法。二. 进一步完善对复杂评论的处理能力。三. 进一步完善中文产品评论语料库的构建。

北京交通大学计算机研究所 3623/4/21

Page 37: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

3723/4/21

参考文献[1]Peter D. Tumey. Thumbs up or Thumbs Down?Semantic Orientation Applied to Unsupervised Classification of

Reviews the Association for Computational Linguistics 40th Anniversary Meeting, New Brunswick,N.,J 2002: 41 7—424

[2]SANTORINI B. Part-of-speech tagging guidelines for the Penn Tree bank project[M]. Pennsylvania: ACM Press, 1990.

[3]PANG Bo, LEE L, VAITHYANATHAN S. Thumbs up? Sentiment classification using machine learning techniques[C]// Prec of EMNLP'02. Philadelphia : Association for Computational Linguistics. 2002:79-86.

[4]DAVE K, LAWRENCE S, PENNOCK D.Mining the peanut gallery: opinion extraction and sentiment classification of product reviews [C]//Proc of the 12th Intl World Wide Web Conference. [S.1.]:ACM Press, 2003:519-528.

[5] L.Dini and G Mazzini. 2002.Opinion Classification Through Information Extraction. In A. Zanasi. C. Brebbia,N. Ebecken and P.Melli(eds): Data Mining,pages 299-3 1 0,WIT Press, Southampton, UK

[6]Bo pang and Lillian Lee. Opinion Mining and Sentiment Analysis. Foundations and Trends in Information Retrieval.

[7]朱嫣岚,阂锦,周雅倩,黄首苦,吴立德.基于 HowNet 的词语语义倾向计算.《中文信息学报》, 2006(1)

[8]周立柱,贺宇凯,王建勇.情感分析研究综述 [J].计算机应用 2008.

[9]姚天昉,等.一个用于汉语汽车评论的意见挖掘系统 [A].中文信息处理前沿进展一中国中文信息学会二十五周年学术会议论文集 [C].北京:清华大学出版社, 2006.260.281.

[10]刘群,李素建.基于《知网》的词语语义相似度的计算 [A].第三届汉语词语语义学研讨会,台北, 2002

[11]史树敏,黄河燕,刘东升.一种基于领域本体的指代消解策略 [C].北京:清华大学出版社, 2007

Page 38: 中文产品评论的意见挖掘研究 Research on Opinion Mining of  Product Reviews in Chinese

3823/4/21

Thanks !请老师批评指正!