严孙荣_答辩

Transcript 严孙荣_答辩

中文产品评论的意见挖掘研究
Research on Opinion Mining of
Product Reviews in Chinese
报告人：严孙荣
导师：瞿有利
时间：2010年6月
内容提纲






2015/4/13
研究背景和意义
整体褒贬分类研究
细颗粒意见分析研究
意见挖掘系统设计与实现
总结和展望
参考文献
2
研究背景和意义


问题的产生

电子商务飞速发展，用户在使用产品之后会在网上发表对产品的评论。

从纷繁复杂的网络世界中准确而快速地获取所需信息并非易事。
产品评论意见挖掘


对网上大量的评论信息进行挖掘，通过采用自然语言处理技术，对自
然语言描述的无结构的用户产品评论中进行自动挖掘，找到有用的信
息，并以直观的方式对挖掘结果进行表示。
研究意义


帮助用户购买适合自己的产品。
帮助厂家生产符合社会需求的产品。
2015/4/13
3
研究现状

研究现状
ReviewSeer :由Dave等人研究并开发，是世界上第一个情感分析
工具和第一个针对给定产品评论区别其褒贬性的系统。
Pulse :由Gamon等人研究并开发，可以自动挖掘网上用户所上载
的自由文本中有关汽车评价中的贬褒信息和强弱程度。
Opinion Observer :由Liu等人研究并开发的，可以处理网上在线
顾客产品评价，并采用可视化方式对若干种产品特征的综合质量进行
比较。
WebFountain :由Yi和Niblack研究并开发了，WebFountain系统是
一个基于多类型数据、开放领域意见挖掘的研究和开发平台。
OpinionFinder :Wilson等人研究并开发的,一个自动识别主观性句
子以及句子中各种与OpinionFinder主观性有关的成分的系统。
存在的问题
目前的研究主要是针对英文评论，中文评论的意见挖掘才刚刚起
步。
4
2015/4/13
主要研究内容

整体褒贬分类（文档级情感分类）

判断给定文本片段所体现的说话者的情感倾向是正面
肯定评价还是反面否定批判。
例：“便宜，相当便宜。外型较酷！”-> 肯定


细颗粒意见分析（基于产品特征的意见分析）

挖掘评论中的产品特征和其所持有的情感方向。

例： “诺基亚5230不但样子漂亮，而且功能强大，不过电池不怎
么耐用！”
样子->漂亮（肯定）功能->强大（肯定）电池->不耐用（否定）
产品评论意见挖掘系统的实现
2015/4/13
北京交通大学计算机研究所
5
整体褒贬分类
分类实验整体设计
训练语料
测试语料
中文分词
去除停用词
预处理
预处理
基于N-Gram的特征抽取
基于后缀树的特征抽取
文本特征抽取
文本特征抽取
TF
BOOL
TFIDF
特征权重计算
特征权重计算
CHI降维（N-Gram）
关键子字串降维(后缀树）
特征选择
朴素贝叶斯分类器
最大熵分类器
支持向量机分类器
分类算法
分类模型
分类结果
2015/4/13
北京交通大学计算机研究所
分类性能评介
6
整体褒贬分类

实验设计

为了分析不同因素对分类性能的影响，实验设计了相应的方
案。刚所有的组合进行实验分析。整体如下：
不同的文本特征抽取方法
不同的特征加权方法
不同的分类器算法
• 基于N-Gram的特征抽取
• 基于后缀树的特征抽取
• TF
• BOOL
• TFIDF
• 贝叶斯
• 最大熵
• 支持向量机
2015/4/13
北京交通大学计算机研究所
7
整体褒贬分类

基于N-Gram特征抽取





2015/4/13
基于词的unigram(WBU)
基于词的bigram(WBB)
基于字的unigram(CBU)
基于字的bigram(CBB)
基于字的trigram(CBT)
北京交通大学计算机研究所
8
整体褒贬分类

基于后缀树的特征抽取方法

后缀树（Suffix Tree）


广义后缀树


由若干字符串组成的后缀树。对于两个字符
串S1,S2，我们可以看作是由S1和S2组成的
S1$S2 # 字符串，也可以看作S1和S2依次加入
所构成的后缀树。
特点


2015/4/13
由Weiner在1973年提出的，Ukkonen在1995
年进行了简化，并提供了第一个线性时间的
在线构造后缀树的算法。
任何子串都是某个后缀的前缀。
子串可以按节点分成不同的组。
北京交通大学计算机研究所
9
整体褒贬分类

基于后缀树的特征抽取方法（续）

关键子串组（key Substring Group）



提取方法





2015/4/13
后缀树上的一个节点，可以看做是一个字符串的组（ SubString
Group ）。
选择其中的部分组（key Substring Group）作为文本的特征表示。
l：最低频次，SGv所要出现的最低次数。
h：最大频次，超过这个频次，则过滤掉。
b：最小分支数，也就是孩子节点的个数。
p：最大的父亲-孩子节点的条件概率。
q：最大的后缀链接的条件概率。
北京交通大学计算机研究所
10
整体褒贬分类

特征权重计算
1．布尔权重(Bool)
2．绝对词频权重(TF)
3．TFIDF权重

特征选择（特征降维）
CHI 统计法
2015/4/13
北京交通大学计算机研究所
11
整体褒贬分类

分类器选择
 朴素贝叶斯分类方法（Naïve
程序自己实现
Bayes，NB）
 最大熵（Maximum Entropy，ME）
张乐博士的最大熵工具
 支持向量机（Support Vector
Joachims的SVM-light系统
2015/4/13
Machine，SVM）
北京交通大学计算机研究所
12
整体褒贬分类

性能评价指标

微平均（MicroF1）
微平均是每一个实例（文档）的性能指标的算术平均，同一个数
据集它的准确率、召回率和F1 的微平均指标是相同的。

宏平均（MacroF1）
宏平均是每一个类的F1的算术平均值。
2 p  r
F1 
pr
2015/4/13
北京交通大学计算机研究所
13
整体褒贬分类

褒贬分类数据集构建
选择京东商城（www.360buy.com）的部分产品评论。
2015/4/13
北京交通大学计算机研究所
14
整体褒贬分类

评论例子
评论内容
外观大方，价格合适。
全屏触摸，屏幕够大，带电时间长，菜单合理，操作方便！
屏幕大、字大、手写操作灵敏、外观精致，礼包很实用
包装盒子是新的，所有附件也是全新的，刚用了两天，感觉这个价格对得
起机子，非常值得购买！
便宜实用！
便宜，相当便宜。打字方便，尤其是英文。外型较酷！
手机塑料感严重。
操作不方便，主题单调，上下滑动很费劲。
接口不标准，扩展能力弱，可安装程序少，只带一块电池。
反应较慢，尽然会死机。
刚买了就返修，嗨，什么运气啊。
2015/4/13
北京交通大学计算机研究所
褒贬方向
优点
优点
优点
优点
优点
优点
不足
不足
不足
不足
不足
15
整体褒贬分类

数据集规模
共从京东网抓紧大约16000条评论。
随机选择其中的12000条评论作为实验数据集，
9000条训练集，3000条作为测试集。

文本长度分析
评论
<=10
长度(字)
评论
4469
数量（条）
所占比例
30.1%
2015/4/13
11-15
16-20
21-25
26-30
31-35
36-40
41-50
51-60
>=60
2762
1868
1281
924
596
536
667
441
954
18.6%
12.5%
8.6%
6.2%
4.0%
3.6%
4.5%
2.9%
6.4%
北京交通大学计算机研究所
16
整体褒贬分类

基于N-Gram特征抽取实验结果
TF

基于词的unigram
特征维度（ 6917 ）

2015/4/13
TFIDF
microF1
macroF1
microF1
macroF1
microF1
macroF1
NB
0.9187
0.9159
0.916
0.9130
0.9091
0.9064
ME
0.9199
0.9164
0.9095
0.9055
0.914
0.9092
SVM
0.9289
0.9219
0.9201
0.9175
0.9104
0.9075
TF
基于词的bigram
特征维度（ 62187 ）
BOOL
BOOL
TFIDF
microF1
macroF1
microF1
macroF1
microF1
macroF1
NB
0.9206
0.9198
0.9133
0.9094
0.9109
0.9051
ME
0.9261
0.9220
0.9214
0.9168
0.9208
0.9193
SVM
0.9408
0.9301
0.9401
0.9394
0.9391
0.9361
北京交通大学计算机研究所
17
整体褒贬分类

基于N-Gram特征抽取的实验结果（续）

基于字的unigram
TF
macroF1
microF1
macroF1
microF1
macroF1
NB
0.9077
0.9035
0.9026
0.8980
0.8892
0.8851
ME
0.9135
0.9194
0.9134
0.9089
0.909
0.9043
SVM
0.9216
0.9204
0.9209
0.9203
0.9202
0.9240
基于字的bigram
特征维度（ 37626 ）

TF
BOOL
TFIDF
microF1
macroF1
microF1
macroF1
microF1
macroF1
NB
0.9424
0.9395
0.939
0.9359
0.9343
0.9316
ME
0.9309
0.9278
0.9148
0.9107
0.9249
0.9212
SVM
0.9474
0.9455
0.9427
0.9405
0.9424
0.9395
基于字的trigram
TF
特征维度（ 78031 ）
2015/4/13
TFIDF
microF1
特征维度（ 2687 ）

BOOL
BOOL
TFIDF
microF1
macroF1
microF1
macroF1
microF1
macroF1
NB
0.9089
0.9026
0.9089
0.9028
0.9166
0.9124
ME
0.8924
0.8862
0.886
0.8788
0.8967
0.8908
SVM
0.9092
0.9041
0.9042
0.8996
0.8809
0.8699
北京交通大学计算机研究所
18
整体褒贬分类

基于后缀树特征抽取的实验结果

不同参数（l,h）对实验结果的影响，使用TF的加权方法在SVM分
类器下的结果。
分类准确率
特征维度
2015/4/13
4000
5000
6000
7000
8000
9000
8
0.9484
0.9474
0.9471
0.9471
0.9471
0.9474
10
0.9488
0.9474
0.9468
0.9471
0.9474
0.9474
20
0.9474
0.9481
0.9481
0.9478
0.9471
0.9461
30
0.9478
0.9494
0.9491
0.9488
0.9481
0.9478
50
0.9447
0.9474
0.9451
0.9447
0.9444
0.9437
80
0.9441
0.9434
0.9420
0.9414
0.9407
0.9400
4000
5000
6000
7000
8000
9000
8
12078
12084
12095
12099
12103
12106
10
11737
11743
11754
11758
11762
11765
20
8535
8541
8552
8556
8560
8563
30
6528
6534
6545
6549
6553
6556
50
4408
4414
4425
4429
4433
4436
80
2915
2921
2932
2936
2940
2943
北京交通大学计算机研究所
19
整体褒贬分类

基于后缀树特征抽取的实验结果（续）

在参数（l=10,h=4000）下不同特征加权方法，在不同分类器下的
的实验结果
TF
2015/4/13
BOOL
TFIDF
microF1
macroF1
microF1
macroF1
microF1
macroF1
NB
0.9319
0.9296
0.9350
0.9327
0.9245
0.9224
ME
0.9353
0.9325
0.9191
0.9155
0.9265
0.9233
SVM
0.9484
0.9462
0.9437
0.9413
0.9471
0.9448
北京交通大学计算机研究所
20
整体褒贬分类

实验结论
 在特征表示上：Suffix>CBB>WBB>WBU>CBU>CBT。
 在特征加权方法上：TF>BOOL>TFID。
 分类器的性能：SVM>ME>NB。
 基于后缀树的特征抽取，避免了分词，同时避免了N-
Gram的高维度，并取得了比较满意的效果。
2015/4/13
北京交通大学计算机研究所
21
细颗粒意见分析

整体设计
2015/4/13
北京交通大学计算机研究所
22
细颗粒意见分析

产品特征库库构建

产品特征定义





产品特征类型


1.产品部件。
2.产品属性。
3.产品部件的属性。
4.产品的总体评价。
显式特征和隐式特征
产品特征词库构建方法


2015/4/13
从产品规格说明书中提取
从产品评论中提取
北京交通大学计算机研究所
23
细颗粒意见分析

中文极性词典库构建

极性词



网络极性词典
领域相关极性词典
产品特征相关词典
用来表达自己观点的直接描述工具
主要为形容词、动词、名词和部分
成语等
未登录词计算
中文极性词典构建



基础极性词典
否定词词典
极性词词典
极性修饰词词典
强调词词典
极性词的上下文极性
上下文极性
2015/4/13
北京交通大学计算机研究所
24
细颗粒意见分析

中文产品评论语言特点分析
 中文句子分析


按结构分：单句，复句
按语气分：陈述（肯定句，否定句，双重否定句）、祈使句、
感叹句、疑问句。
 产品评论特点





2015/4/13
评论语言大都比较简短。
断句随意，标点符号不规范使用。
评论用词比较随意，口语化较重，出现较多的网络用词。
只表达了希望或者建议的态度。
“没有”、“尚未”句式。
北京交通大学计算机研究所
25
细颗粒意见分析

基于依存句法（Dependence Grammar）的意见分析

主要思想：SBV+VOB极性传递方法



2015/4/13
SBV主谓关系（如“性价比高”）
ATT修饰关系（如“漂亮的外观”）
VOB动宾关系（如“喜欢它的屏幕”）
价格-便宜（正面）
外观-不喜欢（负面）
北京交通大学计算机研究所
26
细颗粒意见分析
评论文本

基于关键字匹配的意见
分析
主要思想：使用关键字进行匹配
，通过查找产品特征词的最近出
现的极性词来计算极性。
预处理
关键字匹配计算
切分分句
a)单产品特征词和单极性词
分词和词性标注
b)单产品特征词多个极性词
c)连续多产品特征词
意见挖掘
e)非连续的多产品特征词
中文句式分析
产品特征词词库
中文极性词词典
d)只有特征词无极性词
关键词标记
f)只有极性词
评论句子选择
否定词词典
强调词词典
计算极性词上下文极性
统计分析结果
关键字匹配计算
2015/4/13
北京交通大学计算机研究所
27
细颗粒意见分析

细颗粒意见分析实验


从京东网随机选择500条句子，包含280个褒义评论句子，150个
贬义评论句和70条个褒贬都有的评论句。
共标记极性词904个。其中含有否定词的句子比例为18%，含有强
调词的比例为35%，含有产品特征相关的极性词为13%。
评论句子内容
Q8在运行速度上的表现，在目前同品牌的手
机型号中绝对是最优秀的！
它的外观设计新颖，拿在手上相当酷。
产品特征词
极性词
强度
褒贬色彩
运行速度
优秀
+2
支持
外观
新颖
酷
+1
+2
高
炫
不耐用
+2
+1
-1
支持
相当支持
客观
相当支持
相当支持
反对
我昨天刚买了诺基亚5230，今天就降价了！诺基亚
不过它的性价比还是相当高的。
性价比
这款手机的屏幕很炫，不过电池不怎么耐用！屏幕
电池
2015/4/13
北京交通大学计算机研究所
28
细颗粒意见分析

细颗粒意见分析实验（续）

共标记产品特征词953个，其中对特征词表达了有效的情感意见的
关系对共有818对。
算法
正确匹配数量
准确率
依存句法
515/818
62.9%
关键字匹配
777/818
96.2%
实验结论：关键匹配的方法的分析性能好于依存句法的方法分析。
分析原因：依存句法的方法对句法分析结果的依赖过重。
2015/4/13
北京交通大学计算机研究所
29
意见挖掘系统设计与实现
评论下载与内容抽取

整体设计
评论页面1
评论页面2
评论页面3
评论内容抽取
数据库
原始评论
评论意见分析
整体褒贬分类
产品特征库
细粒度观点分析
极性词典
人机交互可视化
2015/4/13
评论意见结果
北京交通大学计算机研究所
30
意见挖掘系统设计与实现

评论下载与内容抽取
产品购物网站
下载评论HTML文件
HTML文件转化为标记树
查询XPath抽取节点信息
提取指定节点内容
输出到评论库
2015/4/13
编号
XPath路径
1
/html/body/form/div[7]/div[2]/ul[2]/li[2]/div[2]/dl/dd
2
/html/body/form/div[7]/div[2]/ul[2]/li[2]/div[2]/dl[2]/dd
3
/html/body/form/div[7]/div[2]/ul[2]/li[2]/div[2]/dl[3]/dd
4
/html/body/form/div[7]/div[3]/div/p[2]/a
北京交通大学计算机研究所
31
意见挖掘系统设计与实现
产品评论
管理界面
2015/4/13
北京交通大学计算机研究所
32
意见挖掘系统设计与实现
产品意见比较
查询界面
2015/4/13
北京交通大学计算机研究所
33
意见挖掘系统设计与实现
产品意见查询
界面
2015/4/13
北京交通大学计算机研究所
34
总结
一．
二．
三．
2015/4/13
采用机器学习的方法对产品评论进行整体褒贬分类
研究。分析比较不同因素对分类结果的影响。
设计并实现了基于依存句法分析的细颗粒评价分析
算法和关键字匹配的细颗粒评价分析算法，并构建
产品特征库和中文极性词典。
设计并实现了产品评论意见挖掘系统。
北京交通大学计算机研究所
35
展望
一．
二．
三．
2015/4/13
进一步挖掘针对情感分类的特征提取方法。
进一步完善对复杂评论的处理能力。
进一步完善中文产品评论语料库的构建。
北京交通大学计算机研究所
36
参考文献
[1]Peter D．Tumey．Thumbs up or Thumbs Down?Semantic Orientation Applied to Unsupervised
Classification of Reviews the Association for Computational Linguistics 40th Anniversary Meeting，New
Brunswick,N.,J 2002：41 7—424
[2]SANTORINI B．Part-of-speech tagging guidelines for the Penn Tree bank project[M]．Pennsylvania：ACM
Press，1990．
[3]PANG Bo，LEE L，VAITHYANATHAN S．Thumbs up? Sentiment classification using machine learning
techniques[C]// Prec of EMNLP'02．Philadelphia： Association for Computational Linguistics．2002:7986．
[4]DAVE K，LAWRENCE S，PENNOCK D．Mining the peanut gallery: opinion extraction and sentiment
classification of product reviews [C]//Proc of the 12th Intl World Wide Web Conference．[S.1.]:ACM Press
，2003:519-528．
[5] L.Dini and G Mazzini．2002．Opinion Classification Through Information Extraction．In A．Zanasi．C．
Brebbia,N．Ebecken and P．Melli(eds)：Data Mining,pages 299-3 1 0，WIT Press，Southampton，UK
[6]Bo pang and Lillian Lee. Opinion Mining and Sentiment Analysis. Foundations and Trends in Information
Retrieval.
[7]朱嫣岚，阂锦，周雅倩，黄首苦，吴立德．基于HowNet 的词语语义倾向计算．《中文信息学报》，2006(1)
[8]周立柱，贺宇凯，王建勇．情感分析研究综述 [J]．计算机应用2008.
[9]姚天昉，等．一个用于汉语汽车评论的意见挖掘系统[A]．中文信息处理前沿进展一中国中文信息学会二十五
周年学术会议论文集[C]．北京：清华大学出版社，2006.260.281．
[10]刘群，李素建．基于《知网》的词语语义相似度的计算[A]．第三届汉语词语语义学研讨会，台北，2002
37
2015/4/13
[11]史树敏，黄河燕，刘东升．一种基于领域本体的指代消解策略[C]．北京：清华大学出版社，2007
Thanks！
请老师批评指正！
2015/4/13
38

严孙荣_答辩

Transcript 严孙荣_答辩

Directory