基于2-POS模型的主观句判别与基于CRFs和句法分析的中文微博情感

Download Report

Transcript 基于2-POS模型的主观句判别与基于CRFs和句法分析的中文微博情感

基于2-POS模型的主观句判别
与
基于CRFs和句法分析的中文微博情感分析
许歆艺,陈豪,黄晨
楼博文,李子钰,王康
指导老师:刘功申,苏波
上海交通大学信息内容分析技术国家工程实验室
目录
基于2-POS模型的主观句判别
基于CRFs(Conditional Random Fields, 条件随
机场)的文本情感倾向性分析
基于句法分析算法的文本情感倾向性分析
信息安全工程学院
基于2-POS模型的主观句判别
2-POS模型
N-POS模型是一种基于语料库的统计语言模型。
在N-POS模型中,将词按词性(Part-Of-Speech
,简称为POS)分类,再将语句中连续N个词性的
顺序组合作为一个项,用这些项作为文本分类中
的一个特征。
当N取2时,即将连续两个词语的词性组合成一个
模式,就是2-POS模型。
例:天气 很 好
n ad a
2-POS:n-ad ad-a
信息安全工程学院
基于2-POS模型的主观句判别总体流程图
信息安全工程学院
计算2-POS的卡方值
 ( pattern i , c j ) 
N  (A  D  C  B)
2
2
( A  C )( B  D )( A  B )( C  D )
式中,pattern 表示某一2-POS,c 表示某一类别,这里
有两类:主观,客观,N表示训练集中主客观句的综述,A
表示属于类 c 并且包含 pattern 的句子数,B表示不属于类 c 但
是包含 pattern 的句子数,C表示属于类 c 但是不包含pattern 的句
子数,D表示不属于类 c 并且不包含 pattern 的句子数。
j
i
j
j
i
j
i
j
i
i
信息安全工程学院
设置2-POS主观权重
计算得所有2-POS的卡方
值并取其中前15个作为主
观模式。
使用每个选取为主观模式
的2-POS的查准率作为这
个2-POS的主观权重。
信息安全工程学院
选取15个2-POS作为主观模式
主观模式
首词
尾词
卡方值
主观权重
查全率
(查准率)
v-r
动词
代词
9.482
0.6540
0.4192
a-u
形容词
助词
8.562
0.6636
0.3524
r-d
代词
副词
8.349
0.7060
0.2582
m-m
数词
数词
7.127
0.1372
0.316
r-v
代词
动词
6.527
0.6128
0.4174
r-u
代词
助词
6.398
0.7273
0.1750
ns-n
地名
名词
6.279
0.2491
0.1245
r-a
代词
形容词
4.621
0.7232
0.1160
d-a
副词
形容词
4.551
0.6034
0.3226
r-r
代词
代词
4.473
0.8651
0.662
n-m
名词
数词
3.888
0.2510
0.796
v-u
动词
助词
3.569
0.5413
0.5978
a-d
形容词
副词
3.335
0.7446
0.832
v-q
动词
量词
3.254
0.7576
0.759
d-r
副词
代词
3.213
0.7939
0.632
信息安全工程学院
选择主观评分阈值
将文本中所有2-POS所得的主
观评分加和,除以文本中2POS的总数,获得文本最终主
观性评分。
信息安全工程学院
最终结果
在选择阈值为0.0001的时候,查准率达到0.74126,查全
率达到0.77196,均比较理想。
CCF 自然语言处理与中文计算会议中文微博主观句识别评测结果
微平均
正确率
0.674
召回率
0.891
宏平均
F值
0.768
正确率
0.679
召回率
0.892
信息安全工程学院
F值
0.764
CRFs(Conditional Random
Fields, 条件随机场)
CRFs简介
CRFs是基于HMMs(隐式马尔可夫模型)与MEMs(最大熵
模型)的基础上的改进。
CRFs使用条件特征,可以对特征进行全局归一化。它在
给定需要标记的观察序列的条件下,计算整个标记序列
的联合概率。
在现实的序列标注任务中,CRFs性能往往都优于HMMs
和MEMs。
信息安全工程学院
基于CRFs的微博情感分析流程图
信息安全工程学院
序列标注工作
将训练集的短文本的每个词
作为第一列,将短文本的情感倾
向性作为标注作为第二列。每个
词都标注为这个文本的类别,这
样短文本就转化为一个标注后的
序列,可以用于训练。
测试集的短文本只需给出每
个词作为第一列,第二列文本类
别为空,留待预测。
真的
是
非常
好
的
想法
值得
进一步
探讨
正面
正面
正面
正面
正面
正面
正面
正面
正面
序列标注示例
信息安全工程学院
特征模版的选取
# Unigram
...
只选择U05作为特征模版
U00:%x[-2,0]
真的
正面
与选择所有作为特征模
U01:%x[-1,0]
是
正面
版准确率相差很小,为
U02:%x[0,0]
非常
正面>>current token
避免特征空间膨胀,仅
U03:%x[1,0]
好
正面
选择U05作为特征模版。
U04:%x[2,0]
的
正面
U05:%x[-1,0]/%x[0,0]
U06:%x[0,0]/%x[1,0]
信息安全工程学院
最终结果
结论:链式CRFs的序列标注不仅保存了短文本的特征词
,还保存了词之间的顺序关系,可以提高短文本情感倾向
性分析的准确度。
CCF 自然语言处理与中文计算会议中文微博倾向性分析评测结果
微平均
宏平均
正确率
召回率
F值
正确率
召回率
F值
0.853
0.743
0.794
0.854
0.745
0.794
信息安全工程学院
句法分析算法
基于句法分析算法的
文本情感倾向性分析总体流程图
信息安全工程学院
最终结果
最终结果并不如使用CRFs方法理想,因为对于短文本以
及不规范的网络文本,句法分析器的表现力不从心。在
实验中证明,这种方法在比较书面的中长句子中表现较
好。
CCF 自然语言处理与中文计算会议中文微博倾向性分析评测结果
微平均
宏平均
正确率
召回率
F值
正确率
召回率
F值
0.597
0.532
0.563
0.585
0.525
0.552
对某一书籍评价的平衡语料库的倾向性分析评测结果
平衡语料集
正面
反面
平均
准确率
78.24%
79.13%
78.69%
召回率
79.45%
77.90%
78.68%
F-meature
78.84%
78.52%
78.68%
信息安全工程学院
Thank you :)