感,動人心也 - 郑州大学自然语言处理实验室

Download Report

Transcript 感,動人心也 - 郑州大学自然语言处理实验室

意义的表情与信息可信度:
词汇语意学新境
Expressive Meaning and Information Credibility:
New Frontier in Lexical Semantics
黄居仁 Huang Chu-Ren, FHKAH
香港理工大学
The Hong Kong Polytechnic University
President, Hong Kong Academy of the Humanities
[email protected]
大纲

言表真情达深意

感,動人心也




长安不见使人愁
天若有情天亦老
天知地知你知我知
衆里寻他千百度
7/28/2009
CLSW 2009, Yantai, Shandong, China
2
言表真情达深意
词汇语意的多面向

意义的内容



语言符号直接表徵的意义内容
representational meaning
语言符号(直接或间接)表达的情感内容
expressive meaning
从表达内容到实情真意


7/28/2009
说话者的态度与意向
用来标示态度与对信息内容评价的语言要素
CLSW 2009, Yantai, Shandong, China
3
表徵与表达
To Represent or to Express

以表徵方式表达感情



我很生气,我真的很生气
你去死啦!
以表达感情的方式表徵信息


7/28/2009
Coffee or Tea? I prefer tea.
很遗憾!真可惜!
CLSW 2009, Yantai, Shandong, China
4
语义表达的第二个层面----- 表情

粗粒度表情表达----情感(Sentiment)

关注人们表情表达的倾向性


相关的研究热点





一般分为正、负两类,例如:正面、负面;积极、消极等
资源建设
情感分类
情感信息抽取
……
细粒度表情表达----情绪(Emotion)

关注人们表情表达的具体情绪表现


一般为多类信息,例如:喜、怒、哀、惊等
相关的研究热点




情绪的本体、资源建设
情绪识别和分类
情绪相关事件识别
……
6
感,動人心也

─說文解字
Emotion (Canon, 1927)


The felt awareness of bodily reactions to
something perceived or thought
情感是人们感知到某种事物后有生理反
应时这个反应的知觉
6
7
长安不见使人愁
A state event with a cause event as its
pre-event
 心为之所动:情感的肇因事件


秋风秋雨愁煞人

念天地之悠悠,独怆然而涕下
7
天若有情天亦老

情感通常有相伴的反应行动


心动不如行动
Humans are known to ‘act on’ their
emotions - post-events - instigated by
emotion events
7/28/2009
CLSW 2009, Yantai, Shandong, China
8
9
情感的事件架构



情感并非单一心理状态,而是以心理状态
连接肇因事件与反应事件的复杂事件架构
这些事件架构将人类重要经验分类
Emotion as a pivot: cognitively salient
mental states linking natural pre- and post
events
Cause
events
e1
Emotion
state
e2
Elicited
events
e3
Figure 1: Event Representation of an Emotion
9
情感的目的因
Telic Interpretation of Emotion

Fear 惧怕:避凶


10
Awareness of external conditions which
necessitate action taken to avoid harm for
survival
Happiness 幸福:趋吉

Awareness of desirable external conditions
which improve life quality
10
情感分析-----情感资源建设

情感资源(特别是情感词典)构建



人工标注
自动标注
自动标注


出发点:从“自然标注”标注的篇章级资源(例如带打星的评论)
到词典资源
方法:利用特征提取方法,提取篇章级中好的词语,自动标注为
情感词 (李和黄,CLSW-2010)
篇章级“自然”
标注资源
特征提取方
法
情感词典
情感分析----情感分类方法

情感分类方法


全监督 ,半监督 ,非监督
基于Personal/Impersonal的全监督和半监督情感分类方
法(Li等,ACL-2010)




将文本划分为Personal和Impersonal两个视图
Personal视图-----从人出发的观点
 E1: I love this breadmaker!
 E2: I disliked it from the beginning.
Impersonal视图-----从物出发的观点
 E7: They are too thin to start with.
 E8: This product is extremely quiet.
融合和协同训练(Co-training)分类方法
情感分析----情感分类方法(续)

基于情感转移的情感分类方法(Li等,COLING-2010)
 情感转移

否定,转折等(还可以参考我们CLSW-2013文章)
对情感转移部分和情感非转移部分分别建模
其他情感分类方法研究
 不平衡情感分类方法研究 (Li等,IJCAI-2011)




面对样本的不平衡
主动学习方法研究(Li等,EMNLP-2012)

如何减少标注代价
情绪分析-----情绪资源建设

情绪分类语料库建设


非监督的汉语情绪语料建设(陈等,计算语言学联合会议-2009;
Chen等,LAW III-2009)
情绪分类体系



喜、哀、恐、怒、驚
以“喜”为例子:
情绪原因语料库建设
汉语情绪原因语料库标注(Lee等,LREC-2010)
例:[*01e] 你 遗弃 我 [*02e] 后 , 我 <emo id=0>伤心欲绝</emo>。
[*01e] 你 遗弃 我 [*02e]----------------原因

情绪分析-----情绪识别和分类
枚举型 or 分解型
(Enumerable or Decomposable)


枚举型


分解型


情绪类别之间没有联系,单独对待
情绪类别之间存在联系,有些情绪是其他两种或多种情绪
的组会,例如:“惊喜”是“惊讶”和“喜悦”的组合
将情绪类别作为可分解型利于提高情绪分类性
能(Chen等,PACLIC-2009)
情绪分析-----情绪原因识别

基于规则的方法(Lee等, Computational
Intelligence-2012)
利用大量语言学规则进行识别
例如:一些功能词(“因为”,“由于”)后面出现的
子句一般为情绪原因


基于机器学习的方法(Chen等,COLING-2010)

统计信息结合语言学规则
小结

词义内 容包括表情与达意

感情是根据经验的复杂事件结构分类

表真情与达深意:情与意兼顾才能掌握意
义的全貌与价值
7/28/2009
CLSW 2009, Yantai, Shandong, China
17
天知地知你知我知:
观点与信息内容可信度
词汇语意学的另壹个面向:词汇信息内容的
品质判定
 所知内容是否相同
 立场与观点是否有差异:


个人/公众观点
信息可靠度trustworthiness of information


7/28/2009
信息来源
言据性
CLSW 2009, Yantai, Shandong, China
18
言据性与可靠性



言据性传递说话者对于命题中信息可靠与否的信
心度,并或显性或隐性地在句子中指明信息来源
听者接受到这些言据线索后,就可以自行对信息
的可靠性予以判断(Fitneva 2001:402)。
信息的可靠性是他们尤为关注的部分。听众对信
息可靠性的构建会随着信息来源证据和认知证据
的不同而变化,依可靠性的高低形成一个连续的
层级系统。 (Su等2011:207)
7/28/2009
CLSW 2009, Yantai, Shandong, China
19
可信度与语用

Gricean maxims


Maxim of Quality: be Truthful
Maxim of Quanlity:
one makes his/her contribution as informative as
is required, and at the same time does not make
the contribution more informative than is
required.
The Maxim of Quantity predicts that good
answers are plain statements without evidential
markers.
衆里寻他千百度

何谓众包技术= 将工作分配给一组分散(在
互联网上)的志愿员工(Howe 2006)。


不仅局限于简单的工作,也可以用于征集意见
、想法、创意。
众包的优势


迅速,平价
跨越地理、社会阶层的阻隔
现有的众包平台

目前主要有两个众包专用的网络平台,都
建于境外。

Mechanical Turk by Amazon (MTurk)




https://www.mturk.com/
Amazon下属的网站
需要有美国的信用卡才能注册使用
Crowdflower


http://crowdflower.com
可以使用国际信用卡
注册以后,使用者
就可以发布新的任
务,或是参与完成
已经发布的任务。
众包与语言学研究


语言学以语言资料为研究对象
这类数据的特点

不要求数据提供者具有任何专业知识


只要是普通的语言使用者或学习者即可
很多语言数据的收集任务可以轻易在计算机上
进行

例如,对语言材料的辨认、判断、分析,甚至是写
作、录音、翻译等等
运用众包技术收集语言数据?
众包的下里巴人与阳春白雪

标注意大利语句子中的事件结构(Tommaso and
Huang,2012)


发布平台:Crowdflower
任务



对所给句子进行事件类型的标注(如:STATE, PROCESS,
TRANSITION)
参与者46人,任务开放两星期
质量控制

通过在任务中插入黄金标准(gold standard)问题来辨
识最可靠的数据提供者


可以将标注的准确性从62% 提高到93%
研究者在社交媒体上定向发布广告,帮助招募可靠的参
与者
目前的研究

汉语中词的边界与语义透明度的关系


正在进行中的一个香港GRF Grant
任务



“收件箱”是一个词还是两个词?
“西瓜”=“西”+“瓜”?
关注的问题



能否用众包的方式采集母语者对汉语中词的边界和
语义透明度的感知?
用众包方式所取得的数据和实验室实验所采集的数
据是否一致?
能否找到一个高效又可靠的众包方式来收集汉语语
言学数据?
众包方式是否会改变词汇语意学
研究的未来?

众包技术提供了一个接触普通语言使用者
的途径



提供对表情与达意内容的提供,判定,与标注
对信息内容可靠度的判定,与标注
是否需要一个主要为汉语言学研究服务的
众包平台?
参考文献






李寿山, 黄居仁. 基于特征提取方法的词语情感倾向计算. 第十一届汉语词汇语
义学研讨会,CLSW-2010.
Li S., C. Huang, G. Zhou, and S. Lee. Employing Personal/Impersonal Views in
Supervised and Semi-supervised Sentiment Classification. ACL-10, 2010, 414423.
Li S., S. Lee, Y. Chen, C. Huang, and G. Zhou. Sentiment Classification and
Polarity Shifting [C]. COLING-10, 2010, 635-643.
Shoushan Li, Shengfeng Ju, Guodong Zhou, and Xiaojun Li. Active Learning for
Imbalanced Sentiment Classification. EMNLP-12, 2012.
Shoushan Li, Zhongqing Wang, Guodong Zhou and Sophia Yat Mei Lee. Semisupervised Learning for Imbalanced Sentiment Classification. IJCAI-11, 2011.
陈瑛,李逸微,黄居仁。非监督的汉语感情语料库的建设及分析,全国计算
语言学联合会议,2009.
参考文献(续)





Sophia Yat Mei Lee, Ying Chen, Shoushan Li, Chu-Ren Huang: Emotion Cause
Events: Corpus Construction and Analysis. LREC 2010.
Sophia Yat Mei Lee, Ying Chen, Chu-Ren Huang and Shoushan Li. Detecting
Emotion Causes with A Linguistic Rule-based Approach. Computational
Intelligence, 2012.
Ying Chen, Sophia Yat Mei Lee, Shoushan Li, Chu-Ren Huang: Emotion Cause
Detection with Linguistic Constructions. COLING 2010.
Ying Chen, Sophia Yat Mei Lee, Chu-Ren Huang: Are Emotions Enumerable or
Decomposable? And its Implications for Emotion Processing. PACLIC 2009.
Chen, Ying, Sophia Y. M. Lee, and Chu-Ren Huang. 2009. A Cognitive-based
Annotation System for Emotion Computing. The Third Linguistic Annotation
Workshop (The LAW III), ACL 2009.
参考文献(续)



Caselli, Tommaso and Huang, Chu-Ren. (2012). Sourcing
the crowd for a few good ones: Event type detection. In
Proceedings of COLING 2012, 1239 – 1248.
Yao, Yao and Chang, Charles B. (2012). Reversal of a merger
via cross-language influence: The case of Shanghainese and
Mandarin. Poster at the 13th Conference on Laboratory
Phonology (LabPhon 13).
This work was partially supported by a General Research
Fund (GRF) sponsored by the Research Grants Council
(Project No. 543810) and the studentship of The Hong
Kong Polytechnic University.