Transcript Document

汉语否定与模糊识别语料库的构建
陈站成
邹博伟
朱巧明
李培峰
提纲
背景及意义
研究现状
语料库构建
标注结果统计数据
总结及展望
1
背景及意义
否定信息
否认一个命题的成立、存在或真实性。
模糊信息
一个命题具有不确定性或推测含义。
否定与模糊信息识别任务
触发词识别:识别具有否定或模糊语义的单词或短语。
覆盖域识别:识别触发词的作用范围。
eg1,这把椅子虽然坐上去 [不舒服 ]scope1但价格却很便宜。
eg2,女主人递给我一件礼物, [可能是一本书,或者一本
相册 ] scope2。
2
背景及意义
否定语义和模糊语义是普遍存在的语言现象。
Bioscope语料中,分别有13.45%和17.70%的句子包含否定信息
和模糊信息。
在本文构建的否定和不确定识别语料库中,分别有15.78%和
13.88%的句子包含否定和模糊信息。
否定语义和模糊语义在自然语言处理任务中的应用。
信息抽取:区分真实信息和不确定信息。
情感分析:反转极性和表示情感强弱。
3
英语研究现状
BioScope生物医学语料库
标注了否定(Negation )和模糊(Speculative )触发词以及其覆盖域。
full paper语料,来源于科技论文领域,9篇,2670个句子
abstract语料,源于论文摘要内容,1273篇,11871个句子
clinical语料,来源于门诊报告,195篇,6383个句子
<sentence id="S26.8">These findings <xcope id="X26.8.2"><cue type="speculation"
ref="X26.8.2">indicate that</cue> <xcope id="X26.8.1">corticosteroid resistance in
bronchial asthma <cue type="negation" ref="X26.8.1">can not</cue> be explained by
abnormalities in corticosteroid receptor characteristics</xcope></xcope>.</sentence>
4
英语研究现状
Wikipedia互联网语料
标注了模糊触发词,未标注相应的覆盖域范围。
weasels段落,模棱两可的言论,有歧义的表达,共438个。
Some people <cue>claim that</cue> this results in a better taste than that of
other diet colas(most of which are sweeted with aspartame alone).
5
汉语研究现状
语言学研究
 沈开木(1984):对汉语否定词用法研究。
 张瑞朋(2007):探讨了汉语否定词的覆盖域范围。
 目前尚未有针对汉语的覆盖域自动识别研究,语料的匮
乏是阻碍该研究发展的主要原因之一。
6
语料库构建
 语料来源:《计算机学报》2012年第11期19篇论文
 否定与模糊识别在科技文献的信息抽取相关研究中具有重要地位。( KEN
HYLAND ,1996)
 中国计算机领域的权威学术刊物,语言表达相对严谨。
 文本数量充足,适合语料库规模的扩充,为将来进行半自动甚至自动标注提供了
可能。
 语料库标注步骤
 将原始语料进行预处理和分句,获得生语料。
 由标注者利用标注工具标注生语料,形成初步语料库。
 对所标注语料格式进行规范化,构建XML格式语料库。
PDF格
式论文
预处理,
分句
生文本
标注
初步语
料库
规范格式
XML格
式语料
库
7
标 注 规 则(否定1)
触发词为副词,通常对行为或性状进行否定,如“不”、“不
能” 等。
 修饰动词或动词性词组时,覆盖域通常是动词所在的子句。
 修饰形容词时,往往是形容词本身或其所在的名词性短语。
 修饰其它副词时,要看被修饰的副词所修饰的部分是属于前面两种
情况中的哪种,分别处理。
eg. 椅子坐着[不舒服] scope但价格很便宜。
触发词为动词。如“没有”、“排除”等。
 没有省略句子成分时,动词所在的子句通常就是触发词对应的覆盖
域。
 缺少主语时,覆盖域往往为省略主语的子句。
eg. S为图G中具有最大属性差异度的k个clique组成的集合且[S中clique彼
此之间没有公共节点 ]scope.
8
标 注 规 则(否定2)
触发词为形容词,如“非”、“不同” 等。
 作定语时,形容词性的否定触发词往往与它所修饰的名词一
起构成覆盖域。
 作表语时,覆盖域为具有否定信息的子句。
eg. LSH-k近邻查询是基于d-HASH签名而[非原始时间子序列 ]scope.
触发词为介词。如“除了”等等。
 介词通常引导一个短语作状语,所以大多情况下覆盖域为介
词所引导的成分。
9
标 注 规 则(模糊1)
触发词为副词,如程度副词“一般”、“基本”。
 通常修饰动词、形容词或名词性成分,而覆盖域通常是一个
包含主谓宾、或者省略主语、或者省略宾语、或者以逗号分
开的子句。
eg. 使[查询时间基本不受M值的影响 ]scope.
触发词为动词,如“估计”、“试图”,覆盖域
通常是完整的句子。
eg. [文献试图通过扰乱排序实现查询隐私保护]scope.
10
标 注 规 则(模糊2)
短语“成为……的问题”、“在很多情况下”、
“当……时”等通常具有模糊信息。
“任意”、“假定的”等形容词,具有不确定性,表示
模糊信息。
触发词是连词,如“或”、“如果”等。
eg. 顶点代表[道路的交叉口或者道路的端点 ] scope。
11
标 注 规 则(特殊)
否定特殊标注规则
“不同”在某些情况下不做否定触发词。
eg.根据不同查询标准,可分为范围查询和k近邻查询两类。
“除了……之外”、“除了……”等,要对比上下文内容
是否表示否定语义来判别。
模糊特殊标注规则
“如何”修饰事实时不标注为模糊触发词。
“考虑”是否标注为模糊触发词,需要根据其在上下文
中的含义。
12
标注结果统计数据
否定信息
模糊信息
触发词数
941
812
触发词集大小
42
59
句子数占比
15.78%
13.88%
覆盖域平均字数
14.95
18.41
Kappa值
84.55%
83.04%
 否定和模糊信息在汉语科技文献中普遍存在,在该语料上进行标注
工作具有很好的针对性。
 标注者对语料中的实例都能较准确地识别,同时也表明了该任务具
有一定难度和挑战性。
13
标注结果统计数据
90.00%
0.2
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
80.00%
70.00%
60.00%
50.00%
40.00%
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59
否定触发词占比
模糊触发词占比
 汉语否定和模糊触发词所占百分比看出,跟英
语百分比差别较大。
 占所有触发词比例高的词出现但不作为触发词
的比例和占所有触发词比较低出现但不作为触
发词的比例相比,后者普遍更高,识别前者更
难。
30.00%
20.00%
10.00%
0.00%
1
2
3
占所有触发词比例
4
5
6
7
8
9
出现但不作为触发词比例
14
总结及展望
否定与模糊识别任务的提出,包括触发词识别和
覆盖域识别。
标注规则撰写,分别撰写否定与模糊识别规则,
并讨论特征标注情况。
语料标注、结果统计。
15
总结及展望
汉语省略现象普遍,缺少句子成分,不能仅仅依靠
句法分析识别覆盖域。
汉语字与字、词与词之间搭配基本稳定,语序较固
定。(陆俭明,2003)
16
总结及展望
自动识别汉语否定与模糊信息,包括触发词及覆盖
域。
扩大语料规模,尝试跨领域的语言材料。
抽取科技文献中否定和模糊信息,区分真实信息与
不确定信息,提高信息抽取效率。
17
18