Exploiting Lexical Semantic Resource for Tree Kernel

Download Report

Transcript Exploiting Lexical Semantic Resource for Tree Kernel

词汇语义资源在中文关系抽取中的应用
报告人:钱龙华
刘丹丹 胡亚楠 钱龙华 周国栋
苏州大学自然语言处理实验室
http://nlp.suda.edu.cn/
主要内容
1.
问题描述
2.
研究现状
3.
研究内容
4.
研究方法
5.
实验结果与分析
6.
总结与展望
2
1. 问题描述
实体语义关系抽取

简称关系抽取,是信息抽取中的重要研究内容之一。

其任务是从自然语言文本中提取出两个命名实体之间所存
在的语义关系。如:关系实例“他 的 妻子”中的存在的
PER-SOC关系。
研究意义
关系抽取对自然语言处理的许多应用,如内容理解、问题回

答、自动文摘以及社会关系网络构建等都具有重要的意义。
3
2. 研究现状
中文关系抽取
 基于特征向量的方法
关系实例的特征包含词汇、组块、句法和语义等各种信息。
如车万翔等[2005];董静等[2007];Li 等[2008]
基于核函数
将关系实例表示成的离散结构,如:
字符串:Che等[2005];刘克彬等[2007]
句法树:黄瑞红等[2008],虞欢欢等[2010]
4
词汇语义资源的作用
词汇语义信息
对关系抽取具有重要的作用。词汇不同但是语义相近的两个词语
,在句子中可表示相同的语义关系。如关系实例“毛泽东妻子杨开
慧”和“周恩来夫人邓颖超”。
目前的解决方法
Che等[2005]等采用了编辑距离核函数,考虑了词汇之间在《同
义词词林》中的语义相似度;
刘克彬等[2007]采用了字符串序列核函数,考虑了词汇之间在《
知网》中的语义相似度;
不足之处
两者都是在字符串核中考虑了词汇语义信息,而没有把词汇语义
信息用在抽取性能最好的句法树核中。
3. 研究内容
研究动机
随着句法树的卷积树核在关系抽取中的广泛应用,很自然的问题
是:
词汇语义信息是否对基于卷积树核函数的关系抽取有用?
词汇语义信息如何使用才更有益于关系抽取?
研究内容
如何把词汇语义信息结合到基于树核函数的中文关系抽取中;
6
4. 研究方法
基于卷积树核的中文关系抽取
关系实例的结构化表示
关系实例的相似度计算
将词汇语义类别嵌入到句法树中
利用语义卷积树核函数
7
关系实例的结构化表示
合一句法和语义树(Qian等,2008)
将句法树和实体的语义信息(实体类型等)结合起来。
如图所示为短语“银行总裁”的合一句法和语义树。
NP
E1
E2
TP
左边为句法树;
NN
NN
银行
总裁
TP1
TP2
右边为实体语义树
ORG PER
8
关系实例的相似度计算
 卷积树核函数(CTK, Convolution Tree Kernel)
 两棵句法树的相似度为相似子树的个数,即
KCTK (T1, T2 ) 
 计算方法
(n , n )
n1 N1 , n2 N 2
1
2
1) 如果n1和n2的产生式(采用上下文无关文法)不同,则△(n1,n2)=0
;否则转2;
2) 如果n1和n2是词性(POS)标记,则△(n1,n2)=  ;否则转3;
3) 按照如下公式递归计算
(n1 , n2 )  
#ch( n1 )
 (1  (ch(n , k ), ch(n , k ))
1
2
k 1
其中:#ch(n)是结点的子结点数目,ch(n,k)是结点的第k个子结点,而(0< 
<1) 则是衰减因子,用来防止子树的相似度过度依赖于子树的大小。
9
卷积树核函数-举例
下图列出了对应于短语“他妻子”和“她丈夫”的两棵句法树及其子树
。
NP
NP
PN
NN
他
妻子
NP
PN
NN
他
妻子 他
NP
PN
NN
PN
PN
NN
她
丈夫
他
妻子
NP
NN
她
丈夫 她
PN
NN
PN
NN
妻子
NN
PN
NP
NN PN
PN
NP
NP
NP
NP
NN PN
NN
丈夫
PN
NN
她
丈夫
由于两棵树在所有6个子
树片段中有1个片段相同
,所以两棵树的相似子
树数量为1。
语义资源-知网HowNet
《知网》
用一系列的“义原”来对每一个“概念”进行描述。
总共有1500多个义原,这些义原分事件、实体、属性、
属性值、数量、数量值、次要特征、语法、动态角色和动
态属性等九大类。
义原的提取
《知网》中每一个词语的概念定义也用多个义原来描述

,不过第一基本义原反映了一个概念最主要的特征,因此
我们仅抽取了词语的第一基本义原作为它的语义类别。
11
方法一、将语义类别信息嵌入句法树中
基本方法
 将实体中心词的词汇的第一义原直接嵌入到句法树中;
 如短语“台北大安森林公园”中,“台北”的第一义原是“地方”
,“公园”的第一义原是“设施”。
NP
NP
E1
E2
E1
E2
NR
NR
NR
NR
台北 大安森林公园
SHN
SHN1 SHN2
台北 大安森林公园 地方
设施
12
嵌入语义信息-举例
嵌入语义信息后的相似度:
NP
NP
PN
NN
PN
NN
他
妻子
他
妻子
SHN1 SHN2
人
人
两棵树的相似子
树数量为3。
NP
NP
PN
NN
PN
NN
她
丈夫
她
丈夫
SHN1 SHN2
人
人
13
方法二、语义卷积树核函数
基本思想(SCTK,Semantic Convolution Tree Kernel)
 在匹配包含词语的子树时,考虑词汇间的语义相似度;
 Bloehdorn和Moschitti[2007]利用英文名词在WordNet中的层次结
构关系来计算词语之间的相似度,并通过语义卷积树核实现问题分类
任务,取得了较好的效果。
实现方法
 将标准CTK的第一步修改为:
1) 如果n1和n2的产生式(采用上下文无关文法)相同,则转2;否则,
如果n1和n2是实体所对应的中心词的父结点,则△(n1,n2)=  *
LexSim(HW1,HW2);否则,△(n1,n2)=0;
14
词汇语义相似度的计算
SCTK的核心是两个词汇之间的语义相似度计算
采用的是刘群和李素建编写的基于《知网》的词汇相似
度计算软件包。
软件包下载地址:
http://code.google.com/p/xsimilarity/downloads/list
15
语义卷积树核函数-举例
下图列出了对应于短语“他妻子”和“她丈夫”的两棵句法树及其子树。
NP
NP
PN
NN
他
妻子
NP
PN
NN
他
妻子 他
NP
PN
NN
PN
PN
NN
她
丈夫
他
妻子
NP
NN
PN
她
丈夫 她
PN
NN
(1)
NP
NN PN
NN
丈夫
(2)
(3.72)
NN
妻子
NN
PN
NP
NN PN
PN
NP
NP
NP
(1.86)
PN
NN
她
丈夫
(1)
(0.86)
由于使用了词汇语义相
似度,两棵树的相似子
树数量为:
3.72+2+1.86+1+1+0.86=
10.44
5. 实验结果与分析
语料库
 采用ACE 2005中文语料库作为实验语料。该语料库定义了中文实体
之间的6个关系大类,18个关系小类。它包含633个文件,其中广播新
闻类298个,新闻专线类38个,微博和其它类等97个;
处理工具
 中科院计算所研制的分词系统ICTCLAS进行分词 ;
 采用支持卷积树核函数的SVMLightTK工具包作为分类器;
 修改了其树核函数计算部分,以嵌入词汇之间的语义相似度;
评估方法
 采用五倍交叉验证策略,取5次平均值作为最终的性能;
 评估标准采用常用的准确率(P)、召回率(R)和F1指标(F1)。
17
实验结果1-嵌入语义类别信息
BL:基准系统
75.0
BL+HN:实体词汇义原
70.0
BL+ET:加入实体类型
BL+ET+HN:实体类型+
F1
词汇义原
65.0
60.0
RD
Major
Sub
BL+ET+HN+HNV:上述
基础上再考虑动词的义
原
55.0
50.0
BL
BL+HN
BL+ET
BL+ET+HN
BL+ET+HN+HNV
在没有实体类型信息的前提下,实体词汇的第一义原能显著提高性能;
在已有实体类型信息的前提下,实体词汇和动词的义原降低了性能;
大类和小类抽取性能的提高幅度明显大于关系检测性能,说明义原信息
能辨别关系类型。
18
实验结果2-语义卷积树核函数
BL:基准系统
75.0
BL+HN:实体词汇相似
度
BL+ET:加入实体类型
70.0
65.0
BL+ET+HN:实体类型+
词汇相似度
BL+ET+HN+HNV:上述
60.0
RD
Major
Sub
55.0
基础上再考虑动词的相
似度
50.0
BL
BL+HN
BL+ET
BL+ET+HN
BL+ET+HN+HNV
在已有实体类型信息的前提下,实体词汇和动词的义原仍然提高性能,
原因是第一义原只能反映主要含义,而相似度能反映总体含义;
最佳性能大于直接嵌入句法树中的方法。
19
实验结果3-与其它系统的比较
系统
P(%)
R(%)
F1
Qian et al: Composite kernel (linear+tree)
80.9
61.8
71.1
Li et al: Feature-based
81.7
61.7
70.3
Qian et al: CTK with USST
79.8
61.0
69.2
Ours: SCTK with UPST
81.1
60.0
69.0
Yu et al: CTK with UPST
75.3
60.4
67.0
Zhang et al.: Composite kernel
81.83
49.79
61.91
由于语料库的规模不同,训练和测试的方法不同,比较仅供
参考。
20
6. 总结与展望
在没有实体类型的前提下,词汇语义信息能显著提高中文关
系抽取的性能;
在已有实体类型的前提下,基于语义相似度的语义卷积树核
函数能进一步提高中文抽取的性能;
词汇语义信息的加入有助于小类关系抽取性能的提高,即语
义信息能区分更细致的关系类型。
21
下一步工作
 可利用英文语义资源(如WordNet)来提高英文关系抽取的性
能。
 探索基于大规模语料库的词汇相似度计算方法对中英文关
系抽取的影响,以缓解由于词汇语义资源的缺乏而引起的数据
稀疏性问题。
22
参考文献
Zhou G.D., Qian L.H., Fan J.X.: Tree kernel-based Semantic Relation Extraction with Rich Syntactic and
Semantic Information. Information Sciences. Vol. 18(8). pp.1313-1325(2010)
Jiang J., Zhai C.X. : A Systematic Exploration of the Feature Space for Relation Extraction. NAACLHLT’2007: Rochester, NY, USA. pp.113~120(2007)
Chan Y.S., Roth D.: Exploiting Background Knowledge for Relation Extraction. COLING’2010. pp. 152–
160(2010)
Sun A., Grishman R., and Sekine S.: Semi-supervised Relation Extraction with Large-scale Word Clustering.
ACL’2011. pp. 521-529(2011)
Zhang M., Zhang J., Su J. Zhou G.D.: A Composite Kernel to Extract Relations between Entities with both Flat
and Structured Features. COLING-ACL’2006. pp.825-832(2006)
Zhou G.D., Zhang M., Ji D.H., Zhu Q.M.: Tree Kernel-based Relation Extraction with Context-Sensitive
Structured Parse Tree Information. EMNLP/CoNLL’2007. pp.728-736(2007)
Qian L.H., Zhou G.D., Kong F., Zhu Q.M., Qian P.D.: Exploiting Constituent Dependencies for Tree Kernelbased Semantic Relation Extraction. COLING’2008. Manchester, pp. 697-704(2008)
Culotta A. and Sorensen J.: Dependency tree kernels for relation extraction. In Proceedings of the 42nd Annual
Meeting of the Association of Computational Linguistics. ACL’2004. pp.423-439(2004)
Che W.X., Liu T., Li S.: Automatic Entity Relation Extraction. 19(2): 1-6(2005)
Dong J., Sun L., Feng Y.Y, Huang R.H.: Chinese Automatic Entity Relation Extraction. Journal of Chinese
Information (in Chinese). Vol.21(4), pp. 80-85, 91(2007)
Li W.J., Zhang P., Wei F.R., Hou Y.X., Lu Q.: A Novel Feature-based Approach to Chinese Entity Relation
Extraction. ACL’2008: 89-92(2008)
参考文献
Che W.X., Jiang J., Su Z., Pan Y., Liu T.: Improved-Edit-Distance Kernel for Chinese Relation Extraction.
IJCNLP’2005: 132-137(2005)
Liu K.B., Li F., Liu L., Han Y.: Implementation of a Kernel-Based Chinese Relation Extraction System.
Computer Research and Development(in Chinese), Vol.44(8), pp.1406-1411(2007)
Huang R.H., Sun L., Feng Y.Y, Huang Y.P.: A Study on Kernel-based Chinese Relation Extraction. Journal
of Chinese Information(in Chinese), Vol.22(5), pp.102-108(2008)
Yu H.H., Qian L.H., Zhou G.D. Zhu Q.M.: Chinese Semantic Relation Extraction Based on Unified Syntactic
and Entity Semantic Tree. Journal of Chinese Information(in Chinese), Vol.24(5). pp.17-23(2010)
Mei J.J., Zhu Y.M., Gao Y.Q., Yin H.X.: TongYiCi CiLin second edition. Shanghai. Shanghai Lexicographic
Publishing House(in Chinese)(1996)
Collins M., Duffy N.: Covolution Tree Kernels for Natural Language. NIPS’2001: 625-632(2001)
Bloehdorn S., Moschitti A.: Exploiting Structure and Semantics for Expressive Text Kernels. Proceedings of
the sixteenth ACM conference on Conference on information and knowledge management, Lisbon,
Portugal(2007)
Qian L.H., Zhou G.D., Zhu Q.M.: Employing Constituent Dependency Information for Tree Kernel-based
Semantic Relation Extraction between Named Entities. ACM Transaction on Asian Language
Information Processing. Vol.10(3), Article 15(24pages)(2011)
Lin D.: An Information-theoretic Definition of Similarity. In Proceedings of the 15th International Conference
on Machine Learning. Madison, WI(1998)
Liu Q., Li S.J.: Word Similarity Computing Based on How-net. Computational Linguistics, Chinese
information processing. pp. 59-76(2002)
Zhang J., Ouyang Y. and Li W.J.: A Novel Composite Approach to Chinese Relation Extraction. ICCPOL
'09(2009)