周国栋《命名实体间语义关系抽取研究》.

Download Report

Transcript 周国栋《命名实体间语义关系抽取研究》.

命名实体间语义关系抽取研究
周国栋
钱龙华
自然语言处理实验室
http://nlp.suda.edu.cn/
苏州大学计算机科学与技术学院
2011年04月20日
1
目录
1. 引言和相关工作
2. 研究内容和方法
2.1 指导性关系抽取
2.2 弱指导关系抽取
2.3蛋白质相互作用关系抽取
3. 工作展望
2
1. 引言和相关工作
• 关系抽取的定义
– 在许多自然语言理解系统中,不但要识别文本中的实体,而
且要根据上下文确定和抽取这些实体之间的各种语义关系,
即实体间语义关系抽取(简称语义关系抽取或关系抽取)。
• 关系抽取的例子
– 句子 “Microsoft Corp. is based in Redmond, WA” 表达了
“Microsoft Corp” (ORG) 和 “Redmond” (GPE) 之间的“GPEAFF.Based” 关系。
• 关系抽取的意义
– 实体间语义关系的抽取不仅是信息抽取中的重要环节,而且
在蛋白质相互作用(PPI)抽取、问答系统、知识获取和自然语
言接口等应用中也非常重要。
3
1. 引言和相关工作
• 关系抽取的研究方法
– 基于规则的方法
– 基于机器学习的方法
• 指导性方法
• 弱指导方法
• 无指导方法
4
1. 引言和相关工作
• 指导性关系抽取
– 实现方法:将关系实例转换成高维空间中的特征向量或直接
用离散结构来表示,在标注语料库上使用学习器来生成分类
模型,然后再抽取语义关系。
• 基于特征向量方法:最大熵模型(Kambhatla 2004)和支持向量机
(Zhao等2005;Zhou等2005; Jiang等2007)等;
• 基于核函数的方法:浅层树核(Zelenko 等 2003)、依存树核(
Culotta 等 2004)、最短依存树核(Bunescu等 2005)、卷积树核
(Zhang等 2006;Zhou 等 2007)。
5
1. 引言和相关工作
• 指导性关系抽取
– 研究重点
• 基于特征向量:如何获取各种有效的词法、语法、语义等特征,
并把它们有效地集成起来,从而产生描述实体语义关系的各种局
部特征和简单的全局特征。
• 基于核函数:如何有效(准确和简洁)捕获反映语义关系本质的
结构化信息及如何有效计算结构化信息之间的相似度。
6
1. 引言和相关工作
• 指导性关系抽取
– 存在问题
• 基于特征向量的方法:1)由于难于进一步挖掘出有效的平面特
征,因此基于特征向量的方法很难取得性能上的提高;2)不过
,如果要构造一个实用的关系抽取系统,则基于特征向量的方法
是一个首选。
• 基于核函数的方法:1)目前所使用的结构化信息往往包含了不
必要的噪音信息,同时也丢失了一部分关键信息;2) 目前普遍
采用卷积树核函数(CTK)来计算两个树形对象之间的相似度,
不考虑上下文相关性。
7
1. 引言和相关工作
• 弱指导关系抽取
– 与指导性学习方法不同,弱指导学习方法以小规模的高质量
标注语料库为基础,有效利用大规模的未标注语料,期望取
得与指导性学习方法相当的性能。
– 代表性工作
• 自举算法(Brin 1998; Agichtein等2000)
• 协同训练(Zhang 2004)
• 标注传播算法 (Chen等2006)等。
– 存在的问题
• 如何合理选取初始种子集,使之既有典型性,又有多样性,因而
能代表语料库中关系实例的自然簇结构;
• 如何选择适合于像关系抽取这样复杂任务的弱指导算法。
8
研究路线
• 指导性关系抽取
– 探索适合于语义关系的结构化信息:利用语言学方面的理论,
探索自动获取结构化句法信息的自动抽取方案,以确保抽取出
的结构化信息既涵盖关键的结构化句法信息,又能减少不必要
的噪音;
– 探索新颖的结构化信息相似度计算方法:考虑句法树中的上下
文相关信息,设计新颖的卷积树核函数,以充分体现关系实例
之间的相似度;
9
研究路线
• 弱指导关系抽取
– 探索弱指导关系抽取的种子选取策略:针对不同的弱指导学习
方法(如自举算法和标注传播算法),采用相应的初始种子选
取策略(如分层抽样和自举加权支持矢量)来提高种子集的代
表性,同时降低弱指导学习算法的开销。
• 将语义关系抽取的研究成果应用于生物医学文本挖掘
– 将新闻领域(ACE)上的关系抽取研究成果应用到蛋白质相
互作用关系(PPI)抽取中,提高PPI的抽取性能。
10
目录
1. 引言和相关工作
2. 研究内容和方法
2.1 指导性关系抽取
2.2 弱指导关系抽取
2.3蛋白质相互作用关系抽取
3. 工作展望
11
2.1 指导性关系抽取
•
•
•
•
基于特征向量的关系抽取
基于树核函数的关系抽取
结构化信息和实体语义特征的复合
平面特征和结构化特征的复合
12
2.1 指导性关系抽取:特征向量方法
• 特征选取:从自由文本及其语法结构中抽取出各种表
面特征以及结构化特征的平面形式。
– 实体词汇及其上下文特征
– 实体类型及其组合特征
– 实体参照方式
– 交叠特征
– 基本短语块特征
– 依存树特征
– 句法树特征
13
2.1 指导性关系抽取:特征向量方法
特征
P(%)
R(%)
F1
词汇信息
52.0
36.2
42.6
+实体类型
65.2
51.8
57.7
+参照方式
65.0
53.0
58.4
+交叠信息
66.0
54.3
59.6
• 数据分析
– 词汇信息、实体类型信息等特征在ACE
2004上的语义关系抽取中比较有效;
– 实体参照方式、交叠信息等特征有一定
作用;
– 其它结构化特征仅能略微提高关系抽取
的性能。
• 实验结论
+短语块
65.8
54.9
59.8
+依存树
67.0
55.2
60.5
+句法树
67.3
55.2
60.7
ACE RDC 2004关系大类
– 基于特征向量的方法可以使用一些成本
较低的特征达到一定的性能;
– 结构化信息在基于特征的方法中不能很
好被利用,并非是它们本身没有作用。
– 因此结构化信息的探索和利用成为关系
抽取的研究重点。
14
2.1 指导性关系抽取:树核函数方法
• 卷积核函数:用两个结构之间的公共子结构的数目来衡
量它们之间的相似度。
– 句法树核(Collins和Duffy 2001)
– 字符串核(Lodhi等2002)
– 图形核(Suzuki等2003)
• 卷积树核函数
– 优点:能有效捕获离散数据对象中的结构化信息,在自然语言
处理领域中取得了广泛的应用,如语义角色标注(Moschitti
2004)、关系抽取和指代消解等。
– 缺点:计算效率较低。
15
2.1 指导性关系抽取:树核函数方法
• 卷积数核函数
计算两棵树T1和T2之间的相似度为两者之间的公共子树的目。
KCTK (T1, T2 ) 
(n , n )
n1 N1 , n2 N 2
1
2
(n1用来计算以n1和n2为根
, n2 )
其中N1和N2分别为T1和T2的结点集合,
结点的两棵子树之间的相似度,它可以通过下列递归的方法得出:
(n1 , n2 ) ;否则
0
– 1) 如果和的产生式(采用上下文无关文法)不同,则
转2;
(n1 , n2 )  1;否则转3;

– 2) 如果和是词性(POS)标记,则
– 3) 递归计算:
(n1 , n2 )  
#ch( n1 )
 (1  (ch(n , k ), ch(n , k ))
1
2
k 1


(0< <1) 则是衰减因子,用来防止子树的相似度过度依赖于子树
其中
的大小。
16
2.1 指导性关系抽取:树核函数方法
• 标准卷积树核函数(CTK)
– 在计算两棵子树的相似度时,只考虑子树本身,不考虑子树的
上下文信息。
• 上下文相关卷积树核函数(CS-CTK)
– 在计算子树相似度量,同时考虑子树的祖先信息,如子树根结
点的父结点、祖父结点信息,并对不同祖先的子树相似度加权
平均。
K CSCTK (T1 , T2 ) 

m
i
w


 i (n1 , n2 )
n1N1 i 1
n2 N 2
17
2.1 指导性关系抽取:树核函数方法
18
2.1 指导性关系抽取:树核函数方法
• 常用结构化表示
– 最小完全树MCT(Minimal Complete Tree)
• 包含两个实体的最小完整树;
– 最短路径包含树 SPT(Shortest Path-enclosed Tree)
• 由句法树中连接两个实体的最短路径所包含的部分(Zhang等2006);
– 上下文相关的最短路径包含树 CS-SPT(Context-Sensitive
Shortest Path-enclosed Tree)
• 在SPT的基础上扩充相关的谓词链接路径 (Zhou等2007)
19
2.1 指导性关系抽取:树核函数方法
• 常用结构化表示:存在问题
– 包含不必要的噪音
• MCT、SPT和CS-SPT仍然包含对关系抽取来说不必要的噪音。
• 例如,句子“…bought one of town’s two meat-packing plants”中的划线
部分;
– 丢失部分关键信息
• CS-SPT仅包含了与谓词连接有关的上下文相关信息,还有一部分与关系
抽取相关的上下文信息没有恢复出来。
• 例如句子“… bought one of town’s two meat-packing plants”中的划线
部分。
20
2.1 指导性关系抽取:树核函数方法
• 成分依存与动态关系树
– 研究动机
• 依存关系(Culotta和Sorensen, 2004; Bunescu和Mooney, 2005)为关系
实例提供了一个高效的表示方法,但是由于这两种方法需要依存树之间的
精确匹配,因此尽管获得了较好的识别准确率,召回率还相当低。
– 成分依存
• 上下文无关文法(CFG)的每一个内部推导规则均可表示为
P  Ln…L1 H R1…Rm
其中P 是父结点,H 是中心子结点, Ln…L1 和 R1…Rm 分别是中心结点的左
右修饰语,而 n 和 m 则是它们的长度。即 Ln…L1 和 R1…Rm 都依存于H,我
们称这种成分之间的依存关系为成分依存。
21
2.1 指导性关系抽取:树核函数方法
• 动态关系树(DRT,Dynamic Relation Tree)
– 假设:句法树中语义关系由两个实体间最短路径上的结点以
及它们的中心子结点所决定,这些结点及其上下层关系构成
了动态关系树。
– DRT的生成:从最小完全树(MCT)出发,沿着连接两个
实体的最短路径上的每一个结点,根据成分依存规则保留相
关的结构化信息(即路径上的结点及其中心部分),同时逐
步去除其余噪音,最终得到动态关系树。
22
2.1 指导性关系抽取:树核函数方法
• 动态关系树的生成
– 成分依存关系
• 基本名词短语内的修饰:本身不包含名词短语的名词短语;实体
中心词前的内容可删除,中心词及其后面内容要保留。
• 对名词短词的修饰
– 即包含名词短语的名词短语,如:
» NP  NP SBAR [relative clause]
» NP  NP VP
[reduced relative]
» NP  NP PP
[PP attachment]
– 右边的成分可归约为左边单一的成分。
23
2.1 指导性关系抽取:树核函数方法
• 动态关系树的生成
– 论元/附属语对动词的修饰关系
• 在上下文无关方法的推导规则中,左边往往含有S, SBAR或VP等
成分。包含在路径中的论元和附属语都依赖于动词,因此把它们
从树中删去,一般不会影响到语义关系,如图(d)所示。
– 并列连接关系
• 在并列连接结构中,大都是名词并列结构,各个并列部分之间的
作用是相同的,因此只需要保留路径穿过的那个并列部分并进行
归约,如图(e)所示。
– 对其它成分的修饰关系
• 除了上述四种类型,对其余成分(如 PP、ADVP和PRN等)的修
饰关系。不过,这一部分所占的比例较少,影响也很小。
24
NP
NP
NP
PP
PP
NP
NP
NP
E1-FAC
E-GPE
NP
PP
NP
NP
NP
NP
E2-FAC
E1-FAC
E2-FAC
E1-PER
NP
QP
VP
E2-PER
NN
IN
DT
NN
POS
CD
JJ
NN
NN
IN
NN
NN
IN
one
of
the
town
's
two
meat-packing
plants
one
of
plants
one
of about 500 people
RB
(a) Removal of constituents before the headword in base-NP
NP
NP
NP
E1-PER
E2-GPE
IN
DT
one of
the
NN
town 's
JJ
CD
two meat-packing
E1-FAC
NN
NN
plants
E2-GPE
NN
POS
NN
NP
one
of
people
NP
SBAR
NP
one of town 's plants
S
NP
NP
E1-FAC
E2-PER
JJ
NN
PRP
VBZ
IN
DT
rental
property
he
owns
in
the state
NP
NNS
NP
E1-FAC E2-PER VP
NN
PRP
VBZ
property
he
owns
(d) Removal of arguments to verb
PP
NP
NP
NP
NP
NP
NP
E1-PER
E-GPE
E-GPE
E2-GPE
E1-PER
E2-GPE
NNP
NNS
governors from
nominated for ...
PP
NP
NNP
NNS
E-FAC
NP
,
IN
VP
PP
NNP
NN
S
NP
IN
E2-PER
...
NP
IN
IN
E1-PER
SBAR
NP
NP
POS
VBN
NP
(c) Reduction of modification to NP
(b) Keeping of constituents after the headword in base-NP
NNS
NNS
PP
E-FAC
PP
NP
NP
NP
NN
CD
NP
PP
PP
NNP
, CC
connecticut , south dakota , and
montana
IN
NNP
governors from montana
(e) Reduction of conjuncts for NP coordination
动态关系树例子
25
2.1 指导性关系抽取:树核函数方法
• 动态关系树中修饰关系的应用模式
– [M1]独立模式:每一种依存关系都
独立地应用到最小完全树上;
– [M2]累加模式:每一种依存关系按
照潜在的重要性依次逐一应用。
• 动态关系树性能分析
– DRT最终的P/R/F性能为
77.4%/65.4%/70.9 ,F指数比MCT增
加了8.2;
– 前两个修饰关系对抽取性能的提高
最明显,F指数分别增加了4.4/2.3,
而其余的作用就较小;
– 表明修饰关系离实体越低,效果越
明显,从而证实了实体关系的局部
性。
依存关系
P
R
F
75.1
53.8
62.7
基本名词短语内的修饰
76.5
(76.5)
59.8
(59.8)
67.1
(67.1)
对名词短词的修饰
77.0
(76.2)
63.2
(56.9)
69.4
(65.1)
论元/附属语对动词的修
饰关系
77.1
(76.1)
63.9
(57.5)
69.9
(65.5)
并列连接关系
77.3
(77.3)
65.2
(55.1)
70.8
(63.8)
对其它成分的修饰关系
77.4
(75.0)
65.4
(53.7)
70.9
(62.6)
MCT (基准)
ACE RDC 2004关系大类
26
2.1 指导性关系抽取:树核函数方法
• 结构特征和实体语义特征的复合
– 实体语义特征对语义关系抽取非常重要
– 实体语义特征如何同结构化信息结合起来?
• 集成在统一的结构树中
• 复合核函数的利用
– 哪些实体语义特征及其组合是重要的?
• 实体类型、小类、引用类型和实体类别等
• 一元、二元或多元特征
27
2.1 指导性关系抽取:树核函数方法
ENT
• 语义实体树
TP1
ST1
MT1
TP2
ST2
MT2
PVB
PER
null
PRO
GPE
Pop.
PRO
be
(a) Bag Of Features(BOF)
点下。
ENT
TP
ST
MT
PVB
TP1
TP2
ST1
ST2
MT1
MT2
PER
GPE
null
Pop.
PRO
PRO
be
ENT
E2
PVB
TP1
ST1
MT1
TP2
ST2
MT2
PER
null
PRO
GPE
Pop.
PRO
– 特征匹配树(Feature-Paired Tree,
FPT):同一个关系中的两个实体
的同一特征先挂到一个父结点上
,然后再统一挂到根结点上。
– 实体匹配树(Entity-Paired Tree,
EPT):一个实体的所有特征先合
(b) Feature Paired Tree(FPT)
E1
– 特征列表树(Bag Of Features,BOF
):所有的结点都统一挂在根结
并到“E1”或“E2”结点,然后再
挂到根结点上。
be
(c) Entity-Paired Tree(EPT)
28
T1:DRT
NP
T2:DRT-Bottom
NP
PP
PP
NP
NP
NP
NP
E1
E2
E1
E2
合一句法和
实体语义树
•DRT-Bottom
NN
IN
NNP
NN
TP
IN
NNP
TP
•DRT-Top
president
of
mexico
president
PER
of
mexico
GPE
•DRT-Entity
TP1
TP2
PER
GPE
T3:DRT-Entity
T4:DRT-Top
NP
NP
PP
PP
NP
NP
NP
NP
E1-PER
E2-GPE
E1
E2
NN
IN
NNP
NN
IN
NNP
president
of
mexico
president
of
mexico
29
2.1 指导性关系抽取:树核函数方法
• 合一句法和实体语义树
– 加入实体类型特征的动
态关系树,其抽取性能
的F指数平均提高了~10
。
实体类型特征
插入位置
P
(%)
R
(%)
F1
DRT(基准)
68.7
53.5
60.6
DRT-BottomNode
76.2
64.4
70.3
DRT-EntityNode
77.1
64.3
70.6
DRT-TopNode
76.4
65.2
70.9
– 将实体语义特征挂到根
结点上的DRT-TopNode
,其F指数分别比另外两
种超过0.6和0.3。
ACE RDC 2004关系大类
30
2.1 指导性关系抽取:树核函数方法
•
合一句法和实体语义树
– 实体小类和引用两个特征也
能明显提高了性能,F指数分
别提高了1.4和1.8;
– 另外四种实体特征不但没有
提升抽取性能, F指数反而
分别降低了0.4、0.3、1.0和
1.0;
– 将谓词原形移动到根结点下
,召回率得到了提高,因而F
指数提升了0.7。
–
结论:实体类型、小类、引用
类型和谓词原形等在结构化
信息中的作用最大。
•#
实体语义信息
P(%)
R(%)
F
•1
DRT(基准)
68.7
53.5
60.6
•2
+实体类型
76.4
65.2
70.9
•3
+实体小类
78.2
66.3
72.2
•4
+引用类型
80.0
68.1
74.0
•5
实体类别
80.2
67.8
73.9
•6
GPE角色
79.8
67.7
73.7
•7
中心词
80.0
67.5
73.6
•8
LDC类型
80.0
67.7
73.7
•9
+谓词原形
80.2
69.2
74.7
ACE RDC 2004关系大类
31
2.1 指导性关系抽取:树核函数方法
Tree Setups
P
R
F
DRT-Top
77.4
65.4
70.9
UPST (BOF)
80.4
69.7
74.7
UPST (FPT)
80.1
70.7
75.1
UPST (EPT)
79.9
70.2
74.8
ACE RDC 2004关系大类
•
合一句法和语义树(UPST—Unified Parse and Semantic Tree)
– 所有三种配置的合一动态语义关系树均比仅包含实体类型的动态语义树性能
明显提高,F指数平均提高幅度约为4。
32
2.1 指导性关系抽取:复核函数方法
• 动机
– 同时捕获关系实例的平面特征和结构化特征
• 复合方式
– 线性复合:K1 (R1, R2) =α·KL (R1, R2)+ (1-α) ·KP (R1, R2)
– 多项式复合:K2 (R1, R2) =α·KPL (R1, R2)+ (1-α) ·KP (R1, R2)
其中KL 和 KP 分别表示基于平面特征的线性核函数和基于结构
化句法信息的卷积树核函数,α是两者的复合系数。
33
2.1 指导性关系抽取:复核函数方法
核函数
P(%)
R(%)
F
合一句法和语义树(UPST)
80.1
70.7
75.1
Zhou等(2005)
基于特征向量的线性核函数
82.8
62.1
71.0
多项式复合(d=2, α=0.3)
83.0
72.0
77.1
ACE RDC 2004关系大类
• 多项式复合核函数能显著提高关系抽取的性能,验证
了平面特征和结构化特征之间的互补性。
34
2.1 指导性关系抽取:复核函数方法
Systems (composite)
P
R
F
Systems (single)
P
R
F
Ours:
Composite kernel
83.0
72.0
77.1
Ours:
CTK with UPST
80.1
70.7
75.1
Zhou等(2007):
Composite kernel
82.2
70.2
75.8
Zhou等(2007):
CS-CTK with CS-SPT
81.1
66.7
73.2
Zhang等(2005):
Composite kernel
76.1
68.4
72.1
Zhang等(2005):
CTK with SPT
74.1
62.4
67.7
Zhao and Grishman
Composite kernel
69.2
70.5
70.4
ACE RDC 2004关系大类
• 采用复合核函数的方法取得了目前最好的性能
35
目录
1. 引言和相关工作
2. 研究内容和方法
2.1 指导性关系抽取
2.2 弱指导关系抽取
2.3蛋白质相互作用关系抽取
3. 工作展望
36
2.2 弱指导关系抽取
• 自举学习:种子选取策略
• 标注传播算法:支撑矢量自举策略
37
2.2 弱指导关系抽取:自举学习
Algorithm 自举学习算法
Require: 标注种子集 L
Require: 未标注数据集 U
Require: 每次迭代加入的数据集大小 S
Repeat
在L上训练指导性分类器,得到分类模型
用分类模型对U进行预测分类
在U中找出最多S个分类器具有最高预测值的实例
将这些实例加入L中
Until: 所有实例均已加入到训练集中或迭代终止条件已满足
•
自举学习基本原理
– 通过利用不断增长的标注实例训练所得的模型来对未标注实例进行分类,并且
将正确分类可信度较高的实例加到标注数据集中,不断重复以上迭代过程。
•
存在问题
– 初始种子集的选取:目前采用随机采样方法,由于数量较小,结果不稳定。
– 迭代过程的控制等。
38
2.2 弱指导关系抽取:自举学习
每一层实例集
按比例抽取
每层的实例
……
…
……………
…
文档
…
未标注
按
照
分
层
标
准
进
行
分
层
手工
标注
初始训
练集合
• 分层采样策略
– 首先对所有未标注实例按照一定标准进行分层,然后再在每
层中按比例选择实例组成初始数据集,再进行手工标注。
– 通过这种选择方法,一方面保证了所选择的实例具有较高的
代表性,另一方面也考虑了关系实例在初始种子集上数据分
布的多样性。
39
2.2 弱指导关系抽取:自举学习
关系大类
关系小类
Located
Near
Part-Whole
PHYS
小计
Business
Family
Other
PER-SOC 小计
EmployExecutive
EmployStaff
EmployUndetermin
e
Memberof-Group
Subsidiary
Partner
Other
EMP-ORG 小计
训练集
593
70
299
962
134
101
44
279
388
17.2
2
8.7
27.9
3.9
2.9
1.3
8.1
11.3
测试集
145
17
79
241
39
20
11
70
101
427
12.4
112
13
66
1.9
12
1.4
152
4.4
39
4.5
169
10
64
1276
4.9
0.3
1.9
37
37
2
16
319
4.3
0.2
1.9
37.1
%
%
16.9
2
9.2
28
4.5
2.3
1.3
8.1
11.7
关系大类 关系小类
User-orOwner
Inventoror-Man.
Other
ART
小计
Ethnic
Ideology
OTHER- Other
AFF
小计
Citizen-orResidence
Based-In
Other
GPE-AFF 小计
DISC
合计
训练集
160
%
测试集
4.6
40
%
4.7
8
0.2
1
0.1
1
169
31
39
43
113
226
0
4.9
0.9
1.1
1.2
3.3
6.6
1
42
8
9
11
28
47
0.1
4.9
0.9
1
1.3
3.3
5.5
165
31
422
223
3444
4.8
0.9
12.3
6.5
100
50
8
105
56
860
5.8
0.9
12.2
6.5
100
ACE RDC 2004关系类别分布
40
2.2 弱指导关系抽取:自举学习
初始值
初始种子选取策略
最高值
层数
P(%)
R(%)
F1
P(%)
R(%)
F1
大类分层
7
69.1
66.5
67.7
71.0
66.9
68.8
大类分层(含逆向关系)
13
69.3
67.3
68.2
71.6
67.0
69.2
小类分层
30
69.8
67.7
68.7
72.7
67.8
70.1
小类分层(含逆向关系)
39
69.9
68.5
69.2
72.9
68.4
70.6
ACE RDC 2004关系大类
• 随着层数的增加,初始性能和最高性能均同步增长,当使用小类
类别(含逆向关系)作为分层标准时,两者达到最好高值,F值
分别比大类分层提高了1.5和1.8。
• 结论:层次越多,层内数据的差异性减小,层间的差异性增加,
因此抽取出的实例具有更高的代表性和多样性。
41
2.2 弱指导关系抽取:自举学习
LP-js
Bootproject
Relation
types
ROLE
PART
AT
NEAR
SOC
Average
P
78.5
65.6
61
47
67.9
• 同类系统
R
69.7
34.1
84.8
57.4
67.4
F
73.8
44.9
70.9
51.7
67.6
P
81
70.1
74.2
13.7
45
73.6
R
74.7
41.6
79.1
12.5
59.1
69.4
Stratified Bootstrapping
F
77.7
52.2
76.6
13
51
70.9
P
74.7
66.4
74.9
100
65.2
73.8
R
86.3
47
66.1
2.9
79
73.3
F
80.1
55
70.2
5.6
71.4
73.5
ACE RDC 2003关系大类
– Bootproject (Zhang 2004)
• 随机抽样产生种子集, 特征投影,互助学习。
– LP-js (Chen等2006)
• 随机抽样产生种子集,标注传播算法。
• 结论
– 分层自举比两者的F指数分别提高了5.9/4.1,主要得益于种
42
子集的选取。
2.2 弱指导关系抽取:自举学习
• 基于聚类的种子选取策略
– 思想:首先将所有实例按相似度采用某一聚类算法进行聚类,
然后根据某一簇的大小选取一定数量的实例进行标注,构造种
子集,利用自举算法进行弱指导语义关系抽取。
– 簇内采样
• 从某一簇中选取一定数量的实例;
• 首先选取该簇的中心Ci ,然后使用KDN (K-diverse neighbors)方
法选取其它实例,使得每次加入的实例和原有的实例保持足够的
差异性。
43
2.2 弱指导关系抽取:自举学习
• GOLD
– 以类别作为聚类依据
• RAND
– 随机采样
• SEQ
– 顺序采样
• 聚类
–
–
–
–
KM:K中值
HAC:分层聚类
SC:谱聚类
AP:仿射传播聚类
Sampling
strategies
P(ΔP)
R(ΔR)
F1(ΔF1)
GOLD
79.5(7.8)
72.7(2.1)
76.0(4.8)
RAND*
71.9(3.7)
69.7(0.1)
70.8(1.8)
SEQ*
71.9(2.6)
65.2(0.1)
69.3(1.3)
KM*
73.6(2.1)
72.3(0.3)
72.9(1.2)
HAC
79.0(10.2)
73.0(1.1)
75.9(5.6)
SC*
72.3(2.1)
72.1(0.4)
72.2(1.2)
AP
75.7(2.5)
72.0(0.4)
73.7(1.4)
ACE RDC 2004关系大类
*表示做10次测试的平均值
44
2.2 弱指导关系抽取:标注传播算法
• 标注传播算法(LP,Label Propagation)基本原理
– 一种基于图的弱指导学习方法,将标注实例和未标注实例表
示为连通图中的结点。
– 将标注信息从任意一个结点通过它的邻接边传递到它的邻接
结点,并不断重复以上迭代过程,最后当传播过程聚合时就
可以推断出未标注实例的标注信息。
• LP算法存在问题
– 对数据不平衡比较敏感,即不同类的实例数目相差比较大时
,性能会大大下降;
– 计算成本和内存需求较大(特别是语料规模巨大的时候)
45
2.2 弱指导关系抽取:标注传播算法
• 基于自举矢量的LP算法
– 动机:利用自举算法产生关键实例
• 在SVM二元分类器中,支撑矢量作为关键实例决定了超平面位置
,而其余矢量对目标函数则没有影响。
– 策略
• 选择SVM这一基本分类器从已标注实例和未标注实例中找出一定
数量的加权支撑矢量。
• 假设这些关键实例能够很好地保留所有已标注和未标注实例的自
然簇结构。
– 从所有已标注和未标注实例中自举产生的加权支撑矢量
– 以及留在未标注实例中的难于可靠分类的困难实例
46
2.2 弱指导关系抽取:标注传播算法
基于协同训练的关键实例产生算法
BEGIN
•L: 标注数据集
•
•U: 未标注数据集
REPEAT
–
FOR i = 1 to P DO
•S: 每次迭代加入的数据集大小(设为100)
•P: 视图数(特征投影)
•
从原始特征集 F 产生投影特征空间 Fi ;
•
将 L 和 U 映射到特征空间 Fi ,从而产生 Li 和 Ui ;
•
在 Li 上为每一个关系类型 rj 一个训练SVM分类器 SVMij ;
•
在 Ui 上对每一个关系类型 rj 应用分类器所学到的模型 SVMij ;
•r: 类型数(包括所有关系小类和无关系)
–
END FOR
–
在 U 中找出具有最高分类一致性(阈值为70%)和最高平均置信度(阈值为1.0)的(最
多)S 个实例; 将这些实例从 U 移到 L ;
•
UNTIL 没有足够多(小于10)的实例从中可靠地识别出;
•
返回最后一次训练时分类器 SVMij 所得到的支撑矢量(包括正例和负例)及其它们
的权值信息(a*y 的绝对值),这些自举产生的支撑矢量集作为LP算法的标注实例;
•
返回 U 中剩余的实例(即不能够被自举学习可靠识别出的困难实例)作为LP算法
中的未标注实例;
END
47
2.2 弱指导关系抽取:标注传播算法
采用关键实例的标注传播算法
: 一个 n * r 标记矩阵, 其中yij 表示顶点xi (i  1n)
•
Y
•
YL : Y 0 的上面 l 个已标注的实例;
•
YU: Y 0 的下面 u 个未标注的实例;
•
T : 一个 n * n 矩阵, 其中每个元素t ij 表示从结点x i
具有标记
r j ( j  1r ) (包括没有关系)的概率;
跳转到结点
xj
的概率;
BEGIN
•
初始化:
–
1) 设置迭代索引 t  0 ;
–
2) 使 Y 0 成为每一个结点的软标记(可介于0和1之间);
0
0
3) 使 YL 与标注数据中的标记(包括大类/小类以及没有关系)相容,其中 yij = 表示自举产生的支撑矢量x i
r j 或者是 0 的归一化权值;
具有标记
0
4) 初始化YU ;
–
–
•
REPEAT
•
计算 Y t 1  TY t ,将每一个结点的标记传播到邻近结点;
– 重置标注数据,即用 YL0 代替 YLt 1 ;
t 1
0
UNTIL Y 收敛 (比如 YL 收敛于YL );
•
对每一个未标注实例 xi (l  i  n) ,赋予标记cj =arg max yij
–
;
j
END
48
2.2 弱指导关系抽取:标注传播算法
已标注数据类型
•
关系检测
大类抽取
小类抽取
加权支撑矢量
64.9
56.0
46.2
自举加权支撑矢量
66.5
58.5
49.8
自举加权支撑矢量和困难实例
67.7
59.8
51.9
所有已标注实例
64.6
55.6
45.9
所有训练实例
65.9
58.3
49.3
分析
ACE RDC 2004(正例400个,负例等比例)
– 自举加权支撑矢量和加权矢量相比,小类关系抽取的F指数分别提高了3.6。
– 采用所有训练实例的LP算法要比仅采用已标注实例的LP算法,F性能要高多
3.4。
– 困难实例在捕获自然簇结构方面很有用,F指数可提高2.1。
– 采用自举加权支撑矢量的LP算法其性能大大高于采用所有训练数据的LP算
法,F指数高于2.6。
•
结论
– 加权SVM自举支撑矢量能显著提高LP算法的性能。
49
2.2 弱指导关系抽取:标注传播算法
大类抽取F值
训练时间(分)
测试时间(分)
基于SVM自举的 LP
58.1
481
3.0
标准 LP
55.6
0
22
SVM
51.3
2.5
1.9
基于SVM自举的BootProject
54.3
481
17
弱指导学习方法
ACE RDC 2004关系小类抽取时间(正例400个,负例等比例)
• 基于SVM自举的LP的性能优于标准的SVM和LP算法
• 基于SVM自举的LP通过增加训练时间来减少算法的实际运行时间
– 虽然基于SVM自举的LP算法的训练时间相当长,但其测试时间同
SVM却在同一个水平上,且训练过程只需要一次,因而SVM自举是
值得的。
50
目录
1. 引言和相关工作
2. 研究内容和方法
2.1 指导性关系抽取
2.2 弱指导关系抽取
2.3蛋白质相互作用关系抽取
3. 工作展望
51
2.3 PPI抽取
• 基于特征向量的PPI抽取
• 基于树核函数的PPI抽取
52
2.3 PPI抽取:特征向量方法
• 特征抽取
–
–
–
–
–
词汇特征
交叠特征
基本短语块特征
句法树特征
依存关系特征(DependencySet1)
• 蛋白质到LCA的路径,蛋白质之间的依存关系等
– 动词的依存关系(DependencySet1)
• 蛋白质前后的动词、其它动词,动词的数量等
53
2.3 PPI抽取:特征向量方法
• 语料库:AIMed
–
–
–
–
177篇Medline摘要有PPI关系
48篇Medline摘要没有PPI关系
4,084个蛋白质引用
大约1,000个PPI标注实例
• 结论
– 词汇特征最有效
– 基本短语块和依存信息较有效
– 交叠特征和句法树特征贡献有
限
特征
P(%)
R(%)
F1
词汇信息
59.4
40.6
47.6
+交叠特征
60.4
39.9
47.4
+基本短语块
59.2
44.5
50.6
+句法树
60.9
44.8
51.4
+DependencySet1
62.9
48.0
53.9
+DependencySet2
63.4
48.8
54.7
AIMed
54
2.3 PPI抽取:树核函数方法
• 研究难点
– 句子复杂,句法树庞大,噪音较多,难以取得好的性能,因此
这方面的研究工作较少。
• 基本对策
– 对句法树进行裁剪
– 手工制定规则裁剪句法树的缺点
• 手工制定规则费时费力,而且不易扩充到其它领域;
• 成分依存关系分为五大类,粒度太粗,无法适应不同的依存关系
。
– 自动裁剪句法树?
55
2.3 PPI抽取:树核函数方法
• 基于依存关系的句法树自动裁剪方法
– 研究动机
• 最短依存路径对蛋白质关系抽取具有重要的作用(Airola等
2008;Miyao等2008; Miwa等2009)
• 句法树在语义关系抽取中取得了较好的性能(Zhang等2006;
Zhou等2007)。
– 基本思想
• 利用最短依存路径来指导蛋白质关系抽取中的句法树裁剪。
– 自动裁剪方法
• 以两个蛋白质之间的最短依存路径为出发点,将这些词汇在句法
树中的对应结点及它们的相关结点加入到句法树中,其余结点从
句法树中删除,最终得到由最短依存路径指导的成分句法树(
SDP-CPT,Shortest Dependency Path-Constituent Parse Tree)
。
56
2.3 PPI抽取:树核函数方法
• 例句
– (c): Association between PROT1 and cyclin B1 \/ PROT2 was detected in
the HeLa cells.
– (d): Interestingly, PROT1 and phospheratidylinositol-3 (PI-3) kinas can
simultaneously bind distinct tyrosine regions on the same PROT2 molecule.
Association
prep_between
PROT1
prep_between
S
PROT2
NP
(a) the Shortest Dependency Path (SDP)
VP
PP
NP
NP
NP
NP
NP
NP
NN
NN
NN
PROT1
PROT2
Association
(b) the Shortest Constituent Path (SCP)
PP
NP
NP
NP
IN
NN
NN
NN
between
PROT1
PROT2
(c) An Example of SDP-CPT
NP
NP
VB
NNS
IN
NN
NN
PROT1 bind
region
on
PROT2
molecule
(d) An complicated example of SDP-CPT
57
2.3 PPI抽取:树核函数方法
Tree
setups
AIMed
BioInfer
HPRD50
IEPA
LLL
Ratio of
POS/NEG
1000/
4834
2534/
7119
163/
270
335/
482
164/
166
MCT
31.8
(78.0)
53.8
(76.7)
48.0
(73.4)
62.3
(78.6)
77.1
(73.4)
SPT
(baseline)
47.1
(79.9)
54.2
(73.7)
61.3
(81.6)
66.6
(82.2)
79.4
(86.1)
CS-SPT
46.5
(80.2)
54.5***
(74.5)
63.6*
(79.9)
66.8*
(81.0)
80.1*
(86.0)
DSPT
50.0*
(77.8)
58.3***
(78.5)
66.0**
(80.3)
68.6***
(80.9)
77.3
(79.3)
SDP-CPT
58.1***
(83.3)
62.4***
(83.6)
68.8***
(83.4)
69.8***
(82.0)
84.6*
(89.2)
58
2.3 PPI抽取:树核函数方法
•
PPI extraction systems
P(%)
R(%)
F1
Our SDP-CPT kernel
59.1
57.6
58.1
Dependency path: Kim et al. (2010)
61.4
53.3
56.7
Dependency graph: Airola et al. (2008)
52.9
61.8
56.4
Word subsequence: Bunescu et al. (2005a)
65.0
46.4
54.2
Constituent parse tree: Tikk et al. (2010)
39.2
31.9
34.6
BOW+Dependency path: Sætre et al. (2007)
64.3
44.1
52.0
BOW+Constituent parse tree: Miyao et al. (2008)
50.9
56.1
53.0
Global+Local context: Giuliano et al. (2006)
60.9
57.2
59.0
Dependency+Predicate Argument Structure: Miyao et al. (2008)
54.9
65.5
59.5
-
-
64.2
BOW+Shortest Path+Depencency graph: Miwa et al. (2009)
AIMed
59
目录
1. 引言和相关工作
2. 研究内容和方法
2.1 指导性关系抽取
2.2 弱指导关系抽取
2.3蛋白质相互作用关系抽取
3. 工作展望
60
3. 工作展望
• 理论:篇章结构和篇章话题
• 复杂语义关系抽取
• 开放式信息抽取
• 命名实体间语义关系网络
• 蛋白质交互作用网络
61
跨文本信息抽取
• 基础研究
– 中文分词、命名实体识别
– 句法分析
– 语义分析:语义角色标注
– 篇章理解
• 单文本指代消解
• 跨文本指代消解
• 篇章结构标注
• 应用研究
– 实体间语义关系抽取、信息融合
62
跨文本信息抽取
• 基础研究
– 中文分词、命名实体识别
– 句法分析
– 语义分析:语义角色标注
– 篇章理解
• 单文本指代消解
• 跨文本指代消解
• 篇章结构标注
• 应用研究
– 实体间语义关系抽取、信息融合
63
跨文本信息抽取
• 基础研究
– 中文分词、命名实体识别
– 句法分析
– 语义分析:语义角色标注
– 篇章理解
• 单文本指代消解
• 跨文本指代消解
• 篇章结构标注
• 应用研究
– 实体间语义关系抽取、信息融合
64
跨文本信息抽取
• 基础研究
– 中文分词、命名实体识别
– 句法分析
– 语义分析:语义角色标注
– 篇章理解
• 单文本指代消解
• 跨文本指代消解
• 篇章结构标注
• 应用研究
– 实体间语义关系抽取、信息融合
65
跨文本信息抽取
• 基础研究
– 中文分词、命名实体识别
– 句法分析
– 语义分析:语义角色标注
– 篇章理解
• 单文本指代消解
• 跨文本指代消解
• 篇章结构标注
• 应用研究
– 实体间语义关系抽取、信息融合
66
•
报道1
[例1] 米洛舍维奇 在1964年从 贝尔格勒法学院 毕业以后就加入了 共产党,寻着南斯拉夫 共党 政权的传统权力管道
,一步步往上升。
[例2] 在 南斯拉夫联邦 逐渐瓦解的同时,米洛舍维奇 运用 塞尔维亚 的民主情绪,在1989年当选为 塞尔维亚总统。
[例3] 米洛舍维奇 被迫逃离 贝尔格勒,获胜的反对派 塞尔维亚民主反对联盟 6号早上成立危机处理委员会,负责监
督权力转移事宜。
–
–
–
•
报道2
[例4] 科什图尼察 过去以追求学术为职志,直到1974年因为反动立场被 贝尔格勒法学院 解职,被迫离开学术圈。
[例5] 科什图尼察 并且在 1990 年初期加入反对运动,然后在1992年成立 塞尔维亚民主党。
[例6] 这位深具名望的新 领袖 和 他 昔日在 法学院 的 同窗,也就是 他 的 妻子 左丽卡 住在中产阶级的 贝尔格勒公
寓, 夫妻 俩人养了两只猫跟一只狗。
–
–
–
米洛舍
维奇
受雇于
贝尔格
勒法学
院
塞尔维
亚
位于
塞尔维
亚民主
党
位于
居住
毕业于
受雇于
妻子
受雇于
妻子
受雇于
居住
女儿
朋友
妻子
受雇于
创建
妻子
科什图
尼察
科什图
尼察
左丽卡
同窗
成员
十八党
反对联
盟
左丽卡2
佐丽察
贝尔格
勒
毕业于
位于
左丽卡1
住在
毕业于
施事者
施事者
居住
位于
贝尔格
勒法学
院
贝尔格
勒公寓
贝尔格
勒
德拉果
丁
盖尔盖
依
尤日
部分/整体
地点
贝尔格
勒公寓
实体间语义关系网络
67
谢谢
68