基于树核函数的人物关系抽取研究

Download Report

Transcript 基于树核函数的人物关系抽取研究

基于树核函数的人物关系抽取研究
彭成 钱龙华 周国栋
报告人:彭成
苏州大学自然语言处理实验室
http://nlp.suda.edu.cn/
提纲

引言

相关工作

研究动机

我们的方法

实验结果与分析

下一步工作
引言
 人物关系抽取
人物关系抽取是实体关系抽取的一个重要分支,旨在抽取人名实体之
间的各种社会关系。
例如,关系实例“朱镕基会见克雷蒂安”中,存在着社会交互关系(
CONTACT)。
 研究意义
WEB给我们提供了一个巨大的信息库,其中隐藏着大量用户感兴趣的
实体及其相互关系。
人物关系抽取技术对社会网络的构建、问答系统等均具有重要意义。
相关工作
 基于共现的方法:
Kautz等(1997): Referral Web.
Mika(2005): Flink.
 基于机器学习方法:
Matsuo等(2006):基于决策树的C4.5分类器。
姚从磊等(2007):基于模拟退火算法。
Jing等(2007):基于命名实体识别、关系检测、事件检测。
Elson 等 (2010):基于角色名称识别和对话检测。
Agarwal等(2011):基于社会交互事件检测。
研究动机
 存在的问题:目前针对人物关系抽取的研究一般只涉及特定的领域
或是依赖于大规模网页共现关系。通常情况下,人物关系类型比较
单一。
 现有条件:随着基于核函数的广泛采用,实体关系抽取技术得到迅
速发展并日臻成熟。
 能否利用树核函数从新闻领域文本中抽取丰富的人物关系?如何提
高其抽取性能?
人物关系抽取方法
 人物关系定义
 静态人物关系:ACE语料原有定义的PER-SOC关系(Business, Family,
Lasting-Personal)。
 动态人物关系:重新定义ACE的CONTACT事件(Meet, Phone-Write)为交
互关系。
 基于树核函数的人物关系抽取方法
 结构化信息的构造
 《同义词词林》语义信息的融合
 重采样技术的应用
结构化信息的构造
 删除实体并列结构(RMV_ENTITY_CC)
当连接两个实体节点的路径中出现并列结构时,可以删除其中的一
个并列部分。
 删除NP并列结构(RMV_NP_CC_NP)
当连接两个NP节点的路径中出现并列结构时,保留最短路径所通过
的那个并列部分。
 恢复右侧动词(EXT_RIGHT_VERB)
扩展第二个实体到最低公共节点之间出现的动词短语结构。
结构化信息的构造(续)
T1:
T2:
NP
NP
DNP
NP
DEG
IP
T1:
NP
DNP
NP
NP
VP
NP
E2
NP
E1
E
NR
CC
NR
德仁
和
雅子
的
女儿
(a)
P
E2
NR
DEG
NP
德仁
的
女儿
NP
PP
P
E2
NN
VP
E1
NP
NP
E2
NN
NN
学生
给
学生
(c)
给
姑妈
NP
NP
T2:
NP
NP
NP
NP
NP
NP
NP
E1
,
CC
NN
NR
以及
总统
班塞尔
NP
E2
NR
NN
NR
NP
NP
E1
NP
NP
E2
NR
NR
NN
NR
巴特列
智利
总统
拉戈斯
、
NR
,
NP
NP
NP
、
智利
总统
拉戈斯
(b)
VV
NN
姑妈
T1:
巴特列
VP
PP
E1
E1
IP
T2:
写信
语义信息融合
 语义信息对实体间语义关系的抽取具有重要的指导作用,我们在句法树
中加入了两个实体词汇在《同义词词林》的语义编码信息。
T2:
T1:
NP
NP
DNP
NP
NP
NP
DNP
NP
E1
E2
E1
E2
NN
DEG
NN
NN
DEG
NN
SC1
SC2
领导人
的
家属
领导人
的
家属
Af10a02
Ah01B01
重采样技术的应用
实验
实验设置
人物关系语料库包括关系正例880个,关系负例18599个。人物关系类
型主要为PER-SOC类和CONTACT类。
本文实验采用五倍交叉验证策略。
选择SVM作为分类器,采用的开源工具为支持卷积树核函数的
SVMLight TK工具包。
评估标准采用常用的准确率(P),召回率(R)和F1指标(F1)。
本文采用近似随机技术进行显著性测试,并分别使用双下划线、单下
划线和无下划线表示 p≤0.01、0.01<p≤0.05和p>0.05,即差异非常显著、
显著和不显著。
实验结果——裁剪特征的影响
裁剪规则
SPT(baseline)
PER-SOC
Contact
Total
P
R
F1
P
R
F1
P
R
F1
80.7
38.9
52.3
75.8
10.5
18.4
78.8
31.8
45.3
39.5
52.9
79.6
11.5
19.9
79.9
32.5
46.1
+RMV_ENTITY_C 80.9
C
(80.9) (39.5) (52.9) (79.6) (11.5) (19.9) (79.9) (32.5) (46.1)
+RMV_NP_CC_NP
82.4
39.8
53.5
81.7
18.2
29.6
81.6
34.3
48.3
(81.5) (38.4) (52.0) (83.3) (21.0) (33.5) (81.3) (34.0) (47.8)
39.6
53.3
81.2
21.5
33.9
81.0
35.0
48.8
+EXT_RIGHT_VE 81.8
RB
(80.9) (38.3) (52.8) (62.0) (11.0) (18.6) (75.9) (32.6) (45.5)
结论:
1.三种裁剪策略对总体性能提升显著。
2. Contact类型的F1值明显低于PER-SOC类型,同时,其性能提升
幅度大于PER-SOC类型。
实验结果——语义信息的影响
PER-SOC
词林类别
Contact
Total
P
R
F1
P
R
F1
P
R
F1
SPT-OPT(baseline)
81.8
39.6
53.3
81.2
21.5
33.9
81.0
35.0
48.8
SPT-OPT+CL_B
81.9
38.1
51.8
81.8
23.5
36.2
81.2
34.3
48.1
SPT-OPT+CL_M
78.7
41.6
54.3
79.4
22.5
34.9
78.2
36.7
49.9
SPT-OPT+CL_S
81.4
41.0
54.4
81.1
22.9
35.6
80.5
36.4
50.1
SPT-OPT+CL_WG
81.9
42.7
55.9
82.4
23.5
36.4
81.3
37.7
51.4
SPT-OPT+CL_AWG
81.5
42.9
56.3
81.7
24.4
37.5
81.5
38.1
51.8
结论:
1.随着语义信息颗粒度的逐步提高,F1总体性能不断增加。
2. F1值的提高均来源于召回率的大幅提高。
实验结果——重采样技术的影响
欠采样对人物关系抽取的影响
POS:NEG
1:1
1:2
1:3
1:4
1:5
1:6
1:7
1:8
1:9
1:10
1:11
1:12(baseline)
P
27.9
41.8
49.6
57.0
61.8
63.5
67.7
72.4
71.6
71.9
74.2
81.5
PER-SOC
R
67.4
59.0
56.7
53.1
51.5
50.5
49.0
47.9
46.4
46.7
45.9
42.9
F1
39.5
48.8
52.8
54.8
55.9
56.1
56.7
57.5
56.2
56.5
56.6
56.3
P
28.2
39.4
48.2
58.4
54.6
61.0
65.8
68.4
66.8
68.5
70.4
81.7
Contact
R
52.6
46.4
44.0
42.1
38.2
37.3
32.0
31.7
32.0
27.3
29.7
24.4
F1
36.6
42.6
45.9
48.9
44.7
46.2
43.0
43.3
43.2
38.9
41.5
37.5
P
28.8
41.4
49.2
57.2
59.8
62.6
66.7
70.7
70.0
70.7
72.7
81.5
Total
R
63.3
55.4
53.2
50.1
48.0
46.9
44.5
44.2
41.7
41.7
41.6
38.1
F1
39.5
47.4
51.1
53.3
53.1
53.5
53.3
54.4
52.4
52.4
52.8
51.8
实验结果——重采样技术的影响
过采样对人物关系抽取的影响
POS:NEG
1:12(baseline)
2:12
3:12
4:12
5:12
6:12
7:12
8:12
9:12
10:12
11:12
12:12
P
81.5
78.6
77.9
75.0
74.6
74.7
74.8
74.8
74.7
74.7
74.7
74.7
PER-SOC
R
42.9
43.2
45.3
46.1
46.1
46.5
46.5
46.8
46.8
46.8
46.8
46.8
F1
56.3
55.5
57.2
56.9
56.8
57.2
57.2
57.7
57.7
57.7
57.7
57.7
P
81.7
71.0
72.0
64.8
65.9
64.0
64.4
64.6
64.6
64.6
64.6
64.6
Contact
R
24.4
29.7
34.0
36.3
36.3
35.9
35.9
36.8
36.8
36.8
36.8
36.8
F1
37.5
41.8
46.1
46.4
46.8
45.8
46.3
46.8
46.8
46.8
46.8
46.8
P
81.5
76.3
75.8
72.1
71.9
71.7
71.9
71.9
71.9
71.9
71.9
71.9
Total
R
38.1
39.8
42.3
43.6
43.5
43.8
43.8
44.3
44.3
44.3
44.3
44.3
F1
51.8
52.2
54.3
54.2
54.1
54.3
54.4
54.7
54.7
54.7
54.7
54.7
结论:
1.欠采样和过采样的性能基本上都高于完全样本训练时的F1值。
2.过采样的性能普遍高于欠采样,且在一定比例范围内维持基本不变。
3.无论对于欠采样还是过采样,Contact类的性能提升明显高于PER-SOC类。
下一步工作
 本文提出了一种基于树核的人物关系抽取方法。
 该方法同时使用了结构化信息裁剪、词林语义信息、重
采样技术等策略。
 今后的工作:利用搜索引擎构建一个大规模的人物关系
语料库,在提高中文句法分析性能的基础上,生成更准
确和简洁的人物关系结构化信息,从而进一步提高人物
关系抽取的性能。
Thanks!
Questions?