哈工大社会计算与信息检索研究中心

Download Report

Transcript 哈工大社会计算与信息检索研究中心

基于实例动态泛化的共指消解
及应用
导师:秦兵教授
答辩人:张牧宇
2011.6.23
哈工大社会计算与信息检索研究中心
大纲





绪论
基于实例动态泛化的共指消解方法
共指链生成方法研究
基于共指消解的全局实体关系抽取
结论
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
大纲





绪论
基于实例动态泛化的共指消解方法
共指链生成方法研究
基于共指消解的全局实体关系抽取
结论
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
绪论

共指消解(Coreference Resolution)


根据篇章中各个表述(Mention)的内容以及上下文信息
将这些表述对应到具体实体(Entity)的过程,它是一个
对所有表述进行等价类划分的过程
E.g:
周杰伦推出新专辑《我很忙》,这张专辑开启了周杰伦新纪元。
该专辑也体现了周董这个牛仔角色。

实例:

可能存在共指关系的表述对 <先行语,照应语>

E.g: <周杰伦,周董>,<我很忙,这张专辑>,<我很忙,该专辑>
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
绪论

研究现状(两类方法)

基于语言学规则


基于机器学习方法


性别、单复数和人称 + 句法和语义 一致性规则
基于分类的方法 + 基于聚类的方法
存在的问题


语料不足
方法问题:

基于规则的共指消解方法:


基于统计分类的机器学习方法:



只能精确覆盖少数的高频实例,不能覆盖为数不少的低频情况
在不断优化的训练过程中,只选择能够覆盖多数实例的优化方向。
共指链生成的研究不足
发展趋势

篇章全局优化技术

从篇章信息入手,以全局图分割等方式引入篇章结构,处理共指消解问题
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
绪论

论文内容结构:
1.基于分类的方案
2.基于CRF的方案
1.基于词汇信息的方法
2.基于分类置信度的方法
3.基于Ranking的方法
1.精确泛化点
2.结构化泛化点
Mention识别
应用 t
分类结果合并
二元分类
关系抽取
结果
GP1
GP2
……
GPn
泛化点对应的倒排实例集合
(Generation point: GP)
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
全局实体关
系抽取应用
大纲





绪论
基于实例动态泛化的共指消解方法
共指链生成方法研究
基于共指消解的全局实体关系抽取
结论
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
基于实例动态泛化的共指消解方法

本章内容:
1.基于分类的方案
2.基于CRF的方案
D
1.基于词汇信息的方法
2.基于分类置信度的方法
3.基于Ranking的方法
1.精确泛化点
2.结构化泛化点
Mention识别
应用
分类结果合并
二元分类
关系抽取
结果
GP1
GP2
……
GPn
泛化点对应的倒排实例集合
(Generation point: GP)
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
全局实体关
系抽取应用
基于实例动态泛化的共指消解方法
序号

特征类型
1
分类特征
基于分类的Mention识别
2

3
代词词典特征
核心思想
名词词典

4
7
8
常用的指示代词词表,出现在此表中,对应特征为1
常用的名词词表,出现在此表中,对应特征为1
以单词(字)为分类对象
人名词典
常用的人名词表,出现在此表中,对应特征为1
交通工具词典
常用的交通工具词表,出现在此表中,对应特征为1
 E.g:{周杰伦}
–{周-开头(B),杰-中部(I),伦-中部(I)}
6

参见前文
 三种类别:Mention头、Mention中部、非Mention
头衔词典
常用的头衔词表,出现在此表中,对应特征为1
5

地点词典
常用的地点词表,出现在此表中,对应特征为1
采用Maxent算法进行分类
公司词典
常用的公司词表,出现在此表中,对应特征为1
Person下位词
常用的Person下位词表,出现在此表中,对应特征为1
特征集合
9

类型说明
序号
特征类型
类型说明
基于序列标注的Mention识别
1

2
3

5
考察组成Mention的单词本身,我们选取词本身作为特征
词性特征
考察组成Mention的词的词性信息,我们选取词性作为特征
核心思想

4

构词特征
以单词(字)为处理对象
语义特征
考察组成Mention的词的命名实体特征,我们选取词对应的命名实体作
采用CRF来进行Mention类型标注
为特征取值
首字和尾字特征
特征集合
大小写特征
考察构成Mention的词的字符构成规律。分别选择该词的前1、2、3、4
字符,后1、2、3、4字符作为特征
利用英文中明显大小写区分现象作为特征,考察构成Mention的词的大
小写规律,包括:IsAllCap、IsInitCap、IsCapPeriod三个特征
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
基于实例动态泛化的共指消解方法


召回率提升,但
准确率大幅下降
Mention识别实验结果
抽取方案
学习算法
P
R
F
Baseline
规则
55.26
63.6
59.14
基于分类的方法
Maxent
34.05
75.51
46.93
基于序列标注的方法
CRF
81.93
81.62
81.77
识别率大幅提升,
达22.63%
IDGen鲁棒性较
强,而最大熵对
Mention精度较为
敏感
Mention识别改进前后共指消解实验结果对比
抽取方案
Baseline
抽取算法
消解算法
规则
基于分类的合并方
案
Maxent
基于序列标注的方
案
CRF
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
MUC
P
R
F
IDGen
0.565
0.550
0.558
Maxent
0.557
0.509
0.532
IDGen
0.805
0.357
0.495
Maxent
0.812
0.329
0.468
IDGen
0.716
0.548
0.621
Maxent
0.720
0.532
0.612
F值大幅提升,
达 6.3%
F值大幅提升,
达 8.0%
基于实例动态泛化的共指消解方法

泛化点抽取:
1.基于分类的方案
2.基于CRF的方案
D
1.基于词汇信息的方法
2.基于分类置信度的方法
3.基于Ranking的方法
1.精确泛化点
2.结构化泛化点
Mention识别
应用
分类结果合并
二元分类
关系抽取
结果
GP1
GP2
……
GPn
泛化点对应的倒排实例集合
(Generation point: GP)
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
全局实体关
系抽取应用
基于实例动态泛化的共指消解方法

泛化点抽取

精确泛化点

词汇化特征(Lexical Feature)

刻画两个表述之间的核心词一致性


半词汇化特征(NE Feature)


刻画两个表述之间命名实体标注信息的一致性
NE -命名实体类别 + 后缀-字符串匹配





E.g: {亚洲天王周杰伦,该专辑} --- ( LF=周杰伦-专辑 )
NE-SAME
NE-SUBSAME
NE-STRING1-STRING2
E.g:{亚洲天王周杰伦,杰伦} --- ( NEF= PERSON-SUBSAME)
结构化泛化点
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
基于实例动态泛化的共指消解方法

引入两个精确
特征效果不升
反降
使用精确泛化点的实验结果
抽取方案
Baseline
抽取算法
Soon
(传统Mention识别)
精确泛化点
Soon+L+SL
(传统Mention识别)
Soon+L
Soon+SL
精确泛化点
Soon+L+SL
(新Mention识别)
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
消解算法
MUC
P
R
F
IDGen
0.565
0.550
0.558
Maxent
0.557
0.510
0.532
IDGen
0.548
0.588
0.567
Maxent
0.578
0.562
0.570
IDGen
0.552
0.586
0.568
Maxent
0.572
0.550
0.562
IDGen
0.553
0.584
0.568
Maxent
0.558
0.542
0.555
IDGen
0.663
0.588
0.623
Maxent
0.733
0.570
0.641
F值提升 0.9%
F值提升 1%
F值提升 1%
同时引入精确泛
化点+Mention后
F值大幅提升,
达 6.5%
大纲





绪论
基于实例动态泛化的共指消解方法
共指链生成方法研究
基于共指消解的全局实体关系抽取
结论
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
基于实例动态泛化的共指消解方法

本章内容结构:
1.基于分类的方案
2.基于CRF的方案
D
1.基于词汇信息的方法
2.基于分类置信度的方法
3.基于Ranking的方法
1.精确泛化点
2.结构化泛化点
Mention识别
应用
分类结果合并
二元分类
关系抽取
结果
GP1
GP2
……
GPn
泛化点对应的倒排实例集合
(Generation point: GP)
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
全局实体关
系抽取应用
共指链生成方法研究

基于词汇信息的共指链生成方法

倾向于选择词汇距离近的Mention进行合并



Step1:基于规则的方式过滤
Step2:将当前Mention与满足共指关系的最近的一个合并
基于分类置信度的共指链生成方法

信赖分类器的分类结果


Step1:比较所有分类器给出的共指概率
Step2:将当前Mention与之前分类概率最大的一个合并
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
共指链生成方法研究

基于Ranking的共指链生成方法

核心思想


通过对多个候选结果的排序学习,针对每个文件选择自适应选择最合
适的系统输出
特征

Partition特征


针对所有共指消解常规特征进行计算,每一种候选系统对应一个特征向
量,而特征向量的每一维对应着一个常规特征的出现概率
Method特征

针对所有共指消解的训练文本进行计算,每一篇训练文本对应一个特征
向量,而特征向量的每一维对应着一个候选系统在文本中的选择结果
Document1 { SystemA = 1,SystemB = 0 }
Document2 { SystemA = 0,SystemB = 1 }
…
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
ACE2005英文BN语料上实验结果

共指链生成方法研究
合并方案
最近合并
最佳合并
Ranking方法

学习算法
特征集合
MUC
P
R
F
IDGen
Soon
0.552
0.554
0.553
IDGen
Soon+Tree
0.569
0.584
0.576
IDGen
Soon
0.280
0.815
0.417
IDGen
Soon+Tree
0.271
0.813
0.406
IDGen
Soon
0.564
0.581
0.572
IDGen
Soon+Tree
0.574
0.593
0.583
最近合并
最佳合并
Ranking方法
学习算法
特征集合
MUC
P
R
F
IDGen
Soon
0.733
0.434
0.545
IDGen
Soon+Tree
0.744
0.461
0.570
IDGen
Soon
0.292
0.488
0.426
IDGen
Soon+Tree
0.303
0.805
0.440
IDGen
Soon
0.721
0.451
0.554
IDGen
Soon+Tree
0.738
0.466
0.571
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
使用Ranking方法,
F值提高达 1.9%
BN语料的效果明
显优于NW…?...
--BN语料较为规整
ACE2005英文NW语料上实验结果
合并方案
理论上的最佳算法
效果最差…?...
--分类器水平所限
使用Ranking方法,
F值提升0.9%
大纲





绪论
基于实例动态泛化的共指消解方法
共指链生成方法研究
基于共指消解的全局实体关系抽取
结论
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
基于实例动态泛化的共指消解方法

本章内容结构:
1.基于分类的方案
2.基于CRF的方案
D
1.基于词汇信息的方法
2.基于分类置信度的方法
3.基于Ranking的方法
1.精确泛化点
2.结构化泛化点
Mention识别
应用
分类结果合并
二元分类
关系抽取
结果
GP1
GP2
……
GPn
泛化点对应的倒排实例集合
(Generation point: GP)
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
全局实体关
系抽取应用
基于实例动态泛化的共指消解方法
全局实体
关系
音乐语料
预处理
句子级关系
抽取
局部关系
共指消解
共指链
并列关系抽
取
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
并列实体
关系推理
基于实例动态泛化的全局实体关系抽取

句子级关系抽取


针对同一句子中的实体抽取关系
共指关系

采用基于实例动态泛化的共指消解方法


利用共指链信息对构成关系的代词和指示性代词进行还原
利用实体间的等价关系补充系统抽取结果


Eg: [A1,A2,A3]、[B1,B2,B3]共指,当A3、B2存在关系r时,那么A3等价类
中的任一实体和与B2都应该具有关系r
并列关系

采用模板进行抽取


认为并列实体间满足相同的关系
对系统未能抽取的关系利用并列予以补充

Eg:[A,B,C]并列,当C、D存在关系r时,如果系统没有抽取出实体A,B和D之
间的关系,那么可以通过推理生成[A,D,r]和[B,D,r]
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
基于实例动态泛化的全局实体关系抽取
关系数目
156
150
119
120
90
92
60
证明共指关 6.This is an
example
系对全局实 text. Go
体关系抽取 ahead and
replace it
的作用
证明并列关
系对丰富关
系的作用
30
with your
own text.
0
局部关系
局部关系+并列
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
局部关系+并列
+共指
处理方案
第 23 页
基于实例动态泛化的全局实体关系抽取

中文音乐语料共指消解实验结果
数据集
中文音乐新闻
语料
中文音乐评论
预料
学习算法
特征集合
MUC
P
R
F
IDGen
Soon
0.856
0.795
0.824
IDGen
Soon+Head
0.813
0.802
0.824
IDGen
Soon
0.846
0.833
0.839
IDGen
Soon+Head
0.825
0.834
0.829
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
F值都较高,达到
82%以上,消解结
果较为可靠
基于实例动态泛化的全局实体关系抽取
P:
R:
0.80
0.75
0.731
0.726
精确率略有
升高
0.70
0.65
0.658
0.60
召回率大幅
度升高
0.55
0.534
0..50
局部关系
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
局部关系+并列
+共指
处理方案
第 25 页
基于实例动态泛化的全局实体关系抽取

中文音乐语料关系抽取实验结果
抽取方案
学习算法
关系数目
P
R
F
句子级实体关系抽取
(RE)
混合核方案
92
0.726
0.534
0.615
全局实体关系抽取
(GRE)
共指+并列
156
0.731
0.658
0.693
准确率略微提升,
几乎不变
召回率大幅度上升,
最终提升了F值
全局实体关系可以
获取更多篇章信息,
丰富抽取内容
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
应用全局实体关系,
F值提高7.8%
大纲





绪论
基于实例动态泛化的共指消解方法
共指链生成方法研究
基于共指消解的全局实体关系抽取
结论
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
结论




基于序列标注的Mention识别方法效果突出
精确泛化点对共指消解任务帮助巨大,引入该类
泛化点后指标平均提升2.5%
基于Ranking的合并方案能够有效提高二元分类合
并算法的效果,提升幅度达到1.5%
全局实体关系抽取能够有效获取篇章级别的信息
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
恳请各位老师批评指正
谢谢
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心