PPT - 哈尔滨工业大学社会计算与信息检索研究中心

Download Report

Transcript PPT - 哈尔滨工业大学社会计算与信息检索研究中心

领域自适应的中文实体关系抽取
研究
导师:秦兵教授
学生:王莉峰
哈工大社会计算与信息检索研究中心
大纲





绪论
关系类型发现
关系种子集抽取
关系描述模式挖掘
结论
2
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
问题的提出

现有的关系抽取方法存在一些问题

人工参与较多




可移植性差



预先定义关系类型体系
构建标注语料库
构造关系种子集
集中在特定领域的关系抽取
不适用于海量、多样化的Web信息抽取需求
领域自适应的研究相对滞后


2007年Banko提出了Open IE的概念
领域自适应的中文关系抽取研究较少
3
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
解决思路

领域自适应的中文实体关系抽取研究框架





只需一定规模的未标注语料库作为输入
最大程度避免人工参与
提高关系抽取自动化程度
增强可移植性,扩大应用范围
关键技术
关系类型自动发现
 关系种子集自动构建
 关系描述模式挖掘
 关系元组抽取
 数据存储及可视化
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心

4
领域自适应的中文实体关系抽取
大规模
网页库
基于特征词聚类的
关系类型发现
实体关系
知识库
新关系实例抽取
模式匹配
词法句法分析
关系实例评价
命名实体识别
特征词抽取
关系类型体系
<关系类型,模式集>
特征词聚类
基于Bootstrapping
的关系描述模式挖掘
基于Web Mining
的关系种子集抽取
关系实例抽取
查询构造
实体关系核心网
Web检索
和问答系统
存储与可视化
上下文模式生成
查询扩展
模式泛化与过滤
答案抽取
元组抽取与评价
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
5
大纲





绪论
关系类型发现
关系种子集抽取
关系描述模式挖掘
结论
6
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系类型发现(1)

语言现象



绝大多数产生关系的实体对均可以由其上下文中的
一般动词和一般名词触发描述
PER
统称为特征词(Feature Word,FW)
巨星刘德华携手巩俐等人气明星打造的都市爱情大片《我知
主要思想
女人心》在博纳悠唐国际影城正式首映。

LOC
以实体对类型为单位进行处理——领域
ORG
如“人名—人名”、“人名—机构名”
MISC
哈尔滨工业大学校长王树国荣获法国荣誉勋章。

Arg2
Relation
基于大规模语料库统计,抽取与特定实体对类型相关
FW
刘德华
巩俐
携手
度较大的特征词集
刘德华
《我知女人心》
打造
Arg1
Arg2
Relation
 利用语义词典计算特征词之间的相似度
巩俐
《我知女人心》
打造
王树国
哈尔滨工业大学
校长
 特征词聚类,聚类结果即为关系类型
 Arg1
《我知女人心》 博纳悠唐国际影城
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
首映
王树国
法国荣誉勋章
荣获
7
关系类型发现(2)

基于特征词聚类的关系类型发现
网页库
正文抽取
文本处理
种子实体
抽取
语义词典
特征词聚类
特征词
集
特征词抽取
关系类型
体系
8
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系类型发现(3)

特征词抽取



抽取由种子实体形成的高频实体对及其句子集
统计与高频实体对共现的动、名词
使用启发式通用规则过滤,得到候选特征词





必须出现在实体对之间
动词细分类,仅保留一般动词
名词细分类,仅保留一般名词
动词必须满足与实体对中的任一实体存在主谓关系SBV或动宾
关系VOB
计算候选特征词与实体对类型相关度,取Top-K
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
FreqT(wk) 和 FreqA(wk) 分别表示 wk 在特定
实体对类型上下文中和整个语料库中的出现频
率
9
关系类型发现(4)

特征词聚类

相似度计算



Ni 和Nj 分别为wi 和wj 义原个数,
NCij 为相同义原个数
基于HowNet
 相同义原个数
基于《同义词词林(扩展版)》
 树距离
 语义代码是否相同(如level=3、4)
聚类算法



层次聚类 HAC(single link、complete link、average
link)
Affinity Propagation(AP),Science 2007提出
10
语义代码直接聚类(只针对语义代码相似度)
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系类型发现(5)

语料库获取


实验实体对类型


人名—人名,即人物社会关系抽取
测试数据



RE100W:9个门户网站的100W娱乐资讯网页
多人协作构建标准聚类结果
共1,225个特征词,256类
评价标准


F值
纯度Purity
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
11
关系类型发现(6)
12
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
13
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
大纲





绪论
关系类型发现
关系种子集抽取
关系描述模式挖掘
结论
14
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系种子集抽取(1)

人工构建关系种子集存在的问题




关系类型繁多,完全依靠人工选择困难
难以保证种子覆盖面
投入成本较大,可移植性差
主要思想

关系表示成三元组: <e1,e2,R>





e1为种子实体,e2未知
R为关系类型,对应一个特征词集合
将e2槽填充问题看作事实型答案抽取问题
利用搜索引擎收集和处理海量数据的能力和优势
基于Web Mining方法抽取答案e2
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
15
关系种子集抽取(2)

基于Web Mining的关系种子集抽取
<e1,?,R>
<e3,?,R>
问答
系统
检索
系统
查询构造
查询扩展
网页检索
<e1,e2,R>
<e3,e4,R>
答案抽取
页面
摘要
16
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系种子集抽取(3)

查询构造


根据e2类型,定义启发式规则,构造基本查询
 名词性特征词的查询构造规则
查询扩展
 e1 + “ ” + fw,例如:周杰伦 父亲,周杰伦 老爸

 fw + “ ” + e1,例如:父亲 周杰伦,老爸 周杰伦
借助问答系统百度知道扩展查询
 e1 + fw + 是谁?,例如:周杰伦的父亲是谁?,周杰伦的老



爸是谁?
相关性排序问句列表
谁是 + e1 + 的 + fw?,例如:谁是周杰伦的父亲?,谁是周
针对单个问句的相似问题推荐
杰伦的老爸?
 动词性特征词的查询构造规则


e1 + “ ” + fw,例如:赵薇 饰演,赵薇 出演
fw + “ ” + e1,例如:饰演 赵薇,出演 赵薇
17
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系种子集抽取(4)

网页检索




百度网页:snippet
百度新闻:snippet
百度知道:snippet,最佳答案
答案抽取

基于频率统计的方法(baseline) 𝑒2𝑖 : 候选答案
Conf fq (e2i ) = Freq (e2i )
𝐶𝑜𝑛𝑓𝑓𝑞 (𝑒2𝑖 ): 候选答案可信度
e2  argmax{Conf fq (e2i ) | Conf fq (e2i ) > minFreq}
e2i


基于上下文模式的方法
基于频率统计与上下文模式相结合的方法
18
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系种子集抽取(5)

基于上下文模式的方法
权威媒体TVBS娱乐记者正式对外公布了周杰伦的父亲周耀中的一篇关于杰伦身
世之迷的博客文章。
关系实例

< cP11 ,Freq (cP11 ) >


cP为上下文模式
候选
 < e1,e2 ,R > < cP12 ,Freq (cP12 ) >
Freq(cP)为上下文模式出现频率
对外/v 公布/v1 了/u 周杰伦/Nh
的/u
父亲/n
周耀中/Nh
的/u
一篇/Nm
关于/p
上下文模式
... ...




< cP1p ,Freq (cP1p ) >

< cP21 ,Freq (cP21 ) >

上下文模式
对外/v 公布/v 了/u [SLOT1]/Nh
的/u 父亲/n [SLOT2]/Nh 的/u /Nm 关于/p
< cP22 ,Freq (cP22 ) >
 < e1,e22 ,R > 
< e1,?,R > 
... ...
Conf cp (e2i ) =
Freq(cPij )

cPij cPSet (e2i )


< cP2q ,Freq (cP2q ) >


... ...

 < cPn1 ,Freq (cPn1 ) >

e2  argmax{Conf cp (e2i ) | Conf cp (e2i )  minCP}
 < cP ,Freq (cP ) >

e2i
n2
n2
< e1,e2n ,R > 

... ...




< cPnm ,Freq (cPnm ) >

19

哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系种子集抽取(6)

基于频率统计与上下文模式相结合的方法
Conf fq (e2i ) = Freq (e2i )
Conf cp (e2i ) =  cP cPSet (e2 ) Freq(cPij )
ij
i
Conf (e2i ) = w  Conf fq (e2i ) + (1-w)  Conf cp (e2i )
e2  argmax{Conf (e2i ) | Conf fq (e2i ) > minFreq
e2i
& & Conf cp (e2i )  minCP}
20
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系种子集抽取(7)

实验数据


种子实体e1:Top-500
关系类型R:9种
• 夫妻关系、经纪人关系、合作关系
• 情侣关系、父母-子女、好友关系
• 角色扮演、兄弟姐妹、伯乐关系

评价标准

n
 (N  p )
每类随机选取100个进行人工评价
P 
某类抽取正确的元组数
准确率、平均准确率 Precision  某类抽取的所有元组数
N
不直接评价召回率,通过关系种子总数间接反映
avg

i
i 1
n
i 1

21
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
i
i
22
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
大纲





绪论
关系类型发现
关系种子集抽取
关系描述模式挖掘
结论
23
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系描述模式挖掘(1)

基于Bootstrapping的关系描述模式挖掘
关系元组
关系元
组集
特征词
集
关系描述
模式
元组过滤
大规
模语
料库
模式过滤
候选元组
抽取
关系实例
抽取
上下文模式
生成
模式泛化
24
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系描述模式挖掘(2)

上下文模式生成
<梁朝伟,刘嘉玲>
{结婚,完婚}
梁朝伟和刘嘉玲自本月21日于不丹正式结婚后,24日早上首次公开露面。
梁朝伟和刘嘉玲7月21日将于不丹完婚。
关系实例
梁朝伟/Nh 和/c 刘嘉玲/Nh 自/p 本月21日/Nr 于/p 不丹/Ns 正式/a 结婚/v
梁朝伟/Nh 和/c 刘嘉玲/Nh 7月21日/Nr 将/d 于/p 不丹/Ns 完婚/v 。/wp
候选
上下文模式
[SLOT1]/Nh 和/c [SLOT2]/Nh 自/p /Nr 于/p /Ns 正式/a/Ed53A 结婚/v/Hj51C
[SLOT1]/Nh 和/c [SLOT2]/Nh /Nr 将/d 于/p /Ns 完婚/v/Hj51C 。/wp
上下文模式
25
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系描述模式挖掘(3)

软模式生成


对任意两个上下文模式计算
最佳匹配长度(带权重的最
长公共子序列) J=7/(9+9-7)
匹配度J定义为: =0.636
J (cPi , cPj ) 

BestMatch(cPi , cPj )
Length(cPi )  Length(cPj )  BestMatch(cPi , cPj )
仅当匹配度大于阈值
minJaccard时,用于生成
软模式,即构造最长公共子
序列
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
上下文模式最佳匹配过程
cPi
cPj
代价
[SLOT1]/Nh
[SLOT1]/Nh
0
和/c
和/c
0
[SLOT2]/Nh
[SLOT2]/Nh
0
自/p
/Nr
10
/Nr
0
将/d
10
于/p
于/p
0
/Ns
/Ns
0
正式/a/Ed53A
结婚/v/Hj51C
10
完婚/v/Hj51C
5
。/wp
10
26
关系描述模式挖掘(4)

软模式生成及元组抽取
[SLOT1]/Nh 和/c [SLOT2]/Nh 自/p /Nr 于/p /Ns 正式/a/Ed53A 结婚/v/Hj51C
[SLOT1]/Nh 和/c [SLOT2]/Nh /Nr 将/d 于/p /Ns 完婚/v/Hj51C 。/wp
* [SLOT1]/Nh 和/c [SLOT2]/Nh * /Nr * 于/p /Ns * 结婚/v/Hj51C *
<李亚鹏,王菲,结婚>
软模式
关系元组
李亚鹏/Nh 和/c 王菲/Nh 昨日/Nt 于/p 乌鲁木齐/Ns 正式/a/Ed53A 登记
/v/Hc15A 结婚/v/Hj51C ,/wp
李亚鹏和王菲昨日于乌鲁木齐正式登记结婚,两人爱情终于修得正果!”
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
上下文模式
上下文模式
关系实例
27
关系描述模式挖掘(5)

关系元组评价



新抽取元组将作为下一轮迭代的种子
过滤噪声元组,避免错误蔓延现象
根据关系元组与特征词fw共现情况,定义元组T可
信度计算公式:

Conf (T ) 

fwi  fwSet ( R )
OccSentence(T  fwi )
OccSentence(T )  1
仅保留可信度大于阈值minTupleConf 的元组
28
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系描述模式挖掘(6)

实验数据


RE100W:100W娱乐资讯网页
关系类型:9种
• 夫妻关系、经纪人关系、合作关系
• 情侣关系、父母-子女、好友关系
• 角色扮演、兄弟姐妹、伯乐关系


关系种子:基于Web Mining方法自动获取
评价标准



n
 (N
i
 pi )
Pavg  i 1 n
每类随机选取100个进行人工评价
某类抽取正确的元组数
Ni
Precision 

准确率、平均准确率
某类抽取的所有元组数
i 1
不直接评价召回率,通过关系元组总数间接反映
29
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系描述模式挖掘(7)

四组对比实验(根据关系元组过滤时机)




B:在迭代过程中不采取任何过滤措施
B+F1:每一轮获取的元组全部进入下一轮迭代,
最后对获取的所有元组进行过滤
B+F2:每一轮都对获取的元组进行过滤,可信度
超过某一阈值的元组进入下一轮迭代,而低于可信
度阈值的元组直接作为最终结果
B+F1+F2:每一轮都对获取的元组进行过滤,可
信度超过某一阈值的元组进入下一轮迭代,舍弃低
于可信度阈值的元组
30
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
31
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
32
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
大纲





绪论
关系类型发现
关系种子集抽取
关系描述模式挖掘
结论
33
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
结论




提出了全新的领域自适应的关系抽取研究框架
提出了基于特征词聚类的关系类型发现
提出了基于Web Mining的关系种子集抽取
采用了基于Bootstrapping的关系描述模式挖
掘



提出了裁剪的上下文模式表示方法
提出了基于最佳匹配的软模式生成策略
搭建了人物社会关系抽取演示系统

人脉搜索
34
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
请各位老师批评指正
谢谢!
哈工大社会计算与信息检索研究中心