PPT - 哈尔滨工业大学社会计算与信息检索研究中心
Download
Report
Transcript PPT - 哈尔滨工业大学社会计算与信息检索研究中心
领域自适应的中文实体关系抽取
研究
导师:秦兵教授
学生:王莉峰
哈工大社会计算与信息检索研究中心
大纲
绪论
关系类型发现
关系种子集抽取
关系描述模式挖掘
结论
2
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
问题的提出
现有的关系抽取方法存在一些问题
人工参与较多
可移植性差
预先定义关系类型体系
构建标注语料库
构造关系种子集
集中在特定领域的关系抽取
不适用于海量、多样化的Web信息抽取需求
领域自适应的研究相对滞后
2007年Banko提出了Open IE的概念
领域自适应的中文关系抽取研究较少
3
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
解决思路
领域自适应的中文实体关系抽取研究框架
只需一定规模的未标注语料库作为输入
最大程度避免人工参与
提高关系抽取自动化程度
增强可移植性,扩大应用范围
关键技术
关系类型自动发现
关系种子集自动构建
关系描述模式挖掘
关系元组抽取
数据存储及可视化
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
4
领域自适应的中文实体关系抽取
大规模
网页库
基于特征词聚类的
关系类型发现
实体关系
知识库
新关系实例抽取
模式匹配
词法句法分析
关系实例评价
命名实体识别
特征词抽取
关系类型体系
<关系类型,模式集>
特征词聚类
基于Bootstrapping
的关系描述模式挖掘
基于Web Mining
的关系种子集抽取
关系实例抽取
查询构造
实体关系核心网
Web检索
和问答系统
存储与可视化
上下文模式生成
查询扩展
模式泛化与过滤
答案抽取
元组抽取与评价
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
5
大纲
绪论
关系类型发现
关系种子集抽取
关系描述模式挖掘
结论
6
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系类型发现(1)
语言现象
绝大多数产生关系的实体对均可以由其上下文中的
一般动词和一般名词触发描述
PER
统称为特征词(Feature Word,FW)
巨星刘德华携手巩俐等人气明星打造的都市爱情大片《我知
主要思想
女人心》在博纳悠唐国际影城正式首映。
LOC
以实体对类型为单位进行处理——领域
ORG
如“人名—人名”、“人名—机构名”
MISC
哈尔滨工业大学校长王树国荣获法国荣誉勋章。
Arg2
Relation
基于大规模语料库统计,抽取与特定实体对类型相关
FW
刘德华
巩俐
携手
度较大的特征词集
刘德华
《我知女人心》
打造
Arg1
Arg2
Relation
利用语义词典计算特征词之间的相似度
巩俐
《我知女人心》
打造
王树国
哈尔滨工业大学
校长
特征词聚类,聚类结果即为关系类型
Arg1
《我知女人心》 博纳悠唐国际影城
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
首映
王树国
法国荣誉勋章
荣获
7
关系类型发现(2)
基于特征词聚类的关系类型发现
网页库
正文抽取
文本处理
种子实体
抽取
语义词典
特征词聚类
特征词
集
特征词抽取
关系类型
体系
8
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系类型发现(3)
特征词抽取
抽取由种子实体形成的高频实体对及其句子集
统计与高频实体对共现的动、名词
使用启发式通用规则过滤,得到候选特征词
必须出现在实体对之间
动词细分类,仅保留一般动词
名词细分类,仅保留一般名词
动词必须满足与实体对中的任一实体存在主谓关系SBV或动宾
关系VOB
计算候选特征词与实体对类型相关度,取Top-K
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
FreqT(wk) 和 FreqA(wk) 分别表示 wk 在特定
实体对类型上下文中和整个语料库中的出现频
率
9
关系类型发现(4)
特征词聚类
相似度计算
Ni 和Nj 分别为wi 和wj 义原个数,
NCij 为相同义原个数
基于HowNet
相同义原个数
基于《同义词词林(扩展版)》
树距离
语义代码是否相同(如level=3、4)
聚类算法
层次聚类 HAC(single link、complete link、average
link)
Affinity Propagation(AP),Science 2007提出
10
语义代码直接聚类(只针对语义代码相似度)
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系类型发现(5)
语料库获取
实验实体对类型
人名—人名,即人物社会关系抽取
测试数据
RE100W:9个门户网站的100W娱乐资讯网页
多人协作构建标准聚类结果
共1,225个特征词,256类
评价标准
F值
纯度Purity
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
11
关系类型发现(6)
12
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
13
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
大纲
绪论
关系类型发现
关系种子集抽取
关系描述模式挖掘
结论
14
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系种子集抽取(1)
人工构建关系种子集存在的问题
关系类型繁多,完全依靠人工选择困难
难以保证种子覆盖面
投入成本较大,可移植性差
主要思想
关系表示成三元组: <e1,e2,R>
e1为种子实体,e2未知
R为关系类型,对应一个特征词集合
将e2槽填充问题看作事实型答案抽取问题
利用搜索引擎收集和处理海量数据的能力和优势
基于Web Mining方法抽取答案e2
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
15
关系种子集抽取(2)
基于Web Mining的关系种子集抽取
<e1,?,R>
<e3,?,R>
问答
系统
检索
系统
查询构造
查询扩展
网页检索
<e1,e2,R>
<e3,e4,R>
答案抽取
页面
摘要
16
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系种子集抽取(3)
查询构造
根据e2类型,定义启发式规则,构造基本查询
名词性特征词的查询构造规则
查询扩展
e1 + “ ” + fw,例如:周杰伦 父亲,周杰伦 老爸
fw + “ ” + e1,例如:父亲 周杰伦,老爸 周杰伦
借助问答系统百度知道扩展查询
e1 + fw + 是谁?,例如:周杰伦的父亲是谁?,周杰伦的老
爸是谁?
相关性排序问句列表
谁是 + e1 + 的 + fw?,例如:谁是周杰伦的父亲?,谁是周
针对单个问句的相似问题推荐
杰伦的老爸?
动词性特征词的查询构造规则
e1 + “ ” + fw,例如:赵薇 饰演,赵薇 出演
fw + “ ” + e1,例如:饰演 赵薇,出演 赵薇
17
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系种子集抽取(4)
网页检索
百度网页:snippet
百度新闻:snippet
百度知道:snippet,最佳答案
答案抽取
基于频率统计的方法(baseline) 𝑒2𝑖 : 候选答案
Conf fq (e2i ) = Freq (e2i )
𝐶𝑜𝑛𝑓𝑓𝑞 (𝑒2𝑖 ): 候选答案可信度
e2 argmax{Conf fq (e2i ) | Conf fq (e2i ) > minFreq}
e2i
基于上下文模式的方法
基于频率统计与上下文模式相结合的方法
18
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系种子集抽取(5)
基于上下文模式的方法
权威媒体TVBS娱乐记者正式对外公布了周杰伦的父亲周耀中的一篇关于杰伦身
世之迷的博客文章。
关系实例
< cP11 ,Freq (cP11 ) >
cP为上下文模式
候选
< e1,e2 ,R > < cP12 ,Freq (cP12 ) >
Freq(cP)为上下文模式出现频率
对外/v 公布/v1 了/u 周杰伦/Nh
的/u
父亲/n
周耀中/Nh
的/u
一篇/Nm
关于/p
上下文模式
... ...
< cP1p ,Freq (cP1p ) >
< cP21 ,Freq (cP21 ) >
上下文模式
对外/v 公布/v 了/u [SLOT1]/Nh
的/u 父亲/n [SLOT2]/Nh 的/u /Nm 关于/p
< cP22 ,Freq (cP22 ) >
< e1,e22 ,R >
< e1,?,R >
... ...
Conf cp (e2i ) =
Freq(cPij )
cPij cPSet (e2i )
< cP2q ,Freq (cP2q ) >
... ...
< cPn1 ,Freq (cPn1 ) >
e2 argmax{Conf cp (e2i ) | Conf cp (e2i ) minCP}
< cP ,Freq (cP ) >
e2i
n2
n2
< e1,e2n ,R >
... ...
< cPnm ,Freq (cPnm ) >
19
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系种子集抽取(6)
基于频率统计与上下文模式相结合的方法
Conf fq (e2i ) = Freq (e2i )
Conf cp (e2i ) = cP cPSet (e2 ) Freq(cPij )
ij
i
Conf (e2i ) = w Conf fq (e2i ) + (1-w) Conf cp (e2i )
e2 argmax{Conf (e2i ) | Conf fq (e2i ) > minFreq
e2i
& & Conf cp (e2i ) minCP}
20
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系种子集抽取(7)
实验数据
种子实体e1:Top-500
关系类型R:9种
• 夫妻关系、经纪人关系、合作关系
• 情侣关系、父母-子女、好友关系
• 角色扮演、兄弟姐妹、伯乐关系
评价标准
n
(N p )
每类随机选取100个进行人工评价
P
某类抽取正确的元组数
准确率、平均准确率 Precision 某类抽取的所有元组数
N
不直接评价召回率,通过关系种子总数间接反映
avg
i
i 1
n
i 1
21
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
i
i
22
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
大纲
绪论
关系类型发现
关系种子集抽取
关系描述模式挖掘
结论
23
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系描述模式挖掘(1)
基于Bootstrapping的关系描述模式挖掘
关系元组
关系元
组集
特征词
集
关系描述
模式
元组过滤
大规
模语
料库
模式过滤
候选元组
抽取
关系实例
抽取
上下文模式
生成
模式泛化
24
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系描述模式挖掘(2)
上下文模式生成
<梁朝伟,刘嘉玲>
{结婚,完婚}
梁朝伟和刘嘉玲自本月21日于不丹正式结婚后,24日早上首次公开露面。
梁朝伟和刘嘉玲7月21日将于不丹完婚。
关系实例
梁朝伟/Nh 和/c 刘嘉玲/Nh 自/p 本月21日/Nr 于/p 不丹/Ns 正式/a 结婚/v
梁朝伟/Nh 和/c 刘嘉玲/Nh 7月21日/Nr 将/d 于/p 不丹/Ns 完婚/v 。/wp
候选
上下文模式
[SLOT1]/Nh 和/c [SLOT2]/Nh 自/p /Nr 于/p /Ns 正式/a/Ed53A 结婚/v/Hj51C
[SLOT1]/Nh 和/c [SLOT2]/Nh /Nr 将/d 于/p /Ns 完婚/v/Hj51C 。/wp
上下文模式
25
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系描述模式挖掘(3)
软模式生成
对任意两个上下文模式计算
最佳匹配长度(带权重的最
长公共子序列) J=7/(9+9-7)
匹配度J定义为: =0.636
J (cPi , cPj )
BestMatch(cPi , cPj )
Length(cPi ) Length(cPj ) BestMatch(cPi , cPj )
仅当匹配度大于阈值
minJaccard时,用于生成
软模式,即构造最长公共子
序列
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
上下文模式最佳匹配过程
cPi
cPj
代价
[SLOT1]/Nh
[SLOT1]/Nh
0
和/c
和/c
0
[SLOT2]/Nh
[SLOT2]/Nh
0
自/p
/Nr
10
/Nr
0
将/d
10
于/p
于/p
0
/Ns
/Ns
0
正式/a/Ed53A
结婚/v/Hj51C
10
完婚/v/Hj51C
5
。/wp
10
26
关系描述模式挖掘(4)
软模式生成及元组抽取
[SLOT1]/Nh 和/c [SLOT2]/Nh 自/p /Nr 于/p /Ns 正式/a/Ed53A 结婚/v/Hj51C
[SLOT1]/Nh 和/c [SLOT2]/Nh /Nr 将/d 于/p /Ns 完婚/v/Hj51C 。/wp
* [SLOT1]/Nh 和/c [SLOT2]/Nh * /Nr * 于/p /Ns * 结婚/v/Hj51C *
<李亚鹏,王菲,结婚>
软模式
关系元组
李亚鹏/Nh 和/c 王菲/Nh 昨日/Nt 于/p 乌鲁木齐/Ns 正式/a/Ed53A 登记
/v/Hc15A 结婚/v/Hj51C ,/wp
李亚鹏和王菲昨日于乌鲁木齐正式登记结婚,两人爱情终于修得正果!”
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
上下文模式
上下文模式
关系实例
27
关系描述模式挖掘(5)
关系元组评价
新抽取元组将作为下一轮迭代的种子
过滤噪声元组,避免错误蔓延现象
根据关系元组与特征词fw共现情况,定义元组T可
信度计算公式:
Conf (T )
fwi fwSet ( R )
OccSentence(T fwi )
OccSentence(T ) 1
仅保留可信度大于阈值minTupleConf 的元组
28
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系描述模式挖掘(6)
实验数据
RE100W:100W娱乐资讯网页
关系类型:9种
• 夫妻关系、经纪人关系、合作关系
• 情侣关系、父母-子女、好友关系
• 角色扮演、兄弟姐妹、伯乐关系
关系种子:基于Web Mining方法自动获取
评价标准
n
(N
i
pi )
Pavg i 1 n
每类随机选取100个进行人工评价
某类抽取正确的元组数
Ni
Precision
准确率、平均准确率
某类抽取的所有元组数
i 1
不直接评价召回率,通过关系元组总数间接反映
29
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
关系描述模式挖掘(7)
四组对比实验(根据关系元组过滤时机)
B:在迭代过程中不采取任何过滤措施
B+F1:每一轮获取的元组全部进入下一轮迭代,
最后对获取的所有元组进行过滤
B+F2:每一轮都对获取的元组进行过滤,可信度
超过某一阈值的元组进入下一轮迭代,而低于可信
度阈值的元组直接作为最终结果
B+F1+F2:每一轮都对获取的元组进行过滤,可
信度超过某一阈值的元组进入下一轮迭代,舍弃低
于可信度阈值的元组
30
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
31
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
32
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
大纲
绪论
关系类型发现
关系种子集抽取
关系描述模式挖掘
结论
33
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
结论
提出了全新的领域自适应的关系抽取研究框架
提出了基于特征词聚类的关系类型发现
提出了基于Web Mining的关系种子集抽取
采用了基于Bootstrapping的关系描述模式挖
掘
提出了裁剪的上下文模式表示方法
提出了基于最佳匹配的软模式生成策略
搭建了人物社会关系抽取演示系统
人脉搜索
34
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心
请各位老师批评指正
谢谢!
哈工大社会计算与信息检索研究中心