Entity Disambiguation in Web Text

Download Report

Transcript Entity Disambiguation in Web Text

Web文本中的实体消歧
韩先培
[email protected]
信息检索研究室, 中国科学院软件研究所
提纲
研究背景
实体聚类消歧




语义知识挖掘
基于语义的实体消歧
实体链接消歧



基于实体-提及模型的实体链接
基于图的协同实体链接
总结与展望

2
信息检索研究室-中科院软件所
提纲
研究背景
实体聚类消歧




语义知识挖掘
基于语义的实体消歧
实体链接消歧



基于实体-提及模型的实体链接
基于图的协同实体链接
总结与展望

3
信息检索研究室-中科院软件所
背景(1): 实体歧义

实体歧义指的是同一名字在不同上下文中可对应
不同的实体
MJ1: Michael Jordan is a researcher in machine learning.
MJ2: Learning in Graphical Models: Michael Jordan
MJ3: Michael Jordan wins NBA MVP.
MJ4 : Michael Jordan plays basketball in Chicago Bulls.

给知识工程、信息检索和自然语言理解等任务带
来问题
4
背景(2):连接文本和知识

Web上有许多迅速增长的大规模知识库




Wikipedia, Freebase, Yago, DBPedia, etc.
百度百科、互动百科等等
这些知识库包含了丰富的实体、属性和关系知识
利用这些知识库中的知识


前提:连接文本中的实体与知识库中的实体
可为基于知识的NLP和IR系统提供关键基础
5
IR Laboratory, ISCAS
During his standout career at Bulls ,
Jordan also acts in the movie Space Jam .
Knowledge Base
Basketball Player
Sport Organization
IS-A
IS-A
NBA Player
NBA Team
IS-A
IS-A
Employer-of
Michael Jordan
Actor-of
Space Jam
Chicago Bulls
IS-A
NBA
Part-of
命名实体消歧形式化

一个命名实体消歧系统是一个六元组

待消歧名字集合N,如{乔丹,李鹏, …}

目标实体集E,如{NBA球星乔丹,Berkeley教授
乔丹,爱尔兰政治家乔丹…}

消歧文档集D,如Web网页集,乔丹的前100个搜
索结果,…

实体指称集O,即实体名在D中的出现加上下文,
如{(乔丹,…十大灌篮), (乔丹,NBA统计数据),…}

背景知识库K,如维基百科

消歧义算法:
命名实体消歧方法
 实体聚类消歧
 目标实体列表E没有给定
 把所有指称项聚类
 聚出来的每一个类别对应一个单独的实体
 实体链接消歧
 目标实体列表E给定
 将实体指称项与其在实体表中对应实体进行链接
实现消歧
8
命名实体消歧方法(实例)
(a) Ëĸö "Michael Jordan"
Ö¸³ÆÏî
1. Michael Jordan is the
greatest NBA player
2. Michael Jordan (Univ.
of California, Berkeley,
USA)
3. NBA.com: Michael
Jordan Bio
4. Michael Jordan is an
English football goalkeeper
born in Enfield
(b) »ùÓÚ¾ÛÀàµÄÃüÃûʵÌå ÏûÆç½á¹û
2. Michael Jordan (Univ.
of California, Berkeley,
USA)
¾ÛÀà1
4. Michael Jordan is an
English football goalkeeper
born in Enfield
1. Michael Jordan is the
greatest NBA player
3. NBA.com: Michael
Jordan Bio
¾ÛÀà3
¾ÛÀà2
(c) »ùÓÚʵÌå Á´½Ó
µÄÃüÃûʵÌå ÏûÆçÏ µÍ³
Michael Jordan
Basketball Player
1. Michael Jordan is the
greatest NBA player
Michael Jordan
Football Player
3. NBA.com: Michael
Jordan Bio
Michael Jordan
Irish Politician
....
9
֪ʶ¿â
4. Michael Jordan is an
English football goalkeeper
born in Enfield
2. Michael Jordan (Univ.
of California, Berkeley,
USA)
NIL Entity
提纲


研究背景
实体聚类消歧



实体链接消歧



语义知识挖掘
基于语义的实体消歧
基于实体-提及模型的实体链接
基于图的协同实体链接
总结与展望
10
信息检索研究室-中科院软件所
现有方法


关键在于如何计算实体指称项之间的相似度
传统方法通常采用词袋子模型进行计算

实体指称项之间的相似度由词的同现决定
MJ1:Michael Jordan is a NBA player
MJ2:Michael Jordan wins NBA MVP

有时通过抽取实体属性来扩展特征或进行约束

11
如人物的出生日期,职业,单位,出生地等
现有方法缺点

基于词袋子模型的相似度忽略了大部分的语义
知识,如

概念之间的语义关联:
Jordan … Machine learning vs. Learning in Graphical
Models … Jordan
高性能的命名实体消歧需要有语义知识作

为支撑
词语之间的词汇化关联:
Jordan is a footballer vs. Jordan is a football player

实体之间的社会化关联
Jordan wins NBA MVP vs. Jordan … Chicago Bulls
12
问题

如何获取准确、高覆盖率的语义知识


概念之间的语义关联
如何基于语义知识构建高性能命名实体消歧
系统

13
语义相似度计算
提纲


研究背景
实体聚类消歧



实体链接消歧



语义知识挖掘
基于语义的实体消歧
基于实体-提及模型的实体链接
基于图的协同实体链接
总结与展望
14
信息检索研究室-中科院软件所
语义知识源

互联网上存在着大量的语义知识源



结构化的知识源,如Wikipedia、Freebase和OpenCyc等;
非结构化的知识源,如网页库,文本库;
但是


这些知识源通常是多源异构的
语义知识通常以隐藏的形式出现
带链接的网页
15
文本库内实体的共现次数
(NBA, Chicago Bulls): 5,630,000
(EMNLP, ACL): 108,000
(EMNLP, NBA): 484
…
如何解释这些统计量的语义?
挑战


如何从知识源中挖掘出隐藏的语义知识?
如何集成来自不同知识源的语义知识?
带链接
网页
16
文本库内实体的共现次数
(NBA, Chicago Bulls): 5,630,000
(EMNLP, ACL): 108,000
(EMNLP, NBA): 484
…
如何解释这些统计量的语义?
语义关联度
W3C
NBA
WWW Conference
0.19
0.00
Chicago Bulls
0.00
0.71
结构化知识源(Wikipedia)

大规模在线百科全书(用于捕捉概念之间的语义
关联)


超过300万个条目
超链接结构表现的语义知识



重定向页面(同义关系)
消歧页面(多义关系)
关联关系(其它超链接)
Bayesian
Chicago Bulls
network
17
Machine learning
0.74
0.00
NBA
0.00
0.71
结构化知识源(WordNet)

英语词汇知识的知识库(用于捕捉词语之间的
语言学关联)


11万英文词汇的词义
词义之间的各种语义关系,例如(kind of),
holonym (part of), synonym等
university
school
0.67
science
0.10
research
0.54
0.39
18
非结构化知识源(文本库)

大量文本的集合,如Web网页库


基于模糊集合理论,使用文本库的实体同现信息
来捕捉命名实体之间的社会化关联
使用Google Similarity Distance进行计算
共现次数
(NBA, Chicago Bulls): 5,630,000
(EMNLP, ACL): 108,000
(EMNLP, NBA): 484
…
如何解释这些统计量的语义?
19
WWW Conference
Chicago Bulls
W3C
0.19
0.00
NBA
0.00
0.71
问题

知识源的多源异构性




包含不同的概念:Wikipedia包含实体概念,
WordNet包含通用概念
包含不同的关系:Wikipedia包含实体概念之间关联
关系,WordNet包含词语之间的词汇关系
解决方法:融合多源信息的语义关联
大部分语义知识隐藏在复杂结构中

20
解决方法:结构化的语义关联
语义图

处理知识源的多源异构性

统一的语义知识表示模型

图的节点表示独立概念

图的边表示概念之间是否存在语义关系

边的权重表示语义关系的强度
21
语义图(示例)
22
结构化语义关联(1)

语义图中语义知识的挖掘和融合算法

语义图中语义知识的两种表现形式

语义图的边(显式语义知识)——建模了所有从
知识源中直接抽取出的概念之间的显式语义关联

语义图的结构(结构化语义知识)——建模了概
念之间的隐藏语义关联
23
结构化语义关联(2)

计算原则:“如果一个概念的关联概念与另一
个概念存在语义关联,则这个概念也与另一个
概念存在语义关联”


传递性:语义关联在图中是传递的
递归性:计算原则是递归地,选取语义图边信息
作为递归开始点
Sij   
lNi
Ail
Slj   Aij
di
邻居节点传递
24
显式语义关联
结构化语义关联(示例)
Researcher
Researcher
---
GM
0.50 0.27
Learning
0.31
CS
0.50
---
0.62
0.73
GM
0.27
0.62
---
0.80
Learning
0.31
0.73 0.80
挖掘出的隐藏语
义关联
25
CS
---
提纲


研究背景
实体聚类消歧



实体链接消歧



语义知识挖掘
基于语义的实体消歧
基于实体-提及模型的实体链接
基于图的协同实体链接
总结与展望
26
信息检索研究室-中科院软件所
研究成果


基于结构化语义关联的相似度计算

实体指称项的概念向量表示

概念对齐

相似度计算
在相似度计算中加入概念之间的语义关联,有
效提升实体消歧系统的性能
27
指称项的概念向量表示

每一个实体指称项被表示为概念的向量


每一个特征都是真实意义上的语义单元
概念权重取决于它与表示中其它概念的语义关
联度
Researcher
(0.42)
Machine
learning(0.54)
Art ificial
int elligence(0.51)
MJ1
MJ1:
Michael Jordan is a leading researcher in machine
learning and artificial intelligence.
MJ2: Michael Jordan has published over 300 research articles on
Research
St at ist ics
Comput er science
Cognit ive
MJ2
topics
in computer
science,
statistics
and
cognitive
science
(0.47)
(0.52)
(0.52)
science(0.51)
28
概念对齐

识别两个指称项概念表示之间的对齐关系

对每一个概念c,将其与另一表示中与其有最大语
义关联度的概念对齐

处理表示的稀疏问题,以及概念的对应关系
MJ1
MJ1
MJ2
MJ2
29
Researcher
Researcher
(0.42)
(0.42)
Machine
Machine
learning(0.54)
learning(0.54)
Artificial
Artificial
intelligence(0.51)
intelligence(0.51)
Research
science
Research Statistics
Statistics Computer
Computer
science Cognitive
Cognitive
(0.47)
(0.52)
(0.52)
science(0.51)
(0.47)
(0.52)
(0.52)
science(0.51)
相似度计算(1)

一个指称项到另一个指称项的语义关联被定义
为“所有对齐概念语义关联的带权平均”
权重
30
概念语义关联
相似度计算(2)

考虑到对齐的非对称性,两个指称项之间的相
似度被定义为从ol到ok的和从ok到ol的语义关联
度平均
1
SIM (ok , ol )   ( SR(ok  ol )  SR(ol  ok ))
2
• 相似度考虑了两个方面:
- 表示中概念的对应关系
- 指称项概念的语义关联
31
实体指称项聚类算法


实体指称项根据它们之间的相似度进行聚类
相似度阈值通过留一测试(Leave-one-out)确定
Distance
MJ1
32
MJ2
MJ3
MJ4
实验


使用WePS数据集测试
使用结构化关联语义核的实体相似度能够提升
10.7%的消歧性能
33
vs. State-of-Art
与WePS1系统性能对比
34
与WePS2系统性能对比
提纲


研究背景
实体聚类消歧



实体链接消歧



语义知识挖掘
基于语义的实体消歧
基于实体-提及模型的实体链接
基于图的协同实体链接
总结与展望
35
信息检索研究室-中科院软件所
实体链接

将文本中实体提及与其知识库中的所指进行链
接实现消歧



考虑到实体链接依赖于大量背景知识,提出


知识库作为真实世界的映射
实现文本到知识的连接
基于实体-提及模型的实体链接算法
考虑到篇章中实体之间的主题一致性,提出

36
基于图的协同实体链接算法
信息检索研究室-中科院软件所
实体链接--Demo
文本
迈克尔·乔丹
:
美国
NBA
著名
篮球
运动员,他为
联盟
带来至少100
亿的收入,也
把
耐克公司
从一家小公司
…
37
知识库
ID: 00000002
Name:
迈克尔·乔丹
Category:
Basketball Player
Description: “美国NBA著名篮球
运动员,被称为“空中飞人,…”
ID: 00010992
公民
Name:
美利坚合众国
Category :
Country
Description: “是一个宪政联邦
共和制国家,…”
球员
位于
赞助商
ID: 10010974
Name: National Basketball Association
Category :
Basketball Association
Description: “美国第一大职业篮球联
盟,…”
ID: 50610007
赞助商
Name:
耐克公司
Category :
Sportswear Company
Description: “全球著名的体育用品公
司,…”
信息检索研究室-中科院软件所
提纲


研究背景
实体聚类消歧



实体链接消歧



语义知识挖掘
基于语义的实体消歧
基于实体-提及模型的实体链接
基于图的协同实体链接
总结与展望
38
信息检索研究室-中科院软件所
基于实体-提及模型的实体链接

实体链接依赖于大量背景知识

实体的Popularity(知名度)知识


实体的名字知识


IBM比全称International Business Machines更容易
作为IBM公司的名字出现
实体的上下文知识


新闻中更可能出现朱德(将军),而不是朱德(理发
师)
词NBA更可能出现在NBA球星乔丹周围,而不是机器
学习教授乔丹
提出了实体-提及模型来融合上述异构知识
39
信息检索研究室-中科院软件所
ACL 会议
﹖
√
╳
﹖
候选链接实体
知名度
名字知识
上下文
Association for
Computational
Linguistics
经常说起
ACL协会
通常被叫做
ACL
ACL协会每年组织
一次 会议
Atlantic City
几乎不谈起
只在车站代
Line 从没组织过
亚特兰大的
码上叫做
关键在于如何建模实体的知名度知识、名字知识和上
会议
城市快轨
ACL
Atlantic City
Line
下文知识
实体-提及模型(EM Model)
在实体-提及模型中,每一个命名性提及m都
被 建 模 为 通 过 下 述 生 成 过 程 (generative
story)产生的样本 :
KB
1. EM Model根据实体的知名度 P(e)选
取提及m的目标实体e
NBA球星迈克
尔乔丹
实体的知名度知识、名字知识和上下文知识依次被建
2. EM Model 根 据 实 体 的 名 字 知 识
模为概率分布P(e), P(s|e), P(c|e) 乔丹
P(s|e)选取提及m的名字 s
3. EM Model根据实体的上下文知识
P(c|e)输出提及m的上下文c
41
乔丹在1984
年加入NBA
信息检索研究室-中科院软件所
基于实体-提及模型的实体链接

基于上述模型, 实体e是提及m目标实体的概率:
P (m ,e ) = P (s ,c ,e ) = P (e )P (s | e )P (c | e )

模型选择能最大化条件概率P(e|m)的实体e作
为其提及m的目标实体
P (m , e )
e  argmax
 argmax P (e )P (s | e )P (c | e )
e
e
P (m )
42
信息检索研究室-中科院软件所
模型估计
Graph based Interdependence Modeling
训练语料
 训练语料是基于Wikipedia超链接结构构建的语料
 共包含超过23,000,000标注好的实体链接语料
ID
实体名
链接实体
1
Jordan
Michael Jeffrey
Jordan
2
NBA
National
Basketball
Association
…
…
…
上下文
… wins his first NBA MVP in
1991.
… is the pre-eminent men's
professional basketball league.
…
实体知名度模型—P(e)

建模“特定实体的知名度”的知识,我们
将其量化为在文章中提起该特定实体的概
率P(e)

某种程度上是实体e作为提及m目标实体
的先验概率
实体知名度模型

一个更知名的实体会在大文档集(如Web)中出
现更多次,因此P(e)可以通过如下方式估计 :
实体e出现次数
Count (e)  1
P(e) 
M N
所有实体的出现
次数
实体
知名度度
NBA
1.73*10-5
Michael Jordan(NBA player)
8.21*10-6
Michael Jordan(Berkeley Professor)
7.50*10-8
实体名字模型– P(s|e)

建模“我们如何称呼一个实体”的知识
 许多种方式: 全名, 别名, 缩写或者拼写错误

是处理实体名字多样性问题的关键知识
实体名字模型


我们假设实体名s是实体全名f的一个IBM模型1翻
译
一个词可以通过如下方式翻译




保持原始形式: 迈克尔 迈克尔
缩写: 亲爱的 亲
省略: 温家宝 总理  … 总理
翻译为其它词语:乔丹 佐顿,乔丹神
实体名字模型

基于IBM translation model I,使用Giza++训
练
Full name word
Michael
Michael
Michael
Jordan
Jordan
St.
Name word
Michael
M
Micheal
Jordan
J
NULL
Probability
0.77
0.008
2.64*10-4
0.96
6.13*10-4
0.14
实体上下文模型—P(c|e)

建模“我们谈论实体的哪些内容”

提供消歧的核心证据



词NBA的出现可以为乔丹指向NBA球星乔丹
提供多少证据?
词统计的出现可以为乔丹指向机器学习教授
乔丹提供多少证据?
如果同时出现词NBA和统计呢?
实体上下文模型

将P(c|e)表示为语言模型

一个实体的上下文被建模为一个一元语言模型
M e  {Pe (t )}
Pe(t) 是词 t 出现在实体e上下文中的概率.

P(c|e)计算方式如下 :
P(c | e)  P(t1t2 ...tn | M e )  Pe (t1 ) Pe (t2 )....Pe (tn )
实体上下文模型
实验性能
EM Model
Learn2Link
Topic Index
BoW
EM Model
Learn2Link
信息检索研究室-中科院软件所
53
Topic Index
BoW
准
确
率
提纲


研究背景
实体聚类消歧



实体链接消歧



语义知识挖掘
基于语义的实体消歧
基于实体-提及模型的实体链接
基于图的协同实体链接
总结与展望
54
信息检索研究室-中科院软件所
协同实体链接

实体-提及模型忽略了实体链接任务之间的依
存关系(Dependency)


单篇文本内的实体与文档的主题紧密相关
因此单篇文本内提及的目标实体应该语义相关
Jordan
语义相关
利用目标实体之间的语义关联,协同链接单篇文本内
Bulls
的所有提及能有效提升实体链接性能
During his standout
career
Michael Jordan
at Bulls, Jordan also acts
in the movie Space Jam.
Chicago Bulls
Space Jam
55
Space
Jam
信息检索研究室-中科院软件所
协同实体链接

提出基于图的协同实体链接算法

协同实体链接的关键在于:


如何准确的建模不同实体链接决策之间的相关性

如何利用上述相关性构建更准确的链接决策
针对上述问题,提出

依存表示模型—Referent Graph(指称图)

图上的协同推导算法
56
信息检索研究室-中科院软件所
指称图表示
Graph based Interdependence Modeling
用于实体链接决策的信息

实体指称项m的局部上下文m.C

指称项m的上下文与实体e越相关, m越可能链接到实
体e



上下文中出现论文,课程这些词,则乔丹更有可能指向机
器学习教授乔丹,而不是篮球明星乔丹
实体-提及模型的生成概率,TFIDF相似度
实体之间的语义相关性

与同一篇文本中其它实体更语义相关的实体更有可能
是m的目标实体

出现实体芝加哥公牛队的文章也更有可能出现篮球明星乔
丹,而不是机器学习教授乔丹
58
IR Laboratory, ISCAS
Referent Graph表示


一个权重图G=(V, E)
包含两种类型的实体(V)



包含两种类型的边(E)



命名性提及节点
实体节点
提及-实体:提及上下文与实体描述的相似度
实体–实体:实体之间的语义相关度
链接决策之间的依存关系被表示为Referent
Graph的图结构
59
信息检索研究室-中科院软件所
Referent Graph --Demo
局部依存
全局依存
Space Jam
Mention
0.20
Entity
Space Jam
Michael I. Jordan
0.03
0.66
Bulls
0.13
Chicago Bulls
Michael Jordan
0.08
Jordan
0.82
0.01
0.12
Bull
60
Michael B. Jordan
信息检索研究室-中科院软件所
协同实体链接
Random Graph Walk based Collective Inference
实体链接的推导问题

给定一篇文档的所有提及集合M,找出他们的
目标实体


给定文章中的提及 {Bulls, Jordan, Space Jam},
他们所指向的实体是什么?
满足约束:一个指称项的目标实体应当


与实体指称项的局部上下文一致
与文档中的其它目标实体语义相关
62
IR Laboratory, ISCAS
“Chicken-and-Egg”问题

上述推导是一个“Chicken-and-Egg”问题

如果已知其它目标实体,则可很容易的推导出当
前提及的目标实体

但是反过来其它提及的目标实体又依赖于当前提
及的目标实体
协同推导

我们利用协同推导解决上述“Chicken-and-Egg”
问题

首先,系统从实体e是文档d的目标实体的初始证
据出发,

然后系统利用链接决策之间的相关性自增强正确
的决策(正确的决策之间都紧密相关)

最后,挑选那些具有最高概率的决策
初始证据


在Referent Graph中,初始证据是可观测节点—
提及
对每一个提及,系统根据其在文档中的重要性
(TFIDF)进行打分
65
IR Laboratory, ISCAS
证据传递方式 —(提及-实体)

从提及传递证据到实体


如果一个实体与某个提及局部一致,则有可能是
目标实体
局部一致性越高,传递的比率越大
从m到e的证
据传递比率
66
IR Laboratory, ISCAS
m和e之间的
局部一致性
证据传递—(提及-实体)示例
Evidence
0.0325
0.0875
0.13
13%
35%
52%
证据传递方式—(实体-实体)

在相关的决策之间传递证据


如果一个实体与其它目标实体语义相关,则可能
是目标实体
与其它目标实体越相关,则越可能
实体ei 到ej证
据传递比率
68
IR Laboratory, ISCAS
实体ei ej之间
的语义相关性
证据传递—(实体-实体)示例
0.1784
44.6%
0.2216
0.4
55.4%
协同推导算法

从提及中包含的初始证据出发
r s
0

通过将证据在Referent Graph上的依存结构上
传递来协同增强证据直至收敛
r t 1  (1   )  T  r t    s
在时间
t+1的证据
70
证据传递率矩阵(Referent
Graph的归一化相邻矩阵)
证据重
分配率
初始
证据
信息检索研究室-中科院软件所
基于图的协同实体链接

最后,命名性提及m的目标实体通过最大化如
下公式确定:
提及m的目
标实体
71
局部一致性:
上下文相似度
全局一致性:与篇章中其它
目标实体的相关度
信息检索研究室-中科院软件所
实验结果



与词袋子模型的局部一致性的方法相比, 提升了
28%-36% 的F1值
与关系型局部一致性方法相比,提升了21% 的F1值
与Pair-wise的协同实体链接方法相比, 提升了4%
的F1值,并且克服了计算复杂性问题
72
信息检索研究室-中科院软件所
提纲


研究背景
实体聚类消歧



实体链接消歧



语义知识挖掘
基于语义的实体消歧
基于实体-提及模型的实体链接
基于图的协同实体链接
总结与展望
73
信息检索研究室-中科院软件所
展望



长尾上的实体消歧

现有的消歧系统通常只对重要实体进行消歧

将Web文本中实体与长尾上的实体,如sina微博、
Facebook上的用户相连,可创造广阔的应用前景
概念/实体的发现(Discovery)

在实体消歧的同时发现新出现的实体

可以与知识库构建相互补充,从而滚动式的构建
大规模知识库
概念/实体级别的IR和NLP技术与应用
74
敬请各位批评和指导 !
[email protected]
75
信息检索研究室-中科院软件所