Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

Download Report

Transcript Adaptive Topic Tracking Based on Dirichlet Process Mixture Model

基于Dirichlet过程混合模型的自适应话
题追踪
Adaptive Topic Tracking Based on Dirichlet Process
Mixture Model
王婵 王小捷 袁彩霞
北京邮电大学
大纲
•
•
•
•
•
引言
基于DPMM的自适应话题追踪
基于DPMM的传统话题追踪
实验及结果分析
结论
大纲
•
•
•
•
•
引言
基于DPMM的自适应话题追踪
基于DPMM的传统话题追踪
实验及结果分析
结论
引言
• 话题识别与追踪(TDT):有效的信息组织和加工手段
• 话题跟踪:TDT的一个子任务
– 针对给定待测话题,判断后续报道是否和待测话题相关,从而不
断获取待测话题的相关报道流来丰富这些待测话题的信息
• 一般实现流程:
– 报道/话题的模型化
– 相关度计算
– 相关度比较
引言
• 传统话题追踪(TTT):
– 根据已有的种子报道进行话题建模,建成后的话题模型在追踪过
程中保持不变
• 话题漂移现象:
– 种子报道少量
– 话题是逐渐进展的:随着时间发展,同一话题的内容逐渐丰富,
焦点也会逐渐转移
• 自适应话题跟踪(ATT) :
– 根据相关报道更新话题模型,更新后的话题模型作为判断后续报
道相关性的基础,从而实现话题跟踪的自学习功能
引言
• 更新手段
– 为话题模型嵌入新的相关特征
– 动态调整话题模型的特征权重
– 同时进行
• 优点
– 一定程度上削弱由种子报道数量有限而造成的话题模型不完整
• 缺点
– 跟踪反馈同时包含相关报道和不相关报道,已有自适应方法的学
习过程就会将不相关信息也嵌入话题模型。新的话题模型因为包
含过多不相关信息,已经偏离了待测话题的内容,从而导致话题
偏离现象
•
基于可信度的自适应话题追踪模型
– 利用“可信度”的度量参数控制跟踪反馈的影响
引言
• 本文工作:
– 一种基于有效结合待测话题信息的DPMM的自适应话题追踪方案
• 特点:
– 利用DPMM估计报道和待测话题的相关度,使其适用于话题追踪
任务
– 通过一种新的自适应学习机制,不仅有效地解决了话题漂移问题,
并且可以有效地抑制已有自适应算法带来的话题偏离现象
大纲
•
•
•
•
•
引言
基于DPMM的自适应话题追踪
基于DPMM的传统话题追踪
实验及结果分析
结论
基于DPMM的ATT
• 计算待处理报道S和待测话题Zi的相关度(一元语言模型)
P( w j | Z i )
P( S | Z i ) P( Z i )
P( Z i | S ) 
 {
}P( Z i )  { P( w j | Z i )}P( Z i )
P( S )
P( w j )
w j S
w j S
(2)
• 使用DPMM估计参数P(Zi)和P(wj|Zi)
• DPMM图模型:
α
β
θ
φ
Z
w
N
GIBBS抽样
• 利用Gibbs抽样实现模型参数的推理
– wj:待处理文本中的第j个特征,对应的话题标记为Zj。根据贝叶斯理论
,可以得到对Zj抽样所使用的条件分布公式:
P(Z j | Z  ,W )  P(Z j | Z  )P(w j | Z ,W  )
(3)
– W-:除去wj以外的特征
– 已知其他特征的话题的前提下,wj属于一个已有的话题或者新话题的先
验满足:
 , if z  z new

P( Z j  z | Z )  {
n, z , otherwise
(4)
– 话题生成特征wj的概率满足
P(wj  w | Z ,W  )  nw, z  
(5)
ATT模型描述
• 自适应机制
– 为了防止话题偏离,由种子报道建立的初始话题模型保持不变。本文为
跟踪反馈赋予一个“可信度”的度量参数,用M_reli表示。在ATT实现过程
中,初始话题模型和跟踪反馈在设定的可信度条件下同时影响报道与待
测话题的相关度计算。
• 基本思路
– 扩展DPMM,在进行话题追踪的过程中考虑跟踪反馈的影响。
ATT模型描述
• ATT图模型
– 引入参数:指导信息;St:t时刻处理的报道; GIt:t时刻对模型的指导信
息;GI0:待测话题的种子报道构成的先验信息
α
α
α
θ
θ
θ
Z
Z
Z
…… GIt-1
……
GIt+1
GIt
w
Nt+1
w
Nt-1
w
φ
φ
φ
β
β
β
Nt
– 生成过程和DPMM的区别:模型假设θ和φ受到GIt的影响。GIt和St的处理
结果共同决定t+1时刻的指导信息GIt+1
– 指导信息包含两个部分:待测话题的种子报道构成的先验知识和跟踪反
馈。在ATT模型中,它们分别以不同的方式指导话题追踪过程
ATT算法流程
• 首先为每个待测话题Zi创建一个对应的话题Zi+
• Col_ Zi+ :跟踪反馈中,话题Zi相关报道的集合。
– 话题追踪开始前, Col_ Zi+是空集
ATT算法流程
报道
{Z1,…,Zi,…,Zk}
改进Gibbs抽样
+
特征→话题
转化计算
报道→话题
话题
+
t时刻,话题追踪的具体实现流程:
1. 改进Gibbs抽样过程,使其进行参数推
理时融入待测话题信息,从而实现了
融入话题先验知识的DPMM建模。
a.
随机初始化
b.
基于话题先验知识的Gibbs抽样
+
{Z1 ,…,Zi ,…,Zk }
ATT算法流程
•基于话题先验知识的Gibbs抽样
报道
{Z1,…,Zi,…,Zk}
改进Gibbs抽样
特征→话题
{Z1+,…,Zi+,…,Zk+}
抽样过程考虑待测话题的先验知识对当
前特征的影响
,
if z  z new

P( Z j  z | Z )  {
n, z  ncol _ z , otherwise
(6)
n-,z : St对应的特征集合中,除去当前特
征以外,话题z包含的特征个数
Col_z: 包含的报道对应的特征集合
转化计算
报道→话题
nCol_z: : Col_z包含的特征个数
P(wj  w | Z ,W  )  nw, z  nw,col _ z  
(7)
话题
nw,z : St对应的特征集合中,除去当前特
征以外,z,w关联的次数
nw,Col_z: : Col_z包含w的个数
ATT算法流程
报道
{Z1,…,Zi,…,Zk}
改进Gibbs抽样
+
特征→话题
转化计算
报道→话题
话题
+
+
{Z1 ,…,Zi ,…,Zk }
t时刻,话题追踪的具体实现流程:
1. 改进Gibbs抽样过程,使其进行参数推
理时融入待测话题信息,从而实现了
融入话题先验知识的DPMM建模。
a.
b.
c.
随机初始化
基于话题先验知识的Gibbs抽样
达到稳定状态,抽样结束
ATT算法流程
报道
{Z1,…,Zi,…,Zk}
改进Gibbs抽样
+
特征→话题
+
+
{Z1 ,…,Zi ,…,Zk }
t时刻,话题追踪的具体实现流程:
1. 改进Gibbs抽样过程,使其进行参数推
理时融入待测话题信息,从而实现了
融入话题先验知识的DPMM建模。
a.
b.
c.
随机初始化
基于话题先验知识的Gibbs抽样
达到稳定状态,抽样结束
转化计算
报道→话题
话题
通过改进,每一次抽样都受到话题先验
知识的影响。因此,DPMM建模过程中融
入了待测话题的先验知识,从而实现了
指导信息中的待测话题先验知识对话题
追踪的指导。
ATT算法流程
报道
{Z1,…,Zi,…,Zk}
改进Gibbs抽样
a.
+
特征→话题
转化计算
报道→话题
话题
1)步得到St的特征-话题信息
2. 将对应话题Zi+加入待测话题集合,
{Z1,…, Zk , Z1 +,…, Zk +}。特征-话题到St
-话题的转化计算
+
+
{Z1 ,…,Zi ,…,Zk }
估计式(2)中的参数:P(Zi)和
P(wj|Zi)
ATT算法流程
•估计式(2)中的参数:P(Zi)和P(wj|Zi)
借鉴公式(7)
报道
{Z1,…,Zi,…,Zk}
改进Gibbs抽样
j
+
特征→话题
转化计算
报道→话题
话题
P ( w j | Z i )  N w j , Z i  n w , col _ Z  
+
+
{Z1 ,…,Zi ,…,Zk }
i
(8)
Nw,z : 抽样结束后,St对应的特征集合中,
话题z包含w的个数
nw,Col_z:: Col_z包含w的个数
P(Zi )  NZi  ncol _ Zi
(9)
Nz : 抽样结束后, St对应的特征集合中,
话题z包含特征的个数
nCol_z:: Col_z所有特征的数目
ATT算法流程
报道
{Z1,…,Zi,…,Zk}
改进Gibbs抽样
a.
+
特征→话题
转化计算
报道→话题
话题
1)步得到St的特征-话题信息
2. 将对应话题Zi+加入待测话题集合,
{Z1,…, Zk , Z1 +,…, Zk +}。特征-话题到St
-话题的转化计算
+
+
{Z1 ,…,Zi ,…,Zk }
b.
估计式(2)中的参数:P(Zi)和
P(wj|Zi)
联合公式(2),(8)和(9)计算报
道St和每个话题的相关度
ATT算法流程
报道
{Z1,…,Zi,…,Zk}
改进Gibbs抽样
+
特征→话题
+
+
{Z1 ,…,Zi ,…,Zk }
•联合公式(2),(8)和(9)计算报道
St和每个话题的相关度: {p(Z1 | S t),…,
p(Zk |S t) , p(Z1 + | St),…, p(Zk + | St)}。
• St和已知待测话题Zi的相关度
p_Adaptive(Zi |S t)的衡量公式为
P _ Adaptive ( Z i | S ) 
转化计算
(1  M _ reli ) * P ( Z i | S )  M _ reli * P ( Z i | S )
(10)
报道→话题
M_reli:跟踪反馈的可信度
话题
初始话题模型是依赖先验知识建立的,
而跟踪反馈可能包含不相关报道,
M_reli<0.5
ATT算法流程
报道
{Z1,…,Zi,…,Zk}
改进Gibbs抽样
a.
+
特征→话题
转化计算
报道→话题
话题
1)步得到St的特征-话题信息
2. 将对应话题Zi+加入待测话题集合,
{Z1,…, Zk , Z1 +,…, Zk +}。特征-话题到St
-话题的转化计算
+
+
{Z1 ,…,Zi ,…,Zk }
b.
估计式(2)中的参数:P(Zi)和
P(wj|Zi)
联合公式(2),(8)和(9)计算报
道St和每个话题的相关度
依据公式(10),本步实现了指导信息
中的跟踪反馈对话题追踪的指导
ATT算法流程
3.
报道
{Z1,…,Zi,…,Zk}
改进Gibbs抽样
特征→话题
转化计算
报道→话题
话题
{Z1+,…,Zi+,…,Zk+}
选取相关度最大的话题作为St所属的
话题, St加入到所属话题对应的相关
报道集合中。
•
如果St和新话题的相关度最大,则与
任何一个待测话题都不相关。
大纲
•
•
•
•
•
引言
基于DPMM的自适应话题追踪
基于DPMM的传统话题追踪
实验及结果分析
结论
基于DPMM的TTT
• 基于DPMM的ATT图模型,取消跟踪反馈的指导作用,就可以
得到基于DPMM的TTT图模型
α
• 指导信息GI仅仅包含由待测话题种
θ
子报道所构成的先验知识,并一直
保持不变
Z
GI
w
N
φ
β
大纲
•
•
•
•
•
引言
基于DPMM的自适应话题追踪
基于DPMM的传统话题追踪
实验及结果分析
结论
实验及结果分析
• 评价机制
– TDT评测指标:误报率和漏报率加权求和的检测错误开销CDet
• 实验数据
– TDT3语料中的中文语料
• 实验设置
– 种子报道个数为1
– 实验分为两部分:
• TTT性能评测
• ATT性能评测
– 四种特征选择方式
• term_c:实义词组成
• term_n+v:名词和动词
• term_n:名词
• term_v:动词
TTT性能评测
• 考察DPMM中的参数和不同的特征表示方式对话题追踪模型
(D_TTT)的影响
1
α值变化时,term_v、term_c、term_n+v、term_n系统的值分别集中在
[0.81, 0.85]、[0.40,0.43]、[0.37,0.40]、[0.30,0.34]之间。这个
结果说明了在固定特征选择方式的条件下,DPMM的模型参数的变化对
D_TTT系统效果的影响很小
TTT性能评测
• 考察DPMM中的参数和不同的特征表示方式对话题追踪模型
(D_TTT)的影响
2
在不同的特征表示方式中,term_n效果最好(0.3095),term_v
(0.8135)效果最差,term_c(0.4014)和term_n+v(0.3789)介于二
者之间。由此可知,仅仅使用动词很难表征报道内容,同时验证了优化
特征选择算法对提高话题追踪的效果有很大的帮助。
TTT性能评测
• 对比基于一元语法模型的TTT模型(B_TTT)和基于DPMM的
TTT模型(D_TTT)的话题追踪效果
1
B_TTT和D_TTT系统都在仅仅选择动词作为特征的时候效果最差。
这一结论再次验证文本特征选择在话题追踪中的重要性
TTT性能评测
• 对比基于一元语法模型的TTT模型(B_TTT)和基于DPMM的
TTT模型(D_TTT)的话题追踪效果
2
在四种特征选择条件下,D_TTT系统追踪效果都优于B_TTT系统。
最佳性能:
• D_TTT:0.3095;B_TTT:0.3989
将DPMM应用到话题追踪任务中来可以提高话题追踪的效果
ATT性能评测
• 考察基于DPMM自适应话题追踪模型(D_ATT)在不同可信度前提下的效
果。选取名词为特征。
– 红点:D_TTT系统的最佳追踪性能(0.3095)
1
M_reli<0.5,D_ATT系统追踪性能都优于D_TTT系统
M_reli=0.2,最佳性能(0.1599)
验证了本文提出的ATT算法可以在一定程度上解决话题漂移问题
ATT性能评测
• 考察基于DPMM自适应话题追踪模型(D_ATT)在不同可信度前提下的效
果。选取名词为特征。
– 红点:D_TTT系统的最佳追踪性能(0.3095)
2
M_reli>0.5,D_ATT追踪代价明显增大,甚至远大于D_TTT的追踪代价。
• 原因:参考公式(10),初始话题模型以(1-M_reli)的程度,
跟踪反馈以M_reli的程度影响追踪结果。初始话题模型是依赖
先验知识建立的,所以是绝对可以信赖的,而跟踪反馈可能包
含不相关报道。因此一旦大于0.5,跟踪反馈的影响因子比初始
话题模型的大,那么会带来最终结果的误差。
ATT性能评测
• 验证自适应算法的有效性,本节利用一种经典的自适应算法作为对比系
统(B_ATT系统):话题模型嵌入新的相关特征
1
系统类型
B_ATT
D_ATT
最佳性能
0.2260
0.1599
D_ATT系统追踪效果优于B_ATT系统,使得追踪系统最小从0.2260降为
0.1599。
验证了本文提出的自适应算法的有效性,可以抑制一般自适应算法带来
的话题偏离现象。
大纲
•
•
•
•
•
引言
基于DPMM的自适应话题追踪
基于DPMM的传统话题追踪
实验及结果分析
结论
结论
• 工作:
– 提出了一种基于有效结合待测话题信息的Dirichlet过程混合模型
(DPMM)的自适应话题追踪方案
• 方案特点
1. 利用DPMM估计报道和待测话题的相关度,实现话题追踪任务
 实验验证DPMM适用于话题追踪,可以显著提高话题追踪性能。
2. 提出一种新的基于可信度的自适应话题追踪算法
 初始话题模型没有被嵌入不相关信息,通过设置可信度的大小,始终
以比较大的影响因子影响最终话题追踪的结果,因此能够降低不相关
报道反馈带来的误差
 实验验证不仅可以在一定程度上解决了话题追踪任务中的话题漂移问
题,并且可以有效地抑制已有自适应算法带来的话题偏离现象
• 谢谢!