PGM

Transcript PGM

概率图模型
林琛
博士、副教授
引子
• Siri: iphone 4S上应用的一项语音控制功能
– 生活大爆炸（5-14-0500）
– 一段对话
“Siri, how’s the weather tomorrow in London?”
“Sunny and mild”
“How about Shanghai?”
• Judea Pearl
– 贝叶斯网络的先驱
– 奠定不确定性和因果推理在计算机等多个学科中的
地位
概率基础
• 世界上许多事情都具有不确定性。
• 概率论是研究处理这类现象的数学理论
• 用概率表示事件发生的可能性。例如，P(硬币
正面朝上)=0.5。
– 可能发生多次（频率论）
– 可能只能发生一次（贝叶斯概率）
• 随机试验的所有可能结果组成该试验的样本空
间
3/33
http://www.xmu.edu.cn
课堂测试（1）
• 事件投1次硬币的样本空间是？
• 事件投2次硬币的样本空间是？
随机变量
• 随机变量是定义在样本空间上的函数，其所有可能取值的集合称为
它的值域，也称状态空间。掷骰子试验，设X为“扔骰子实验的所
有可能结果”，则X为一随机变量.
• 对单个随机变量X，可用概率函数P(X)来描述它的各个状态的概率
• 而对于多个随机变量X1，…，Xn，则可用联合概率分布P(X1，…，
Xn)来描述各变量所有可能状态组合的概率
– 联合分布刻画了变量之间的各种关系，包含了变量关系的所有信息
• 随机变量X1在另外一个随机变量X2各个状态下的发生概率为条件概
率分布表示为P(X1| X2)
• 随机变量X1的各状态概率，与其他随机变量无关，叫做边际概率
5/33
http://www.xmu.edu.cn
乘法法则与加法法则
• 加法规则
• 乘法法则
– 事件 A,B同时发生的概率是：
• 如果X,Y不相关，则可以表示为
– P(X,Y)=P(X)P(Y)
课堂测试（2）
• 设有3个装有黑白两色球
的口袋，第一个口袋黑白
球各半，第二个口袋黑白
球比例为4：1，第三个则
全是黑球。用随机变量X，
Y，Z分别代表从这3个口
袋随机抽出的球的颜色，
w表示白，b表示黑。则联
合概率分布P(X,Y,Z)如右所
示：
• 计算
P(X=w),P(X=w|Y=b,Z=w)
X
Y
Z
P(X,Y,Z)
w
w
w
0
w
w
b
0.1
w
b
w
0
w
b
b
0.4
b
w
w
0
b
w
b
0.1
b
b
w
0
b
b
b
0.4
http://www.xmu.edu.cn
7/33
利用概率分布推理的例子
• 故事：Pearl教授家住洛杉
•
矶，那里地震和盗窃时有
发生。教授的家里装有警
铃，地震和盗窃都有可能
触发警铃。听到警铃后，
两个邻居Mary和John可能
会打电话给他。
• 问题: 一天，Pearl教授接到
Mary的电话，说听到他家
警铃响，Pearl教授想知道
他家遭盗窃的概率是多大。
常用的解决此类问题的途
径，即使用概率方法进行
不确定性推理就是：
1) 把问题用一组随机变
量来刻画；
2) 把关于问题的知识表
示为一个联合概率分布;
3) 按照概率论原则进行
推理计算。
朴素贝叶斯训练
• 训练数据集T={<x1,y1>,…,<xn,yn>}
– 由联合概率分布P(X,Y)独立同分布产生
• 朴素贝叶斯法学习以下先验概率分布及条件概
率分布
– 先验概率分布P(Y=c)
– 条件概率分布P(X=x|Y=c)
• 朴素贝叶斯假设在类别确定的条件下，各特征是条件独
立的即：
P ( X  x | Y  c )   i P ( X i  xi | Y  c )
• 降低了计算复杂度
• 但可能牺牲分类精度
朴素贝叶斯预测
• 计算后验概率P(Y=c|X=x)，将后验概率最大
的类作为类别预测输出
• 后验概率计算根据贝叶斯定理
P (Y  c | X  x ) 

P ( X  x | Y  c ) P (Y  c )
 k P ( X  x | Y  c k ) P (Y  c k )
P (Y  c )  i P ( X i  x i | Y  c )
 k P ( X  x | Y  c k ) P (Y  c k )
同样是条件独立性假设
朴素贝叶斯的损失函数
• 假设朴素贝叶斯的决策模型是f(x)
• 对于一个训练样本x，损失函数L(y,f(x))
L ( y , f ( x ))  {
1, y  f ( x )
0, y  f ( x )
• 对联合分布P(X,Y)，损失函数的期望为
E x  c [ L ( c , f ( x ))] P ( c | x )
– 最小期望损失，只需要对每个x极小化
f ( x )  arg m in y Y  c L ( c , y ) P ( c | X  x )
 arg m in y Y  c P ( y  c | X  x )
 arg m in y Y (1  P ( y  c | X  x ))
 arg m ax y Y P ( y  c | X  x )
 arg m ax c P ( y  c | X  x )
朴素贝叶斯算法
• 学习
– 估算P(y=c)和P(Xi=xi|Y=c)的概率
• 一般采用最大似然
• 预测
– 估算后验概率P(Y=c|X=x)
– 确定其中概率最大的类别标记
平滑
• 概率值为0的情况
– 未观测到的样本
– 拉普拉斯平滑 
 0，常取   1
• 对特征的条件产生概率
P ( X
j
 a | Y  c) 
N ( x j  a, y  c)  
• 对类别的先验概率
P (Y  c ) 
N (Y  c )  
N  C
N ( y  c )  A
Xj的不同特征值总数
这样确保了还是概率分布
•>0
•和为1
课堂测试（3）
• 故事：Pearl教授家住洛杉
矶，那里地震和盗窃时有
发生。教授的家里装有警
铃，地震和盗窃都有可能
触发警铃。听到警铃后，
两个邻居Mary和John可能
会打电话给他。
• 问题: 一天，Pearl教授接到
Mary的电话，说听到他家
警铃响，Pearl教授想知道
他家是否遭盗窃了
• B=盗窃，A=警铃，E=地震，
M=Mary电话，J=John电话
贝叶斯网络
• 朴素贝叶斯假设各特征间是独立的，实际上可
要多少次运算？
能是互相依赖的
（多少个参数）
• 全依赖的联合概率
2n-1
P(A,B,C,…M)=P(A)P(B|A)P(C|A,B)….P(M|A,B,C,…L)
• Pearl提出了用如下方法构造一个有向无环图
– 把每个变量都表示为一个节点；
– 对于每个节点Xi，都从跟其直接相关的节点画一条
有向边到Xi.
贝叶斯网络的链规则
P(B,E,A,J,M)
=P(B)P(E|B)P(A|B,E)P(J|B,E,A)P(M|B,E,A,J) (1)
=P(B)P(E)P(A|B,E)P(J|A)P(M|A)
(2)
要多少次运算？
（多少个参数）
1+1+4+2+2=10
P(E)
P(B)
P(E=1)
0.5
P(B=1)
0.3
P(J|A)
J
P(J=1)
P(A|B,E)
0
B
E
0
0
0
1
1
0
1
1
M
1
P(M|A)
P(A=1)
0.29
0.95
P(M=1)
0
1
• 从图中可以看出，变量A依赖于B和E，那么A具体是如何依赖于B和E的呢？
条件概率分布P(A|B,E)定量的刻画了这个问题：
1) 盗窃和地震都发生时，警铃响的概率为P(A=y|B=y,E=y)=0.95
2) 只发生盗窃但没有发生地震时，警铃响的概率为P(A=y|B=n,E=y)=0.29
3) 所有其它情形
• 类似地，P(M|A)、P(J|A)定量刻画了M和J如何依赖于A . 变量B和E不依赖于
其它变量，P(B)和P(E)给出它们的边缘分布
• 贝叶斯网络=有向五环图+条件概率表
http://www.xmu.edu.cn
16/33
贝叶斯网络的主要内容
• Inference（推理）
– 给定结构和CPT（条件
概率表）
• 可以是离散/连续型变量
• 可以结合专家知识
• 可以结合数据
– 回答下面的问题
• 已经观察到某些变量
• 回答另一些变量发生的
概率
• Learning（学习）
– 学习CPT
• 可以是某种指定概率分
布的参数
– 学习结构
– 可以是不完全数据
• 即有隐含变量
贝叶斯网络应用
• 贝叶斯网络属于产生式模型/生成模型
（Generative model）
– 目标是P(y|x)
– 步骤
• 给出贝叶斯网络
– P(y),P(x|y)的函数形式
• 学习
– 通过最大似然估计参数p(y),p(x|y)
• 推理
– 得到p(y|x)
课堂讨论
• 尝试使用贝叶斯网络建立一个自动肺癌诊
断系统
常用的概率分布函数（1）
• 离散变量
– 二元
• 假设掷硬币正面朝上（x=1）概率是u
Bernoulli分布
• 假设投了N次，则其中出现m次正面朝上的概率是
Binomial二项分布
常用的概率分布函数（2）
• 离散变量
– 多元变量
• 可以把变量表示为 (0,0,0,1,0,0)，那么和二元变量类似，结果为
xk的概率为
• 统计N次试验结果，其中第1、2…K类结果出现次数分别为
m1,m2,…mK次的概率
Multinomial多项分布
常用的概率分布函数（3）
• 连续变量
任何一种概率分布可以表示为多个高斯分布的组合
又叫做混合高斯模型
• 多元高斯分布
协方差矩阵
参数学习（1）
• 最大似然
– 频率派观点：参数是固定的
• 对于给定的数据集，参数使产生该数据集的可能性
最大（即最大似然）
• 由于参数固定，因此给定自变量x，结果y也是固定
的
课堂测试
• 二项分布的最大似然估计
假设三次掷硬币结果是『1，1，1』，则最大似然估计下参数是多少？预测
下一次掷硬币结果
最大似然估计参数u=1
每一次掷硬币结果都为正面
参数学习（2）
• 贝叶斯估计
如果数据量足够大，最大后验概率和最大似然
估计趋向于一致，如果数据为0,最大后验仅由
先验决定。
– 贝叶斯派：参数也是随机变量
• 贝叶斯法则
似然
先验概率
后验概率
– 无法找到解析解，所以一般用近似的最大后验概率
• 由于参数不固定，结果也是随机的，因此给出预测
的是期望值
课堂测试
• 假设Bernoulli分布的参数u符合一个先验分布（Beta分布）
– 参数自己设定
• 使用贝叶斯估计参数
– 并解释最大后验概率和最大似然的相关性
解释
• 贝叶斯估计的性质
• 预测下一次掷硬币结果
由于分子=a0+m，分母
=b0+N-m，所以不会=1
贝叶斯网络v.s.线性回归
贝叶斯网络v.s.Logistic回归
伯努利分布：掷硬币的分布，x=正/反
贝叶斯网络中可以有隐含变量
• 隐含变量（观测不到的变量）
– 例：假设有3枚硬币，分别记作A,B,C。这些硬
币正面出现的概率分别是o,p,q。进行如下实验
– 先掷硬币A
• 如果是正面选择硬币B
• 否则选择硬币C
– 只能记录最终结果，看不到过程（即硬币A的
结果）
– 独立重复10次试验，结果
Z
• 1，1，0，1，0，0，1，0，1，1
Y
含有隐含变量的参数估计
• 观测结果的似然函数为
P (Y | o , p , q )   Z P ( Z | o , p , q ) P (Y | Z , o , p , q )
  j [ op
y
j
(1  p )
1 y
j
 (1  o ) q
y
j
(1  q )
1 y
j
]
最大似然取log，由于log里是和，所以没有解析解
一种迭代的方法 EM算法
1. 选取初值
2. 迭代，直到收敛
1. E步：计算在给定的o,p,q参数下，观测结果来自掷硬币B的概率
2. 根据观测结果来自硬币B，C的概率重新推断o,p,q的值
EM算法
• 输入：观测变量Y，隐变量Z，联合分布
P(Y,Z|θ),条件分布P(Z|Y, θ)
• 输出：模型参数θ
可以任意初始化，但是EM算法对初值敏感
• 初始化θ
• 迭代
停止条件一般是模型参数变化收敛
– 在迭代的第i+1轮
Q ( ,  )  E
– E步
i
[log P (Y , Z |  ) | Y ,  ]
Z
i
  Z log P (Y , Z |  ) P ( Z | Y ,  )
i
– M步：求上述Q最大的θ
L ( q ,  )   Z q ( Z ) log[
EM算法原理
Q ( ,  )  E Z [log P (Y , Z |  ) | Y ,  ]
  Z P ( Z | Y ,
  Z log P (Y , Z |  ) P ( Z | Y ,  )
  Z P (Z | Y ,
i
i
i
• 挑战：P (Y |  )  
Z
old
old
P (Y , Z | theta )
q(Z )
) log P (Y , Z |  )
) log P ( Z | Y , 
old
)
P (Y , Z |  )
Log( 括号内有加法操作无法获得解析解 )
• 解决：最大下界
引入Z上的另一个分布q(Z)
log P (Y |  )  L ( q ,  )  K L ( q‖ p )
下界
q(Z)=p(Z|Y,θ)
L ( q ,  )   Z q ( Z ) log[
p (Y , Z |  )
]
q(Z )
K L ( q‖ p )    Z q ( Z ) log[
p (Z | Y , )
上面这个等式是否成立？代入
q(Z )
]
0
•E步：通过q(Z)最大下界L(q,θ)
•这时候θ没变
•q(Z)=p(Z|Y,θ)
•M步：通过θ最大下界L(q,θ)
•q(Z)不变， θ变
•所以KL距离大于0
•似然增大
log P (Y , Z |  )  log P ( Z | Y ,  )  log P (Y |  )
]
课堂测试
1. 假设有3枚硬币，分别记作A,B,C。这些硬币
正面出现的概率分别是o,p,q。进行如下实验。
先掷硬币A，如果是正面选择硬币B，否则选
择硬币C。独立重复10次试验，结果【1，1，
0，1，0，0，1，0，1，1】。估计o,p,q
2. 假设观测数据【-67,48,6,8,14,16,23,24,28,29,41,49,56,60,75】是由
两个分量的高斯混合模型生成，试估计模型
的5个参数（系数、高斯模型的参数）
随机变量序列
• 生活大爆炸（5-14-0500）
What's your
name?
My name? It's
Siri.
Are you single?
I don't have a
marital status, if
that's what you're
asking.
How about a cup
of coffee?
I've found six
coffee shops.
自然语言处理中的一系列问
题
•语音识别
•词性标注
•机器翻译
•…
•Online demo
其他涉及到时间的问题
•人的行为分析
•视频中预测走路/步行/
网球动作
•网络中的入侵检测
•…
其他涉及到序列的问题
•基因组序列中蛋白质编码
区域的预测
观测与状态序列
wo3 ai4 bei3 jing1 tian1 an1 men1
额的神
语音识别
我爱北京天安门
吗
观测
方
状态（隐含）
中文分词
我爱北京天安门
词性标注
我爱/VV 北京/NR 天安门/NN
模型
• 隐马尔可夫模型定义
– 隐马尔可夫模型是关于时序的概率模型，描述
由一个隐藏的马尔可夫链随机生成不可观测的
状态随机序列；再由各个状态生成一个观测而
产生观测随机序列的过程。
– 隐藏的马尔可夫链随机生成的状态的序列，称
为状态序列
– 每个状态生成一个预测，由此产生的观测的随
机序列，称为观测序列
– 序列的每一个位置可以看作是一个时刻
隐马尔可夫模型的基本假设
• 齐次马尔可夫性假设
– 假设隐藏的马尔可夫链在任意时刻t的状态只依
赖于其前一时刻的状态，与其他时刻的状态及
观测无关，也与时刻t无关
• 观测独立性假设
– 假设任意时刻的观测只依赖于该时刻的马尔可
夫链的状态，与其他观测及状态无关
HMM实例——描述
• 设有N个缸，每个缸中装有很多彩球，球的颜
色由一组概率分布描述。实验进行方式如下
– 根据初始概率分布，随机选择N个缸中的一个开始
实验
– 根据缸中球颜色的概率分布，随机选择一个球，记
球的颜色为O1，并把球放回缸中
– 根据描述缸的转移的概率分布，随机选择下一口缸，
重复以上步骤。
• 最后得到一个描述球的颜色的序列O1,O2,…，
称为观察值序列O。
– 不知道缸序列
HMM实例——示意
Urn 3
Urn 1
Urn 2
Veil
观测数据：
HMM组成
Markov链
（, A）
状态序列
q1, q2, ..., qT
随机过程
（B）
HMM的组成示意图
观察值序列
o1, o2, ..., oT
HMM的基本要素
• 用模型五元组  ＝（ N, M, π ，A，B）用来描述
HMM，或简写为  =(π ，A，B)
参数
含义
实例
N
状态数目
缸的数目
M
每个状态可能的观察值数
目
彩球颜色数目
A
与时间无关的状态转移概
率矩阵
在选定某个缸的情况下，
选择另一个缸的概率
B
给定状态下，观察值概率
分布
每个缸中的颜色分布

初始状态空间的概率分布
初始时选择某口缸的概率
HMM可解决的问题
• 问题1：给定观察序列O=O1,O2,…OT,以及模
型   ( A , B ,  ,) 如何计算P(O|λ)？
– 概率计算问题
• 问题2：给定观察序列O=O1,O2,…OT以及模型λ,
如何选择一个对应的状态序列 S =q1,q2,…qT，使
得S能够最为合理的解释观察序列O？
– 预测问题
• 问题3：如何调整模型参数 
P(O|λ)最大？
– 学习问题
 ( A , B ,  ) 使得
概率计算问题（朴素解法）
• 直接枚举所有可能的状态序列
– 给定一个固定的状态序列S=(q ，q ，q …)
1
2
3
T
P (O / S ,  )   P (Ot / qt ,  )  bq1 (O1 )bq2 (O2 ) bqt (OT )
t 1
– bq (Ot ) 表示在q 状态下观测到O 的概率
t
t
– 概率加法法则 P (O /  ) 
t
 P(O / S ,  ) P( S /  )
所有S
• N=5, M=100, => 计算量10^72
前向算法
• 动态规划
 t (i )  P (O1 , O 2 ,  Ot , q t
• 递推
  i /  )　1 t T
– 定义到时刻t，部分观测序列O1,O2,…Ot，且时刻t的
状态为qt的概率为前向概率
– 利用状态序列的路径结构递推计算，将前向概率
“推”往全局，从而避免重复计算
– 初始化：  (i)   b (O )　1 t  T
1
– 递归：
i i
1
N
 t 1 ( j )  [  i (i )aij ]b j (Ot 1 )　1  t  T  1,1  j  N
i 1
– 终结：
N
P (O /  ) 

i 1
T
(i )
前向法示意图
tN
qN
.
qi
.
qj
.
.
q1
ti
aNj

aij
t1
1
...
t
N=5, M=100, => 计算量3000
j
t 1
a1j
t+1
...
后向法
• 定义后向变量
 t (i )  P (Ot 1 , Ot  2 ,  OT , qt   i /  )　1  t  T 1
– 初始化：
T (i )  1　1 t  T
– 递归：
N
– 终结：
 t (i )   aij b j (Ot 1 )  t 1 ( j )　t  T  1, T  2,...,1,1  i  N
i 1
N
P (O /  )    1 (i )
i 1
课堂测试
• 假设从三个箱子中取球，每个箱子中分别
有红球、白球若干
– 状态转移概率矩阵A，观测概率矩阵B，初始状
态概率矩阵π
– T=3 观测序列{红，白，红}
0.5
0.2
0.3
A  0.3
0.5
0.2
B  0.4 0.6
0.2
0.3
0.5
0.7 0.3
0.5 0.5
  [ 0.2 ，
0.4 ，
0. 4 ]
课堂测试（续）
• 计算初值
– a1(1)=0.2x0.5=0.1
– a1(2)=0.4x0.4=0.16
– a1(3)=0.4x0.7=0.28
• 递推计算
–
–
–
–
–
–
a2(1)=(0.1x0.5+0.16x0.3+0.28x0.2)x0.5=0.077
a2(2)=(0.1x0.2+0.16x0.5+0.28x0.3)x0.6=0.1104
a2(3)= (0.1x0.3+0.16x0.2+0.28x0.5)x0.3=0.0606
a3(1)=(0.077x0.5+0.1104x0.3+0.0606x0.2)x0.5=0.04187
a3(2)=(0.077x0.2+0.1104x0.5+0.0606x0.3)x0.4=0.03551
a3(3)=(0.077x0.3+0.1104x0.2+0.0606x0.5)x0.7=0.05284
• 终止
– P(O|λ)=a3(1)+a3(2)+a3(3)=0.13022
引申：其他概率的计算
• 给定模型和观测，在时刻t处于状态qi的概
率 P (s  q | O ,  )  P (s  q , O |  )
t
t

i
i
P (O |  )
 t (i )  t (i )
 j 1 t ( j )  t ( j )
N
• 给定模型和观测，在时刻t处于状态qi，且
在时刻t+1处于状态qj的概率
P ( s t  q i , s t 1  q j | O ,  ) 

P ( s t  q i , s t 1  q j , O |  )
 t ( i ) a ij b j ( o t  1 )  t  1 ( j )
 i 1  j 1 t ( i ) a i j b j ( o t  1 )  t  1 ( j )
N
N
P (O |  )
预测问题
• 近似算法
– 目标：对给定观测序列最可能的状态序列
– 近似：每个时刻选择最可能的状态
P ( st  q i | O ,  ) 

 t (i )  t (i )
P ( st  q i , O |  )
P (O |  )
最大
 j 1 t ( j )  t ( j )
N
– 缺陷：不能保证整体是最可能的，因为有的状
态转移是不可能出现的（概率为0）
Viterbi算法
• 动态规划
– 状态序列=路径
– 最优路径原理：如果最优路径在时刻t通过节点
s*，则从节点s*到终点的部分路径必然是最优
的
– 递推：
 t ( i )  m ax P [ q1 q 2 ...q t 1 , q t  i , O1, O 2 , … O t , |  ]
q1 , q 2 ,... q t 1
 t  1 ( i )  m ax  t ( j ) a ji bi ( o t  1 )
1 j  N
Viterbi算法(续)
• 初始化：
 1 (i )   i bi (O1 ),　1  i N
1 (i )  0,　1 i  N
• 递归：
记录下前一个节点
 t ( j )  max[ t 1 (i )aij ]b j (Oi ), 2  t  T ,1  j  N
1i  N
 t ( j )  arg max[ t 1 (i )aij ], 2  t  T ,1  j  N
1i  N
• 终结：
P  max[ T (i )])
*
1i  N
qT  arg max[ T (i )]
*
1i  N
• 求S序列：
qt   t 1 ( qt 1 ), t  T  1, T  2,...,1
*
*
课堂测试
• 假设从三个箱子中取球，每个箱子中分别
有红球、白球若干
– 状态转移概率矩阵A，观测概率矩阵B，初始状
态概率矩阵π
– T=3 观测序列{红，白，红}
0.5
0.2
0.3
A  0.3
0.5
0.2
B  0.4 0.6
0.2
0.3
0.5
0.7 0.3
0.5 0.5
  [ 0.2 ，
0.4 ，
0. 4 ]
课堂测试（续）
1 (1)  0.2 x0.5  0.10, 1 (2)  0.4 x0.4  0.16, 1 (3)  0.4 x0.7  0.28
1 (i )  0
• 初始化
 2 (1)  max[0.10 x0.5, 0.16 x0.3, 0.28 x0.2] x0.5  0.028
1 i  N
2 (1)  3
 2 (2)  max[0.10 x0.2, 0.16 x0.5, 0.28 x0.3] x0.6  0.0504
1 i  N
• 递归
2 (2)  3
 2 (3)  max[0.10 x0.3, 0.16 x0.2, 0.28 x0.5] x0.3  0.042
1 i  N
2 (3)  3
 3 (1)  0.0504 x0.3 x0.5  0.0756, 3 (1)  2
 3 (2)  0.0504 x0.5 x0.4  0.01008, 3 (2)  2
 3 (3)  0.042 x0.5 x0.7  0.0147, 3 (3)  3
回溯最优路径【倒】：3，3，3
学习算法
• 监督学习算法
– 训练数据中已知观测序列和对应的状态序列
– 利用极大似然估计
• 转移概率、观测概率、初始状态概率都可以使用频
度的比率来计算
• 非监督学习算法
– 训练数据中已知观测序列，不知道对应的状态
序列
• 由于人工标注耗时耗力，一般情况下非监督学习
– EM算法（Baum-welch）
Baum-Welch算法
• 目的：给定观察值序列O，通过计算确定一个
模型 ，使得P(O| )最大。
• E步
Q (  ,  )   S log P ( O , S |  ) P ( S | O ,  )
i
i
P (O , S |  ) / P (O |  )
i
Q (  ,  )   S log P ( O , S |  ) P ( S , O |  )
i
i
  s log  s 0 P ( O , S |  )   s [  t log a st st 1 ] P ( O , S |  )   s [  t log b st ( o t )] P ( O , S |  )
i
i
• M步
– 利用概率约束，拉格朗日乘子法求最大
i
Baum-Welch算法(续)
• 定义：
给定模型  和观察序列条件下，从 i到 j的
转移概率定义为  t (i, j )
 t ( i , j )  P ( s t  i , s t 1  j | X ,  )
 t ( i ) a ij b j ( O t  1 )  t  1 ( j )

N
N

i 1
t
( i ) a ij b j ( x t  1 )  t  1 ( j )
j 1
N
 t (i ) 

t
(i, j )
t 时刻处于状态 S i的概率
j 1
T 1

t
( i )  整个过程中从状态 S i 转出的次数 ( number of t i me) 的预期
t 1
T 1

t 1
t
( i , j )  从 S i 跳转到 S j次数的预期
Baum-Welch算法(续2)
• 参数估计：
R eestim ate
aˆ ij 

:
expected count of transitions from i to j
expected count of stays at i

(i , j )
t
t

t
t
(i , j )
j
expected
bˆ j ( k ) 


num ber
of
expected
tim es
in
num ber
state
of
j
tim es
and
in
 t ( j)
t ,O t  k

t
( j)
t

i
 当 t ＝1时处于 S i的概率   1 ( i )
observing
state
j
sym bol
k

PGM

Transcript PGM

Directory