Transcript 高斯混合模型
高斯混合模型
(Gaussian Mixture Model)
高斯分布
其中μ為平均值 (Mean),σ為標準差(Standard Deviation)
高斯混合模型
利用高斯模型的平均值描述特徵參數的分佈位置,共
變異矩陣來描述分型形狀的變化,因此高斯混合模型
可以很平滑的描述聲音的特徵分佈
高斯混合模型(10個高斯成分)表示圖
高斯混合模型
• 用一個高斯混合模型來表示一位語者
高斯混合模型
• 高斯混合密度為M個高斯密度的權重加總,其公式為:
M
p( x | ) wi bi ( x )
i 1
其中 x 為特徵向量, bi (x) 為高斯機率密度值, wi 為混合權重值
• 混合權重必須符合
M
w
i 1
i
1 之條件
• 基本密度是D維的高斯函數
bi ( x )
1
(2 ) D / 2 | i |1/ 2
1
1
exp{ ( x i )T i ( x i )}
2
其中 i 為平均向量,i 為共變異矩陣,D為特徵向量的維度
演算法流程
LBG演算法
D2
D1
Dtotal = D1 + D2
LBG演算法
• 計算整體平均向量
1 T
xt
T t 1
• 進行分裂:
m m (1 )
m (1 )
m
• 將分裂後的平均向量進行分類,並計算出新群集的平均向
量
LBG演算法
• 計算平均向量與特徵參數的距離總和,使得總體距離和獲
得最小,也就是當更新率小於δ時即停止
( D D' )
D
其中,D’為前一回合的總距離值
• 重複之前的步驟,直到分裂到所設定的數目
EM演算法
估算初始參數值
• 假設有12個特徵參數(音框),分群後的其中一個A群聚由
特徵參數1 、 4、7和8四個特徵參數所組成,如下:
特徵參數1
1
2
3
特徵參數4
4
5
6
特徵參數7
7
8
9
特徵參數8
10
11
12
• 混合權重值wi
4/12=0.3334
• 平均向量 i
1 T
xt
T t 1
5.5
6.5
7.5
估算初始參數值
• 共變異矩陣 i
E[( X E[ x])( X E[ X ])T ]
E[( X 1 1 )( X 1 1 )T ] E[( X 1 1 )( X 2 2 )T ] E[( X 1 1 )( X n n )T ]
T
T
T
E[( X 2 2 )( X 1 1 ) ] E[( X 2 2 )( X 2 2 ) ] E[( X 2 2 )( X n n ) ]
T
T
E[( X n n )( X n n ) ]
E[( X n n )( X 1 1 ) ]
估算初始參數值
• 假設 X 1 [1 2] X 2 [3 4] ,則
E[( X1 1 )( X 2 2 )T ]
E[( X 1 1 )( X 2 2 )T ]
1
[(1 2 1.5)(3 4 3.5)T ]
2
0.5
1
]
[[ 0.5 0.5]
2
0
.
5
1
(0.5)
2
0.25
EM演算法
• 取得第i個混和的事後機率值
p(i | xt , )
第1個特徵參數
第2個特徵參數
第3個特徵參數
第4個特徵參數
wi bi ( xt )
w
b
(
x
k 1 k k t )
M
w1b1
w2b2
w3b3
EM演算法
• 對各參數進行重新估算
1 T
wi p(i | xt , )
T t 1
p(i | xt , ) xt
t 1
i
T
t 1 p(i | xt , )
T
T
1 t 1 p(i | xt , )(xt i ) ( xt i )
i
T
D
p(i | xt , )
T
t 1
EM演算法
• 進行最大相似估算
T
p ( X | ) p ( xt | ) log p ( xt | )
T
t 1
t 1
M
p
(
x
|
)
w
b
(
x
其中
i i t)
t
i 1
• 收斂條件
p( X | ( k 1) ) p( X | ( k ) ) 收斂門檻
辨識
• 將每個樣本與待測的語音進行最大相似估算,機率值最大
的,即為答案
Sˆ arg max p( X | k )
1k S
ˆ
S arg max log p( xt | k )
T
1 k S
t 1