高斯混合模型

Download Report

Transcript 高斯混合模型

高斯混合模型
(Gaussian Mixture Model)
高斯分布
其中μ為平均值 (Mean),σ為標準差(Standard Deviation)
高斯混合模型
利用高斯模型的平均值描述特徵參數的分佈位置,共
變異矩陣來描述分型形狀的變化,因此高斯混合模型
可以很平滑的描述聲音的特徵分佈
高斯混合模型(10個高斯成分)表示圖
高斯混合模型
• 用一個高斯混合模型來表示一位語者
高斯混合模型
• 高斯混合密度為M個高斯密度的權重加總,其公式為:
M


p( x |  )   wi bi ( x )
i 1

其中 x 為特徵向量, bi (x) 為高斯機率密度值, wi 為混合權重值
• 混合權重必須符合
M
w
i 1
i
 1 之條件
• 基本密度是D維的高斯函數

bi ( x ) 

1
(2 ) D / 2 |  i |1/ 2

1  
1 
exp{ ( x  i )T  i ( x  i )}
2
其中 i 為平均向量,i 為共變異矩陣,D為特徵向量的維度
演算法流程
LBG演算法
D2
D1
Dtotal = D1 + D2
LBG演算法
• 計算整體平均向量
1 T 
   xt
T t 1
• 進行分裂:

 m   m (1   )

   m (1   )

m
• 將分裂後的平均向量進行分類,並計算出新群集的平均向
量
LBG演算法
• 計算平均向量與特徵參數的距離總和,使得總體距離和獲
得最小,也就是當更新率小於δ時即停止
( D  D' )

D
其中,D’為前一回合的總距離值
• 重複之前的步驟,直到分裂到所設定的數目
EM演算法
估算初始參數值
• 假設有12個特徵參數(音框),分群後的其中一個A群聚由
特徵參數1 、 4、7和8四個特徵參數所組成,如下:
特徵參數1
1
2
3
特徵參數4
4
5
6
特徵參數7
7
8
9
特徵參數8
10
11
12
• 混合權重值wi
4/12=0.3334

• 平均向量 i
1 T 
   xt
T t 1
5.5
6.5
7.5
估算初始參數值
• 共變異矩陣 i
  E[( X  E[ x])( X  E[ X ])T ]
 E[( X 1  1 )( X 1  1 )T ] E[( X 1  1 )( X 2   2 )T ]  E[( X 1  1 )( X n   n )T ] 



T
T
T 
 E[( X 2   2 )( X 1  1 ) ] E[( X 2   2 )( X 2   2 ) ]  E[( X 2   2 )( X n   n ) ]












T
T

E[( X n   n )( X n   n ) ]
 E[( X n   n )( X 1  1 ) ]
估算初始參數值
• 假設 X 1 [1 2] X 2  [3 4] ,則
E[( X1  1 )( X 2  2 )T ]
E[( X 1  1 )( X 2   2 )T ]
1
 [(1 2  1.5)(3 4  3.5)T ]
2
 0.5
1
]
 [[ 0.5 0.5]


2
0
.
5


1
  (0.5)
2
 0.25
EM演算法
• 取得第i個混和的事後機率值

p(i | xt ,  ) 
第1個特徵參數
第2個特徵參數
第3個特徵參數
第4個特徵參數

wi bi ( xt )

w
b
(
x
k 1 k k t )
M
w1b1
w2b2
w3b3
EM演算法
• 對各參數進行重新估算

1 T
wi   p(i | xt ,  )
T t 1


p(i | xt ,  ) xt

t 1
i 

T
t 1 p(i | xt ,  )
T


  T  
1 t 1 p(i | xt ,  )(xt  i ) ( xt  i )
i 

T
D
 p(i | xt ,  )
T
t 1
EM演算法
• 進行最大相似估算
T


p ( X |  )   p ( xt |  )   log p ( xt |  )
T
t 1
t 1
M


p
(
x
|

)

w
b
(
x
其中
 i i t)
t
i 1
• 收斂條件
p( X | ( k 1) )  p( X | ( k ) )  收斂門檻
辨識
• 將每個樣本與待測的語音進行最大相似估算,機率值最大
的,即為答案
Sˆ  arg max p( X | k )
1k  S

ˆ
S  arg max  log p( xt | k )
T
1 k  S
t 1