Transcript 相関伝播初期化
制約付き非負行列因子分解を用い
た
音声特徴抽出の検討
神戸大学大学院 工学研究科
朴 玄信,滝口哲也,有木康雄
発表構成
研究背景・目的
非負行列因子分解(NMF: Nonnegative Matrix Factorization)
モデル,初期化,更新ルール,制約
提案手法
相関情報を用いたNMFの初期化
NMFを用いた音声特徴抽出
評価実験
NMFの誤差による評価
単語音声認識率による評価
まとめ・今後の課題
第10回音声言語シンポジウム
www.***.com
研究背景・目的
音声認識システムの性能向上のため,
観測信号から重要な音声特徴だけを抽出する手法が必要
PCAやICAなど統計的手法に基づく事前知識を用いた
データ依存型特徴抽出法が有効
非負行列因子分解(NMF)は局所的特徴抽出に有効
画像などの高次元空間上のデータから局所的基底(パーツ)
音源分離などにも応用
音声認識のための,NMFを用いた特徴抽出
相関情報を用いた,NMFの初期化
第10回音声言語シンポジウム
www.***.com
非負行列因子分解(NMF) 1/2
X WH
X
mn
X
n本
m次元サンプル
W
mr
H
W
r本
基底ベクトル
rn
(r m n)
H
n本
r次元係数サンプル
第10回音声言語シンポジウム
www.***.com
非負行列因子分解(NMF) 2/2
目的関数(XとWH間)
ユークリッド距離,カルバック・ライブラー情報量
更新ルール(WとHの要素ごと)
加算ルール,乗算ルール
スパースネス制約
Wに対して,以下のパースネス尺度を満たすように射影
sparseness ( w )
m ( | w i |) /
2
wi
m 1
第10回音声言語シンポジウム
www.***.com
NMFの初期化手法
Random-based
WとHを,N(0,1)に従うランダム値の絶対値で初期化
Clustering-based
(Spherical) K-Means clustering [S.Wild(2004), Y.Xue(2008)]
Wをクラスタの中心ベクトルで構成,Hはランダム
SVD-based
NNDSVD (Non-Negative Double Singular Value Decomposition)
[C.Boutsidis(2008)]
WとHを,Xの特異ベクトルで構成
ただし,負の成分には,0か,Xの平均値を代入
第10回音声言語シンポジウム
www.***.com
相関伝播初期化 (1/2)
X
X0
W
1
0
0
0
0 0 0
1 0 0
0 1 0
0 0 1
X1
1 0 0
0 1 0
0.2 0.4 0.4
0 0 1
X2
0.4 0.6
1 0
0.48 0.32
0 1
H
H0 = X 0
H1
和相関
相関行列
1 0.1
0.1 1
0.2 0.4
0.3 0.1
0.2
0.4
1
0.4
1 0.4 0.6
0.4 1 0.1
0.6 0.1 1
0.3
0.1
0.4
1
0.6
0.6
1
0.8
1
0.5
0.7
H2
第10回音声言語シンポジウム
www.***.com
相関伝播初期化 (2/2)
相関伝播初期化の定式化
d : 最大和相関を持つ次元 c: d次元とl次元間の相関比
行列因子 W と H の更新
w i ,l w i ,l w i , d c l
データ行列
hl , j hl , j h d , j c l
X の更新
x i , j [ WH ] i , j [ WH ] i , j w i , d h d , j { ( c l (
2
w i ,l
wi ,d
hl , j
hd , j
) c l ) 1}
相関伝播初期化の特徴
局所的な初期解(W)
ランダム要素なし
比較的早い計算スピード
第10回音声言語シンポジウム
www.***.com
NMFを用いた音声特徴抽出
特徴抽出フロー
Speech
signal
Pre-emphasis/
windowing
FFT
|.|2
Mel
filter
DCT
MFCC
NMF
Proposed
Feature
log
定式化
X WH
h t (W W )
T
1
T
W xt
DCTやPCAの高次特徴も考慮した特徴抽出
第10回音声言語シンポジウム
www.***.com
実験条件
データ行列X
24 x 5,075 (対数メルフィルタバンク出力 x ランダムサンプル数 )
音素と話者のバランスがとれたランダムサンプリング
NMF更新
乗算ルールとスパースネス制約による,2万回更新
スパースネス制約は,0.2~0.7
NMF初期化手法の比較
RANDOM, SKM, NNDSVD, CP
単語音声認識
男女10人から,学習データ26,200単語,テストデータ10,000単語
音響モデル:54個のモノフォンHMM,3状態20混合
音声特徴抽出法の比較(24次元(12+Δ12),平均0正規化)
DCT(MFCC), PCA, ICA, NMF
第10回音声言語シンポジウム
www.***.com
初期化手法による基底Wと誤差
初期化
RANDOM
SKM
NNDSVD
CP
誤差
3.5E+06
1.5E+06
2.0E+05
1.7E+04
第10回音声言語シンポジウム
www.***.com
2万回更新後の基底Wの変化
第10回音声言語シンポジウム
www.***.com
2万回更新後の誤差
第10回音声言語シンポジウム
www.***.com
NMFを用いた単語認識
第10回音声言語シンポジウム
www.***.com
特徴抽出手法の比較(変換行列,認識率)
第10回音声言語シンポジウム
www.***.com
まとめ
相関伝播初期化は誤差最小化に有効
中程度スパースネス制約
NMFによる特徴量は,PCAによる特徴量と同等の性能
弱いスパースネス制約 -> 局所的より大局的特徴が有効?
今後の課題
対角分散共分散用いるため,NMFの直交化(離散コサイン変換など)
パワースペクトル空間上でのNMF (メルフィルタバンクの代わりとして)
NMFの初期化手法と更新ルールとの関係について
第10回音声言語シンポジウム
www.***.com
第10回音声言語シンポジウム
www.***.com
行列W
初期
MSE
DIV
SC_W0.2
第10回音声言語シンポジウム
www.***.com
NMF推定誤差(|X-WH|F)
ERROR
RAND
SKM
SVD
SVDa
CP
CPa
Initial
3.75E+06
1.25E+05
2.78E+02
1.98E+05
2.16E+04
2.04E+06
MSE
23.84
23.88
73.35
23.95
45.45
23.82
DIV
40.45
40.50
127.62
40.65
73.42
40.39
SC_0.2
24.01
24.00
57.06
24.05
23.96
23.99
SC_0.4
23.82
23.84
123.51
23.87
23.81
23.81
第10回音声言語シンポジウム
www.***.com
単語認識結果
clean
RAND
SKM
SVD
SVDa
CP
CPa
MSE
95.4
96.0
93.7
95.7
91.7
96.4
DIV
96.0
95.9
93.4
95.6
91.7
96.6
SC_0.2
96.1
96.1
90.2
95.7
96.3
96.3
SC_0.4
95.0
94.3
90.9
95.2
96.1
95.9
第10回音声言語シンポジウム
www.***.com