相関伝播初期化

Transcript 相関伝播初期化

制約付き非負行列因子分解を用い
た
音声特徴抽出の検討
神戸大学大学院工学研究科
朴玄信，滝口哲也，有木康雄
発表構成
 研究背景・目的
 非負行列因子分解(NMF: Nonnegative Matrix Factorization）
 モデル，初期化，更新ルール，制約
 提案手法
 相関情報を用いたNMFの初期化
 NMFを用いた音声特徴抽出
 評価実験
 NMFの誤差による評価
 単語音声認識率による評価
 まとめ・今後の課題
第１０回音声言語シンポジウム
www.***.com
研究背景・目的
 音声認識システムの性能向上のため，
観測信号から重要な音声特徴だけを抽出する手法が必要
 PCAやICAなど統計的手法に基づく事前知識を用いた
データ依存型特徴抽出法が有効
 非負行列因子分解（NMF）は局所的特徴抽出に有効
 画像などの高次元空間上のデータから局所的基底（パーツ）
 音源分離などにも応用
 音声認識のための，NMFを用いた特徴抽出
 相関情報を用いた，NMFの初期化
第１０回音声言語シンポジウム
www.***.com
非負行列因子分解(NMF) 1/2
X  WH
X
mn

X
n本
m次元サンプル
W 
mr

H
W
r本
基底ベクトル
rn

(r  m  n)
H
n本
r次元係数サンプル
第１０回音声言語シンポジウム
www.***.com
非負行列因子分解(NMF) 2/2
目的関数（XとWH間）
 ユークリッド距離，カルバック・ライブラー情報量
更新ルール（WとHの要素ごと）
 加算ルール，乗算ルール
スパースネス制約
 Wに対して，以下のパースネス尺度を満たすように射影
sparseness ( w ) 
m  (  | w i |) /

2
wi
m 1
第１０回音声言語シンポジウム
www.***.com
NMFの初期化手法
 Random-based
 WとHを，N(0,1)に従うランダム値の絶対値で初期化
 Clustering-based
 (Spherical) K-Means clustering [S.Wild(2004), Y.Xue(2008)]
 Wをクラスタの中心ベクトルで構成，Hはランダム
 SVD-based
 NNDSVD (Non-Negative Double Singular Value Decomposition)
[C.Boutsidis(2008)]
 WとHを，Xの特異ベクトルで構成
 ただし，負の成分には，０か，Xの平均値を代入
第１０回音声言語シンポジウム
www.***.com
相関伝播初期化 (1/2)
X
X0
W
1
0
0
0
0 0 0
1 0 0
0 1 0
0 0 1
X1
1 0 0
0 1 0
0.2 0.4 0.4
0 0 1
X2
0.4 0.6
1 0
0.48 0.32
0 1
H
H0 = X 0
H1
和相関
相関行列
1 0.1
0.1 1
0.2 0.4
0.3 0.1
0.2
0.4
1
0.4
1 0.4 0.6
0.4 1 0.1
0.6 0.1 1
0.3
0.1
0.4
1
0.6
0.6
1
0.8
1
0.5
0.7
H2
第１０回音声言語シンポジウム
www.***.com
相関伝播初期化 (2/2)
 相関伝播初期化の定式化
 d : 最大和相関を持つ次元 c: d次元とl次元間の相関比
行列因子 W と H の更新
w i ,l  w i ,l  w i , d  c l
データ行列
hl , j  hl , j  h d , j  c l
X の更新
x i , j  [ WH ] i , j  [ WH ] i , j  w i , d h d , j {  ( c l  (
2
w i ,l
wi ,d

hl , j
hd , j
) c l )  1}
 相関伝播初期化の特徴
 局所的な初期解（W）
 ランダム要素なし
 比較的早い計算スピード
第１０回音声言語シンポジウム
www.***.com
NMFを用いた音声特徴抽出
特徴抽出フロー
Speech
signal
Pre-emphasis/
windowing
FFT
|.|2
Mel
filter
DCT
MFCC
NMF
Proposed
Feature
log
定式化
X  WH
h t  (W W )
T
1
T
W xt
DCTやPCAの高次特徴も考慮した特徴抽出
第１０回音声言語シンポジウム
www.***.com
実験条件
 データ行列X
 24 x 5,075 （対数メルフィルタバンク出力 x ランダムサンプル数）
 音素と話者のバランスがとれたランダムサンプリング
 NMF更新
 乗算ルールとスパースネス制約による，2万回更新
 スパースネス制約は，０．２～０．７
 NMF初期化手法の比較
 RANDOM, SKM, NNDSVD, CP
 単語音声認識
 男女１０人から，学習データ26,200単語，テストデータ10,000単語
 音響モデル：５４個のモノフォンHMM，３状態２０混合
 音声特徴抽出法の比較(２４次元（12＋Δ12)，平均０正規化)
 DCT(MFCC), PCA, ICA, NMF
第１０回音声言語シンポジウム
www.***.com
初期化手法による基底Wと誤差
初期化
RANDOM
SKM
NNDSVD
CP
誤差
3.5E+06
1.5E+06
2.0E+05
1.7E+04
第１０回音声言語シンポジウム
www.***.com
２万回更新後の基底Wの変化
第１０回音声言語シンポジウム
www.***.com
２万回更新後の誤差
第１０回音声言語シンポジウム
www.***.com
NMFを用いた単語認識
第１０回音声言語シンポジウム
www.***.com
特徴抽出手法の比較（変換行列，認識率）
第１０回音声言語シンポジウム
www.***.com
まとめ
 相関伝播初期化は誤差最小化に有効
 中程度スパースネス制約
 NMFによる特徴量は，PCAによる特徴量と同等の性能
 弱いスパースネス制約 -> 局所的より大局的特徴が有効？
 今後の課題
 対角分散共分散用いるため，NMFの直交化（離散コサイン変換など）
 パワースペクトル空間上でのNMF （メルフィルタバンクの代わりとして）
 NMFの初期化手法と更新ルールとの関係について
第１０回音声言語シンポジウム
www.***.com
第１０回音声言語シンポジウム
www.***.com
行列W
初期
MSE
DIV
SC_W0.2
第１０回音声言語シンポジウム
www.***.com
NMF推定誤差（｜X-WH｜F）
ERROR
RAND
SKM
SVD
SVDa
CP
CPa
Initial
3.75E+06
1.25E+05
2.78E+02
1.98E+05
2.16E+04
2.04E+06
MSE
23.84
23.88
73.35
23.95
45.45
23.82
DIV
40.45
40.50
127.62
40.65
73.42
40.39
SC_0.2
24.01
24.00
57.06
24.05
23.96
23.99
SC_0.4
23.82
23.84
123.51
23.87
23.81
23.81
第１０回音声言語シンポジウム
www.***.com
単語認識結果
clean
RAND
SKM
SVD
SVDa
CP
CPa
MSE
95.4
96.0
93.7
95.7
91.7
96.4
DIV
96.0
95.9
93.4
95.6
91.7
96.6
SC_0.2
96.1
96.1
90.2
95.7
96.3
96.3
SC_0.4
95.0
94.3
90.9
95.2
96.1
95.9
第１０回音声言語シンポジウム
www.***.com

相関伝播初期化

Transcript 相関伝播初期化

Directory