音素部分空間の統合による音声特徴量抽出の検討

download report

Transcript 音素部分空間の統合による音声特徴量抽出の検討

音素部分空間の統合による音
声特徴量抽出の検討
神戸大学
朴 玄信,滝口 哲也,有木 康雄
発表構成
•
•
•
•
•
•
•
•
研究背景・目的
従来手法
アプローチ
PCA・LDAによる部分空間
提案手法(音素部分空間の統合)
音素部分空間解析
孤立単語認識実験
考察・まとめ・今後の予定
研究背景・目的
• 実環境で音声認識システムの需要が高まる
例:生活家電、ゲーム機、カーナビ など
• 実環境では様々なノイズの影響で認識率の低下
• 実環境でノイズに頑健な音声認識システムが必
要
従来手法(耐雑音)
• モデルベース
– モデル選択
– モデル適応
• 特徴量ベース
– 解析手法による特徴量抽出(事前学習なし)
– 統計手法による特徴量抽出(事前学習あり)
アプローチ1(音素部分空間統合)
• 事前学習ありの特徴量抽出法
• 主成分分析(PCA)、線形判別分析(LDA)を用い、
観測空間から音素情報を表わす部分空間を推
定
• 各音素の部分空間推定⇒各音素部分空間統合
PCAによる統合で、音素間の相関情報を特徴量
空間に取り入れることを試みる。
アプローチ2(残響フィルタリング)
• X(i,ω) = S(i,ω)・N1 + N2
X:観測音声
i:フレーム
S:クリーン音声
N1:乗法性雑音
ω:周波数
N2:加法性雑音
• (残響時間が長い)残響の場合
N1は現在フレームに対する伝達特性(時不変)
N2は過去フレームに対する反響音の足し合わせ(時変)
• logX = logS + log(N1 + N2/S) = logS + logN1 + log(1+N2/SN1)
N1はSと無相関、N2にSの相関項の存在を仮定、
N2/SN1はSが打ち消され、Sと無相関
logSに対してPCAを行い、logXからlogSだけ抽出する軸推定
主成分分析(PCA)
O2
Observed data
s1

1 N
S   ( xi  m)(xi  m)t
n i n
s2


Observed space O
共分散行列の
O1
固有値分解による
正規直交基底推定
S1:全体構造、S2:共通性
本研究では
音素部分空間学習と
部分空間統合に利用
線形判別分析(LDA)
O2
Class 2

s1
クラス内共分散
SW   Si
i

クラス間共分散
SB  (mi  m)(mi  m)t
i

S S の固有値分解

S1:クラス識別空間
本研究では
音素部分空間学習

Class 1
Observed space O
O1
1
W B
音素部分空間の学習(PCA)
PCAによる音素部分空間
PCA
Φ/o/
PCA
Φ/u/
PCA
Φ/i/
PCA
Φ/a/
/a/
/i/
/u/
/o/
観測空間 O
音素部分空間の学習(LDA)
LDAによる音素部分空間
LDA
Φ/o/
LDA
Φ/u/
LDA
Φ/i/
LDA
Φ/a/
/a/
/i/
/u/
/o/
観測空間 O
音素部分空間の統合(PCA)
全音素
データ集合
Xt
Φ/a/
Yt_/a/
Φ/i/
Yt_/i/
Φ/u/
Yt_/u/
Φ/o/
Yt_/o/
Yt_/a/
Yt_/i/
Yt_/u/
Yt_/o/
Φ’
PCA
音素間の
相関を表わ
す空間
各音素部分空間を単に繋げた空間へ射影されたベクトルYtの集合に対し
PCAを行い、各音素部分空間を統合した空間(Φ’)を推定する。
特徴量抽出の流れ
Speech
signal
xt
窓処理
FFT
音素/a/
PCA or LDA
yt a
音素/i/
PCA or LDA
yt i
音素/o/
PCA or LDA
yt o
音素部分空間
|.|2
PCA
統合した空間
従来:DCT, PCA, LDA
Mel
filter bank
Yt ’
正
規
化
・
+Δ
log
HMM
学習と認識
評価実験条件
•
•
•
•
話者(男2女2)ごと学習2620単語、テスト1000単語
学習:クリーン音声
テスト:クリーン、380ms残響音声
サンプリング12kHz、窓幅32ms、窓シフト8ms
比較特徴量
Log
MFB
MFCC
(DCT)
PCA
LDA
音素部分空間
(PCA/LDA)
統合空間
(PCA)
フレーム数
-
-
3000
54 x 100
54 x 100
3000
基本係数
32
16
16
16
54 x 16
16
• 音響モデル(話者特定モデル、4人話者共通モデル)
54個音素HMM 3状態4混合
提案手法による部分空間解析
( PCA )
( PCA⇒PCA )
600
35
Base1
Base1
30
Base2
25
Base3
Base3
Base4
Base4
Base5
20
Base6
Base7
Base7
Base9
Base10
Base10
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Base11
200
Base12
Base12
Base13
Base13
Base14
5
Base8
300
Base9
Base11
10
Base5
400
Base6
Base8
15
Base2
500
Base14
100
Base15
Base15
Base16
Base16
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
提案手法による部分空間解析
( LDA )
( LDA⇒PCA )
20
600
18
Base1
Base2
16
14
8
Base4
Base4
4
Base6
Base7
Base7
0
Base8
300
Base9
Base9
Base10
Base10
Base11
200
Base12
Base12
Base13
Base13
Base14
2
Base5
400
Base6
Base11
6
Base2
Base3
Base8
10
500
Base3
Base5
12
Base1
Base14
100
Base15
Base15
Base16
Base16
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
実験結果
• クリーン音声認識
97
90
96.4
95.8
95.8
95
94.3
93.9
94
85.1 85.5
85
92.8
93
92.4
92.3
92
話者平均認識率 (%)
96.1
96
80
81.8
79.1
75
72.5
70.1
70
67.4
71.0
69.1
65
60.4
90.7
91
60
特定モデル
4人共通モデル
特定モデル
4人共通モデル
PLDA
PPCA
LDA
PCA
DCT
PLDA
PPCA
LDA
PCA
DCT
PLDA
PPCA
LDA
PCA
DCT
PLDA
PPCA
LDA
55
PCA
90
DCT
話者平均認識率 (%)
• 残響(380ms)音声認識
考察
• 特定話者モデルより、4人共通モデルの場合認識率の低
下ー>不特定話者音声認識のためには、話者変動を表わ
す空間を推定し、除去の必要があるー>多数話者データを
用い、音素固有の空間と、話者変動空間を推定
• 特定話者はPLDA(LDA->PCA)、4人共通はPPCA(PCA->PCA)
多数話者データを用いると、話者変動成分により、
LDAによる音素クラスの分離精度が低下する。
PCAは特定音素部分空間に話者変動成分を含むが、
統合PCAにより音素クラス間共通成分(話者変動成分)が除
去される。
まとめ、今後の予定
• 特徴量空間を音素ごとの部分空間に分け、
統合する手法を提案した。
• 提案手法により、クリーン音声に対しては従
来と同程度、残響音声に対しては認識率の
改善
• 今後は、多数話者のデータの用いて実験、
独立成分分析(ICA)やカーネルPCAなどを用
いた部分空間推定と統合