音素部分空間の統合による音声特徴量抽出の検討

Transcript 音素部分空間の統合による音声特徴量抽出の検討

音素部分空間の統合による音
声特徴量抽出の検討
神戸大学
朴玄信，滝口哲也，有木康雄
発表構成
•
•
•
•
•
•
•
•
研究背景・目的
従来手法
アプローチ
PCA・LDAによる部分空間
提案手法（音素部分空間の統合）
音素部分空間解析
孤立単語認識実験
考察・まとめ・今後の予定
研究背景・目的
• 実環境で音声認識システムの需要が高まる
例：生活家電、ゲーム機、カーナビなど
• 実環境では様々なノイズの影響で認識率の低下
• 実環境でノイズに頑健な音声認識システムが必
要
従来手法（耐雑音）
• モデルベース
– モデル選択
– モデル適応
• 特徴量ベース
– 解析手法による特徴量抽出（事前学習なし）
– 統計手法による特徴量抽出（事前学習あり）
アプローチ１（音素部分空間統合）
• 事前学習ありの特徴量抽出法
• 主成分分析（PCA）、線形判別分析（LDA）を用い、
観測空間から音素情報を表わす部分空間を推
定
• 各音素の部分空間推定⇒各音素部分空間統合
PCAによる統合で、音素間の相関情報を特徴量
空間に取り入れることを試みる。
アプローチ２（残響フィルタリング）
• X(i,ω) = S(i,ω)・N1 + N2
X：観測音声
i：フレーム
S：クリーン音声
N1：乗法性雑音
ω：周波数
N2：加法性雑音
• （残響時間が長い）残響の場合
N1は現在フレームに対する伝達特性（時不変）
N2は過去フレームに対する反響音の足し合わせ（時変）
• logX = logS + log(N1 + N2/S) = logS + logN1 + log(1+N2/SN1)
N1はSと無相関、N2にSの相関項の存在を仮定、
N2/SN1はSが打ち消され、Sと無相関
logSに対してPCAを行い、logXからlogSだけ抽出する軸推定
主成分分析（PCA）
O2
Observed data
s1

1 N
S   ( xi  m)(xi  m)t
n i n
s2


Observed space O
共分散行列の
O1
固有値分解による
正規直交基底推定
S1：全体構造、S2：共通性
本研究では
音素部分空間学習と
部分空間統合に利用
線形判別分析（LDA）
O2
Class 2

s1
クラス内共分散
SW   Si
i

クラス間共分散
SB  (mi  m)(mi  m)t
i

S S の固有値分解

S1：クラス識別空間
本研究では
音素部分空間学習

Class 1
Observed space O
O1
1
W B
音素部分空間の学習（PCA）
PCAによる音素部分空間
PCA
Φ/o/
PCA
Φ/u/
PCA
Φ/i/
PCA
Φ/a/
/a/
/i/
/u/
/o/
観測空間 O
音素部分空間の学習（LDA）
LDAによる音素部分空間
LDA
Φ/o/
LDA
Φ/u/
LDA
Φ/i/
LDA
Φ/a/
/a/
/i/
/u/
/o/
観測空間 O
音素部分空間の統合（PCA）
全音素
データ集合
Xt
Φ/a/
Yt_/a/
Φ/i/
Yt_/i/
Φ/u/
Yt_/u/
Φ/o/
Yt_/o/
Yt_/a/
Yt_/i/
Yt_/u/
Yt_/o/
Φ’
PCA
音素間の
相関を表わ
す空間
各音素部分空間を単に繋げた空間へ射影されたベクトルYｔの集合に対し
PCAを行い、各音素部分空間を統合した空間(Φ’)を推定する。
特徴量抽出の流れ
Speech
signal
xt
窓処理
FFT
音素/a/
PCA or LDA
yt a
音素/i/
PCA or LDA
yt i
音素/o/
PCA or LDA
yt o
音素部分空間
|.|2
PCA
統合した空間
従来：DCT, PCA, LDA
Mel
filter bank
Yt ’
正
規
化
・
＋Δ
log
HMM
学習と認識
評価実験条件
•
•
•
•
話者（男２女２）ごと学習２６２０単語、テスト１０００単語
学習：クリーン音声
テスト：クリーン、３８０ｍｓ残響音声
サンプリング１２ｋHz、窓幅３２ｍｓ、窓シフト８ｍｓ
比較特徴量
Log
MFB
MFCC
（DCT）
PCA
LDA
音素部分空間
(PCA/LDA)
統合空間
(PCA)
フレーム数
-
-
3000
54 x 100
54 x 100
3000
基本係数
32
16
16
16
54 x 16
16
• 音響モデル（話者特定モデル、４人話者共通モデル）
５４個音素HMM ３状態４混合
提案手法による部分空間解析
（ PCA ）
（ PCA⇒PCA ）
600
35
Base1
Base1
30
Base2
25
Base3
Base3
Base4
Base4
Base5
20
Base6
Base7
Base7
Base9
Base10
Base10
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Base11
200
Base12
Base12
Base13
Base13
Base14
5
Base8
300
Base9
Base11
10
Base5
400
Base6
Base8
15
Base2
500
Base14
100
Base15
Base15
Base16
Base16
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
提案手法による部分空間解析
（ LDA ）
（ LDA⇒PCA ）
20
600
18
Base1
Base2
16
14
8
Base4
Base4
4
Base6
Base7
Base7
0
Base8
300
Base9
Base9
Base10
Base10
Base11
200
Base12
Base12
Base13
Base13
Base14
2
Base5
400
Base6
Base11
6
Base2
Base3
Base8
10
500
Base3
Base5
12
Base1
Base14
100
Base15
Base15
Base16
Base16
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
実験結果
• クリーン音声認識
97
90
96.4
95.8
95.8
95
94.3
93.9
94
85.1 85.5
85
92.8
93
92.4
92.3
92
話者平均認識率（％）
96.1
96
80
81.8
79.1
75
72.5
70.1
70
67.4
71.0
69.1
65
60.4
90.7
91
60
特定モデル
4人共通モデル
特定モデル
4人共通モデル
PLDA
PPCA
LDA
PCA
DCT
PLDA
PPCA
LDA
PCA
DCT
PLDA
PPCA
LDA
PCA
DCT
PLDA
PPCA
LDA
55
PCA
90
DCT
話者平均認識率（％）
• 残響（３８０ｍｓ）音声認識
考察
• 特定話者モデルより、４人共通モデルの場合認識率の低
下ー＞不特定話者音声認識のためには、話者変動を表わ
す空間を推定し、除去の必要があるー＞多数話者データを
用い、音素固有の空間と、話者変動空間を推定
• 特定話者はPLDA(LDA->PCA)、４人共通はPPCA(PCA->PCA)
多数話者データを用いると、話者変動成分により、
LDAによる音素クラスの分離精度が低下する。
PCAは特定音素部分空間に話者変動成分を含むが、
統合PCAにより音素クラス間共通成分（話者変動成分）が除
去される。
まとめ、今後の予定
• 特徴量空間を音素ごとの部分空間に分け、
統合する手法を提案した。
• 提案手法により、クリーン音声に対しては従
来と同程度、残響音声に対しては認識率の
改善
• 今後は、多数話者のデータの用いて実験、
独立成分分析（ICA）やカーネルPCAなどを用
いた部分空間推定と統合

音素部分空間の統合による音声特徴量抽出の検討

Transcript 音素部分空間の統合による音声特徴量抽出の検討

Directory