Transcript PCA

1ーPー26
PCAを用いた音素ベクトルによる音声特徴量抽出の検討
朴 玄信, 滝口 哲也, 有木 康雄 (神戸大)
音素部分空間の統合
研究背景・目的
固有音素空間(Eigen Phoneme Space)
・音声によるユーザインタフェースの需要
・実環境での音声認識性能が低下する問題がある
・音声特徴量ベースのロバストな音声認識手法を提案
固有音素空間 (EPS) Φ
PCA
Φ/o/
PCA
観測信号には様々な情報が混在
部分空間法をベースに観測信号から音素情報だけ抽出し、
また音素間の情報も取り入れえる
Φ/u/
PCA
アプローチ
Φ/i/
PCA
Φ/a/
/a/
/i/
/u/
/o/
観測空間 O
固有音素空間は、各音素部分空間(音素フィル
タ)を統合した空間である。この固有音素空間へ
射影される特徴量には音素間の情報が含まれ
る。この特徴量を音素ベクトルとする。
部分空間法
観測空間上のデータ分布(構造)をうまく表す
新たな空間(基底ベクトル)を求める手法
観測データ集合に対してPCAを
行い正規直交基底を求める
Observed
data
Φ’
統合した固有音素空間は
大きい空間(音素数*各
部分空間次元)になる。さ
らにPCAを用いて次元圧
縮を図る。
s1
分散が大きい基底ベクトル(s1)
を選び観測データ集合が属する
クラスの部分空間とする
s2
Observed
space O
PCA
O2
圧縮 EPS
観測ベクトルをこの部分空間へ
射影することでクラスに関する情
報が得られる
O1
音素ベクトル
EPS Φ
特徴量抽出フ
ロー
DCT
窓処理
FFT
Mel
filter bank
学習モデル
基本係数
32
MFCC
-
16
PCA
EPS
圧縮EPS
3000
54 x100
3000
16
54
x (5~
21)
16
+5.3%
+2.6%
95
90
85
79.1
80
81.8
84.4
75
Clean
PV_19
PCA
MFCC
70
PV_11
PV_15
PV_13
PV_11
PV_9
PV_7
PV_5
70
96.1 96.4
PCA
Clean
Reverberant
75
話者ごと1000単語
(クリーン、380ms残響)
54個のモノフォンHMM
3状態、4混合分布
評価データ
80
96
MFCC
話者ごと2620単語
85
PCA
学習データ
4人平均認識率[%]
男性2名、女性2名
90
MFCC
認識対象話者
95
PV_21
窓幅 32ms
窓シフト 8ms
100
PV_19
サンプリング周波数 16kHz
窓(フレーム)処理
-
(PV)
100
4人平均認識率[%]
特定話者孤立単語認識
音声信号
部分空間推定
サンプル数
音素ベクトル
実験結果
音声認識タスク
Log
MFB
PCA
圧縮
EPS
EPS
実験条件
+Δ
CMN
PCA
log
PV_17
音声信号
|.|2
MFCC
Reverberant
考察・今後の予定
提案手法により、クリーンで高認識率、残響で認識率改善が得られた
各音素部分空間の元の次元の半分くらいまでの部分空間が適切
これは分散が小さい空間(クラス共通性分)が音素間の情報を表わすのに有効
予定① 統合法において排他的空間を求める
予定② PCAの代わりICAを用い部分空間作成
補足
音素ベクトル定式化
Φi:
V :
Xn:
i :
x
V  [ ,  , ,  ]
1
2
T
M
T
C  [ x  , x  , , x
1
1
2
2
M
T
i番目音素部分空間
射影行列 C:中心ベクトル
観測ベクトル yn:音素ベクトル
i番目音素平均ベクトル
 ]
M
1 



y 
 [ xn  x ]
 xn   x



 2   2T
T
T
2
2
2
2
y
T
T
n 
  [ xn  x ]    xn   x 

yn 


 V xn  C



   


  T

 M   MT
T
M
M
M
M
 y n    [ x n  x ]    x n   x 
1T
1
n
1
1T
1T
話者ごと実験結果
クリーン学習、クリーンテスト
98
97.5
97
96.5
96
95.5
95
94.5
94
93.5
93
92.5
PV_21
PV_19
PV_17
PV_15
PV_13
PV_11
PV_9
PV_7
PV_5
PCA
MFCC
Log power spectrum : /a i t e/
F1
F2
M1
M2
クリーン学習、残響テスト
90
85
80
F1
F2
M1
M2
75
70
PV_21
PV_19
PV_17
PV_15
PV_13
PV_11
PV_9
PV_7
PV_5
MFCC
Log MFB output : /a i t e/
PCA
65
残響学習、残響テスト
PV_21
PV_19
PV_17
PV_15
PV_13
PV_11
PV_9
PV_7
PV_5
PCA
F1
F2
M1
M2
MFCC
Log MFB output projected onto
/a/-subspace : /a i t e/
95
94
93
92
91
90
89
88
87
86
85
追加実験(LDAとの比
較)
クリーン学習
Feature
F1
F2
M1
M2
MFCC
94.9
95.6
96.9
96.5
95.975
PCA
95.1
95.2
97.6
96.6
96.125
クリーンテスト
LDA
93.7
92.9
94.3
94.6
93.875
PV_11
95.6
96
97.5
96.6
96.425
PCAは最良分布近似空間
LDAはクラス間分離度最大空間
EPS(PV)は複数の分布近似空間
LDAは多クラス分離度最大空間を
求めるには性能の限界がある
EPSは各クラスの分布情報全部と
りいれた空間であり、各クラス分布
近似はPCAにより可能