ランダムプロジェクションを用いた音声特徴量抽出

Download Report

Transcript ランダムプロジェクションを用いた音声特徴量抽出

ランダムプロジェクションを用いた音声特徴量抽出
1-P-16
◎吉井 麻里子,滝口 哲也,有木 康雄(神戸大),
Jeff BILMES(University of Washington)
研究の背景・目的
特徴量抽
出
入力
■従来のMFCC特徴量は雑音環境下において認識精度が定価
→さまざまな環境下において頑健な音声特徴量抽出手法
■ランダムプロジェクション:高次元空間における任意の2点間のユークリッド距離
が,射影先の低次元空間においてもほぼ保存される,という性質を持つ空間写像の
手法
→音声特徴量抽出に用いることで、音声認識の向上を目指す
音声信号
音響モデル学
習
音声特徴量:
Mel Frequency
Cepstral
Coefficients
(MFCC)
Speech
STFT
出力
認識率
音響モデル:
Hidden Markov
Model
(HMM)
従来手法
Mel Filter
Bank
Log
DCT
ランダムプロジェクション
■n 次元ユークリッド空間からk 次元ユーク ■ランダムプロジェクションの性質
リッド空間へランダムに写像する空間写像
□変換によるベクトル間類似度のゆ
の手法
がみを考え、二つのベクトルの内積
■写像行列は,各成分が独立にある確率分
を類似度とする
布に従うランダムなd×N 行列として定義
□RPによりベクトルがそれぞれ n>x, m->y と変換されたとき、変換後
d
の類似度は、
x : reduced-dimensional vector, x  R N
T
T T
n : original-dimensional vector, n  R
x y  n R Rm
R : random matrix, d  N
T
□ここで、 R R を考える
□Rの列ベクトル ri が単位長である
とき、次のようにかける
x  Rn
R R  I 
where  ij  ri rj for i  j,
and  ii  0 for all i
実験条件
特徴量抽出
■音声特徴量抽出において、ランダムプロジェクションを適用する
■様々な特徴量との統合(2-D Gabor Filtering, Segmentation)
(1)
speech
FFT
Mel
log
DCT
⊿,⊿⊿
RP
(2)
speech
FFT
Mel
log
DCT
RP
+
DCT
⊿,⊿⊿
speech
FFT
と書くことができる。したがって削減
次元数 d が大きいほど、  は0に近
づき、ベクトル間類似度は単位行列に
近づく
T
T
(3)
□ ri と r j が直交に近くなればなる
ほど,  は0に近くなり,ベクトルの類
似度は保存される
□Rの分布を平均0の正規分布である
2


と仮定すると、 の平均は0、分散 
は、
2
   1/ d
Mel
log
Gabor
(4)
speech
FFT
Mel
log
Gabor
(5)
speech
FFT
Mel
log
DCT
(6)
speech
FFT
Mel
log
DCT
自動車内音声認識の評価用データベース
CENSREC-3 (Corpus and Environments
for Noisy Speech RECognition)・Condition4
を使用(16kHz・16bit・Monaural)
■学習データ:アイドリング走行時3608音声
■評価データ:低速・高速走行時8836音声
RP
⊿,⊿⊿
RP
⊿,⊿⊿
RP
Seg(5)
RP
□評価データ音声は50単語、学習データ音声は音
素バランス文を使用
□単語音声の認識は音素HMMにより行う。それぞ
れ5状態32混合の分布
□得られた特徴量はあらかじめ平均0・分散1に正
規化しておく
実験
■複数のRによる認識率の変化
Word Accuracy [%]
■単語音声認識率
90
80
70
60
50
40
30
20
10
0
76.14
77.64
77.06
67.28
58.99
まとめ
(1)
74.04
70.29
(2)
(3)
79.04
(4)
73.64
(5)
(6)
Features [dimension]
□ランダムプロジェクション変換前の特徴量で
の認識率より、高い認識率が得られる
□MFCC特徴量とランダムプロジェクションの組
み合わせにより、MFCC単独よりも認識率の高
い特徴量が得られている
(1) MFCC_D_A -> RP[36]
max
77.64
Mean
75.918
min
75.11
(2) (MFCC->RP) + (MFCC)⊿⊿[36]
77.06
76.522
75.6
(3) Gobor[60] -> RP[60]
70.29
67.81
64.18
(4) Gabor_D_A[180] -> RP[36]
74.04
70.722
67.87
(5) MFCC[12] -> RP[12]_D_A
79.04
75.9055
70.93
(6) MFCC[12] -> Seg(5) -> RP[60]
73.64
72.0485
68.87
□ランダムマトリックスを複数作成し、それぞれ
の認識率を計算したところ、認識率にばらつき
が生じた
□平均0・分散1の正規分布を用いてランダム
マトリックスを求めているため、無限通りのラン
ダムマトリックスが存在する
まとめ
■ランダムプロジェクションによる
様々な特徴量の統合により多くの性
質を保存した特徴量生成の可能性
■無限通りのランダムマトリックスか
ら、認識率の高くなるようなランダム
マトリックスをどのように選択するか
が課題
今後の方向
■様々な特徴量とランダムプロジェ
クションの組み合わせ
■シミュレーションを行い最も良いラ
ンダムマトリックスを探す
■ランダムマトリックス生成のアルゴ
リズムを探究