Transcript PCA
1ーPー26 PCAを用いた音素ベクトルによる音声特徴量抽出の検討 朴 玄信, 滝口 哲也, 有木 康雄 (神戸大) 音素部分空間の統合 研究背景・目的 固有音素空間(Eigen Phoneme Space) ・音声によるユーザインタフェースの需要 ・実環境での音声認識性能が低下する問題がある ・音声特徴量ベースのロバストな音声認識手法を提案 固有音素空間 (EPS) Φ PCA Φ/o/ PCA 観測信号には様々な情報が混在 部分空間法をベースに観測信号から音素情報だけ抽出し、 また音素間の情報も取り入れえる Φ/u/ PCA アプローチ Φ/i/ PCA Φ/a/ /a/ /i/ /u/ /o/ 観測空間 O 固有音素空間は、各音素部分空間(音素フィル タ)を統合した空間である。この固有音素空間へ 射影される特徴量には音素間の情報が含まれ る。この特徴量を音素ベクトルとする。 部分空間法 観測空間上のデータ分布(構造)をうまく表す 新たな空間(基底ベクトル)を求める手法 観測データ集合に対してPCAを 行い正規直交基底を求める Observed data Φ’ 統合した固有音素空間は 大きい空間(音素数*各 部分空間次元)になる。さ らにPCAを用いて次元圧 縮を図る。 s1 分散が大きい基底ベクトル(s1) を選び観測データ集合が属する クラスの部分空間とする s2 Observed space O PCA O2 圧縮 EPS 観測ベクトルをこの部分空間へ 射影することでクラスに関する情 報が得られる O1 音素ベクトル EPS Φ 特徴量抽出フ ロー DCT 窓処理 FFT Mel filter bank 学習モデル 基本係数 32 MFCC - 16 PCA EPS 圧縮EPS 3000 54 x100 3000 16 54 x (5~ 21) 16 +5.3% +2.6% 95 90 85 79.1 80 81.8 84.4 75 Clean PV_19 PCA MFCC 70 PV_11 PV_15 PV_13 PV_11 PV_9 PV_7 PV_5 70 96.1 96.4 PCA Clean Reverberant 75 話者ごと1000単語 (クリーン、380ms残響) 54個のモノフォンHMM 3状態、4混合分布 評価データ 80 96 MFCC 話者ごと2620単語 85 PCA 学習データ 4人平均認識率[%] 男性2名、女性2名 90 MFCC 認識対象話者 95 PV_21 窓幅 32ms 窓シフト 8ms 100 PV_19 サンプリング周波数 16kHz 窓(フレーム)処理 - (PV) 100 4人平均認識率[%] 特定話者孤立単語認識 音声信号 部分空間推定 サンプル数 音素ベクトル 実験結果 音声認識タスク Log MFB PCA 圧縮 EPS EPS 実験条件 +Δ CMN PCA log PV_17 音声信号 |.|2 MFCC Reverberant 考察・今後の予定 提案手法により、クリーンで高認識率、残響で認識率改善が得られた 各音素部分空間の元の次元の半分くらいまでの部分空間が適切 これは分散が小さい空間(クラス共通性分)が音素間の情報を表わすのに有効 予定① 統合法において排他的空間を求める 予定② PCAの代わりICAを用い部分空間作成 補足 音素ベクトル定式化 Φi: V : Xn: i : x V [ , , , ] 1 2 T M T C [ x , x , , x 1 1 2 2 M T i番目音素部分空間 射影行列 C:中心ベクトル 観測ベクトル yn:音素ベクトル i番目音素平均ベクトル ] M 1 y [ xn x ] xn x 2 2T T T 2 2 2 2 y T T n [ xn x ] xn x yn V xn C T M MT T M M M M y n [ x n x ] x n x 1T 1 n 1 1T 1T 話者ごと実験結果 クリーン学習、クリーンテスト 98 97.5 97 96.5 96 95.5 95 94.5 94 93.5 93 92.5 PV_21 PV_19 PV_17 PV_15 PV_13 PV_11 PV_9 PV_7 PV_5 PCA MFCC Log power spectrum : /a i t e/ F1 F2 M1 M2 クリーン学習、残響テスト 90 85 80 F1 F2 M1 M2 75 70 PV_21 PV_19 PV_17 PV_15 PV_13 PV_11 PV_9 PV_7 PV_5 MFCC Log MFB output : /a i t e/ PCA 65 残響学習、残響テスト PV_21 PV_19 PV_17 PV_15 PV_13 PV_11 PV_9 PV_7 PV_5 PCA F1 F2 M1 M2 MFCC Log MFB output projected onto /a/-subspace : /a i t e/ 95 94 93 92 91 90 89 88 87 86 85 追加実験(LDAとの比 較) クリーン学習 Feature F1 F2 M1 M2 MFCC 94.9 95.6 96.9 96.5 95.975 PCA 95.1 95.2 97.6 96.6 96.125 クリーンテスト LDA 93.7 92.9 94.3 94.6 93.875 PV_11 95.6 96 97.5 96.6 96.425 PCAは最良分布近似空間 LDAはクラス間分離度最大空間 EPS(PV)は複数の分布近似空間 LDAは多クラス分離度最大空間を 求めるには性能の限界がある EPSは各クラスの分布情報全部と りいれた空間であり、各クラス分布 近似はPCAにより可能