Transcript 研究の背景
3-Q-20 音響モデルを利用したシングルチャネルによる音源方向推定の検討 住田雄司, 滝口哲也, 有木康雄(神戸大) 研究の背景 実環境では,雑音の影響により音声認識率が著しく低下する. ・発話者の方向を推定することにより,その方向にマイクロホンの指向特性を形成して発話音声を強調する. ・雑音の方向を推定することにより,その方向にマイクロホンの死角を形成して雑音を抑圧する. 従来の方法では,複数のマイクロホンによる到来信号の時間差から方向を推定していた. → 単一マイクロホンで方向を推定することはできないのだろうか? 単一マイクロホンによる方向推定の利点 本研究の目的 ・コスト削減 ・設置の容易さ ・モジュール間の整合性 単一マイクロホンによる音源方向推定 提案手法 単一マイクロホンで方向を推定するにはどのようにすればよいのか? 提案手法のフローチャート Train Test クリーン音声 GMM 推定したい方向 からの入力音声 各方向からの 入力音声 (数単語) その方向における 音響伝達特性 信号の時間差の代わりに,音響伝達特性による比較を行う! 音響伝達特性はどのようにして推定するのか? Acoustical Clean speech transfer function Observed speech S H O log O ( ; t ) log S ( ; t ) log H ( ) OとSが既知であればHを求めることができるが,Sは実際に 観測することができない.そこで,Sの代わりに予め学習可能な クリーン音声GMM(Gaussian Mixture Model)を用いて, 尤度最大基準に基づきHを推定する. Hˆ cep arg max P O S cep , H cep Q ( H , Η ) t 1 t (n, m ) O t ,i H t,i n , m ,i t (n, m ) 2 2 n , m , i n 1 m 1 i 1 N M n , m N S t ; μ n , m , n,m M n ,m H t, i t (n, m ) O t ,i n , m ,i n 1 m 1 N M n 1 m 1 t (n, m ) 各方向における 音響伝達特性 GMM : モデルパラメータの集 合 : 分布の重み D : 次元数 T : フレーム数 2 n , m ,i 入力音声の音響伝達 特性と,各方向に おける音響伝達特性 モデルを比較 ↓ 最も尤度が大きい 方向を到来方向として 出力 N S t ; μ n , m , n,m M 2 D m 1 N 方向識別率[%] T 各方向における 音響伝達特性 H t, i N : 状態数 M : 混合数 2 n , m ,i 具体的には,推定したい方向から数単語の音声を観測し, クリーン音声GMMとEMアルゴリズムを用いてHを推定する. 100 90 80 70 60 50 40 30 20 10 0 2方向における識別率 方向識別率[%] O ( ; t ) S ( ; t ) H ( ) H cep H t, i 1mix 2mix 30° 実験環境 90°の方向から音声到来 話者 特徴量 特定話者(男性1名) MFCC(16次元) クリーン音声の音響モデル 音響伝達特性の音響モデル クリーン音声の学習データ 音響伝達特性推定の学習データ テストデータ GMM(64混合) GMM(1,2,4混合) 2620単語 10単語 1000単語 90° 130° 30° 2m 部屋の残響 : 300 [ms] 方向識別率[%] 音声データ・音響モデル 100 90 80 70 60 50 40 30 20 10 0 1mix 30° 2mix 90° 1mix 30° 90° 4mix 130° 2mix 90° 4mix 130° 130°の方向から音声到来 方向識別率[%] 評価実験 4mix 100 90 80 70 60 50 40 30 20 10 0 30°の方向から音声到来 100 90 80 70 60 50 40 30 20 10 0 1mix 30° 2mix 90° 4mix 130°