突発的に発生した雑音の除去

Download Report

Transcript 突発的に発生した雑音の除去

1-P-28 雑音重み推定と音声GMMを用いた既知雑音除去
三宅信之 滝口哲也 有木康雄 (神戸大)
研究の背景・目的
電話音
研究背景
実環境では雑音によって音声認識率が低下
雑音除去を行うことで認識率を改善
突発的に発生した雑音でも認識率は低下する
研究目的 突発的に発生した雑音の除去
除去するために雑音を検出・識別し,
その情報を元に除去を行う
雑音の検出
アプローチ
特徴量ベクトル
あらゆるげんじつお・・・・
がー
クリーン音声と雑音重畳音声をAdaBoostで学習
この2種類をフレーム毎に
分けられるように識別器を作成する
AdaBoost
特徴量抽出
クリーンスピーチ
雑音重畳
雑音の検出
雑音の識別
クリーン
スピーチ
雑音重畳フレーム
雑音重畳
AdaBoost
クラス1
or
それ以外
雑音識別
雑音除去
雑音は種類が多い 電話音,ドアを閉める etc.
→k-means を使ってクラスタリングしておく
AdaBoost
クラスK
or
それ以外
AdaBoost
クラス2
or
それ以外
テストデータは音声が乗っているため,単純
に距離をとっただけではクラスを判定できない
→AdaBoostを使って
雑音重畳音声を学習し判定
雑音k重畳
音声認識
雑音重畳音声
雑音は識別されているので波形は大体わかっているが,強さがわからない!
→強さを表す定数を導入して定式化
観測信号のメルフィルタバンク特徴量
X (k )  S (k )    N (k )
雑音の強さを表す定数
識別された雑音≒既知雑音
観測信号の対数メルフィルタバンク特徴量
X log ( k )  S log ( k )  log 1    exp N log ( k )  S log ( k )



実験
実験条件
音声データ ATR特定話者単語発話
(学習用2720+テスト用500 話者4名)
雑音データ RWCP非音声ソースより105種類
(各種類学習用50データ+テスト用50データ)
各発話に雑音を複数重畳させてテスト
G ( k ,  ) これを推定,減算することで雑音を除去!
音声GMMを用いた雑音除去
クリーン音声のM混合GMM
p ( S log ) 


w ( m ) N S log ,  s , m ,  s , m
m
を元にp ( X log ) を考える
p ( X log ) 



検出・識別・除去
G ( k ,  ) の推定結果として
混合ごとの尤度で重み付き平均
p( X
| m)  

 G (k , ) 
p
(
X
|
m
)

| m)
log
w ( m ) N X log ;  x , m ,  x , m
m
p ( X log
 x ,m   s ,m   G ,m
G ,m
(k )
log
 G , m ( k )  log 1    exp  n ( k )   s , m ( k ) 
 x , m   s , m と仮定
識別で求めたクラスの平均
雑音の除去
解析的に解くことは難しいので
ニュートン法で決定
1階微分
1
f ( m )
ˆ m   m  2
p ( X log | m )  max
f ( m )
 log p ( X log | m )
2階微分
 0 となる  m を求める
 m
を収束するまで繰り返す
 log P ( X log | m )
( X log ( k )   S , m ( k )  G ( k ,  m ))
 m


k

2
X ,m ,k
(e
 s ,m ( k )   n ( k )
 m )
認識
12次元MFCC
5状態4混合音素HMM
除去時の
GMM混合数
S log  X log  G
雑音重みの推定
実際はαが未知なので
p ( X log | m ) も  G , m も未知
→混合ごとに尤度が最大になるようにαを決定
このときのαは混合ごとに値が違う  m とおく
特徴量 24次元対数メルフィルタバンク
K-meansクラス数 9クラス
GMM混合数 16,32,64
除去 重み推定
なし なし
16
32
64
SN比 5dB 70.5 70.2(16) 81.2 81.4 81.1
0dB 63.8 66.3(16) 76.4 77.1 76.3
-5dB 57.4 65.0(32) 71.7 72.2 71.8
今後の予定
音声認識のさらなる改善
大語彙での音声認識
未知雑音の除去