突発的に発生した雑音の除去
Download
Report
Transcript 突発的に発生した雑音の除去
1-P-28 雑音重み推定と音声GMMを用いた既知雑音除去
三宅信之 滝口哲也 有木康雄 (神戸大)
研究の背景・目的
電話音
研究背景
実環境では雑音によって音声認識率が低下
雑音除去を行うことで認識率を改善
突発的に発生した雑音でも認識率は低下する
研究目的 突発的に発生した雑音の除去
除去するために雑音を検出・識別し,
その情報を元に除去を行う
雑音の検出
アプローチ
特徴量ベクトル
あらゆるげんじつお・・・・
がー
クリーン音声と雑音重畳音声をAdaBoostで学習
この2種類をフレーム毎に
分けられるように識別器を作成する
AdaBoost
特徴量抽出
クリーンスピーチ
雑音重畳
雑音の検出
雑音の識別
クリーン
スピーチ
雑音重畳フレーム
雑音重畳
AdaBoost
クラス1
or
それ以外
雑音識別
雑音除去
雑音は種類が多い 電話音,ドアを閉める etc.
→k-means を使ってクラスタリングしておく
AdaBoost
クラスK
or
それ以外
AdaBoost
クラス2
or
それ以外
テストデータは音声が乗っているため,単純
に距離をとっただけではクラスを判定できない
→AdaBoostを使って
雑音重畳音声を学習し判定
雑音k重畳
音声認識
雑音重畳音声
雑音は識別されているので波形は大体わかっているが,強さがわからない!
→強さを表す定数を導入して定式化
観測信号のメルフィルタバンク特徴量
X (k ) S (k ) N (k )
雑音の強さを表す定数
識別された雑音≒既知雑音
観測信号の対数メルフィルタバンク特徴量
X log ( k ) S log ( k ) log 1 exp N log ( k ) S log ( k )
実験
実験条件
音声データ ATR特定話者単語発話
(学習用2720+テスト用500 話者4名)
雑音データ RWCP非音声ソースより105種類
(各種類学習用50データ+テスト用50データ)
各発話に雑音を複数重畳させてテスト
G ( k , ) これを推定,減算することで雑音を除去!
音声GMMを用いた雑音除去
クリーン音声のM混合GMM
p ( S log )
w ( m ) N S log , s , m , s , m
m
を元にp ( X log ) を考える
p ( X log )
検出・識別・除去
G ( k , ) の推定結果として
混合ごとの尤度で重み付き平均
p( X
| m)
G (k , )
p
(
X
|
m
)
| m)
log
w ( m ) N X log ; x , m , x , m
m
p ( X log
x ,m s ,m G ,m
G ,m
(k )
log
G , m ( k ) log 1 exp n ( k ) s , m ( k )
x , m s , m と仮定
識別で求めたクラスの平均
雑音の除去
解析的に解くことは難しいので
ニュートン法で決定
1階微分
1
f ( m )
ˆ m m 2
p ( X log | m ) max
f ( m )
log p ( X log | m )
2階微分
0 となる m を求める
m
を収束するまで繰り返す
log P ( X log | m )
( X log ( k ) S , m ( k ) G ( k , m ))
m
k
2
X ,m ,k
(e
s ,m ( k ) n ( k )
m )
認識
12次元MFCC
5状態4混合音素HMM
除去時の
GMM混合数
S log X log G
雑音重みの推定
実際はαが未知なので
p ( X log | m ) も G , m も未知
→混合ごとに尤度が最大になるようにαを決定
このときのαは混合ごとに値が違う m とおく
特徴量 24次元対数メルフィルタバンク
K-meansクラス数 9クラス
GMM混合数 16,32,64
除去 重み推定
なし なし
16
32
64
SN比 5dB 70.5 70.2(16) 81.2 81.4 81.1
0dB 63.8 66.3(16) 76.4 77.1 76.3
-5dB 57.4 65.0(32) 71.7 72.2 71.8
今後の予定
音声認識のさらなる改善
大語彙での音声認識
未知雑音の除去