Transcript Document
3次キュムラント
音声特徴を用いた
音声区間検出
神戸大学自然科学研究科
松田博義
研究目的
・音声
目的話者の発話
・非音声
音楽,車内雑音,etc…
VAD
(Voice Activity
Detection)
音声区間
非音声区間
マイクから得られた音声
実環境における問題点
目的音声に重畳する各種の雑音による認識性能の劣化
音声区間のみを検出(VAD : Voice Activity Detection)することが必
要
VAD (Voice Activity Detection)
VAD
音声区間
音声データ
音声特徴
抽出
尤度比
(信頼値)
計算
平滑化
及び
閾値処理
非音声区間
提案内容
・3次キュムラント音声特徴の使用
・MFCCとの統合
3次キュムラントによる音声特徴
J.C. Segura他
キュムラント(累積数)
“Bispectrum Estimators for Voice Activity Detection and Speech
Recognition”, Lecture Notes in Artificial Inteligence,No. 817,
2005.
確率分布の形状を示す指標.
正規分布は3次以上のキュムラントはすべて0となる
3次キュムラントによる音声特徴
雑音は音声に比べると乱数に近い
雑音の3次以上のキュムラントは0に近くなる
M k E[ x ] xk p( x)dx
キュムラント
k
G( ) E[ x ] x x p( x)dx
x
指標
d n log G( )
n
d n
平均
dc( )
1
d
2次
分散
d 2c( )
2
d 2
3次
歪度
3 M3 3M2M1 2M13
4次
尖度
4 M4 4M3M1 3M22 12M2M12 6M14
キュムラント
1次
d nc( )
0
d n
1 dG( )
0
G( ) d
0
d 1 dG( )
d G( ) d
0
0
0
M1
M 2 M12
3次キュムラントの拡張
3次キュムラントをフレーム間での相関をとるように拡張
1 N 1
Cxk x l E[ x0 xk xl ] x0 (ti ) xk (ti ) xl (ti )
N i 0
x j (t ) y j (t ) E[ x j ]
K, lは現在処理しているフレームからの遅延
各フレームから,k,lについての2次元のデータが得られる
音声
l遅延
フレーム
現在
k遅延
処理している
フレーム
音声フレーム
時間
3次キュムラントによる音声特徴
得られた3次キュムラントに対し,2次元離散フーリエ変換を
行う
Cˆ xk xl (n, m)
M
M
C
k M l M
xk xl
w(k , l ) exp( j(n k ml ))
2次元離散フーリエ変換されたものからPCAを用い,数点抽
出することにより,3次元キュムラントによる音声特徴とする.
PCAは,フーリエ変換を行ったデータの対象性を考え,全体の4分の
1のデータを用いた
適用例
雑音の
3次キュムラント及び
2次元フーリエ変換図
雑音重畳音声の
3次キュムラント及び
2次元フーリエ変換図
MFCCとの統合
MFCCとキュムラント特徴を統合(初期統合)
MFCC:フレーム内特徴
補完しあっている
キュムラント:フレーム間特徴
音声
データ
MFCC
(n次元)
統合特徴(n+m次元)
3次キュムラント
音声特徴(m次元)
GMM
GMM-ストリーム重み
MFCCとキュムラントを統合する際,最適なストリーム重み
を用いた
MFCCは固定で,キュムラントに関する重みのみを変更した
100
97
94
正答率
適合率
91
88
85
0.05
0.1
0.2
0.3
0.6
キュムラント特徴に対するストリーム重み
1
尤度比判定
GMMより得られた尤度
を用い,対数尤度比を
計算
前後の数フレームで平
滑化を行い,閾値判定
Ps xi | Modelspeech
Lxi log
Pn xi | Modelnoise
L(i)
j i
n
2
j i
n
2
L( j)
L’(x)≧θ:音声
L’(x)<θ:非音声
θ:閾値
区間処理
音声
得られた音声区間のうち一定時間以下の区間を削
除することにより最終的な音声区間を得る
検出
された
区間
検出
検出
された
検出された区間
された
区間
区間
時間
検出
された
区間
実験条件
学習データ
テストデータ
音声:雑音を重畳させた文章の発話データ.男性8名×150発話,女
性8名×150発話
非音声:一般道路走行時における車内雑音データ5分弱
アイドリング時,高速道路走行時における車内での発話データ.各
データとも男性4名女性4名,各話者100発話,計800発話
評価方法
検出された区間の始端終端があらかじめ与えておいたラベルと合致
すれば正解,そうでないものは誤検出とする
recall
発話区間であると正し く検出された区間の数
発話区間の総数
precision
発話区間であると正し く検出された区間の数
検出された区間の総数
比較対象
MFCC
フレーム幅:32[ms],シフト幅:8[ms],CMS, Δ無
フレーム幅:32[ms],シフト幅:8[ms],CMS, Δ有
キュムラント
フレーム幅:32[ms],シフト幅:1[ms],最大30フレーム遅
延までを計算
初期統合による統合特徴
キュムラント+MFCC(Δ無)
キュムラント+MFCC(Δ有)
実験結果-アイドリング時
100
97
94
recall
precision
91
88
85
MFCC
MFCC+Δ
Cum
Cum+MFCC
実験結果:アイドリング時
SN比:15~25dB,平均18dB
Cum+MFCC+Δ
実験結果-高速道路走行時
100
95
90
recall
precision
85
80
75
MFCC
MFCC+Δ
Cum
Cum+MFCC
実験結果:高速道路走行時
SN比:0~10dB,平均6dB
Cum+MFCC+Δ
考察
キュムラント単体では従来手法であるMFCCを上回ることは
できなかった
キュムラント特徴は,正規分布を仮定した値になっていない
オーバーフィッティングがおこっている
今回は無理矢理,平均0,分散1にすることにより実験を行った
学習の際,非常に分散の小さい分布が現れ,無視されるようになったも
のもある
キュムラントと,MFCCを統合することにより結果は改善され
た
キュムラントによるフレーム間での特徴,MFCCによるフレーム内で
の特徴が互いに補完しあったため.
まとめ
3次キュムラントによる音声特徴抽出の使用,及び
MFCCとの統合
キュムラント特徴単体では,MFCCを上回ることが
できなかったが,特徴の初期統合によりそれらを改
善することができた
今後の予定
SN比,環境を変えての実験
適切な学習データで学習
音声認識への適用