スライド 1

Download Report

Transcript スライド 1

3次キュムラントのバイスペクトラムと
PCAによる音声区間検出
松田博義,滝口哲也,有木康雄(神戸大)
目的
キュムラント
3次キュムラントの拡張

M k  E[ x ] 
k
音声
G ( )  E [ x
VAD
音声特徴抽出
キュ
ムラ
ント
指 
n
標
x

k

]
x p ( x ) dx



d log G ( )
n

d
x
x
p ( x ) dx
d c ( )
n
 0
n

d
n
平滑化及び閾値処理
平
1次
均
1 
 0
d

d c ( )
1
G ( )
2
音声区間
非音声区間
・実環境における問題点
-目的音声に重畳する各種の
雑音による認識性能の劣化
-音声区間のみを検出(VAD:
Voice Activity Detection)することが必要
3次キュムラントの
Bispectrumによる音声特徴
分
2次
散
2 
d
2
 0

d
dG ( )
d
1
d  G ( )
 0
 0
 M1
-K, lは現在処理しているフレームからの距離
ただし,-M ≦ k, l ≦ Mである.
-各フレームから,kを横軸, lを縦軸として,
下図のような2次元のデータが得られる.
音声 l離れた
dG ( )
d
3次キュムラントをフレーム間での
得られた3次キュムラントに対し,
相関をとるように拡張. N 1
データ解析の為2次元離散フー
1
リエ変換を行う.
C xk x  E [ x0 x k xl ] 
x 0 (ti ) x k (ti ) xl (ti )

l
N i0
Cˆ x x ( n , m ) 
x j (t )  y j (t )  M 1[ x j ]
M
M
k
尤度比(信頼値)計算
dc ( )
3次キュムラントの
バイスペクトラム
フレーム
 0
 M 2  M 1
2
現在
処理している
音声フレーム
時間
k離れた
フレーム
l
 C
k M lM
x k xl
w ( k , l ) exp(  j ( n k   m l ))
2次元離散フーリエ変換されたも
のから,PCA(主成分分析)を行
い有意な情報だけを用いて次元
圧縮することにより,3次元キュ
ムラントによる音声特徴とする.
歪
3
3次


M

3
M
M

2
M
3
3
2
1
1
度
尖
4次
度
4 
M 4  4 M 3 M 1  3 M 2  12 M 2 M 1  6 M 1
2
2
4
・キュムラント(累積数)
-確率分布の形状を示す指標.
-正規分布は3次以上のキュムラントは
すべて0となっている.
・3次キュムラントによる音声特徴
-雑音は音声に比べると
乱数(ホワイトノイズ)に近い.
-雑音の3次以上のキュムラントは0に
近くなる.
適用例
音声、雑音、雑音重畳音声に
対して3次キュムラントバイ
スペクトラムを計算.
-雑音重畳音声のSNはおよそ10dB.
-雑音が抑圧され,音声が
強調されている.
→音声強調の効果.
音声
雑音
雑音重畳音声
MFCCとの統合
MFCCとキュムラント特徴を統合(初期統合)
MFCC:フレーム内特徴
補完しあっている.
キュムラント:フレーム間特徴
MFCC,キュムラントでストリームに分け,
実験により適切な重みを決定する.
b  x t    m bm  x mt    c bc  x ct 
 m ,  c : MFCC, キュムラント特徴に対
するストリーム重み
b m , b c : MFCC, キュムラント特徴の対
数尤度
音声
データ
MFCC
(n次元)
95
71
90
70.59
recall
precision
67
69.06
92.2592.95
98.08
94.91
93.25
94.6394.51
96
85
80
66.13
66
recall
precision
75
63
62 62.23
58.63 59.14
66
65
60
55
70.59
70
8
16
32
64
MFCC
MFCC+Δ
Cum
Cum+MFCC Cum+MFCC+Δ
実験結果:高速道路走行時,SN比:0~10dB,平均6dB
PCAにより圧縮した次元数
GMM-最適なストリーム重みの決定
尤度比判定
GMMより得られた尤度を用い,対数尤度比を計算.
L  x i   log
100
59
統合特徴(n+m次元) GMM
キュムラント
特徴(m次元)
実験結果-高速道路走行時
PCA-最適な次元数の決定
Ps  x i | Model
Pn  x i | Model
speech
noise


前後の数フレームで平滑化を行い,閾値判定.
n
ji
L’(x)≧θ:音声
2
L ( i )   L ( j )
L’(x)<θ:非音声
n
ji
θ:閾値
2
実験条件
学習データ
-音声:雑音を重畳させた文章の発話データ.
ASJより男性8名×150発話,女性8名×150発話.
-非音声:一般道路走行時における車内雑音データ
5分弱.
テストデータ
-アイドリング時,高速道路走行時における
車内での発話データ.各データとも男性4名女性4名,
各話者100発話,計800発話.
比較対象
・MFCC
-フレーム幅:32[ms],シフト幅:8[ms] ,Δ無,16次元.
-フレーム幅:32[ms],シフト幅:8[ms] ,Δ有,32次元.
・キュムラント
-フレーム幅:32[ms],シフト幅:1[ms],
最大30フレーム遅延までを計算,8~64次元.
・初期統合による統合特徴
-キュムラント+MFCC(Δ無),48次元.
-キュムラント+MFCC(Δ有),64次元.
MFCCとキュムラントを統合する際の最適な
ストリーム重みの決定.
-MFCCは固定で,キュムラントに関する重みのみを
変更した.
100
97.5
95
recall
precision
98.08
97.94
96.95
94.6394.51
95.25
96
95.25
92.5
91.31
90.63
90
0
0.13
0.25
0.5
1
キュムラント特徴に対するストリーム重み
実験結果-アイドリング時
100
99.87
recall
precision
97.5
98.38 98.5
96.8897.12
100
99.56
98.25
98
97.13
95
92.5
90
MFCC
MFCC+Δ
Cum
Cum+MFCC
Cum+MFCC+Δ
実験結果:アイドリング時,SN比:15~25dB,平均18dB
考察及び今後の予定
キュムラント単体では従来手法であるMFCCを
上回ることはできなかった.
-キュムラント特徴は音声波形のガウス性の有無に
よる音声,非音声の判定を行なっている.
→波形に周期性が現れると,区間検出の際,
音声であると誤検出してしまう.
キュムラントと,MFCCを統合することにより
結果は改善された.
-キュムラントによるフレーム間での特徴,MFCCによる
フレーム内での特徴が互いに補完しあったため.
今後の予定
-波形から計算している3次キュムラントをMFCCから
計算する.
-検出された区間に対する認識実験.