Transcript Document

音響信号処理特論
音声処理における距離尺度
奈良先端科学技術大学院大学
猿渡 洋
マッチングによる音声認識 DTW
音
声
入
力
音
声
分
析
(Dynamic Time Warping)
距
離
マ
ト
リ
ッ
ク
ス
計
算
単語標準
パターン
非
線
形
伸
縮
マ
ッ
チ
ン
グ
単
語
標
準
パ
タ
ー
ン
DTW
入力音声
正
規
化
距
離
の
比
較
認
識
結
果
スペクトル距離
入力スペクトル系列の実例
入力スペクトルと標準パターンスペクトルの比較
音韻によるスペクトルの違い
スペクトルマッチング尺度
 フレーム間のスペクトルの類似度/距離尺度
 スペクトル分析の手法
(1)帯域フィルター群(20~30チャネル)の出力
(2)FFTにより計算したFFTスペクトル包絡
(3)LPC(線形予測分析)によるスペクトル包絡
 ノンパラメトリックな分析法に基づく距離尺度
 帯域フィルター群による方法
– ハードウェアによる実時間分析が比較的容易
– FFT分析からの帯域のエネルギー
– 対数周波数軸( メルスケール、バークスケール)
– 聴覚モデル(マスキング)
音声波形の例
/aikawarazu/
短時間スペクトル分析
LPC分析とケプストラム分析
FFT分析
LPC分析
ケプストラム分析
同じ音声区間
でも分析法に
よって形状が
異なる。
何が音声処理
に向いている
のであろうか?
短時間スペクトルの特徴点
縦
軸
は
?
特にピークが重要
スペクトル包絡
の情報が重要
→
対
数
振
幅
横軸は?→メルスケール
短時間スペクトル分析
発声速度の局所的ゆらぎ /aikawarazu/
様々なスペクトルマッチング尺度
LPCスペクトル包絡
計算量が少ない
ピークの精度が高い
ピッチに多少影響される
モデルベース
LPCスペクトル包絡とケプストラムスムージング
LPCスペクトルマッチング尺度の具体例
– 線形予測分析(LPC)を介して得られたスペクトル包絡の間
の類似度
– 入力音声のLPC スペクトル包絡: g(λ)
– 標準パターンのスペクトル包絡: f(λ)
分析されたスペクトルの比較
板倉‐斉藤距離(LR距離)
評価関数(板倉‐斉藤距離、最尤スペクトル距離などと呼ばれる)
上式は、下のように簡単に計算できることが知られている。
対数スペクトルの差を
で表すと、LRは、
となる。この被積分項を、V (λ)のまわりでテイラー展開すると、
となる
式(3.7)より、
ここで、
V (λ)が小さいときには自乗の重み
V (λ)
0 のときには|V (λ)|に比例する重み
V (λ)
0のときには指数関数
の重み
→ つまり、標準パターンスペクトルよりも入力スペクトル
の方が上回っている場合により大きな重み
→ ピークを重視した距離尺度となっている。
COSH尺度
cosh 尺度(COSH)は、最尤スペクトル距離尺度LRのマッチング
の重みの非対称性を取り除くことを目的に考え出された尺度で、
式( 3.4)と式( 3.4)でf(λ)とg(λ)を取り替えた式を加えて、導出さ
れる。
対数スペクトル差V (λ)に対する重み
上式の被積分項をV (λ) = 0のまわりでテーラ展開すると、
|V (λ)|が小さいときには、自乗にきわめて近い重み
|V (λ)| が大きいときには、指数関数
の重み
LPCケプストラム距離
LPC分析から得られたLPC スペクトル包絡のLPCケプストラム係数は、
LPC予測係数から簡単に計算される。
LPCケプストラム距離(CEP)
ケプストラム係数の推定値
Parsevalの定理を用いると、
対数スペクトルの差V (λ)に対する重み: 2乗
各スペクトルマッチング尺度の特徴
50
被
積
分
関
数
の 30
値
(
重
み
)
COSH
CEP
LR
谷
ピーク
0
-20
0
対数スペクトルの差V (λ)
(dB)
図:スペクトルマッチング尺度(LR、CEP、COSH)における
対数スペクトル差V (λ)に対する重み
20
図3.2
標準パターン入力/i/と入力音声/s/とのスペクトルマッチングの状態
図3.3
単独に発声した/a/と連続発声中の/a/とのスペクトルマッチングの状態
例題
ln f ()  [2, 2, 2, 2, 2, 2, 2, 2]
Gain
以下に与える標準パターン対数振幅スペクトル ln f   と,
入力音声の対数振幅スペクトル ln gn () との距離をユークリッド
距離と板倉-斉藤距離の2手法で求めよ
ln g1 ()  [2, 2, 2, 12
, 2, 2, 2, 2]
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
0
2
3
4
5
6
7
4
5
6
7
λf
5
4
3
2
1
0
-1 0
-2
-3
-4
-5
-6
-7
-8
-9
-10
Gain
ln g2 ()  [2, 2, 2,  8, 2, 2, 2, 2]
1
1
2
3
f
λ
ユークリッド距離と板倉‐斉藤距離の計算法
ユークリッド距離
dU ( f , g) 
ln f ()  ln g() 


7
2
0
板倉-斉藤距離
1 7  f ( ) g ( ) 
d IS( f , g )   ln

1
7  0  g ( ) f ( ) 
スペクトル距離の計算例
d U ( f , g1 )  (2  2)2  (2  2)2  (2  2)2  (2 12)2   (2  2)2
 100  10
d U ( f , g2 )  (2  2)2  (2  2)2  (2  2)2  (2   8)2   (2  2)2
ユークリッド
距離尺度では
同じ値になる
 100  10
d IS( f , g1 ) 
1
(2  2)  exp2  2 1   (2 12)  exp12  2 1   (2  2)  exp2  2 1
8
1
0  0   (11 exp(10))   0
8
22015.465

 2751.9
8
1
d IS( f , g2 )  (2  2)  exp2  2 1   (2  8)  exp 8  2 1   (2  2)  exp2  2 1
8
1
板倉‐斉藤距離尺度では、
 0  0   (9  exp(10))   0
8
明らかにg1の方が大きい。
9
→ピークを重視した距離
  1.125
8
→ホルマントの一致度を測り
やすい(音声処理に適切)

周波数軸の変換:LPCメルケプストラム距離
• LPC メルケプストラム距離
人の耳の聴覚特性は、音の周波数の高さに対して、対数的な特性( メル
尺度)を示すことが知られている。このような周波数軸上の重みがかかる
ように、周波数軸を伸縮する手法として、全域通過フィルター
を用いたbilinear transformation と呼ばれる手法が提案されている。
は正規化角周波数で、
は変換された正規化角周波数である。こ
の変換では、n 次までのケプストラム係数
を入力として、
対応するメルケプストラム係数
を得ることができる。
2π
メル周波数 〜 対数周波数
ω
細かく分析
0
ωnew
荒く分析
2π
0次のケプストラム係数
と変化させて計算される。
は、次式を、
1次のケプストラム係数
と変化させて計算される。
も、次式を、
n次(n = 2, 3, ・ ・ ・,m)のケプストラム係数
と変化させて計算される。
も、次式を、
メル周波集軸を近似する周波数ワーピングの値は、サンプリング周波数が、
6.67kHz、8kHz、10kHzでは、それぞれa = 0.28、0.31、0.35とすれば、メル軸
をよく近似している。
LPCピーク重みつき距離尺度
スペクトル包絡のピーク付近のスペクトルの違いに対して敏感である距離尺度。
フォルマントのようなスペクトルの山部に着目した尺度であり、人間の聴覚特性に
近い。スペクトル包絡自身を重みとする。
WLR 尺度
WLR尺度は、最尤スペクトル距離尺度LRの被積分関数を基本とし、重みとして
f(λ)/u(f)およびg(λ)/u(g)を用い、次式のように定義される。
u = パワー
r = 自己相関係数
上式は、
のときに最小となり、
次に、WLRのスペクトルの差V (λ)に対する特性を解析する。重み関数 f(λ)
およびg(λ)のピークの度合を表すパラメータとして、次式を用いる。
すると、式(3.33)の被積分項は、u(f) = u(g)の最小の条件のとき、次式のように
変形できる。
V (λ)が0に近い場合の様子を、V (λ) = 0 の回りでのテーラ展開
で調べてみる。すると、上式は、
となり、γV (λ)2 の重みを持っていることがわかる。次に、|V (λ)|
が充分に大きいところでは、上式は、
となり、O(|V (λ)|) の一次関数の重みを持っていることになる。
LPCの分析次数よりも大きいLPC 自己相関関数は、
次式のような再帰式で計算される。
音声特徴抽出の実際(MFCC)
wav2mfcc.c
(1) AD変換(16ビット、16kHzサンプリング)
(2) 高域強調 1-0.97 Z-1 (波形上で処理)
(3) ハミング窓(25msec, 10msec シフト)
(4) FFT(高速フーリエ変換)
0kHz
1.0
0.0
8kHz
音声特徴抽出の実際(MFCC)
Mel-Frequency Cepstrum Coefficients
ケプストラム係数
メルスケール(音の高低に対する聴覚特性)
メルフィルタバンク分析
W(k;l)
0kHz
L
メルフィルタバンク
周波数軸(DFT) パワースペクトラム S’(k)
8kHz
MFCC
(5) メルフィルタバンクの計算
lh
m(l )  log  W (k; l ) | S ' (k ) |
(l  1,, L)
k l0
(6) メルフィルタバンクからメルケプストラムへの変換(COS変換)
 1  i 
2
Cmfcc(i) 
m(l ) cos l   

N l 1
 2  L 
L
動的な特徴
(7) Δケプストラム、Δ対数パワー
40 msec程度におけるスペクトルの変化
1次の回帰係数(差分)
K
 kC
(n; l  k )
m fcc
Cm fcc(n; l ) 
k  K
K
k
k  K
2