Transcript Document
音響信号処理特論 音声処理における距離尺度 奈良先端科学技術大学院大学 猿渡 洋 マッチングによる音声認識 DTW 音 声 入 力 音 声 分 析 (Dynamic Time Warping) 距 離 マ ト リ ッ ク ス 計 算 単語標準 パターン 非 線 形 伸 縮 マ ッ チ ン グ 単 語 標 準 パ タ ー ン DTW 入力音声 正 規 化 距 離 の 比 較 認 識 結 果 スペクトル距離 入力スペクトル系列の実例 入力スペクトルと標準パターンスペクトルの比較 音韻によるスペクトルの違い スペクトルマッチング尺度 フレーム間のスペクトルの類似度/距離尺度 スペクトル分析の手法 (1)帯域フィルター群(20~30チャネル)の出力 (2)FFTにより計算したFFTスペクトル包絡 (3)LPC(線形予測分析)によるスペクトル包絡 ノンパラメトリックな分析法に基づく距離尺度 帯域フィルター群による方法 – ハードウェアによる実時間分析が比較的容易 – FFT分析からの帯域のエネルギー – 対数周波数軸( メルスケール、バークスケール) – 聴覚モデル(マスキング) 音声波形の例 /aikawarazu/ 短時間スペクトル分析 LPC分析とケプストラム分析 FFT分析 LPC分析 ケプストラム分析 同じ音声区間 でも分析法に よって形状が 異なる。 何が音声処理 に向いている のであろうか? 短時間スペクトルの特徴点 縦 軸 は ? 特にピークが重要 スペクトル包絡 の情報が重要 → 対 数 振 幅 横軸は?→メルスケール 短時間スペクトル分析 発声速度の局所的ゆらぎ /aikawarazu/ 様々なスペクトルマッチング尺度 LPCスペクトル包絡 計算量が少ない ピークの精度が高い ピッチに多少影響される モデルベース LPCスペクトル包絡とケプストラムスムージング LPCスペクトルマッチング尺度の具体例 – 線形予測分析(LPC)を介して得られたスペクトル包絡の間 の類似度 – 入力音声のLPC スペクトル包絡: g(λ) – 標準パターンのスペクトル包絡: f(λ) 分析されたスペクトルの比較 板倉‐斉藤距離(LR距離) 評価関数(板倉‐斉藤距離、最尤スペクトル距離などと呼ばれる) 上式は、下のように簡単に計算できることが知られている。 対数スペクトルの差を で表すと、LRは、 となる。この被積分項を、V (λ)のまわりでテイラー展開すると、 となる 式(3.7)より、 ここで、 V (λ)が小さいときには自乗の重み V (λ) 0 のときには|V (λ)|に比例する重み V (λ) 0のときには指数関数 の重み → つまり、標準パターンスペクトルよりも入力スペクトル の方が上回っている場合により大きな重み → ピークを重視した距離尺度となっている。 COSH尺度 cosh 尺度(COSH)は、最尤スペクトル距離尺度LRのマッチング の重みの非対称性を取り除くことを目的に考え出された尺度で、 式( 3.4)と式( 3.4)でf(λ)とg(λ)を取り替えた式を加えて、導出さ れる。 対数スペクトル差V (λ)に対する重み 上式の被積分項をV (λ) = 0のまわりでテーラ展開すると、 |V (λ)|が小さいときには、自乗にきわめて近い重み |V (λ)| が大きいときには、指数関数 の重み LPCケプストラム距離 LPC分析から得られたLPC スペクトル包絡のLPCケプストラム係数は、 LPC予測係数から簡単に計算される。 LPCケプストラム距離(CEP) ケプストラム係数の推定値 Parsevalの定理を用いると、 対数スペクトルの差V (λ)に対する重み: 2乗 各スペクトルマッチング尺度の特徴 50 被 積 分 関 数 の 30 値 ( 重 み ) COSH CEP LR 谷 ピーク 0 -20 0 対数スペクトルの差V (λ) (dB) 図:スペクトルマッチング尺度(LR、CEP、COSH)における 対数スペクトル差V (λ)に対する重み 20 図3.2 標準パターン入力/i/と入力音声/s/とのスペクトルマッチングの状態 図3.3 単独に発声した/a/と連続発声中の/a/とのスペクトルマッチングの状態 例題 ln f () [2, 2, 2, 2, 2, 2, 2, 2] Gain 以下に与える標準パターン対数振幅スペクトル ln f と, 入力音声の対数振幅スペクトル ln gn () との距離をユークリッド 距離と板倉-斉藤距離の2手法で求めよ ln g1 () [2, 2, 2, 12 , 2, 2, 2, 2] 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 0 2 3 4 5 6 7 4 5 6 7 λf 5 4 3 2 1 0 -1 0 -2 -3 -4 -5 -6 -7 -8 -9 -10 Gain ln g2 () [2, 2, 2, 8, 2, 2, 2, 2] 1 1 2 3 f λ ユークリッド距離と板倉‐斉藤距離の計算法 ユークリッド距離 dU ( f , g) ln f () ln g() 7 2 0 板倉-斉藤距離 1 7 f ( ) g ( ) d IS( f , g ) ln 1 7 0 g ( ) f ( ) スペクトル距離の計算例 d U ( f , g1 ) (2 2)2 (2 2)2 (2 2)2 (2 12)2 (2 2)2 100 10 d U ( f , g2 ) (2 2)2 (2 2)2 (2 2)2 (2 8)2 (2 2)2 ユークリッド 距離尺度では 同じ値になる 100 10 d IS( f , g1 ) 1 (2 2) exp2 2 1 (2 12) exp12 2 1 (2 2) exp2 2 1 8 1 0 0 (11 exp(10)) 0 8 22015.465 2751.9 8 1 d IS( f , g2 ) (2 2) exp2 2 1 (2 8) exp 8 2 1 (2 2) exp2 2 1 8 1 板倉‐斉藤距離尺度では、 0 0 (9 exp(10)) 0 8 明らかにg1の方が大きい。 9 →ピークを重視した距離 1.125 8 →ホルマントの一致度を測り やすい(音声処理に適切) 周波数軸の変換:LPCメルケプストラム距離 • LPC メルケプストラム距離 人の耳の聴覚特性は、音の周波数の高さに対して、対数的な特性( メル 尺度)を示すことが知られている。このような周波数軸上の重みがかかる ように、周波数軸を伸縮する手法として、全域通過フィルター を用いたbilinear transformation と呼ばれる手法が提案されている。 は正規化角周波数で、 は変換された正規化角周波数である。こ の変換では、n 次までのケプストラム係数 を入力として、 対応するメルケプストラム係数 を得ることができる。 2π メル周波数 〜 対数周波数 ω 細かく分析 0 ωnew 荒く分析 2π 0次のケプストラム係数 と変化させて計算される。 は、次式を、 1次のケプストラム係数 と変化させて計算される。 も、次式を、 n次(n = 2, 3, ・ ・ ・,m)のケプストラム係数 と変化させて計算される。 も、次式を、 メル周波集軸を近似する周波数ワーピングの値は、サンプリング周波数が、 6.67kHz、8kHz、10kHzでは、それぞれa = 0.28、0.31、0.35とすれば、メル軸 をよく近似している。 LPCピーク重みつき距離尺度 スペクトル包絡のピーク付近のスペクトルの違いに対して敏感である距離尺度。 フォルマントのようなスペクトルの山部に着目した尺度であり、人間の聴覚特性に 近い。スペクトル包絡自身を重みとする。 WLR 尺度 WLR尺度は、最尤スペクトル距離尺度LRの被積分関数を基本とし、重みとして f(λ)/u(f)およびg(λ)/u(g)を用い、次式のように定義される。 u = パワー r = 自己相関係数 上式は、 のときに最小となり、 次に、WLRのスペクトルの差V (λ)に対する特性を解析する。重み関数 f(λ) およびg(λ)のピークの度合を表すパラメータとして、次式を用いる。 すると、式(3.33)の被積分項は、u(f) = u(g)の最小の条件のとき、次式のように 変形できる。 V (λ)が0に近い場合の様子を、V (λ) = 0 の回りでのテーラ展開 で調べてみる。すると、上式は、 となり、γV (λ)2 の重みを持っていることがわかる。次に、|V (λ)| が充分に大きいところでは、上式は、 となり、O(|V (λ)|) の一次関数の重みを持っていることになる。 LPCの分析次数よりも大きいLPC 自己相関関数は、 次式のような再帰式で計算される。 音声特徴抽出の実際(MFCC) wav2mfcc.c (1) AD変換(16ビット、16kHzサンプリング) (2) 高域強調 1-0.97 Z-1 (波形上で処理) (3) ハミング窓(25msec, 10msec シフト) (4) FFT(高速フーリエ変換) 0kHz 1.0 0.0 8kHz 音声特徴抽出の実際(MFCC) Mel-Frequency Cepstrum Coefficients ケプストラム係数 メルスケール(音の高低に対する聴覚特性) メルフィルタバンク分析 W(k;l) 0kHz L メルフィルタバンク 周波数軸(DFT) パワースペクトラム S’(k) 8kHz MFCC (5) メルフィルタバンクの計算 lh m(l ) log W (k; l ) | S ' (k ) | (l 1,, L) k l0 (6) メルフィルタバンクからメルケプストラムへの変換(COS変換) 1 i 2 Cmfcc(i) m(l ) cos l N l 1 2 L L 動的な特徴 (7) Δケプストラム、Δ対数パワー 40 msec程度におけるスペクトルの変化 1次の回帰係数(差分) K kC (n; l k ) m fcc Cm fcc(n; l ) k K K k k K 2