Transcript ソースフィルタモデル
ソースフィルタモデル ソースフィルタモデル e 音源信号 n (ソース) 線形システム (フィルタ) 音声信号 xn ai 線形予測モデル p xn ai xni en i 1 連続信号と離散信号のフーリエ変換 Z変換 フィルタ X ( z) H ( z) ( x0 x1 z1 x2 z 2 )(h0 h1z 1 h2 z 2 hN 1z ( N 1) ) x0h0 ( x0h1 x1h0 )z 1 ( x0h2 x1h1 x2h0 ) z 2 X ( z) H ( z) N 1 xn hn xnk hk yn k 0 Y (z) y0 y1 z 1 y2 z 2 Y ( z) たたみこみ演算 インパルス応答 1 n H ( z) hk Y ( z) yn n 1 (n 0) 0 (n 0) 例1 例2 H ( z) (1 az 1 ) yn xn axn1 n 0 yn 0 n 1 y1 1 n 2 y2 a n 3 y3 0 n 3 yn 0 1 1 az1 yn ayn1 xn n 0 yn 0 n 0 y0 ay1 x0 1 n 1 y1 ay0 x1 a H ( z) n 2 y2 ay1 x2 a2 n 0 yn an 有理関数形式のZ変換 X ( z) an z n n 0 1 az 1 a2 z 2 a3 z 3 1 (a 1) 1 1 az 収束 a 1 発散 a 1 デジタルフィルタの入出力関係 デジタルフィルタのタイプ 線形予測フィルタ デジタルフィルタの極と零点 H ( z) A( z) B( z) a0 a1z 1 am z m b0 b1z 1 bn z n m a0 (1 i z 1 ) i を零点(下図の )といい、i を極(下図の )という Z平面 Im 共役複素根 単位円 i 1 n b0 (1 i z 1 ) i 1 フィルタが安定であるための条件は i 1 1 Re 実根 デジタルフィルタの周波数特性 X ( z) 1 1 az 1 フィルタの周波数特性と極の関係 Z平面 Im 共役複素根 単位円 0 負の実根 Freq. 1 Re 正の実根 Freq. Freq. 線形予測フィルタのスペクトル 周波数領域 時間領域 1 A( z) xn xn p n xn1 p xn ai xni en i 1 1 X ( z) E ( z) A( z) 周波数 1 p 1 ai z i E ( z) 、 z e jT i 1 P次の線形予測フィルタのスペクトルは高々p/2個の極(スペクトルピーク)をもつ スペクトル包絡と微細構造 T 音声 T: ピッチ周期 スペクトル = フィルタ スペクトル包絡 + F1 F2 f0=1/T 音源 微細構造 (調波構造) F3 F4 Fi: 極周波数 f0 : ピッチ周波数 有声音と無声音のスペクトル 有声音 無声音 周期性あり 周期性なし 調波構造あり 調波構造なし 音声信号モデル S() G() H() スペクトル包絡 パルス音源スペクトル ノイズ音源スペクトル 音源パラメータ T 音声合成 フィルタ 音声スペクトル 音声の基本パラメータ 音声合成デジタルフィルタ xt -a1xt -1 - a2 xt -2 音声信号 音源信号 - ap xt - p et a1, a2 , , ap 線形予測係数 (スペクトルパラメータ) 音声合成の特徴 •少ない数の音声パラメータから自然な音声を合成 •音韻(声の音色)と韻律(声の高さ)を別の音声パ ラメータで制御できる •人間の音声生成過程に対応した合成 •音声波形を再現するのではなく、音声スペクトルを 再現(人間の聴覚特性を利用) 原音声と合成音声の波形 音声波形 合成音声波形 線形予測分析(1) 周波数領域 時間領域 1 A( z) xn xn p 定式化 n xn1 1 X ( z) E ( z) A( z) p xn ai xni en i 1 0 解法 1 p 1 r1 r0 rp2 p 1 ai z i E ( z) 、 z e jT IF I J G J J G J J G J J HJ K KG 予測残差のスペクトルが平坦 Fr I G rJ G J J G G Hr J K rp1 a1 rp2 a2 r0 a3 ただし、自己相関関数 1 i 1 2 e 予測残差電力 n が最小 Fr G r G G G Hr 周波数 ri xn xni n 1 X (z) 2 A( z ) 3 周波数 最尤スペクトル推定 線形予測分析(2) 線形予測分析(3) 線形予測分析(計算例) スペクトル分析の特徴 音源分析 波形 自己相関係数 N r xt xt 音声 t 1 xt et xt a1xt -1 a2 xt -2 T ピーク値が大きい時 は有声、小さい時は 無声 ap xt - p ピッチ周期 予測残差 et 予測残差の 平均振幅 T スペクトル 音声分析合成系 7bit 40bit 5bit 1bit 分析フレームを20msとすると、ビットレートは (40+5+1+7)×50フレーム=2650bit/sec 音声分析合成法の利点と問題点 少ない情報量で音声を伝達できる 音声波形をそのまま送る(PCM方式)と毎秒64000ビット の情報量が必要になるのに対して、音声のパラメータだけ を送る音声合成法では毎秒2650ビットの情報量ですむ 同じ通信回線で20人が話すことができる 音声に特化しすぎている 声以外の音を伝えることができない、 周囲騒音があると音声の品質が劣化する 人によって音声の品質がばらつく 通信用途にはそのまま使えない