ソースフィルタモデル

Download Report

Transcript ソースフィルタモデル

ソースフィルタモデル
ソースフィルタモデル
e
音源信号 n
(ソース)
線形システム
(フィルタ)
音声信号 xn
ai
線形予測モデル
p
xn  ai xni  en
i 1
連続信号と離散信号のフーリエ変換
Z変換
フィルタ
X ( z) H ( z)
 ( x0  x1 z1  x2 z 2  )(h0  h1z 1  h2 z 2 
hN 1z ( N 1) )
 x0h0  ( x0h1  x1h0 )z 1  ( x0h2  x1h1  x2h0 ) z 2 
X ( z)

H ( z)
N 1

xn  hn   xnk hk  yn
k 0
Y (z)
 y0  y1 z 1  y2 z 2 
 Y ( z)
たたみこみ演算
インパルス応答
1
n
H ( z)
hk
Y ( z)
yn
  n  1 (n  0) 
  0 (n  0) 


例1
例2
H ( z)  (1  az 1 )
yn  xn  axn1
n  0 yn  0
n  1 y1  1
n  2 y2  a
n  3 y3  0
n  3 yn  0
1
1  az1
yn  ayn1  xn
n  0 yn  0
n  0 y0  ay1  x0  1
n  1 y1  ay0  x1  a
H ( z) 
n  2 y2  ay1  x2  a2
n  0 yn  an
有理関数形式のZ変換

X ( z)   an z n
n 0
 1  az 1  a2 z 2  a3 z 3 
1

(a  1)
1
1  az
収束 a  1
発散
a 1
デジタルフィルタの入出力関係
デジタルフィルタのタイプ
線形予測フィルタ
デジタルフィルタの極と零点
H ( z) 
A( z)
B( z)
a0  a1z 1   am z m

b0  b1z 1   bn z n
m

a0  (1  i z 1 )
i を零点(下図の
)といい、i を極(下図の  )という
Z平面
Im
共役複素根
単位円

i 1
n
b0 (1  i z 1 )

i 1
フィルタが安定であるための条件は

i  1
1
Re
実根
デジタルフィルタの周波数特性
X ( z) 
1
1 az 1
フィルタの周波数特性と極の関係
Z平面
Im
共役複素根
単位円
0





負の実根
Freq.
1

Re
正の実根
Freq.

Freq.
線形予測フィルタのスペクトル
周波数領域
時間領域
1
A( z)
xn
xn p
n
xn1
p
xn  ai xni  en
i 1
1
X ( z) 
E ( z) 
A( z)
周波数
1
p
1   ai z i
E ( z) 、 z  e jT
i 1
P次の線形予測フィルタのスペクトルは高々p/2個の極(スペクトルピーク)をもつ
スペクトル包絡と微細構造
T
音声
T: ピッチ周期
スペクトル
=
フィルタ スペクトル包絡
+
F1
F2
f0=1/T
音源
微細構造
(調波構造)
F3
F4
Fi: 極周波数
f0 : ピッチ周波数
有声音と無声音のスペクトル
有声音
無声音
周期性あり
周期性なし
調波構造あり
調波構造なし
音声信号モデル
S()  G() H()
スペクトル包絡
パルス音源スペクトル
ノイズ音源スペクトル
音源パラメータ
T
音声合成
フィルタ
音声スペクトル
音声の基本パラメータ
音声合成デジタルフィルタ
xt  -a1xt -1 - a2 xt -2
音声信号
音源信号
- ap xt - p  et
a1, a2 , , ap 線形予測係数
(スペクトルパラメータ)
音声合成の特徴
•少ない数の音声パラメータから自然な音声を合成
•音韻(声の音色)と韻律(声の高さ)を別の音声パ
ラメータで制御できる
•人間の音声生成過程に対応した合成
•音声波形を再現するのではなく、音声スペクトルを
再現(人間の聴覚特性を利用)
原音声と合成音声の波形
音声波形
合成音声波形
線形予測分析(1)
周波数領域
時間領域
1
A( z)
xn
xn p
定式化
n
xn1
1
X ( z) 
E ( z) 
A( z)
p
xn  ai xni  en
i 1
0
解法
1
p 1
r1
r0

rp2
p
1   ai z i
E ( z) 、 z  e jT
IF I
J
G
J
J
G
J
J
G
J
J
HJ
K
KG
予測残差のスペクトルが平坦
Fr I
G
rJ
G
J
J
G
G
Hr J
K
 rp1 a1
 rp2 a2

 

 r0 a3
ただし、自己相関関数
1
i 1
2
e
予測残差電力 n が最小
Fr
G
r
G

G
G
Hr
周波数
ri   xn xni
n
1
X (z)
2
A( z )
3
周波数
最尤スペクトル推定
線形予測分析(2)
線形予測分析(3)
線形予測分析(計算例)
スペクトル分析の特徴
音源分析
波形
自己相関係数
N
r   xt xt 
音声
t 1
xt
et  xt  a1xt -1  a2 xt -2
T
ピーク値が大きい時
は有声、小さい時は
無声
 ap xt - p
ピッチ周期
予測残差 et
予測残差の
平均振幅
T
スペクトル
音声分析合成系
7bit
40bit
5bit
1bit
分析フレームを20msとすると、ビットレートは
(40+5+1+7)×50フレーム=2650bit/sec
音声分析合成法の利点と問題点
少ない情報量で音声を伝達できる
音声波形をそのまま送る(PCM方式)と毎秒64000ビット
の情報量が必要になるのに対して、音声のパラメータだけ
を送る音声合成法では毎秒2650ビットの情報量ですむ
同じ通信回線で20人が話すことができる
音声に特化しすぎている
声以外の音を伝えることができない、
周囲騒音があると音声の品質が劣化する
人によって音声の品質がばらつく
通信用途にはそのまま使えない