Transcript ソースフィルタモデル
ソースフィルタモデル
ソースフィルタモデル
e
音源信号 n
(ソース)
線形システム
(フィルタ)
音声信号 xn
ai
線形予測モデル
p
xn ai xni en
i 1
連続信号と離散信号のフーリエ変換
Z変換
フィルタ
X ( z) H ( z)
( x0 x1 z1 x2 z 2 )(h0 h1z 1 h2 z 2
hN 1z ( N 1) )
x0h0 ( x0h1 x1h0 )z 1 ( x0h2 x1h1 x2h0 ) z 2
X ( z)
H ( z)
N 1
xn hn xnk hk yn
k 0
Y (z)
y0 y1 z 1 y2 z 2
Y ( z)
たたみこみ演算
インパルス応答
1
n
H ( z)
hk
Y ( z)
yn
n 1 (n 0)
0 (n 0)
例1
例2
H ( z) (1 az 1 )
yn xn axn1
n 0 yn 0
n 1 y1 1
n 2 y2 a
n 3 y3 0
n 3 yn 0
1
1 az1
yn ayn1 xn
n 0 yn 0
n 0 y0 ay1 x0 1
n 1 y1 ay0 x1 a
H ( z)
n 2 y2 ay1 x2 a2
n 0 yn an
有理関数形式のZ変換
X ( z) an z n
n 0
1 az 1 a2 z 2 a3 z 3
1
(a 1)
1
1 az
収束 a 1
発散
a 1
デジタルフィルタの入出力関係
デジタルフィルタのタイプ
線形予測フィルタ
デジタルフィルタの極と零点
H ( z)
A( z)
B( z)
a0 a1z 1 am z m
b0 b1z 1 bn z n
m
a0 (1 i z 1 )
i を零点(下図の
)といい、i を極(下図の )という
Z平面
Im
共役複素根
単位円
i 1
n
b0 (1 i z 1 )
i 1
フィルタが安定であるための条件は
i 1
1
Re
実根
デジタルフィルタの周波数特性
X ( z)
1
1 az 1
フィルタの周波数特性と極の関係
Z平面
Im
共役複素根
単位円
0
負の実根
Freq.
1
Re
正の実根
Freq.
Freq.
線形予測フィルタのスペクトル
周波数領域
時間領域
1
A( z)
xn
xn p
n
xn1
p
xn ai xni en
i 1
1
X ( z)
E ( z)
A( z)
周波数
1
p
1 ai z i
E ( z) 、 z e jT
i 1
P次の線形予測フィルタのスペクトルは高々p/2個の極(スペクトルピーク)をもつ
スペクトル包絡と微細構造
T
音声
T: ピッチ周期
スペクトル
=
フィルタ スペクトル包絡
+
F1
F2
f0=1/T
音源
微細構造
(調波構造)
F3
F4
Fi: 極周波数
f0 : ピッチ周波数
有声音と無声音のスペクトル
有声音
無声音
周期性あり
周期性なし
調波構造あり
調波構造なし
音声信号モデル
S() G() H()
スペクトル包絡
パルス音源スペクトル
ノイズ音源スペクトル
音源パラメータ
T
音声合成
フィルタ
音声スペクトル
音声の基本パラメータ
音声合成デジタルフィルタ
xt -a1xt -1 - a2 xt -2
音声信号
音源信号
- ap xt - p et
a1, a2 , , ap 線形予測係数
(スペクトルパラメータ)
音声合成の特徴
•少ない数の音声パラメータから自然な音声を合成
•音韻(声の音色)と韻律(声の高さ)を別の音声パ
ラメータで制御できる
•人間の音声生成過程に対応した合成
•音声波形を再現するのではなく、音声スペクトルを
再現(人間の聴覚特性を利用)
原音声と合成音声の波形
音声波形
合成音声波形
線形予測分析(1)
周波数領域
時間領域
1
A( z)
xn
xn p
定式化
n
xn1
1
X ( z)
E ( z)
A( z)
p
xn ai xni en
i 1
0
解法
1
p 1
r1
r0
rp2
p
1 ai z i
E ( z) 、 z e jT
IF I
J
G
J
J
G
J
J
G
J
J
HJ
K
KG
予測残差のスペクトルが平坦
Fr I
G
rJ
G
J
J
G
G
Hr J
K
rp1 a1
rp2 a2
r0 a3
ただし、自己相関関数
1
i 1
2
e
予測残差電力 n が最小
Fr
G
r
G
G
G
Hr
周波数
ri xn xni
n
1
X (z)
2
A( z )
3
周波数
最尤スペクトル推定
線形予測分析(2)
線形予測分析(3)
線形予測分析(計算例)
スペクトル分析の特徴
音源分析
波形
自己相関係数
N
r xt xt
音声
t 1
xt
et xt a1xt -1 a2 xt -2
T
ピーク値が大きい時
は有声、小さい時は
無声
ap xt - p
ピッチ周期
予測残差 et
予測残差の
平均振幅
T
スペクトル
音声分析合成系
7bit
40bit
5bit
1bit
分析フレームを20msとすると、ビットレートは
(40+5+1+7)×50フレーム=2650bit/sec
音声分析合成法の利点と問題点
少ない情報量で音声を伝達できる
音声波形をそのまま送る(PCM方式)と毎秒64000ビット
の情報量が必要になるのに対して、音声のパラメータだけ
を送る音声合成法では毎秒2650ビットの情報量ですむ
同じ通信回線で20人が話すことができる
音声に特化しすぎている
声以外の音を伝えることができない、
周囲騒音があると音声の品質が劣化する
人によって音声の品質がばらつく
通信用途にはそのまま使えない