音声生成モデル

Download Report

Transcript 音声生成モデル

音声生成モデル(物理モデル)
音声生成モデル
体積速度
口蓋帆
音圧
Ai
肺
生成モデル
合成モデル
肺圧
音源振幅
声帯
声門の開き
声帯張力(K)
声道
声道断面積
A1,A2,…,AN
有声/無声 スペクトルパラメータ
ピッチ周期
音声生成モデルのスペクトル表現
声道共鳴のしくみ
唇から反射してきた音波(音圧)が声帯の位置で増大する
音圧パタン
振幅
体積速度パタン
声道内の位置
声帯
時間
唇
音源信号
均一音響管の共鳴
音速=34000cm/秒
共振周波数=音速/波長
17cm
34000/(17×4)=500 Hz
34000/(17/1.25)=2500 Hz
3400/(17/0.75)=1500 Hz
34000/(17/1.75)=3500 Hz
均一音響管の音声スペクトル
声道の音響特性
声道内での音の伝播
1  ki 1
z

ki 1 
ki 1
z

反射係数
1
2
ki 1
1
2
1  ki 1
z

1
2
Ai  Ai 1
Ai  Ai 1
 /c
声道内での音の伝播
声道内での音の伝播
声道内での音の伝播
声道内での音の伝播
声道内での音の伝播
声道内での音の伝播
声道断面積と声道共鳴特性
/i/
/a/
声道断面積関数
唇
声帯
声道共鳴特性
(音声スペクトル)
/u/
/e/
声道断面積関数とホルマント周波数の
関係(摂動理論)
声道断面積関数
対数声道断面積関数をフーリエ余弦級数展開したとき、

ln A( x)   Ck cos  k
x
0 x
k 0
一様断面積関数のホルマント周波数の摂動は、次式で表される
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
0
0.2
 Fi
1
  C2 m 1 (m  1, 2,......)
Fi
2
ホルマント周波数は、奇数次の余弦成分にのみ関係し、
偶数次の余弦成分に関係しない。
すなわち声道長の中心に対して対称な断面積変形は、
0.4
0.6
0.8
1
1.2
フーリエ余弦成分
1.5
1
0.5
0
-0.5
0
0.2
0.4
0.6
0.8
1
1.2
0
0.2
0.4
0.6
0.8
1
1.2
-1
ホルマント周波数を変化させない
-1.5
1.5
1
0.5
0
-0.5
-1
-1.5
声道フィルタとPARCORフィとの等価性
声道フィルタ
PARCORフィルタ
Fn  Fn 1  kn Bn 1
An  An1  kn Bn1
Bn  z 1  Bn1  kn Fn 1 
k1 
Bn  z 1  Bn1  kn An1 
 c / A1  Z
 1  Z  0
 c / A1  Z
k1  1
kn 
An 1  An
の関係より
An 1  An
An 
1  kn
An 1
1  kn
 n  1, 2,
,N
A0  1
声道断面積の推定
逆フィルタ
1
1  az 
1 2
を用いて、音声のスペクトルから音源・放射特性を除去した後、
PARCOR分析を行い、声道断面積を求める
声道断面積の直接計測
声道断面積関数
唇
声帯
MRI3次元画像による
声道断面積の計測
声道断面積の音響計測
Microphone
Speaker
Tube
Incident
Area ratio
Wall impedance
Reflected
Inverse acoustics
計測結果
3D vocal tract replica
(UV curable resin)
Cylindrical model
(soft silicone rubber)
Dr. Miki
Future University – Hakodate
Impedance consistent with
the result of vibration test
声帯の開放と閉鎖
披裂軟骨
甲状軟骨
声帯
声帯の振動
披裂軟骨
甲状軟骨
声帯
声帯振動のパタン
通常発声の場合
うら声発声の場合
声帯振動モデル
r1
k 1 r2
k2
m2
m1
x1 (t )
p1 (t )
d1
p2 (t ) x2 (t )
d2
声帯の運動方程式
mi xi (t )  ri xi (t )  ki xi (t )  kc ( x1 (t )  x2 (t ))  di pi (t )
声門の開きをAg 0とした時、声門面積は
Agi (t )  Ag 0  xi (t )
音声生成の電気等価回路
Ag
Ai
Zg 
c2U g
c1
 2
3
Ag (t ) Ag (t )
p (t )
c 


j

A2
A
1
1
zb 

j C j A
c2
za  R  j L 
Qi 
ki
mi
声門を流れる空気流
(声門体積速度)
声道の音響インピーダンスのリアクタンス(電気回路のコイルに相当)成分
の影響により、声門体積速度波形は右側に傾き、頂点の部分が丸びをおびる
声帯振動と声質
 強い声では、OQが小でSQが小.弱い声では、OQが大でSQが大.
 声帯音源のスペクトルは、1オクターブで約12~ 18dB減衰する特性をもつ.
強い声の方が減衰が小さい(倍音に富んだスペクトルになる)
音声生成モデルのシミュレーション
1.
声道の音響インピーダンスのリアクタンス(電気回路のコイルに相当)成分の
影響により、声門体積速度波形は右側に傾き、頂点の部分が丸びをおびる.
2.
声道部と声帯部とは回路的にカップリングしており、声道の共振特性の影響
が声帯音源波形に及ぶ.(ソースフィルタモデルとの相違点)
音声生成モデルによる子音の生成
乱流音源のモデル