発話モデル

Download Report

Transcript 発話モデル

発話動作モデル
調音運動(X線映画)
調音モデル(幾何学的モデル)
生理的調音モデル
6
Genioglossus
GGm
GGa
4
2
0
GGp
-2
8
Hilの筋モデル
mi
Hyoglossus
6
4
2
0
mj
2 -2
Geniohyoid
0
2
4
6
0
2
4
唇の生理的モデル
点をプロットしたMRI 11枚から 3D Lip model 及び口輪筋の3D model を作成した
×11枚
3D Lip model
口輪筋 の 3D model
Y
XZ
発話動作の特徴
 スペクトルパラメータにくらべてなめらかな時間的変化
 不変的な音素特徴の存在
 音声を生成することを目的とする動作
発話動作の運動目標は何か?
 多くの調音器官の関与する協調動作
 熟練した連続動作(調音結合)
 極めて速くて、精度の高い動作
スペクトルパラメータと調音パラメータ
音声
スペクトル
パラメータ
口の動き
音素の調音特徴
唇と顎の協調動作
上唇が下降し、
「狭め」を達成する
調音結合
連続音声において、連続する音素の
調音特徴が時間的に重なり合う現象
調音効果
母音
調音効果
子音 母音
子音
調音器官による重要度の違い
全ての調音器官で同じ場合
調音器官毎に異なる場合
発声動作の特徴(調音結合)
igi
ogo
発声動作の特徴(調音結合)
ibi
obo
飽和効果を利用した精度の高い動作
運動指令が変化しても音声の音響的性質が変化しない飽和効
果が存在する
飽和効果は、運動指令と調音位置の関係、および調音位置と
音声の関係の両方に存在する .
声道タスクに基づく発声動作モデル
モデルの構成
運動タスク
z  Ex
(dim z  dim x)
xi
zi
 運動タスクを満足する無数の軌道が存在する
 タスクに無関係な調音変数は、前後のタスクに影響を受ける
運動タスクに基づく発声動作モデル
INPUT
VIA-POINTS
MINIMIZATION OF
TRAJECTORY SMOOTHNESS
z j (t j )
fi (t )
df (t ) I
F
Fdx (t ) I
min z
 wG Jdt
G
J
Hdt K Hdt K
2
f (t )
2
T
i
2
DYNAMIC
SYSTEM
xi (t )
xi (t )  2axi (t )  a 2 xi (t )  f i (t )
i
0
zk
OUTPUT
VOCAL TRACT FEATURE (Linear Constraint g(xt )  G x t )
ACOUSTIC FEATURE (Nonlinear Constraint)
g( xt )
x1
ART. VARIABLE
xt
Trajectory
●
t1
x2
t1
t2
TIME
t3
t2
t3
Time
シュミレーション結果
発話プラニングモデル
音素列
音声から調音運動を決定
する逆モデルが必要
音響タスク
-
聞き真似発声
調音運動計画
聴覚
調音運動生成
声道音響モデル
話し手の声
自分の声
音声
逆モデル
調音・音響マッピング
統計的音声生成モデル
x
音素記号列
:調音パラメータ
y :音響パラメータ
q :HMMの状態
 :HMMのモデル
統計モデル
調音HMM
発声動作の動特性
のモデル
P(q |  )
q1
q2
q3
P(x | q,  )
P(y | x, q,  )
調音・音響マッピング
声道音響特性のモデル
P( y |  )
音響パラメータ
統計的音声生成モデル
x
音素記号列
:調音パラメータ
y :音響パラメータ
q :HMMの状態
 :HMMのモデル
統計モデル
P(q |  )
q1
q2
q3
P(x | q,  )
P(y | x, q,  )
調音・音響マッピング
声道音響特性のモデル
P( y |  )
音響パラメータ
逆モデル
調音HMM
発声動作の動特性
のモデル
逆モデルの構成
ー調音パラメータの逆推定ー
音声
スペクトル分析
音素既知の場合
HMMの状態系列決定
音素未知の場合
~
max P (y, q |  )
q
状態系列に対して事後確率
最大となる調音パラメータを
計算
max P (x | y , q,  )
x
調音パラメータの計算
●音響パラメータベクトル系列の出力確率
P(y |  )  max  P(y | x, q,  ) P(x | q,  ) P(q |  )dx
q
●調音・音響マッピングはHMMの各ステート毎に
y  Ax  b
● P(y | x, q,  ), P(x | q,  ) はガウス分布を仮定
与えられた状態系列 q に関して、事後確率 P(x | y, q,  ) を最大にする
調音パラメータ xˆ を決定する
xˆ  ( x  AT w A)1 ( x x  AT w (y  b))
1
1
1
1
すべての状態系列に対して xˆ を計算し、音響パラメータベクトル系列の
出力確率が最大となる調音パラメータベクトル系列を求める必要がある
生成HMMと音響HMMの比較
調音パラメータベクトル系列の事後確率が最大となる
推定値 xˆ を代入
~
P(y |  )  max  P(y | x, q,  ) P(x | q,  ) P(q |  )dx  max P (y | q,  ) P(q |  )
q
q
しかも、この分布関数のパラメータは
調音パラメータと誤差パラメータによ
り決定される
出力確率は音響HMMと同じ形式となる
P(y |  )  max P(y | q,  ) P(q |  )
q
y  Ax  b
 y  A x AT   w
音声から再現された口の動き
発声動作の連続性や癖を考慮しない場合
これらを考慮した場合
聞きまね発話のシミュレーション
実測された発話動作
音声から再現された発話動作
声から筋運動指令を計画
筋運動指令 
Loop2
Hillの筋モデル +
逆ダイナミックス
 への変換
x
筋力Fmの算出
Node力Fnの算出
Loop1
Fn
 Fm への変換
+
調音器官ダイナミクス
_
+
D
error
発声動作
HMM音声生成逆モデル
話し手の音声
 Fn への変換
Fm  f ( )
Fm
声から筋運動指令を計画
筋運動指令 
Loop2
Hillの筋モデル +
x
筋力Fmの算出
 Fn
 Fm
Node力Fnの算出
逆ダイナミックス
 への変換
Loop1
 Fm への変換
+
調音器官ダイナミクス
 Fm  f ( )
_
+
D
error
発声動作
HMM音声生成逆モデル
話し手の音声
 Fn への変換
聞き真似発話
MEASURED
ESTIMATED
生理的調音モデルによる聞き真似発話
発話ロボットによる聞き真似発話
オハヨウ
おはよう
発話ロボット
発声動作計画モデル
話し手の声を真似て発話する
ための運動計画を行う
発話ロボットの構造
音声
Tongue Mechanism
Vocal Cords Mechanism
Lips Mechanism
空気流

声からロボットの発話動作を計画
話し手の声
音響分析
ホルマント周波数
ピッチ周波数
-
+ y
音響分析
ロボットの声
HMM音声生成逆モデル
人の発声動作
(初期値)
ヤコビアン制御則

 y 
xk 1  xk     W y k
 x 
発声ロボット
ロボット制御変数 x
発話ロボットによる聞き真似発話
(学習前)
発話ロボットによる聞き真似発話
(声帯の動かし方を学習)
発話ロボットによる聞き真似発話
(声帯と口の動かし方を学習)
発話ロボットによる聞き真似発話
(声帯と口の動かし方を学習)