Transcript 発話モデル
発話動作モデル
調音運動(X線映画)
調音モデル(幾何学的モデル)
生理的調音モデル
6
Genioglossus
GGm
GGa
4
2
0
GGp
-2
8
Hilの筋モデル
mi
Hyoglossus
6
4
2
0
mj
2 -2
Geniohyoid
0
2
4
6
0
2
4
唇の生理的モデル
点をプロットしたMRI 11枚から 3D Lip model 及び口輪筋の3D model を作成した
×11枚
3D Lip model
口輪筋 の 3D model
Y
XZ
発話動作の特徴
スペクトルパラメータにくらべてなめらかな時間的変化
不変的な音素特徴の存在
音声を生成することを目的とする動作
発話動作の運動目標は何か?
多くの調音器官の関与する協調動作
熟練した連続動作(調音結合)
極めて速くて、精度の高い動作
スペクトルパラメータと調音パラメータ
音声
スペクトル
パラメータ
口の動き
音素の調音特徴
唇と顎の協調動作
上唇が下降し、
「狭め」を達成する
調音結合
連続音声において、連続する音素の
調音特徴が時間的に重なり合う現象
調音効果
母音
調音効果
子音 母音
子音
調音器官による重要度の違い
全ての調音器官で同じ場合
調音器官毎に異なる場合
発声動作の特徴(調音結合)
igi
ogo
発声動作の特徴(調音結合)
ibi
obo
飽和効果を利用した精度の高い動作
運動指令が変化しても音声の音響的性質が変化しない飽和効
果が存在する
飽和効果は、運動指令と調音位置の関係、および調音位置と
音声の関係の両方に存在する .
声道タスクに基づく発声動作モデル
モデルの構成
運動タスク
z Ex
(dim z dim x)
xi
zi
運動タスクを満足する無数の軌道が存在する
タスクに無関係な調音変数は、前後のタスクに影響を受ける
運動タスクに基づく発声動作モデル
INPUT
VIA-POINTS
MINIMIZATION OF
TRAJECTORY SMOOTHNESS
z j (t j )
fi (t )
df (t ) I
F
Fdx (t ) I
min z
wG Jdt
G
J
Hdt K Hdt K
2
f (t )
2
T
i
2
DYNAMIC
SYSTEM
xi (t )
xi (t ) 2axi (t ) a 2 xi (t ) f i (t )
i
0
zk
OUTPUT
VOCAL TRACT FEATURE (Linear Constraint g(xt ) G x t )
ACOUSTIC FEATURE (Nonlinear Constraint)
g( xt )
x1
ART. VARIABLE
xt
Trajectory
●
t1
x2
t1
t2
TIME
t3
t2
t3
Time
シュミレーション結果
発話プラニングモデル
音素列
音声から調音運動を決定
する逆モデルが必要
音響タスク
-
聞き真似発声
調音運動計画
聴覚
調音運動生成
声道音響モデル
話し手の声
自分の声
音声
逆モデル
調音・音響マッピング
統計的音声生成モデル
x
音素記号列
:調音パラメータ
y :音響パラメータ
q :HMMの状態
:HMMのモデル
統計モデル
調音HMM
発声動作の動特性
のモデル
P(q | )
q1
q2
q3
P(x | q, )
P(y | x, q, )
調音・音響マッピング
声道音響特性のモデル
P( y | )
音響パラメータ
統計的音声生成モデル
x
音素記号列
:調音パラメータ
y :音響パラメータ
q :HMMの状態
:HMMのモデル
統計モデル
P(q | )
q1
q2
q3
P(x | q, )
P(y | x, q, )
調音・音響マッピング
声道音響特性のモデル
P( y | )
音響パラメータ
逆モデル
調音HMM
発声動作の動特性
のモデル
逆モデルの構成
ー調音パラメータの逆推定ー
音声
スペクトル分析
音素既知の場合
HMMの状態系列決定
音素未知の場合
~
max P (y, q | )
q
状態系列に対して事後確率
最大となる調音パラメータを
計算
max P (x | y , q, )
x
調音パラメータの計算
●音響パラメータベクトル系列の出力確率
P(y | ) max P(y | x, q, ) P(x | q, ) P(q | )dx
q
●調音・音響マッピングはHMMの各ステート毎に
y Ax b
● P(y | x, q, ), P(x | q, ) はガウス分布を仮定
与えられた状態系列 q に関して、事後確率 P(x | y, q, ) を最大にする
調音パラメータ xˆ を決定する
xˆ ( x AT w A)1 ( x x AT w (y b))
1
1
1
1
すべての状態系列に対して xˆ を計算し、音響パラメータベクトル系列の
出力確率が最大となる調音パラメータベクトル系列を求める必要がある
生成HMMと音響HMMの比較
調音パラメータベクトル系列の事後確率が最大となる
推定値 xˆ を代入
~
P(y | ) max P(y | x, q, ) P(x | q, ) P(q | )dx max P (y | q, ) P(q | )
q
q
しかも、この分布関数のパラメータは
調音パラメータと誤差パラメータによ
り決定される
出力確率は音響HMMと同じ形式となる
P(y | ) max P(y | q, ) P(q | )
q
y Ax b
y A x AT w
音声から再現された口の動き
発声動作の連続性や癖を考慮しない場合
これらを考慮した場合
聞きまね発話のシミュレーション
実測された発話動作
音声から再現された発話動作
声から筋運動指令を計画
筋運動指令
Loop2
Hillの筋モデル +
逆ダイナミックス
への変換
x
筋力Fmの算出
Node力Fnの算出
Loop1
Fn
Fm への変換
+
調音器官ダイナミクス
_
+
D
error
発声動作
HMM音声生成逆モデル
話し手の音声
Fn への変換
Fm f ( )
Fm
声から筋運動指令を計画
筋運動指令
Loop2
Hillの筋モデル +
x
筋力Fmの算出
Fn
Fm
Node力Fnの算出
逆ダイナミックス
への変換
Loop1
Fm への変換
+
調音器官ダイナミクス
Fm f ( )
_
+
D
error
発声動作
HMM音声生成逆モデル
話し手の音声
Fn への変換
聞き真似発話
MEASURED
ESTIMATED
生理的調音モデルによる聞き真似発話
発話ロボットによる聞き真似発話
オハヨウ
おはよう
発話ロボット
発声動作計画モデル
話し手の声を真似て発話する
ための運動計画を行う
発話ロボットの構造
音声
Tongue Mechanism
Vocal Cords Mechanism
Lips Mechanism
空気流
声からロボットの発話動作を計画
話し手の声
音響分析
ホルマント周波数
ピッチ周波数
-
+ y
音響分析
ロボットの声
HMM音声生成逆モデル
人の発声動作
(初期値)
ヤコビアン制御則
y
xk 1 xk W y k
x
発声ロボット
ロボット制御変数 x
発話ロボットによる聞き真似発話
(学習前)
発話ロボットによる聞き真似発話
(声帯の動かし方を学習)
発話ロボットによる聞き真似発話
(声帯と口の動かし方を学習)
発話ロボットによる聞き真似発話
(声帯と口の動かし方を学習)