Transcript 発話モデル
発話動作モデル 調音運動(X線映画) 調音モデル(幾何学的モデル) 生理的調音モデル 6 Genioglossus GGm GGa 4 2 0 GGp -2 8 Hilの筋モデル mi Hyoglossus 6 4 2 0 mj 2 -2 Geniohyoid 0 2 4 6 0 2 4 唇の生理的モデル 点をプロットしたMRI 11枚から 3D Lip model 及び口輪筋の3D model を作成した ×11枚 3D Lip model 口輪筋 の 3D model Y XZ 発話動作の特徴 スペクトルパラメータにくらべてなめらかな時間的変化 不変的な音素特徴の存在 音声を生成することを目的とする動作 発話動作の運動目標は何か? 多くの調音器官の関与する協調動作 熟練した連続動作(調音結合) 極めて速くて、精度の高い動作 スペクトルパラメータと調音パラメータ 音声 スペクトル パラメータ 口の動き 音素の調音特徴 唇と顎の協調動作 上唇が下降し、 「狭め」を達成する 調音結合 連続音声において、連続する音素の 調音特徴が時間的に重なり合う現象 調音効果 母音 調音効果 子音 母音 子音 調音器官による重要度の違い 全ての調音器官で同じ場合 調音器官毎に異なる場合 発声動作の特徴(調音結合) igi ogo 発声動作の特徴(調音結合) ibi obo 飽和効果を利用した精度の高い動作 運動指令が変化しても音声の音響的性質が変化しない飽和効 果が存在する 飽和効果は、運動指令と調音位置の関係、および調音位置と 音声の関係の両方に存在する . 声道タスクに基づく発声動作モデル モデルの構成 運動タスク z Ex (dim z dim x) xi zi 運動タスクを満足する無数の軌道が存在する タスクに無関係な調音変数は、前後のタスクに影響を受ける 運動タスクに基づく発声動作モデル INPUT VIA-POINTS MINIMIZATION OF TRAJECTORY SMOOTHNESS z j (t j ) fi (t ) df (t ) I F Fdx (t ) I min z wG Jdt G J Hdt K Hdt K 2 f (t ) 2 T i 2 DYNAMIC SYSTEM xi (t ) xi (t ) 2axi (t ) a 2 xi (t ) f i (t ) i 0 zk OUTPUT VOCAL TRACT FEATURE (Linear Constraint g(xt ) G x t ) ACOUSTIC FEATURE (Nonlinear Constraint) g( xt ) x1 ART. VARIABLE xt Trajectory ● t1 x2 t1 t2 TIME t3 t2 t3 Time シュミレーション結果 発話プラニングモデル 音素列 音声から調音運動を決定 する逆モデルが必要 音響タスク - 聞き真似発声 調音運動計画 聴覚 調音運動生成 声道音響モデル 話し手の声 自分の声 音声 逆モデル 調音・音響マッピング 統計的音声生成モデル x 音素記号列 :調音パラメータ y :音響パラメータ q :HMMの状態 :HMMのモデル 統計モデル 調音HMM 発声動作の動特性 のモデル P(q | ) q1 q2 q3 P(x | q, ) P(y | x, q, ) 調音・音響マッピング 声道音響特性のモデル P( y | ) 音響パラメータ 統計的音声生成モデル x 音素記号列 :調音パラメータ y :音響パラメータ q :HMMの状態 :HMMのモデル 統計モデル P(q | ) q1 q2 q3 P(x | q, ) P(y | x, q, ) 調音・音響マッピング 声道音響特性のモデル P( y | ) 音響パラメータ 逆モデル 調音HMM 発声動作の動特性 のモデル 逆モデルの構成 ー調音パラメータの逆推定ー 音声 スペクトル分析 音素既知の場合 HMMの状態系列決定 音素未知の場合 ~ max P (y, q | ) q 状態系列に対して事後確率 最大となる調音パラメータを 計算 max P (x | y , q, ) x 調音パラメータの計算 ●音響パラメータベクトル系列の出力確率 P(y | ) max P(y | x, q, ) P(x | q, ) P(q | )dx q ●調音・音響マッピングはHMMの各ステート毎に y Ax b ● P(y | x, q, ), P(x | q, ) はガウス分布を仮定 与えられた状態系列 q に関して、事後確率 P(x | y, q, ) を最大にする 調音パラメータ xˆ を決定する xˆ ( x AT w A)1 ( x x AT w (y b)) 1 1 1 1 すべての状態系列に対して xˆ を計算し、音響パラメータベクトル系列の 出力確率が最大となる調音パラメータベクトル系列を求める必要がある 生成HMMと音響HMMの比較 調音パラメータベクトル系列の事後確率が最大となる 推定値 xˆ を代入 ~ P(y | ) max P(y | x, q, ) P(x | q, ) P(q | )dx max P (y | q, ) P(q | ) q q しかも、この分布関数のパラメータは 調音パラメータと誤差パラメータによ り決定される 出力確率は音響HMMと同じ形式となる P(y | ) max P(y | q, ) P(q | ) q y Ax b y A x AT w 音声から再現された口の動き 発声動作の連続性や癖を考慮しない場合 これらを考慮した場合 聞きまね発話のシミュレーション 実測された発話動作 音声から再現された発話動作 声から筋運動指令を計画 筋運動指令 Loop2 Hillの筋モデル + 逆ダイナミックス への変換 x 筋力Fmの算出 Node力Fnの算出 Loop1 Fn Fm への変換 + 調音器官ダイナミクス _ + D error 発声動作 HMM音声生成逆モデル 話し手の音声 Fn への変換 Fm f ( ) Fm 声から筋運動指令を計画 筋運動指令 Loop2 Hillの筋モデル + x 筋力Fmの算出 Fn Fm Node力Fnの算出 逆ダイナミックス への変換 Loop1 Fm への変換 + 調音器官ダイナミクス Fm f ( ) _ + D error 発声動作 HMM音声生成逆モデル 話し手の音声 Fn への変換 聞き真似発話 MEASURED ESTIMATED 生理的調音モデルによる聞き真似発話 発話ロボットによる聞き真似発話 オハヨウ おはよう 発話ロボット 発声動作計画モデル 話し手の声を真似て発話する ための運動計画を行う 発話ロボットの構造 音声 Tongue Mechanism Vocal Cords Mechanism Lips Mechanism 空気流 声からロボットの発話動作を計画 話し手の声 音響分析 ホルマント周波数 ピッチ周波数 - + y 音響分析 ロボットの声 HMM音声生成逆モデル 人の発声動作 (初期値) ヤコビアン制御則 y xk 1 xk W y k x 発声ロボット ロボット制御変数 x 発話ロボットによる聞き真似発話 (学習前) 発話ロボットによる聞き真似発話 (声帯の動かし方を学習) 発話ロボットによる聞き真似発話 (声帯と口の動かし方を学習) 発話ロボットによる聞き真似発話 (声帯と口の動かし方を学習)