Transcript スライド 1
Buried Markov Modelを用いた 構音障害者の音声認識の検討 神戸大学大学院工学研究科 宮本 千琴,駒井 祐人,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 構音障害 構音障害とは 言葉を正しく明瞭に発音できない症状 構音障害の原因の一つ:脳性マヒ 出生前や出生時に脳に受けた外傷のため筋肉の制御が難しい アテトーゼ(不随意運動)が生じる 特にアテトーゼの生じやすい状況 -意図的動作時 -緊張状態 健常者 構音障害者 www.***.com 研究背景 音声認識技術の様々な状況での利用 カーナビゲーションの操作 会議音声の議事録化 駅での音声案内 様々な人が生活の中で使う機会が増えている 成人だけでなく、子供や高齢者も利用できる 福祉分野における情報技術の発展 超高齢社会(2800万人)、身体障害者(366万人) www.***.com 研究目的 現在、日本に言語障害者は4万2000人 (平成20年版 障害者白書) 言語障害者を対象とした研究は少ない 脳性マヒの方は、構音障害+手足の不自由 発話は自分の気持ちをよく表す手段 発話は重要なコミュニケーション手段の一つ 発話内容が分かれば、会話時にお互いの理解がより深まる 構音障害者の音声でも認識可能なシステムの実現 www.***.com 音声認識の実現 職域開発 音声認識ツールの使用による 障害者の雇用機会増加への期待! コミュニケーションの広がり 講演の補助等への活用 www.***.com 課題① 構音障害者は、発話スタイルが健常者と異なるため、 従来のモデルでは認識が困難 不特定話者(健常者)モデルでの認識結果 100 91.6 Recognition rate[%] 90 80 70 60 50 40.2 40 30 20 10 3.1 0 健常者 構音障害者A 構音障害者B →構音障害者モデルの作成 www.***.com 課題② 構音障害者モデル (HMM) の作成 特定話者モデルでの認識結果 100 99.2 98.499.6 94.6 97.4 89.7 Recognition rate[%] 90 85.9 78.5 80 MFCC ΔMFCC MFCC+ΔMFCC 70 60 49.2 50 40 健常者 構音障害者A 構音障害者B →ΔMFCCの認識率が低い 健常者に比べて時間変化がうまく表現できていない www.***.com これまでの取り組み 時間変化を表す特徴量を用いた時の認識率が低い 時間変化をより表すようにする ΔMFCCの代わりにセグメント特徴量を用いる 去年10月の本研究会で発表[1] [1]``構音障害者の音声認識における動的特徴量の考察,’’ 電子情報通信学会技術研究報告, SP2009-55, pp.37-42, 2009-10. www.***.com セグメント特徴量 前後数フレーム分のΔMFCCから特徴量を構成 n フレーム ΔMFCC (12次元) ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・・ ・ ・ ・ ・ ・・ ・ ・ ・ ・ ・ ・ ΔMFCCを結合させたベクトル ・ ・ ( 12×n 次元) ・ ・ ・ ・ ・・・ ・ ・ ・ PCA 音声特徴量 (N 次元) www.***.com 本発表でのアプローチ 特徴量ではなくモデルに着目 従来のHMMにおける仮定 状態は1フレーム前の状態によって決まる 観測は各フレームの状態によって決まる 音声の生成構造が単純化されているため扱いやすい 時間的な変化特性を十分に表現出来ていない Buried Markov Model[2]を用いる HMMの各フレームの観測系列間に時間的依存関係を示す 条件付き確率のエッジを加えたモデル 状態によって親との依存関係のパターンが決まる [2]J.A. Bilmes, ``Buried Markov models: a graphical modeling approach to automatic speech recognition,'‘ Computer Speech and Language, Volume 17, Issues 2-3, 213-231, 2003. www.***.com Hidden Markov Model (HMM) 0 time 1 2 3 State Feature Pr(x1:T ) Pr(xt | qt ) Pr(qt | qt 1 ) t T :時間長 xt :t番目のフレームにおける出力 q t :観測に対する状態www.***.com Buried Markov Model (BMM) 0 time 1 2 3 State Feature Pr(x1:T ) Pr(xt | z(qt ), qt ) Pr(qt | qt 1 ) q1:T t z :フレームtにおける状態 q t によって一意に決まる 出力間のエッジの集合を決定する関数 www.***.com BMMの学習 1. BMMの構造学習 (Pairwiseアルゴリズム+独立性検定) 2. BMMのパラメータ学習 (EMアルゴリズム) 3. BMMの構築 Pairwiseアルゴリズム 識別的依存関係の習得 I ( X , Z | q) 1 , I ( X , Z ) 2 冗長性の検定 I ( Z , Zi ) 3 I ( X , Z ) Zi Z X :ターゲットノード Z :親ノード集合 www.***.com 独立性検定 Kendallの順位相関係数 2つの変数の順位の間の相関の強さを表す指標 n n P Q i 1 i i 1 i 1 n(n 1) 2 Pi :ノード i について青の領域にある データ Qi :ノードi について白の領域にある データ n :データサイズ 参考文献:山本 他, ``Buried Markov Modelを用いた音声認識モデルの構築法の検討,'' www.***.com 情処研報,2009-SLP-79, No.21, pp.1-6, 2009. BMMを用いた音素認識実験 実験条件 実験データ:構音障害者1名 発話内容:ATR音素バランス単語216単語×5回発話 サンプリング周波数:16kHz フレーム窓長:25msec フレーム周期:10msec 特徴量:12次MFCC+ΔMFCC 状態数:43音素3状態 探索過去フレーム数、親ノード数をそれぞれ変化させ比較 www.***.com 実験結果1 (探索過去フレーム数=5) 54 53.3 Recognition rate[%] 52 50 48 46 43.5 44 42 40 1 2 3 4 5 6 7 親ノードの上限数 www.***.com 実験結果2 (親ノードの上限数=1) 53.34 54 Recognition rate[%] 52 53.08 50 48 46 44 42 40 1 2 3 4 5 6 7 探索過去フレーム数 www.***.com 実験結果3 (親ノードの上限数=3) 54 Recognition rate[%] 52 49.6 50 48 46 44.4 44 42 40 1 2 3 4 5 6 7 探索過去フレーム数 www.***.com 実験結果4 (親ノードの上限数=5) 54 Recognition rate[%] 52 49.7 50 48 47.1 46 44.6 44 42 40 1 2 3 4 5 6 7 探索過去フレーム数 www.***.com 考察 構造学習時に音声データの音素ラベル情報とその時間情報 が必要 www.***.com まとめ 発話が不安定な構音障害者の音声認識精度を改善するため に、観測ノード間の時間的な依存関係を記述できるBMMを用 いた音声認識手法を検討 構造学習手法の検討 複数話者での有効性の確認 音声特徴だけでなく画像特徴も共に用いる www.***.com ご清聴ありがとうございました