Transcript スライド 1
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討 宮本 千琴,駒井 祐人,滝口 哲也,有木 康雄(神戸大),李 義昭(追手門大) 研究背景・目的 構音障害 音声認識技術の様々な状況での利用 カーナビゲーションの操作、駅での音声案内、子供や高齢者 福祉分野における情報技術の発展の重要性 超高齢社会(2800万人)、身体障害者(366万人) しかし、言語障害者を対象としているものは少ない 脳性マヒの方は、発話障害+手足の不自由 発話は自分の気持ちをよく表す手段であり、 重要なコミュニケーション手段の一つ 構音障害とは 言葉を正しく明瞭に発音できない症状 構音障害の原因の一つ:脳性マヒ 出生前や出生時に受けた外傷のため筋肉の制御が難しい アテトーゼ(不随意運動)が生じる 特にアテトーゼの生じやすい状況 -意図的動作時 -緊張状態 健常者 構音障害者 発話内容が分かれば、会話時にお互いの理解がより深まる 構音障害者を対象とした音声認識システムの実現 neage 問題点 従来のHMMにおける仮定 状態は1フレーム前の状態によって決まる 観測は各フレームの状態によって決まる 音声の生成構造が単純化されているため扱いやすい 時間的な変化特性を十分に表現できていない akegata 構音障害者の不安定な発話を認識するために Buried Markov Modelを用いる Buried Markov Model 学習の流れ Buried Markov Model [1] time 0 1 2 3 BMMの構造学習 (Pairwiseアルゴリズム+独立性検定) BMMのパラメータ学習 (EMアルゴリズム) BMM State 独立性検定[2] Pairwiseアルゴリズム 識別的依存関係の習得 Feature Kendall の順位相関係数 2つの変数の順位の間の相関の強さを表す指標 I ( X , Z | q) 1 , I ( X , Z ) 2 n 冗長性の検定 I ( Z , Zi ) 3 I ( X , Z ) Z i Z X :ターゲットノード Z :親ノード集合 Y の 順 位 [1]J.A. Bilmes, ``Buried Markov models: a graphical modeling approach to automatic speech recognition,'‘ Computer Speech and Language, Volume 17, Issues 2-3, 213-231, 2003. [2]山本 他, ``Buried Markov Modelを用いた音声認識モデルの構築法の検討,'' 情処研報,2009-SLP-79, No.21, pp.1-6, 2009. まとめ 音素間の境界と発声されていない子音を考慮する方法を検討 複数話者に対して有効性の確認 画像特徴も共に用いた構築アルゴリズムの検討 54 52 50 48 46 44 42 40 探索過去フレーム数=5 43.5 2 3 4 5 6 親ノードの上限数 i 1 i 1 n(n 1) 2 7 親ノードの上限数=3 54 52 50 48 46 44 42 40 49.6 44.4 1 53.34 親ノードの上限数=1 2 3 4 5 6 探索過去フレーム数 54 52 50 48 46 44 42 40 7 53.08 1 Recognition rate[%] Recognition rate[%] Xの順位 Recognition rate[%] 考察 BMMの構造学習時に音声データの音素ラベル情報と その時間情報が必要 音素間の境界が曖昧である 発声されていない子音がある i 1 i データ Qi :ノード i について白の領域にある データ n :データサイズ 53.3 1 Recognition rate[%] 実験条件 実験データ:構音障害者1名 発話内容:ATR音素バランス単語216単語×5回発話 サンプリング周波数:16kHz フレーム窓長:25msec フレーム周期:10msec 特徴量:12次MFCC+ΔMFCC 状態数:43音素3状態 54 52 50 48 46 44 42 40 P Q Pi :ノード i について青の領域にある HMMの各フレームの観測系列間に時間的依存関係を加えたモデル 状態によって親との依存関係のパターンが決まる 実験とまとめ n 2 3 4 5 6 探索過去フレーム数 親ノードの上限数=5 7 49.7 47.1 44.6 1 2 3 4 5 6 探索過去フレーム数 7