スライド 1

Download Report

Transcript スライド 1

1-Q-12
Buried Markov Modelを用いた構音障害者の音声認識の検討
宮本 千琴,駒井 祐人,滝口 哲也,有木 康雄(神戸大),李 義昭(追手門大)
研究背景・目的
構音障害
音声認識技術の様々な状況での利用
カーナビゲーションの操作、駅での音声案内、子供や高齢者
福祉分野における情報技術の発展の重要性
超高齢社会(2800万人)、身体障害者(366万人)
しかし、言語障害者を対象としているものは少ない
脳性マヒの方は、発話障害+手足の不自由
発話は自分の気持ちをよく表す手段であり、
重要なコミュニケーション手段の一つ
構音障害とは
言葉を正しく明瞭に発音できない症状
構音障害の原因の一つ:脳性マヒ
出生前や出生時に受けた外傷のため筋肉の制御が難しい
アテトーゼ(不随意運動)が生じる
特にアテトーゼの生じやすい状況
-意図的動作時
-緊張状態
健常者
構音障害者
発話内容が分かれば、会話時にお互いの理解がより深まる
構音障害者を対象とした音声認識システムの実現
neage
問題点 従来のHMMにおける仮定
状態は1フレーム前の状態によって決まる
観測は各フレームの状態によって決まる
音声の生成構造が単純化されているため扱いやすい
時間的な変化特性を十分に表現できていない
akegata
構音障害者の不安定な発話を認識するために
Buried Markov Modelを用いる
Buried Markov Model
学習の流れ
Buried Markov Model [1]
time
0
1
2
3
BMMの構造学習
(Pairwiseアルゴリズム+独立性検定)
BMMのパラメータ学習
(EMアルゴリズム)
BMM
State
独立性検定[2]
Pairwiseアルゴリズム
識別的依存関係の習得
Feature
Kendall の順位相関係数
2つの変数の順位の間の相関の強さを表す指標
I ( X , Z | q)  1 , I ( X , Z )   2
n
冗長性の検定
I ( Z , Zi )   3 I ( X , Z ) Z i  Z
X :ターゲットノード
Z :親ノード集合
Y
の
順
位

[1]J.A. Bilmes, ``Buried Markov models: a graphical modeling approach to automatic speech recognition,'‘
Computer Speech and Language, Volume 17, Issues 2-3, 213-231, 2003.
[2]山本 他, ``Buried Markov Modelを用いた音声認識モデルの構築法の検討,'' 情処研報,2009-SLP-79, No.21, pp.1-6, 2009.
まとめ
音素間の境界と発声されていない子音を考慮する方法を検討
複数話者に対して有効性の確認
画像特徴も共に用いた構築アルゴリズムの検討
54
52
50
48
46
44
42
40
探索過去フレーム数=5
43.5
2
3
4
5
6
親ノードの上限数
i 1
i
1
n(n  1)
2
7
親ノードの上限数=3
54
52
50
48
46
44
42
40
49.6
44.4
1
53.34
親ノードの上限数=1
2
3
4
5
6
探索過去フレーム数
54
52
50
48
46
44
42
40
7
53.08
1
Recognition rate[%]
Recognition rate[%]
Xの順位
Recognition rate[%]
考察
BMMの構造学習時に音声データの音素ラベル情報と
その時間情報が必要
音素間の境界が曖昧である
発声されていない子音がある
i 1
i
データ
Qi :ノード i について白の領域にある
データ
n :データサイズ
53.3
1
Recognition rate[%]
実験条件
実験データ:構音障害者1名
発話内容:ATR音素バランス単語216単語×5回発話
サンプリング周波数:16kHz
フレーム窓長:25msec
フレーム周期:10msec
特徴量:12次MFCC+ΔMFCC
状態数:43音素3状態
54
52
50
48
46
44
42
40
 P  Q
Pi :ノード i について青の領域にある
HMMの各フレームの観測系列間に時間的依存関係を加えたモデル
状態によって親との依存関係のパターンが決まる
実験とまとめ
n
2
3
4
5
6
探索過去フレーム数
親ノードの上限数=5
7
49.7
47.1
44.6
1
2
3
4
5
6
探索過去フレーム数
7