Transcript スライド 1
Buried Markov Modelを用いた
構音障害者の音声認識の検討
神戸大学大学院工学研究科
宮本 千琴,駒井 祐人,滝口 哲也,有木 康雄
追手門学院大学経済学部
李 義昭
構音障害
構音障害とは
言葉を正しく明瞭に発音できない症状
構音障害の原因の一つ:脳性マヒ
出生前や出生時に脳に受けた外傷のため筋肉の制御が難しい
アテトーゼ(不随意運動)が生じる
特にアテトーゼの生じやすい状況
-意図的動作時
-緊張状態
健常者
構音障害者
www.***.com
研究背景
音声認識技術の様々な状況での利用
カーナビゲーションの操作
会議音声の議事録化
駅での音声案内
様々な人が生活の中で使う機会が増えている
成人だけでなく、子供や高齢者も利用できる
福祉分野における情報技術の発展
超高齢社会(2800万人)、身体障害者(366万人)
www.***.com
研究目的
現在、日本に言語障害者は4万2000人
(平成20年版 障害者白書)
言語障害者を対象とした研究は少ない
脳性マヒの方は、構音障害+手足の不自由
発話は自分の気持ちをよく表す手段
発話は重要なコミュニケーション手段の一つ
発話内容が分かれば、会話時にお互いの理解がより深まる
構音障害者の音声でも認識可能なシステムの実現
www.***.com
音声認識の実現
職域開発
音声認識ツールの使用による
障害者の雇用機会増加への期待!
コミュニケーションの広がり
講演の補助等への活用
www.***.com
課題①
構音障害者は、発話スタイルが健常者と異なるため、
従来のモデルでは認識が困難
不特定話者(健常者)モデルでの認識結果
100
91.6
Recognition rate[%]
90
80
70
60
50
40.2
40
30
20
10
3.1
0
健常者
構音障害者A
構音障害者B
→構音障害者モデルの作成
www.***.com
課題②
構音障害者モデル (HMM) の作成
特定話者モデルでの認識結果
100
99.2 98.499.6
94.6 97.4
89.7
Recognition rate[%]
90
85.9
78.5
80
MFCC
ΔMFCC
MFCC+ΔMFCC
70
60
49.2
50
40
健常者
構音障害者A 構音障害者B
→ΔMFCCの認識率が低い
健常者に比べて時間変化がうまく表現できていない
www.***.com
これまでの取り組み
時間変化を表す特徴量を用いた時の認識率が低い
時間変化をより表すようにする
ΔMFCCの代わりにセグメント特徴量を用いる
去年10月の本研究会で発表[1]
[1]``構音障害者の音声認識における動的特徴量の考察,’’ 電子情報通信学会技術研究報告, SP2009-55,
pp.37-42, 2009-10.
www.***.com
セグメント特徴量
前後数フレーム分のΔMFCCから特徴量を構成
n フレーム
ΔMFCC
(12次元)
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・ ・ ・・ ・ ・ ・ ・ ・・ ・ ・ ・
・
・
・
ΔMFCCを結合させたベクトル
・
・
( 12×n 次元)
・
・
・
・
・・・
・
・
・
PCA
音声特徴量
(N 次元)
www.***.com
本発表でのアプローチ
特徴量ではなくモデルに着目
従来のHMMにおける仮定
状態は1フレーム前の状態によって決まる
観測は各フレームの状態によって決まる
音声の生成構造が単純化されているため扱いやすい
時間的な変化特性を十分に表現出来ていない
Buried Markov Model[2]を用いる
HMMの各フレームの観測系列間に時間的依存関係を示す
条件付き確率のエッジを加えたモデル
状態によって親との依存関係のパターンが決まる
[2]J.A. Bilmes, ``Buried Markov models: a graphical modeling approach to automatic speech recognition,'‘
Computer Speech and Language, Volume 17, Issues 2-3, 213-231, 2003.
www.***.com
Hidden Markov Model (HMM)
0
time
1
2
3
State
Feature
Pr(x1:T ) Pr(xt | qt ) Pr(qt | qt 1 )
t
T :時間長
xt :t番目のフレームにおける出力
q t :観測に対する状態www.***.com
Buried Markov Model (BMM)
0
time
1
2
3
State
Feature
Pr(x1:T ) Pr(xt | z(qt ), qt ) Pr(qt | qt 1 )
q1:T
t
z :フレームtにおける状態 q t によって一意に決まる
出力間のエッジの集合を決定する関数
www.***.com
BMMの学習
1. BMMの構造学習 (Pairwiseアルゴリズム+独立性検定)
2. BMMのパラメータ学習 (EMアルゴリズム)
3. BMMの構築
Pairwiseアルゴリズム
識別的依存関係の習得
I ( X , Z | q) 1 , I ( X , Z ) 2
冗長性の検定
I ( Z , Zi ) 3 I ( X , Z )
Zi Z
X :ターゲットノード
Z :親ノード集合
www.***.com
独立性検定
Kendallの順位相関係数
2つの変数の順位の間の相関の強さを表す指標
n
n
P Q
i 1
i
i 1
i
1
n(n 1)
2
Pi :ノード i について青の領域にある
データ
Qi :ノードi について白の領域にある
データ
n :データサイズ
参考文献:山本 他, ``Buried Markov Modelを用いた音声認識モデルの構築法の検討,''
www.***.com
情処研報,2009-SLP-79, No.21, pp.1-6, 2009.
BMMを用いた音素認識実験
実験条件
実験データ:構音障害者1名
発話内容:ATR音素バランス単語216単語×5回発話
サンプリング周波数:16kHz
フレーム窓長:25msec
フレーム周期:10msec
特徴量:12次MFCC+ΔMFCC
状態数:43音素3状態
探索過去フレーム数、親ノード数をそれぞれ変化させ比較
www.***.com
実験結果1 (探索過去フレーム数=5)
54
53.3
Recognition rate[%]
52
50
48
46
43.5
44
42
40
1
2
3
4
5
6
7
親ノードの上限数
www.***.com
実験結果2 (親ノードの上限数=1)
53.34
54
Recognition rate[%]
52
53.08
50
48
46
44
42
40
1
2
3
4
5
6
7
探索過去フレーム数
www.***.com
実験結果3 (親ノードの上限数=3)
54
Recognition rate[%]
52
49.6
50
48
46
44.4
44
42
40
1
2
3
4
5
6
7
探索過去フレーム数
www.***.com
実験結果4 (親ノードの上限数=5)
54
Recognition rate[%]
52
49.7
50
48
47.1
46
44.6
44
42
40
1
2
3
4
5
6
7
探索過去フレーム数
www.***.com
考察
構造学習時に音声データの音素ラベル情報とその時間情報
が必要
www.***.com
まとめ
発話が不安定な構音障害者の音声認識精度を改善するため
に、観測ノード間の時間的な依存関係を記述できるBMMを用
いた音声認識手法を検討
構造学習手法の検討
複数話者での有効性の確認
音声特徴だけでなく画像特徴も共に用いる
www.***.com
ご清聴ありがとうございました