発話障害者においての音声認識
Download
Report
Transcript 発話障害者においての音声認識
構音障害者の音声認識の検討
神戸大学工学部
松政 宏典,滝口 哲也,有木 康雄
追手門学院大学経済学部
李 義昭
神戸大学発達科学部
中林 稔堯
研究背景
音声認識の多様化
子供、高齢者
車内
福祉分野への情報技術の適用
音声合成
手話認識
文字認識
研究目的
言語障害者は3万4000人
(平成13年度
厚生労働省)
障害者(聴覚・言語障害)を対象とした音声認識が
少ない。
音声に頼るしかない場合は?
音声認識の実現
課題
構音障害者では、発話スタイルが異なるため、
従来のモデルでは認識が困難
構音障害者モデルの作成
構音障害者において、最初の発話スタイルが、
他発話に比べ、変動する場合がある。
変動成分の抑圧のための
PCAを用いた徴量抽出方法
脳性マヒとは
受胎から生後4週以内の新生児までの間に生じた、
脳の非進行性病変に基づく、永続的な、しかし
変化しうる運動および姿勢の異常である。その
症状は満2歳までに発現する。(厚生省)
*分類
1)痙直型
2)アテトーゼ型 (10~15%)
3)失調型
4)緊張低下型
5)固縮型
6)混合型
アテトーゼ型とは
大脳基底核に損傷を受けたことによる、随意筋機
能障害であり、アテトーゼ(不随意運動)が生じ
る。
意図的な動作を行う際や緊張状態においてアテ
トーゼが出やすい。
アテトーゼ型脳性マヒでは、知能障害を合併して
いないケースや比較的知能 障害の程度が軽いケー
スも多い。
収録データ
210単語 (ATR音素バランス単語)
連続発話
音声例
・あけがた
・はなはだ
図差し替え
汎用モデルでの認識
100
90.0
90
認識率[%]
80
70
60
50
40
30
20
10
2.9
0
構音障害者
健常者
→従来の汎用モデルでは構音障害者の音声認識が困難
構音障害者モデルでの発話毎の認識率
100
認識率[%]
95
89.1
90
91.4
91.0
87.6
85
80
77.1
75
70
65
1回目
2回目
3回目
4回目
5回目
→最初の意図的な動作のため発話スタイルが不安定
提案手法
DCTではなく、スペクトル上でPCAを用いる。
PCAによる発話スタイル変動成分の抑圧(1)
X n (w); 観測音声
Sn (w) ; 安定した音声
Hn (w) ; 発話スタイル変動成分
2回目以降
X n (w) Sn (w)
1回目発話
X n (w) Sn (w) Hn (w)
抑圧
log X n (w) log Sn (w) log Hn (w)
PCAによる発話スタイル変動成分の抑圧(2)
2回目以降の発話
∥
安定した音声
1回目発話
写像
ˆ
S VXn
∥
調音不安定音声
安定した音声を用いて、PCAで求めた主軸Vの部
分空間に写像する。
空間の低次に音声成分が、高次には発話スタイ
ル変動成分が集まる。
実験内容
MLLR+MAP推定による話者適応
PCAを用いた発話スタイル変動にロバスト
な特徴量抽出法
実験条件
ハミング窓長
分析周期
音響モデル
25msec
10msec
monophone
モデル適応には2回目の発話を用いる。
PCAには2~5回目発話の安定した音声のフィ
ルタバンク出力 24 次元を用いる。
モデル適応結果
70
60
認識率 [%]
50
210使用
150使用
100使用
80使用
60使用
40使用
20使用
40
30
20
10
0
0
1
2
3
4
5
6
7
適応回数
少量データでの適応が困難
8
9
10
PCAとMFCCの比較(1回目発話)
より有効的な特徴量抽出
が可能である。
85.2
86
84
認識率 [%]
PCAを用いることで
6.1%の改善
(79.1%→85.2%)
82
80
79.1
MFCC
78
PCA
76
MFCC
PCA
発話毎の認識率比較(17次元)
95
92.9
90.5
認識率[%]
90
87.6
85
80
92.9
88.1
89.5
90.5
83.8
MFCC
78.6
PCA
75
1回目
2回目
3回目
4回目
5回目
まとめ・課題
1回目の不安定な発話に対して、PCAを用いて特
徴量を抽出することで、より有効的な特徴量が
得られる。
PCAのカーネル化
構音障害者用の音素モデル
対象者を増やす
END
→ → → →補助
1回目と他発話の違い
<例>
はっぴゃく
はんぎゃく
PCA(Principal Component Analysis)
x2
y
空間選択;分散が最大空間
を順次選択
有効性
低次-------高次
大 ------- 小
X1
図図
発話毎の認識率
構音障害者の場合1回目の認識率が著しく低下する。
1回目は最初の意図的な動作であり緊張状態のため
アテトーゼが生じ、調音が困難となっているため
発話スタイルが不安定と考えられる。
単語認識結果
99.2
100
87.2
90.0
認識率 [%]
80
60
40
20
汎用モデル
2.9
特定話者モデル
構音障害者
健常者
0
特定話者モデルの作成
音素数
混合分布数
テストデータ
54 音素
6
1050(210単語×5回)
<作成例>
認識
モデル作成(学習)
従来手法での問題点
汎用モデルでは認識が困難
適応データ数
(2回目発話)
0
40
100
210
認識率 [%]
2.9
22.5
42.9
61.3
少量データでの適応が困難
精度の向上には大量のデータが必要
モデル適応
MLLR(Maximum Likelihood Linear Regression)法
μ̂ Aμ b
̂;適応後平均ベクトル
;適応前平均ベクトル
MAP(Maximum A Posteriori)推定法
ˆ argmax g(|)
arg max f (| ) g ( )
ˆ;推定パラメータ
;適応データ
;パラメータ(既知)←MLLR法で求めたものを使用
PCAとMFCCの比較(1回目発話)
85.2
認識率[%]
86
82
78
80.0
81.9
79.1
83.8
83.3
78.6
78.1
77.1
76.2
74
MFCC
PCA
70
11次元
13次元
15次元
17次元
19次元
全発話での結果
認識率[%]
90
89.6
89.0
89
88
87
87.4
86.8
87.6
89.1
89.1
87.8
88.0
87.4
MFCC
PCA
86
85
11次元
13次元
15次元
17次元
19次元
MFCC(Mel Frequency Cepstrum Coefficient)
f
Mel( f ) 2595log10(1
)
700
音の高さに対する人間の感覚尺度 → メル尺度(Mel Scale)
周波数の対数におおよそ対応
人間の周波数に対する音の高さの感覚
低周波数 → 細かい
レ
ベ
ル
高周波数 → 粗い
・・ ・
・・・
m1
m2
各帯域フィルタの出力 m j と,
離散コサイン変換(DCT)を
用いて,MFCC係数が計算さ
れる.
mj
mj 1
mN
メル周波数
2 N
i
cMFCC(i)
m
cos
j
0
.
5
j
N j 1
N
想定される質問
一度写像した音声を逆写像したら、安定
した音声と同じように聞こえるのか?
今後・・・
今回でも約40分ほどのデータ収録をし
ている。負担が大きいので話者適応を目
指した方がよいのでは?
今回はアプローチ方法の一つとして特定話者モデ
ルを作成した。
音素数による違い
母音・子音に違いは無い。
54音素の場合はより音は細かく表示可能。
<例>こんにゃく
54音素;k oN ny a- k u+
43音素 ; k o N ny a
ku