話者正規化に基づく構音障害者の音声認識

Transcript 話者正規化に基づく構音障害者の音声認識

メタモデルと音響モデルの
統合による構音障害者の音声認識
神戸大学工学研究科
松政宏典，滝口哲也，有木康雄
追手門学院大学経済学部
李義昭
神戸大学発達科学部
中林稔堯
構音障害者とは？
母親
明るさを調整する
NHK教育
＜平常時＞


＜発話時＞
構音 [調音] が困難である。
緊張時 [意図的な動作時] に、
不随意運動が現れる場合がある。
研究背景
福祉分野での情報技術の重要性




音声合成
手話認識
文字認識
音声認識の多様化



子供、高齢者
車内、会議室
研究目的

言語障害者は３万４０００人
（平成19年版障害者白書）
ユニバーサルデザイン音声認識の実現！

障害者(聴覚・言語障害)を対象とした音声認識
が少ない。

音声に頼るしかない場合は？
音声認識への期待

職域開発


音声認識ツールの使用による、
障害者の雇用機会増加への期待！
コミュニケーションの広がり


音声合成・STT (Speech To Text)による相互理解
講演の補助等への活用
関連研究

重度障害者のための音声認識電動車いすの開発
（産総研

07’音響学会）
喉頭摘出者データを用いた人工音声変換システムの評価
（奈良先端大０7’ 電子情報通信学会 WIT）
アプローチ
構音障害者において、最初の発話スタイルが、
他発話に比べ、変動する場合がある。
PCAを用いた発話スタイル変動に
ロバストな特徴量抽出法
Metamodel との統合
100
95
認識率[%]

89.1
90
91.4
91.0
87.6
85
80
77.1
75
70
65
1回目
２回目
３回目
４回目
５回目
Metamodel

Confusion Matrix を音声認識のモデルに組み込むことに
より、音の変化（削除・挿入・置換）を確率的に表現可能

各状態に離散出力確率・遷移確率（離散型HMM）

入力特徴量は音素認識列

学習は Baum Welch アルゴリズムで行う
削除
各音素に Metamodel を作成
入
力
A
B
C
挿入
置換
挿入
出
力
Metamodel
モデル[a]の例
削除
入力 [i] の場合
A
B
C
挿入
置換
挿入
[i]
A
B
C
置換
出力分布例
Phoneme /
State
A
B
C
a
0.1
0.7
0.2
i
0.4
0.1
0.3
u
0.3
0.05
0.3
e
0.1
0.05
0.1
o
0.1
0.1
0.1
入力 [a u] の場合
A
[a]
[u]
B
C
正解
（置換）
挿入
A
Metamodel
Pr( w | A ) 

B
C
w：単語
A ：信号
p：音素
p *：音素認識結果
Pr( w | p ) Pr( p | A )
p
p *  arg max
p P
 arg max
p P
Pr( p | A )
Pr( A | p ) Pr( p )
Pr( w | A )  Pr( w | p *) Pr( p * | A )
w '  arg max
Pr( w | p *) Pr( p * | A )
wW
 arg max
Pr( w | p *)
wW
Metamodel
Metamodel認識
入力音声
ある単語（例；she）を構成する
音素列に対応するMetamodel列
音素認識
she
ch
sh
[ch]
[er]
er
iy
ax
hh
hh
[hh]
[ax]
提案手法－Metamodelとの統合－
＜特徴量-数値＞
1.138
1.283
<PCA method>
-1.024 -1.424
-0.123
0.432
1.175
0.187
-0.854
2回目,-0.002
3回目 …
・・・・・・
(安定音声)
ＰＣＡ
Sˆ  V
学習
t
X
1回目発話
(不安定音声)
Acoustic Model [音素HMM]
単語認識
<Metamodel>
＜特徴量-文字＞
o k a sh r aN ii
+
音素認識
音素例[あかい-a k a i]
学習
Metamodel
音の変化（置換・挿入・削除）を考慮
Training
Meta 認識
New
Confidence measure
(Proposed method)
Test
提案手法－Metamodelとの統合－
<PCA method>
ＰＣＡ
2回目, 3回目 …
(安定音声)
Sˆ  V
学習
t
X
1回目発話
(不安定音声)
Acoustic model [音素HMM]
単語認識
<Metamodel>
+
音素認識
音素例[あかい-a k a i]
学習
Metamodel
Meta 認識
New
Confidence measure
(Proposed method)
Training
Test
PCAによる発話不安定成分の抑圧(1)
X n ( ) ; 観測音声
S n ( ) ; 安定した音声
H n ( ) ; 発話不安定成分
n ;フレーム番号
 ;周波数
2回目以降
X n ( ) 
S n ( )
1回目発話
X n ( ) 
S n ( )  H n ( )
抑圧
log X n ( ) 
log S n ( )  log H n ( )
PCAによる発話不安定成分の抑圧(2)
＊空間の低次に安定した音声成分が集まる。
2回目、3回目･･･発話
•1回目に比べ安定している
•認識精度が安定
＊固有ベクトル集合を主軸（変換行列）Ｖと
する
ＰＣＡ
ˆ
S  VX
…
…

×
1回目発話
•緊張のために不安定
•認識に悪影響
提案手法－Metamodelとの統合－
<PCA method>
ＰＣＡ
2回目, 3回目 …
(安定音声)
Sˆ  V
学習
t
X
1回目発話
(不安定音声)
Acoustic model [音素HMM]
単語認識
<Metamodel>
+
音素認識
音素例[あかい-a k a i]
学習
Metamodel
Meta 認識
New
Confidence measure
(Proposed method)
Training
Test
統合例
Aco  Japan
Aco  Italy
Aco  America
85
Aco  France
80
30
1
N-Best
 = weight
MetaAco  Italy
MetaAco  America
MetaAco  Turkey
+
Meta  Turkey
Meta  Italy
Meta  America
100
90
80
…
Meta  France
MetaAco
30
 France
87
80
77
…

…
M
e
t
a
認
識
Correct!
…
Italy
メ
タ
モ
デ
ル
100
…
単
語
認
識
…
…
Test data
音
響
モ
デ
ル
30
実験概要

音響モデルとメタモデルの統合による音声認識
＜実験条件＞
ハミング窓長
25 msec
分析周期
10 msec
音響モデル
構音障害者音声データ



monophone
210単語×5回 (1050発話)
PCAには2～5回目発話の安定した音声のフィルタバンク
出力 24 次元を用いる。
用いた主成分数･･･15個 [24次元から15次元へ]
３Best単語に対して統合
従来法との比較 [α=0.15]
95
認識率
[%]
95
89.0
90
89.1
85
85.2
85
90
90.5
80
80
79.1
75
75
70
MFCC
PCA
Meta-PCA
1回目のみ [test:210単語]
PCA
Meta-PCA
5回平均 [test:1050単語]
まとめ・今後の方向性


Metamodel との統合によって、音の変化への
考慮が可能となった。
今後の方向性
明瞭度の向上 [高域パワーの強調など]
話者適応他者の構音障害者モデル vs 健常者不特定話者モデル
音素体系作り,,,etc
単語内ＳＰの考慮
例；ひょうほん
音声認識の利用例；環境制御装置

従来製品との違い



多くは認識が困難、コマンド限定で適応
コマンドへの自由度が高い、操作を個人に特化可能
環境制御装置「みてら」に音声認識「julian」
を組み込む。
認識
操作
システムの流れ
ＣＤ/○○テレビ
音量アップ/ 電源etc
音声認識
現在の状態
音声認識結果
（リクエスト）
家電操作
環境制御装置
システム動作映像
発話可能コマンド
対話画面（指示＆認識）
ご清聴ありがとうございました。
…END
補助資料
1回目発話[α= 0～0.4]
Recognition rate[%]
95
90
85
MFCC
80
PCA
Meta-PCA
75
0
0.05
0.1
0.15
0.2
Weight
0.25
0.3
0.35
0.4
PCAとMFCCの比較（1回目発話）
85.2
認識率[%]
86
82
78
83.8
83.3
81.9
80.0
79.1
78.6
78.1
77.1
76.2
74
MFCC
PCA
70
１１次元
１３次元
１５次元
１７次元
１９次元
構音障害者音声
Ａさん（男性）Ｂさん（男性）
母親
アルミニウム
Ｃさん（女性）
アルミニウム（a r u m i n i u m u）
構
健
音
常
障
者
害
者
Metamodel検証実験

提案手法（１）を用いて音素認識実験
210単語
１回目
２回目
３回目
４回目
５回目
認識率
69.6
71.95
73.38
72.84
71.11
精度
36.03
43.24
47.59
46.69
44.31
精度の低下が大きい。
音の変化 [置換・挿入・削除]が生じている
と考えられる。
Baum Welch アルゴリズム

パラメータ推定

出力確率
a ij 

状態iから状態jへ遷
移する回数の期待値
状態iから遷移する回
数の期待値
遷移確率
bij 
状態jにとどまりシン
ボルv kを観測する回数の期待
状態jにとどまる回数
の期待値
値
変換行列Ⅴ
非
音
声


音
非
声
音
声
音声は全て使用
固有ベクトルが変換行列Ｖ
＜DCT＞
ci 
 i

 m j cos  ( j  0 . 5 ) 
N j 1
 N

2
N
＜ＰＣＡ＞
分散の最大空間から選択
低次-------高次
音韻性-------話者性
モデル適応結果（MLLR+MAP推定）
70
認識率 [%]
60
50
210使用
40
150使用
100使用
30
80使用
20
60使用
10
40使用
0
20使用
0
1
2
3
4
5
6
7
適応回数
少量データでの適応が困難
8
9
10
関連研究-音声特徴量
windowing
STDFT
メル軸上で
三角窓の適用
|S|’
IDFT
log |S|’
MFCC
Amplitude
音波形
DFT
係数
|S|
Log
Frequency

MFCC (Mel Frequency Cepstrum Coefficient)にて調音フィルタの
特性を音声特徴量として取り出す
アテトーゼ型脳性マヒとは

大脳基底核の損傷のため、随意筋の機能障害
アテトーゼ（不随意運動）が生じる。

アテトーゼの生じやすい状況
 意図的な動作を行う際
 緊張状態

収録データ (1名)
 連続発話
Confusion Matrix [Pr(Pout|Pin)]
入
力
音
素
認識音素
環境制御装置

株式会社日本シュータ




「NSシーケアパイロット」
特定話者の単語モデルで適応を行う。
Windows98のため販売終了
旭化成


「ライフタクト」
頚椎損傷・リウマチ・筋ジストロフィーなど
手足に障害を持つ方の自立した生活を支援

話者正規化に基づく 構音障害者の音声認識

Transcript 話者正規化に基づく 構音障害者の音声認識

Directory

話者正規化に基づく構音障害者の音声認識

Transcript 話者正規化に基づく構音障害者の音声認識