話者正規化に基づく 構音障害者の音声認識
Download
Report
Transcript 話者正規化に基づく 構音障害者の音声認識
メタモデルと音響モデルの
統合による構音障害者の音声認識
神戸大学工学研究科
松政 宏典,滝口 哲也,有木 康雄
追手門学院大学経済学部
李 義昭
神戸大学発達科学部
中林 稔堯
構音障害者とは?
母親
明るさを調整する
NHK教育
<平常時>
<発話時>
構音 [調音] が困難である。
緊張時 [意図的な動作時] に、
不随意運動が現れる場合がある。
研究背景
福祉分野での情報技術の重要性
音声合成
手話認識
文字認識
音声認識の多様化
子供、高齢者
車内、会議室
研究目的
言語障害者は3万4000人
(平成19年版 障害者白書)
ユニバーサルデザイン音声認識の実現!
障害者(聴覚・言語障害)を対象とした音声認識
が少ない。
音声に頼るしかない場合は?
音声認識への期待
職域開発
音声認識ツールの使用による、
障害者の雇用機会増加への期待!
コミュニケーションの広がり
音声合成・STT (Speech To Text)による相互理解
講演の補助等への活用
関連研究
重度障害者のための音声認識電動車いすの開発
(産総研
07’音響学会)
喉頭摘出者データを用いた人工音声変換システムの評価
(奈良先端大 07’ 電子情報通信学会 WIT)
アプローチ
構音障害者において、最初の発話スタイルが、
他発話に比べ、変動する場合がある。
PCAを用いた発話スタイル変動に
ロバストな特徴量抽出法
Metamodel との統合
100
95
認識率[%]
89.1
90
91.4
91.0
87.6
85
80
77.1
75
70
65
1回目
2回目
3回目
4回目
5回目
Metamodel
Confusion Matrix を音声認識のモデルに組み込むことに
より、音の変化(削除・挿入・置換)を確率的に表現可能
各状態に離散出力確率・遷移確率(離散型HMM)
入力特徴量は音素認識列
学習は Baum Welch アルゴリズムで行う
削除
各音素に Metamodel を作成
入
力
A
B
C
挿入
置換
挿入
出
力
Metamodel
モデル[a]の例
削除
入力 [i] の場合
A
B
C
挿入
置換
挿入
[i]
A
B
C
置換
出力分布例
Phoneme /
State
A
B
C
a
0.1
0.7
0.2
i
0.4
0.1
0.3
u
0.3
0.05
0.3
e
0.1
0.05
0.1
o
0.1
0.1
0.1
入力 [a u] の場合
A
[a]
[u]
B
C
正解
(置換)
挿入
A
Metamodel
Pr( w | A )
B
C
w:単語
A :信号
p:音素
p *:音素認識結果
Pr( w | p ) Pr( p | A )
p
p * arg max
p P
arg max
p P
Pr( p | A )
Pr( A | p ) Pr( p )
Pr( w | A ) Pr( w | p *) Pr( p * | A )
w ' arg max
Pr( w | p *) Pr( p * | A )
wW
arg max
Pr( w | p *)
wW
Metamodel
Metamodel認識
入力音声
ある単語(例;she)を構成する
音素列に対応するMetamodel列
音素認識
she
ch
sh
[ch]
[er]
er
iy
ax
hh
hh
[hh]
[ax]
提案手法-Metamodelとの統合-
<特徴量-数値>
1.138
1.283
<PCA method>
-1.024 -1.424
-0.123
0.432
1.175
0.187
-0.854
2回目,-0.002
3回目 …
・・・・・・
(安定音声)
PCA
Sˆ V
学習
t
X
1回目発話
(不安定音声)
Acoustic Model [音素HMM]
単語認識
<Metamodel>
<特徴量-文字>
o k a sh r aN ii
+
音素認識
音素例[あかい-a k a i]
学習
Metamodel
音の変化(置換・挿入・削除)を考慮
Training
Meta 認識
New
Confidence measure
(Proposed method)
Test
提案手法-Metamodelとの統合-
<PCA method>
PCA
2回目, 3回目 …
(安定音声)
Sˆ V
学習
t
X
1回目発話
(不安定音声)
Acoustic model [音素HMM]
単語認識
<Metamodel>
+
音素認識
音素例[あかい-a k a i]
学習
Metamodel
Meta 認識
New
Confidence measure
(Proposed method)
Training
Test
PCAによる発話不安定成分の抑圧(1)
X n ( ) ; 観測音声
S n ( ) ; 安定した音声
H n ( ) ; 発話不安定成分
n ;フレーム番号
;周波数
2回目以降
X n ( )
S n ( )
1回目発話
X n ( )
S n ( ) H n ( )
抑圧
log X n ( )
log S n ( ) log H n ( )
PCAによる発話不安定成分の抑圧(2)
*空間の低次に安定した音声成分が集まる。
2回目、3回目・・・発話
•1回目に比べ安定している
•認識精度が安定
*固有ベクトル集合を主軸(変換行列)Vと
する
PCA
ˆ
S VX
…
…
×
1回目発話
•緊張のために不安定
•認識に悪影響
提案手法-Metamodelとの統合-
<PCA method>
PCA
2回目, 3回目 …
(安定音声)
Sˆ V
学習
t
X
1回目発話
(不安定音声)
Acoustic model [音素HMM]
単語認識
<Metamodel>
+
音素認識
音素例[あかい-a k a i]
学習
Metamodel
Meta 認識
New
Confidence measure
(Proposed method)
Training
Test
統合例
Aco Japan
Aco Italy
Aco America
85
Aco France
80
30
1
N-Best
= weight
MetaAco Italy
MetaAco America
MetaAco Turkey
+
Meta Turkey
Meta Italy
Meta America
100
90
80
…
Meta France
MetaAco
30
France
87
80
77
…
…
M
e
t
a
認
識
Correct!
…
Italy
メ
タ
モ
デ
ル
100
…
単
語
認
識
…
…
Test data
音
響
モ
デ
ル
30
実験概要
音響モデルとメタモデルの統合による音声認識
<実験条件>
ハミング窓長
25 msec
分析周期
10 msec
音響モデル
構音障害者音声データ
monophone
210単語×5回 (1050発話)
PCAには2~5回目発話の安定した音声のフィルタバンク
出力 24 次元を用いる。
用いた主成分数・・・15個 [24次元から15次元へ]
3Best単語に対して統合
従来法との比較 [α=0.15]
95
認識率
[%]
95
89.0
90
89.1
85
85.2
85
90
90.5
80
80
79.1
75
75
70
MFCC
PCA
Meta-PCA
1回目のみ [test:210単語]
PCA
Meta-PCA
5回平均 [test:1050単語]
まとめ・今後の方向性
Metamodel との統合によって、音の変化への
考慮が可能となった。
今後の方向性
明瞭度の向上 [高域パワーの強調など]
話者適応 他者の構音障害者モデル vs 健常者不特定話者モデル
音素体系作り,,,etc
単語内SPの考慮
例;ひょうほん
音声認識の利用例;環境制御装置
従来製品との違い
多くは認識が困難、コマンド限定で適応
コマンドへの自由度が高い、操作を個人に特化可能
環境制御装置「みてら」に音声認識「julian」
を組み込む。
認識
操作
システムの流れ
CD/○○テレビ
音量アップ/ 電源etc
音声認識
現在の状態
音声認識結果
(リクエスト)
家電操作
環境制御装置
システム動作映像
発話可能コマンド
対話画面(指示&認識)
ご清聴ありがとうございました。
…END
補助資料
1回目発話[α= 0~0.4]
Recognition rate[%]
95
90
85
MFCC
80
PCA
Meta-PCA
75
0
0.05
0.1
0.15
0.2
Weight
0.25
0.3
0.35
0.4
PCAとMFCCの比較(1回目発話)
85.2
認識率[%]
86
82
78
83.8
83.3
81.9
80.0
79.1
78.6
78.1
77.1
76.2
74
MFCC
PCA
70
11次元
13次元
15次元
17次元
19次元
構音障害者音声
Aさん(男性) Bさん(男性)
母親
アルミニウム
Cさん(女性)
アルミニウム(a r u m i n i u m u)
構
健
音
常
障
者
害
者
Metamodel検証実験
提案手法(1)を用いて音素認識実験
210単語
1回目
2回目
3回目
4回目
5回目
認識率
69.6
71.95
73.38
72.84
71.11
精度
36.03
43.24
47.59
46.69
44.31
精度の低下が大きい。
音の変化 [置換・挿入・削除]が生じている
と考えられる。
Baum Welch アルゴリズム
パラメータ推定
出力確率
a ij
状態iから状態jへ遷
移する回数の期待値
状態iから遷移する回
数の期待値
遷移確率
bij
状態jにとどまりシン
ボルv kを観測する回数の期待
状態jにとどまる回数
の期待値
値
変換行列Ⅴ
非
音
声
音
非
声
音
声
音声は全て使用
固有ベクトルが変換行列V
<DCT>
ci
i
m j cos ( j 0 . 5 )
N j 1
N
2
N
<PCA>
分散の最大空間から選択
低次-------高次
音韻性-------話者性
モデル適応結果(MLLR+MAP推定)
70
認識率 [%]
60
50
210使用
40
150使用
100使用
30
80使用
20
60使用
10
40使用
0
20使用
0
1
2
3
4
5
6
7
適応回数
少量データでの適応が困難
8
9
10
関連研究-音声特徴量
windowing
STDFT
メル軸上で
三角窓の適用
|S|’
IDFT
log |S|’
MFCC
Amplitude
音波形
DFT
係数
|S|
Log
Frequency
MFCC (Mel Frequency Cepstrum Coefficient)にて調音フィルタの
特性を音声特徴量として取り出す
アテトーゼ型脳性マヒとは
大脳基底核の損傷のため、随意筋の機能障害
アテトーゼ(不随意運動)が生じる。
アテトーゼの生じやすい状況
意図的な動作を行う際
緊張状態
収録データ (1名)
連続発話
Confusion Matrix [Pr(Pout|Pin)]
入
力
音
素
認識音素
環境制御装置
株式会社日本シュータ
「NSシーケアパイロット 」
特定話者の単語モデルで適応を行う。
Windows98のため販売終了
旭化成
「ライフタクト」
頚椎損傷・リウマチ・筋ジストロフィーなど
手足に障害を持つ方の自立した生活を支援