局所特徴量

Download Report

Transcript 局所特徴量

フィッシャー重みマップに基づく不特定話者音素認識の検討
1-P-2
加藤 俊祐, 滝口 哲也, 有木 康雄 (神戸大・工)
研究概要
概要
研究背景
音
時
声 ハシフ 間
信 ミフレ 周
号 ントー 波
グ幅ム 数
窓 10 幅 平
で 25 面
シフ時
フレ間
トー軸
幅ム方
S幅向
フTに
レフ
ーレ切
ムー出
ムし
-
現在の音声認識システムではMFCC特徴量などが使用
されているが、フォルマント遷移などを捉えた特徴量とはい
えない
⇒そこで、本研究ではフィッシャー重みマップを利用した局
所特徴量による手法を提案
[ms]
[ms]
FFT
・局所特徴量
幾何学的特長を捉えた特徴量
切
出
し
た
時
間
周
波
数
平
面
局
所
特
徴
の
行
列
行
列
の
特
徴
量
35
種
の
局
所
Xi
パ
タ Hi で
重
ー
み
ン
付
け
・フィッシャー重みマップ
どの部分の幾何学的特長が重要か
認
識
結
果
G
M
M
で
識
別
これを短時間フーリエ変換後の時間‐周波数平面で適用
⇒これによって、時間‐周波数平面の認識に重要な幾何学
的特徴のある場所が強調された特徴量が得られる
局所特徴量
局所特徴量
点(3,3)での10番目の局所パターン
局所特徴の例
(10)
33
h
時間-スペクトル平面の各点に各局所パターンを適用し
たもの
周
波
数 S11S12 S13S14 S15 S16
局所パターンの例
点(7,2)での15番目の局所パターン
(15)
h72  S 71  S 72  S 63
平時
面間
の周
各波
点数
S 21S 22 S 23S 24 S 25 S 26
時間方向に連続する
値の大きさ
1 1 1
1
1
1
S31S32 S33S34 S35 S36
S 41S 42 S 43S 44 S 45 S 46
1
S81S82 S83S84 S85 S86
S91S92 S93S94 S95 S96
周波数の時間遷移の大
きさ
1 1
時間-スペクトル平面
h

h
 
 (1)
h82

H  (1)
h
 23
(1)
h33
 

(1)
h85
局
所
特
徴
の
行
列
S51S52 S53S54 S55 S56
S61S62 S63S64 S65 S66
S71S72 S73S74 S75 S76
周波数方向に連続す
る値の大きさ
35種類の
局所パターン
-
3×3近傍では35種類
 S32  S33  S34
時間
(1)
22
(1)
32
( 2)
22
( 2)
32
h

h

( 2)
82
( 2)
23
( 2)
33
h

h

h





h 
 
( 35) 
h82 
( 35) 
h23

( 35)
h33 



( 35)
h85 
( 35)
22
( 2)
32
h
フィッシャー重みマップ
最終的に  B w  W w
局所特徴量行列Hに重みベクトル
wをかけ

次元を圧縮する
xH w
C : クラス数
ΣW
クラス3
クラス2
H
H
クラス1
( 2)
2
H
H
( 2)
3
( 3)
1
H
( 3)
2
w
(1)
4
x
(1)
1
( 2)
1
x
x (41)
x1(1)
x
( 2)
3
( 2)
2
( 3)
1
x
x
( 3)
2
N j : クラスjのデータ総数
~
trΣ B
フィッシャーの判別基
準 J w   ~
trΣW



を最大化



w n:固有ベクトル
(n  1,, C )

c:固有ベクトルの数

XH W

T
X
局所パターン
の数(35個)
固
の有
数ベ
ク
ル



[ x1  x c ]  H [ w 1  w c ]
クラス内共分散行列
c
1
~
ΣW    x i  x j x i  x j
N j 1 i j
クラス間共分散行列
c
T
1
~
ΣB   N j x j  x x j  x
N j 1


1 c

H i H j H i H j


N j 1 i j

1 c

N j H j H H j H

N j 1
時
平間
面周
の波
各
点数
-
H
N : 全クラスのデータ総数
( 2)
1
H
ΣB

の一般化固有値問題

H

局所パターン
の数(35個)

W
固
有
ベ
ク
ル
の
数
時間-周波数平面の
各点
実験結果
実験条件
・10人の話者が発声したラベル付き音声データベース
・音素別に切り出し音素認識を実行、25音素、GMMで識別
予備実験
・時間-周波数平面からのフレーム化処理は、フレーム幅5、シフト幅1
・時間-メル周波数平面を使用(時間-周波数平面より3%程結果が良い)
・フィッシャー重みマップWの本数25本(20~30辺りが一番認識率がよい)
90.0%
90.0%
85.0%
85.0%
80.0%
75.0%
79.5%
74.5% 75.8% 74.2%
65.0%
65.0%
60.0%
60.0%
+(
提
P
MC案
FA手
Cあ法
Cり
)
+(
提
P案
C
MA手
Fあ法
Cり
C)
+M
F
C
MC
F
C
C
++(
提
P
MC案
MFA手
FCあ法
CCり
C )
Δ
(
提
P案
C
A手
あ法
り
)
Δ
M
F
C
C
82.1%
Δ
Δ
70.0%
(
提
P案
C
A手
な法
し
)
85.5%
75.0%
70.0%
M
F
C
C
86.7%
88.3%
80.0%
識別率
識別率
特定話者モデルの実験結果
90.0%
85.0%
80.0%
75.0%
70.0%
65.0%
60.0%
90.0%
84.2%
85.0%
80.7%
識別利
識別率
不特定話者モデルでの実験結果
75.0%
73.2%
87.1% 85.6% 87.1%
89.0%
80.0%
75.0%
70.0%
65.0%
60.0%
Δ
提
+(
P案
MC
FA手
Cあ法
Cり
)
+(
提
P案
C
MA手
Fあ法
Cり
C)
まとめ・今後の課題
・特定、不特定話者モデル両方において MFCC 、ΔMFCC < 提案手法(PCA)
・単体の特徴量より組合わせた特徴量の方が認識結果が良い
特に、3つの特徴量を組合わせた 提案手法(PCA)+MFCC+ΔMFCC が一番良い
今後の課題
・単語識別
・局所パターンの考察
・メル周波数の考察
+M
F
C
MC
F
C
C
++(提
P
MC案
MFA手
FCあ法
CCり
C )
Δ
(
提
P
C案
A手
あ法
り
)
Δ
M
F
C
C
(
提
P案
C
A手
な法
し
)
Δ
M
F
C
C