Transcript 局所特徴量
対判別フィッシャー重みマップを利用した局所特徴量による音素認識
加藤 俊祐, 滝口 哲也, 有木 康雄 (神戸大・工)
研究概要
実験結果
シフ時
フレ間
トー軸
幅ム方
S幅向
フTに
レフ
ーレ切
ムー出
ムし
-
現在の音声認識システムではMFCC特徴量などが使用されてい
るが、まだ音声の特徴を完璧に捉えた特徴量とはいえない
[ms]
[ms]
FFT
⇒そこで、フィッシャー重みマップを利用した局所特徴量による手
法を提案
切
出
し
た
時
間
周
波
数
平
面
・局所特徴量・・・幾何学的特長を捉えた特徴量
・フィッシャー重みマップ・・・どの部分の幾何学的特長が重要か
局
所
特
徴
の
行
列
行
列
の
特
徴
量
Xi
35
種
の
局
所
パ
タ Hi で
重
ー
み
ン
付
け
認
識
結
果
G
M
M
で
識
別
実験条件
同一の話者が発声したラベル付き音声データベース
□5母音・・・学習用、評価用に各音素100個ずつのデータ
(学習データと評価データは別)
□全音素・・・学習用、評価用に計2448個のデータ
(学習データと評価データは別)
群判別の実験結果
5母音の認識率(wの本数5)
フレーム幅5、シフト幅2
wの本数4のとき
これを短時間フーリエ変換後の時間‐周波数平面で適用
提案手法
MFCC
⇒これによって、時間‐周波数平面の認識に重要な幾何学的特徴
のある場所が強調された特徴量が得られる
局 所 特 徴 行 列 Hに 重 み ベ ク ト ル wを か け 、 次 元 を 圧 縮 す る
時間-スペクトル平面の各点に各局所パターンを適用したもの
□局所パターンの例 (3×3近傍では35種類)
時間方向に
1 1 1 連続する
値の大きさ
1 周波数の
周波数方向
に連続する 1 1
時間遷移
の大きさ
値の大きさ
1
1
1
x1
x H
D
1
□局所特徴の例
h
(15 )
72
S 11 S 12 S 13 S 14 S 15 S 16
クラス2
S 21 S 22 S 23 S 24 S 25 S 26
S 31 S 32 S 33 S 34 S 35 S 36
S 41 S 42 S 43 S 44 S 45 S 46
S 51 S 52 S 53 S 54 S 55 S 56
S 61 S 62 S 63 S 64 S 65 S 66
S 71 S 72 S 73 S 74 S 75 S 76
S 81 S 82 S 83 S 84 S 85 S 86
S 91 S 92 S 93 S 94 S 95 S 96
平時
面間
の周
各波
点数
局
所
特 H
徴
行
列
時間
時間-スペクトル平面
h
(1 )
h 32
(1 )
h 82
h (1 )
23
(1 )
h 33
(1 )
h 85
(1 )
22
h
h
h
(2)
22
(2)
32
(2)
82
(2)
h 23
h
(2)
33
(2)
h 32
( 35 )
h 82
( 35 )
h 23
( 35 )
h 33
( 35 )
h 85
h
(3)
各クラスの対 ij ごとに重み W ij を求める
W ijより特徴量 X ij を求める
各クラス対 ij の各クラスごと
( クラスi とj )の GMM を求める
H
H1
(2)
3
(1 )
4
x
(1 )
1
x
(2)
1
x
(2)
3
x
(3)
1
N j : クラスj のデータ総数
x
(2)
2
c
1
~
Σ W
N
j 1 i
i
T
x j xi x j
j
クラス間共分散行列 (1 )
x
N : 全クラスのデータ総数
クラス内共分散行列
(3)
x2
N x
c
1
~
Σ B
N
(1 )
1
j
j
x xj x
T
j 1
~
tr Σ B
フィッシャーの判別基 準 J w ~ を最大化
tr Σ W
1
W N
H
( j)
i
H
( j)
H
( j)
i
H
( j)
j 1 i j
1
B N
c
N H
j
( j)
H
H
X ij ( I ) を求める
GMM の事後確率の比、
A
0.3
0.1
0.4
0.9
0.7
( j)
Pij ( I )、Pij ( I ) をクラス対 ij ごとに求める
( j)
arg max { min { Pij ( I )}} が識別されたクラス
j
0.7
D
0.3
0.6
0.6
シフト幅
3
フレーム幅 1 2 3
5
7
12345
1234567
普通の周波数
92.7% 89.9%
81.4%
1
4
7
10
重みWの数
群判別
13
MFCC
98.6%
95.8%
100%
90%
80%
70%
60%
50%
40%
30%
1
対判別
2
95.8%
3
4
5
6
重みWの数
群判別
MFCC
考察、まとめ
( j)
H
j1
A : min( 0 . 1, 0 .4 , 0 .3) 0 .1
B
0.8 B : min( 0 . 9 , 0 .8, 0 .7 ) 0 .7
C : min( 0 . 6 , 0 .2 , 0 .4 ) 0 .2
D : min( 0 . 7 , 0 .3, 0 .6 ) 0 .3
0 .7 , 0 .2 , 0 . 3 )} B
0.2 arg{max( 0 . 1, C
0.4
100%
90%
80%
70%
60%
50%
40%
30%
対判別
最終的に B w W w の一般化固有値問題
c
90%
81.4% 81.5% 81.4% 80.7%
78.5%
85%
73.4%
80%
75%
70%
65%
60%
実験結果(フレーム幅5、シフト幅2、 実験結果(フレーム幅5、シフト幅2、
メル周波数64次元、6子音(pbtdkg))
メル周波数64次元、5母音)
□対判別の4クラスでの例
入力パターン I の音声特徴量
i
w
81.0(%)
84.6(%)
対判別の実験結果
(3)
H2
x4
□識別
(i)
(2)
2
( 35 )
22
対判別
□学習
D : 重み w の軸の数
x H w
(2)
H1
H
H
35種類の
局所パターン
w
D
,w をフィッシャー重みマップという
C : クラス数
クラス3
w ,
クラス1
S 71 S 72 S 63
-
周
波
数
点(7,2)での15番目の局所パターン
w1
D
H
時間-スペクトル平面
提案手法
MFCC
認識率(%)
局所特徴量
98.6(%)
95.8(%)
全音素の認識率(wの本数5)
フレーム幅5、シフト幅3
wの本数4のとき
フィッシャー重みマップ
局所特徴量
全音素の認識率(wの本数25)
64次元のメル周波数
認識率(%)
研究背景
音
時
声 ハシフ 間
信 ミフレ 周
号 ントー 波
グ幅ム 数
窓 10 幅 平
で 25 面
認識率(%)
概要
・メル周波数
通常の周波数と同様の認識率 ⇒通常の周波数でも良いのは重みの効果
・対判別
p,b,t,d,k,gの6音素では群判別より認識率が良いが、母音の認識率は
群判別と同じ ⇒似たような音素のグループでは効果はあるが、それ以外
だと効果が薄い
今後の課題
・全音素での群判別
⇒音素をクラスタに分けて、クラスタの中で対判別を行なうなど
・学習データとは違う話者での認識の検討
・連続音声認識