ランダムプロジェクションを用いた 音声特徴量変換

Download Report

Transcript ランダムプロジェクションを用いた 音声特徴量変換

ランダムプロジェクションを用いた
音声特徴量変換
吉井麻里子,滝口哲也,有木康雄(神戸大)
Jeff Bilmes (University of Washington)
発表内容
研究背景・目的
ランダムプロジェクション
提案手法
 ランラムプロジェクションを用いた音声特徴量抽出
 ROVERを用いた特徴量統合
評価実験
 単語音声認識による評価
まとめ・今後の課題
www.***.com
研究背景・目的
音声認識性能の向上のために、観測信号から音声
認識に必要な音声特徴のみを取り出す手法が必要
従来のMFCCや、PCA,LDA,ICAなどを用いた手法
がある
 空間写像を行い,有効な特徴を抽出
ランダムプロジェクション
 空間写像の一手法 (画像処理・文書処理等で利用)
 変換行列をランダムに与える,変換が容易
 距離保存の性質
音声認識のためのランダムプロジェクションを用いた
音声特徴量抽出の検討
www.***.com
ランダムプロジェクション
ランダムな数値から得られた写像行列 R を用いて空
間写像を行う手法
x  Ry
x : reduced-dimensional vector, x  R d
n : original-dimensional vector, n  R N
Rの例
R
: random matrix, d  N
ランダム写像行列Rは,各成分が
確率的にある値をとる行列として定義
www.***.com
ランダムプロジェクションの性質(1/2)
変換によるベクトル間類似度(内積)
RPによりベクトルがそれぞれ n->x,m->y と変換され
たとき,変換後の類似度は
x y  n R Rm
T
T
T
ここで, R T R を考える
 R の列ベクトル ri が単位長であるとき,次のように
書ける
R R  I 
T
where  ij  ri r j for i  j ,
T
and
 ii  0 for all i
(Iは単位行列,εはN×Nの行列)
www.***.com
ランダムプロジェクションの性質(2/2)
 ri と r j が直交に近くなればなるほど,  の要素の
分布は0に近くなり,ベクトルの類似度は保存される
 R の分布を平均 0 ,分散1の正規分布であると仮
2

定すると,  の要素の分布の平均は 0 ,分散  は,
   1/ d
2
と書くことができる (dは削減次元数)
したがって削減次元数dが大きい
ほど,  は 0 に近づき,変換歪
みは保存される
www.***.com
ランダム写像行列の生成
1. 標準正規分布N(0, 1)に従うn×kの行列Rを作成
2. グラムシュミットの直交化手法を用いてRを直交化し,
列ベクトルを大きさ1で正規化する
www.***.com
提案手法(1/3)
ランダムプロジェクションによる音声特徴量変換
 音声特徴量を入力としてランダムプロジェクションを行い,
新たな音声特徴量を生成
Speech feature
Random matrix
ASR
Result
ROVERを用いたランダムプロジェクション
Speech feature
Random matrix 1
ASR
Random matrix 2
ASR
・
・
・
・
・
・
Random matrix N
ASR
rover
module
Best Result
www.***.com
提案手法(2/3)
ROVERを用いたRP特徴量の統合
 異なるランダムマトリックスから得られた特徴量を用いて音
声認識を行い、その認識結果を投票し、最も投票された認
識結果を出力とする
J. G. Fiscus “A post-processing system to yield reduced word error rates :
Recogniser output voting error reduction (ROVER)”, 1997
RP特徴量
音声認識
認識結果
RP特徴量1
「コンテンツ」
RP特徴量2
「コンテンツ」
RP特徴量3
「ネットニュース」
・
・
・
RP特徴量N
・
・
・
投票
投票認識結果
「コンテンツ」
・
・
・
「コンテンツ」
www.***.com
提案手法(3/3)
音声特徴量
(1)
FFT
Mel-log
Cos
MFCC
Random Transformation
FFT
Mel-log
Cos
MFCC
Random Transformation
waveform
(2)
waveform
(3)
+⊿+⊿⊿
FFT
Mel-log
Cos
MFCC
Random
Transformation
FFT
Mel-log
Cos
Gavor
Random Transformation
FFT
Mel-log
Cos
Gavor
Random Transformation
+⊿+⊿⊿
waveform
(4)
waveform
(5)
waveform
+⊿+⊿⊿
www.***.com
実験条件(1/2)
自動車内音声認識の評価用データベース
CENSREC-3 (Corpus and Environments for Noisy
Speech RECognition)・Condition4を使用
 学習データ:アイドリング走行時3608音声
(男性202 名,女性91 名)
 評価データ:低速・高速走行時8836音声
(男性8 名,女性10 名)
評価データ音声は50単語、学習データ音声は音素バ
ランス文
単語音声の認識は音素HMMにより行う。それぞれ5
状態32混合の分布
www.***.com
実験条件(2/2)
特徴量抽出条件
標本化周波数,語長
16kHz, 16bit
分析窓
Hamming窓
フレーム幅,シフト幅
20ms, 10ms
特徴量次元数
対数メルフィルタバンク(24 dim)
MFCC(12 dim)
Gavor(60 dim)
その他
低周波成分除去(250kHz以下)
特徴量はあらかじめ平均0,分散1に正規化
特徴量変換
(1)
MFCC(12次元) -> RP(12次元)
(2)
MFCC+⊿+⊿⊿(36次元) -> RP(36次元)
(3)
MFCC(12次元) -> RP(12次元)+⊿+⊿⊿(36次元)
(4)
Gavor(60次元) -> RP(30次元)
(5)
Gavor+⊿+⊿⊿(180次元) -> RP(30次元)
www.***.com
実験結果(1), (2), (3)
RP特徴量を100個使用したときの単語認識率
Word Accuracy [%]
85
80
79.2
(1)
76.14
75
71.57
70.64
70
65
(3)
(2)
78.81
76.16
79.33
79.29
76.14
76.03
72.77
70.93
67.28 68.68
66.57
baseline
max
mean
min
rover
60
MFCC[12]_n ->
RP(12)
MFCC[12]_D_A_n ->
RP(36)
MFCC[12]_n ->
RP(12)_D_A[36]
Features [dimension]
www.***.com
実験結果(4), (5)
Word Accuracy [%]
(4)
80
70
60
76.75
74.75
67.1
(5)
74.41
70.43
77.87
69.9
66.24
64.76
50
40
28.73
30
baseline
max
mean
min
rover
20
FBANK[24]_n -> G1[60] ->
RP(30)
FBANK[24]_n ->
G1[60]_D_A[180] -> RP(30)
Features [dimension]
www.***.com
雑音環境ごとの認識率
Car
speed
Low
speed
High
speed
In-car
condition
(1)
(2)
(3)
(4)
(5)
(MFCC)
(MFCC
+⊿+⊿⊿)
(MFCC
+⊿+⊿⊿)
(Gavor)
(Gavor
+⊿+⊿)
Normal
88.21 (82.31) 94.22 (91.16) 93.87 (91.16) 92.92 (85.50) 92.81 (45.05)
Fan(low)
86.24 (82.82) 90.82 (89.88) 90.82 (89.88) 89.88 (82.35) 90.24 (39.06)
Fan(high)
72.63 (71.84) 74.41 (72.40) 74.97 (72.40) 77.21 (67.71) 78.32 (23.46)
Audio(on)
62.54 (59.01) 77.03 (73.62) 78.09 (73.62) 67.14 (53.24) 68.43 (26.86)
Window(open)
68.78 (64.55) 77.15 (74.25) 78.48 (74.25) 72.13 (63.10) 74.58 (25.75)
Normal
79.78 (70.33) 88.67 (83.56) 88.33 (83.56) 89.22 (80.33) 89.67 (37.67)
Fan(low)
80.11 (73.89) 86.89 (83.78) 85.89 (83.78) 86.00 (77.00) 87.44 (30.67)
Fan(high)
70.33 (68.22) 71.33 (70.00) 73.56 (70.00) 73.11 (64.00) 75.22 (22.11)
Audio(on)
57.95 (51.84) 76.20 (73.30) 76.31 (73.30) 69.86 (56.84) 71.64 (24.58)
Window(open)
50.33 (49.22) 52.78 (50.89) 53.90 (50.89) 51.11 (41.98) 51.34 (13.47)
Overall
71.57 (67.28) 78.81 (76.14) 79.29 (76.14) 76.75 (67.10) 77.87 (28.73)
www.***.com
まとめ
RTの有効性
 RTにより、元の特徴量による認識率よりも高い認識率
 認識に適した特徴量空間
ランダム写像行列の選び方で認識率に差が生じる
 音声認識に適したランダムマトリックスの探求
Roverにより探求の必要なく高精度の認識が可能
今後の課題
 ランダム写像行列の選択
学習時に選択できれば,認識コスト削減可能
 ランダム写像行列ごとの性質の探求
www.***.com
ご清聴ありがとうございました。
www.***.com
音声特徴量空間
RP(12) 2dim
6
4
2
0
-2
-4
-6 -6
-4 -2 0 2 4
MFCC(12) 1dim
6
4
2
0
-2
-4
-6
-6 -4 -2 0 2 4
MFCC(12) 11dim
6
RP(12) 12dim
MFCC(12) 12dim
MFCC(12) 2dim
音声特徴量の2次元プロット
6
6
4
2
0
-2
-4
-6 -6
6
4
2
0
-2
-4
-6 -6
-4 -2 0 2 4
RP(12) 1dim
-4 -2 0 2 4
RP(12) 11dim
6
6
www.***.com
認識率とROVERの関係
[%]
(2) MFCC+⊿+⊿⊿(36次元) -> RP(36次元)
90
85
80
75
70
65
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20
[Random Mtrix]
認識率
roverで結果が選択された割合
www.***.com
特徴量の個数ごとのROVER認識率
[%]
79
78.5
78.35
(2) MFCC+⊿+⊿⊿(36次元) -> RP(36次元)
78.81
78.73
78.69
78.49
78
77.5
77
1-20
1-40
1-60
1-80
1-100
RP特徴量の個数
www.***.com
ランダム写像行列の直交化
80
60
40
(1) MFCC(12次元) -> RP(12次元) RP特徴量10個
70.02
70.00
62.06
68.67
68.65
66.91
66.91
57.80
48.01
20
0
1
2
3
MAX MEAN MIN
1. 正規分布を要素に持つRM
2. 正規分布を要素に持つ行列に対して直交化
3. 正規分布を要素に持つ行列に対して直交化・列正規化
www.***.com
100 trials of RT for MFCC
Frequency
20
15
10
5
0
66
68
70
72
Recognition rate [%]
Random transformation
Vote
Max.
Mean
Min.
71.57% 70.64% 68.68% 66.57%
Baseline
67.28%
www.***.com
Frequency
100 trials of RT for MFCC+⊿+⊿⊿
20
15
10
5
0
72
74.4
76.8
79.2
Recognition rate [%]
Random transformation
Vote
Max.
Mean
Min.
78.81% 79.20% 76.17% 72.77%
Baseline
76.14%
www.***.com
Frequency
100 trials of RT for MFCC, and its⊿ and ⊿⊿
30
25
20
15
10
5
0
70.8
73.2
75.6
78
80.4
Recognition rate [%]
Random transformation
Vote
Max.
Mean
Min.
79.29% 79.33% 76.03% 70.93%
Baseline
76.14%
www.***.com
Frequency
100 trials of RT for Gavor
25
20
15
10
5
0
66
68.4
70.8
73.2
75.6
Recognition rate [%]
Random transformation
Vote
Max.
Mean
Min.
76.75% 74.68% 70.43% 66.24%
Baseline
67.10%
www.***.com
100 trials of RT for Gavor+⊿+⊿
Frequency
20
15
10
5
0
64
66.4
68.8
71.2
73.6
Recognition rate [%]
Random transformation
Vote
Max.
Mean
Min.
77.87% 74.41% 69.90% 64.76%
Baseline
28.73%
www.***.com