音響伝達特性を用いた単一チャネル音源位置推定法
Download
Report
Transcript 音響伝達特性を用いた単一チャネル音源位置推定法
音響伝達特性を用いた単一チャネル
音源位置推定における特徴量選択の検討
高島遼一,滝口哲也,有木康雄
神戸大学大学院
研究背景
音源位置推定技術の役割
音声強調・雑音抑圧のための前処理
対話ロボット,会議システム,etc.
従来の音源位置推定法
複数のマイクを用いて観測される信号間の位相差を利用
c
d sin
:時間差
c :音速
d
c
マイクロホンアレー(マイク数32)
www.***.com
研究目的
単一マイクで音源位置推定は行えるか?
システムの縮小化,複数マイクの手法との複合
研究目的:
位相差などの相互情報を用いない,単一マイクでも行え
る音源位置推定の実現
提案手法
音響伝達特性を用いた単一チャネル音源位置推定法
www.***.com
アプローチ
音響伝達特性
HB
S
HA
S
位置B
O
Microphone
音響伝達特性
位置A
•音声Sは,マイクで観測されるまでに,音声の減衰や残響等の影響を受ける
音響伝達特性
•音響伝達特性は,音源の位置ごとに異なる特性をもつ
あらかじめ音源位置毎の音響伝達特性を学習しておけば,評価音声につい
てもその音響伝達特性を識別することで音源位置を推定できる
www.***.com
提案手法の流れ
学習データ O
train
i
H train
i
i
O train
1
学習
(SVM)
観測信号Oから
音響伝達特性H
を推定する
2
単一マイク
3
ステップ2
ステップ1
音
源
位
置
評価データ O test
音響伝達
特性を識別
(SVM)
H test
O test
識別結果
ˆ
STEP1:音響伝達特性の推定
観測信号Oから音響伝達特性Hを推定する
STEP2:音響伝達特性の識別
推定された音響伝達特性をSVM (Support Vector Machine)で学習
識別する
www.***.com
音響伝達特性の推定
www.***.com
観測信号の定式化
時間領域
o (t ) s (t ) h (t )
: 周波数
短時間フーリエ変換
t : 時刻
周波数領域 O ( ; n ) S ( ; n ) H ( ; n )
対数変換
n : フレーム
d : ケプストラムの次元
log O ( ; n ) log S ( ; n ) log H ( ; n )
離散コサイン変換
ケプストラム領域 O cep d ; n H cep d ; n S cep d ; n
統計モデル化
モデル領域
O n H cep n S
未知
: モデルパラメータ
処理は全てMFCC領域で行われる
実際の環境ではSは未知であるため,Sの代わりにSの統計モデルを
用いて最尤推定法でHを推定する.
www.***.com
音響伝達特性の推定
クリーン音声Sの生成確率をHMM (Hidden Markov Model) であらかじめ学習
Pr S , b , c | S
a b ( n 1), b ( n ) w b ( n ), c ( n ) N S ( n ); b ( n ), c ( n ) , b ( n ), c ( n )
n
a : 状態遷移確率
b : 状態
c : 混合要素
観測信号Oの事後確率をクリーン音声HMMを用いて表す
(O = S + H の仮定を用いて)
Pr O , b , c | H , S
a
b ( n 1 ), b ( n )
w : 混合重み
w b ( n ), c ( n ) N O ( n ); b ( n ), c ( n ) H ( n ), b ( n ), c ( n )
n
観測信号に対するHの尤度が最大となるようにHを推定する
Hˆ arg max Pr O | H , S
H
arg max
H
Pr O , b , c | H ,
S
b
c
(解はEMアルゴリズムによって推定される)
www.***.com
音響伝達特性推定の流れ
観測信号
O d ; n
音素認識
クリーン音声の
音素HMM
認識結果(ラベル)
i, k, i, o, i
音響伝達特性を推定
H
音素HMMを連結
連結HMM
S
(a)
(i)
・・・
(i)
(u)
Hˆ
Hˆ arg max Pr( O | H , S )
(k)
(i)
(o) (i)
・・・
1.あらかじめクリーン音声の音素HMMを用意しておく
2.観測信号の音素認識を行う
3.音素認識の結果を元に音素HMMを連結する
4.連結されたHMMを用いて音響伝達特性を推定する
www.***.com
音響伝達特性の識別
www.***.com
クラスごとに異なる特徴量重みの決定
MFCC各次元の中でも、クラスによって識別に有効な
次元とそうでない次元が含まれる
クラスごとに異なる、次元重みの設定
クラスごとの次元重みをMKL (Multiple Kernel Learning)
を用いて学習し、SVM (Support Vector Machine) で識別
を行う
www.***.com
SVMによるクラス識別とカーネル関数
SVMは通常、カーネル関数を用いて非線形な識別関数を生成する。
x x1 , x 2 , , x D
:写像関数
x
高次元特徴ベクトル
D次元特徴ベクトル
高次元空間での内積を様々な種類のカーネル関数、パラメータで表現
(カーネルトリック)
x , x K x , x
内積
カーネル関数
カーネル関数の例
x x
K x , x exp
2
ガウシアンカーネル
2
K x , x x x 1
多項式カーネル
p
www.***.com
MKL (Multiple Kernel Learning)
複数のサブカーネルを線形結合し、新たなカーネル関数を作
成する手法
K x , x n k n x, x
: n 番目のカーネルの重み
n
n
各サブカーネルの重みβは,一般的にSVMの枠組み(マージ
ン最大化)で学習される.
MKL-SVM
通常のSVM
max i
i
1
2
i
j
y i y j k x i , x j
max i
i, j
y i i 0
i
s .t .
0 i C
i
1
2
i
i, j
j
y i y j l k l x i , x j
l
y i i 0 , l l 1
i
s .t .
0 i C , l 0
次元毎にサブカーネルを定義することで,特徴次元の重みを
学習する
K x , x
d
d
k d x d , x d
特定の次元
www.***.com
実験環境
音声データ
ATR研究用音声データベースより男声話者1名
3,120 mm
RWCP実環境音声・音響データベースで収録されたインパルス応答を
クリーン音声に畳み込んで作成(特定話者実験)
6,660 mm
残響時間:300 msec (残響可変室)
音源方向:30, 90, 130°
:sound source
:microphone
(3クラス識別)
音源距離:一律約2m
4,330 mm
www.***.com
4,180 mm
観測信号データ
分析条件
特徴量
MFCC:16次元
サンプリング周波数:12kHz 窓幅:32 msec フレームシフト:8 msec
音響伝達特性の推定
クリーン音声の学習データ数: 2620単語
音素数:54 HMMの状態数:3 混合数:32
位置の識別
学習データ数:50単語 テストデータ数:1000単語
SVMのカーネル関数: ガウシアンカーネル
SVMのスラック変数C:1
カーネル関数のパラメータ:実験的に決定
www.***.com
比較手法
GMM(混合数8)による識別と、以下3種類のSVMの
手法を比較
各カーネルの関数は
同じだが、パラメータ
は異なる
各カーネルの種類も
パラメータも等しい
x1
x1
x2
x2
k x, x
xD
従来の
単一カーネルSVM
K x, x
k x , x
2
xD
k x1 , x1
2
k x D , x D
同一のカーネルを
次元ごと独立に計算
してMKL統合
x1
1
x2
2
xD
D
k 1 x1 , x1
k 2 x 2 , x 2
K x, x
k D x D , x D
カーネルのパラメータ
を次元ごとに変えてMKL統合
www.***.com
実験結果
MKL-SVMによる識別手法が従来のSVM、GMMを上回った
カーネル関数のパラメータを次元ごとに変化させることで、若
干精度が向上
Localization accuracy [%]
95
91.2
92
90.0
GMM
従来の単一カーネルSVM
89
85.7
MKL-SVM
86
84.2
83
カーネルパラメータを次元毎に
変えたMKL-SVM
80
www.***.com
位置毎の次元重みと音響伝達特性の分布
30°
90° and
30°
and 130°
90°
130°
Cepstral coefficient
30°
90°
130°
Cepstral order
次 位 30° 0.00 0.06 0.07 0.07 0.07 0.06 0.07 0.07 0.06 0.08 0.06 0.06 0.06 0.07 0.07 0.07
元 置 90° 0.00 0.06 0.06 0.06 0.07 0.08 0.10 0.07 0.06 0.07 0.07 0.06 0.06 0.06 0.07 0.06
重毎
み の 130° 0.01 0.05 0.09 0.07 0.05 0.11 0.06 0.11 0.05 0.07 0.06 0.05 0.05 0.06 www.***.com
0.05 0.07
マイクの位置のずれに対する頑健性の評価
Localization accuracy [%]
テスト時に、マイクの位置を学習時の位置からずらして収録し
て識別精度を測定
マイクの位置が10cmずれた時点で15~20%精度低下
100
91.2
90.0
85.7
84.2
90
GMM
80
従来の単一カーネルSVM
70
67.9
64.0
62.0
60
67.1
65.9
64.0
54.5
50
MKL-SVM
カーネルパラメータを次元毎
に変えたMKL-SVM
40
0
10
20
Gap of position of mic. [cm]
www.***.com
まとめ
次元ごとにサブカーネルを定義し、MKLで統合させる
ことで、音響伝達特性MFCCの次元重みを自動的に
学習させた
以前用いていたGMMによる識別や従来のSVMに比
べて高い識別精度が得られた
今後の課題
収録環境が変化した場合、精度が大幅に低下
音響伝達特性の正確な推定
www.***.com
ご清聴ありがとうございました
www.***.com
200cm
10cm
マイクロホンアレー
音源位置
実験に使用するマイク
www.***.com