音響伝達特性を用いた単一チャネル音源位置推定法

Download Report

Transcript 音響伝達特性を用いた単一チャネル音源位置推定法

音響伝達特性を用いた単一チャネル
音源位置推定における特徴量選択の検討
高島遼一,滝口哲也,有木康雄
神戸大学大学院
研究背景
音源位置推定技術の役割
 音声強調・雑音抑圧のための前処理
 対話ロボット,会議システム,etc.
従来の音源位置推定法
 複数のマイクを用いて観測される信号間の位相差を利用
 c

 d sin 

:時間差
c :音速
d
 c
マイクロホンアレー(マイク数32)
www.***.com
研究目的
単一マイクで音源位置推定は行えるか?
 システムの縮小化,複数マイクの手法との複合
研究目的:
位相差などの相互情報を用いない,単一マイクでも行え
る音源位置推定の実現
提案手法
 音響伝達特性を用いた単一チャネル音源位置推定法
www.***.com
アプローチ
音響伝達特性
HB
S
HA
S
位置B
O
Microphone
音響伝達特性
位置A
•音声Sは,マイクで観測されるまでに,音声の減衰や残響等の影響を受ける
音響伝達特性
•音響伝達特性は,音源の位置ごとに異なる特性をもつ
あらかじめ音源位置毎の音響伝達特性を学習しておけば,評価音声につい
てもその音響伝達特性を識別することで音源位置を推定できる
www.***.com
提案手法の流れ

学習データ O 
train
i
H train
i
i
O train
1
学習
(SVM)
観測信号Oから
音響伝達特性H
を推定する
2
単一マイク
3
ステップ2
ステップ1
音
源
位
置


評価データ O test
音響伝達
特性を識別
(SVM)

H test

O test
識別結果
ˆ
STEP1:音響伝達特性の推定
観測信号Oから音響伝達特性Hを推定する
STEP2:音響伝達特性の識別
推定された音響伝達特性をSVM (Support Vector Machine)で学習
識別する
www.***.com
音響伝達特性の推定
www.***.com
観測信号の定式化
時間領域
o (t )  s (t )  h (t )
 : 周波数
短時間フーリエ変換
t : 時刻
周波数領域 O ( ; n )  S ( ; n )  H ( ; n )
対数変換
n : フレーム
d : ケプストラムの次元
log O ( ; n )  log S ( ; n )  log H ( ; n )
離散コサイン変換
ケプストラム領域 O cep  d ; n   H cep  d ; n   S cep  d ; n 
統計モデル化
モデル領域
 O  n   H cep  n    S
未知
 : モデルパラメータ
処理は全てMFCC領域で行われる
実際の環境ではSは未知であるため,Sの代わりにSの統計モデルを
用いて最尤推定法でHを推定する.
www.***.com
音響伝達特性の推定
クリーン音声Sの生成確率をHMM (Hidden Markov Model) であらかじめ学習
Pr  S , b , c |  S  

a b ( n 1), b ( n ) w b ( n ), c ( n )  N S ( n );  b ( n ), c ( n ) ,  b ( n ), c ( n ) 
n
a : 状態遷移確率
b : 状態
c : 混合要素
観測信号Oの事後確率をクリーン音声HMMを用いて表す
(O = S + H の仮定を用いて)
Pr O , b , c | H ,  S  
a
b ( n 1 ), b ( n )
w : 混合重み
w b ( n ), c ( n )  N O ( n );  b ( n ), c ( n )  H ( n ),  b ( n ), c ( n ) 
n
観測信号に対するHの尤度が最大となるようにHを推定する
Hˆ  arg max Pr O | H ,  S
H
 arg max
H

  Pr O , b , c | H ,  
S
b
c
(解はEMアルゴリズムによって推定される)
www.***.com
音響伝達特性推定の流れ
観測信号
O d ; n 

音素認識
クリーン音声の
音素HMM
認識結果(ラベル)
i, k, i, o, i
音響伝達特性を推定
H
音素HMMを連結
連結HMM
S
(a)
(i)
・・・
(i)
(u)
Hˆ
Hˆ  arg max Pr( O | H ,  S )
(k)
(i)
(o) (i)
・・・
1.あらかじめクリーン音声の音素HMMを用意しておく
2.観測信号の音素認識を行う
3.音素認識の結果を元に音素HMMを連結する
4.連結されたHMMを用いて音響伝達特性を推定する
www.***.com
音響伝達特性の識別
www.***.com
クラスごとに異なる特徴量重みの決定
MFCC各次元の中でも、クラスによって識別に有効な
次元とそうでない次元が含まれる
 クラスごとに異なる、次元重みの設定
クラスごとの次元重みをMKL (Multiple Kernel Learning)
を用いて学習し、SVM (Support Vector Machine) で識別
を行う
www.***.com
SVMによるクラス識別とカーネル関数
 SVMは通常、カーネル関数を用いて非線形な識別関数を生成する。
x   x1 , x 2 ,  , x D 
 :写像関数
 x 
高次元特徴ベクトル
D次元特徴ベクトル
 高次元空間での内積を様々な種類のカーネル関数、パラメータで表現
(カーネルトリック)
  x ,   x    K  x , x  
内積
カーネル関数
 カーネル関数の例
 x  x
K  x , x    exp  
2



ガウシアンカーネル
2




K x , x    x  x   1
多項式カーネル
p
www.***.com
MKL (Multiple Kernel Learning)
 複数のサブカーネルを線形結合し、新たなカーネル関数を作
成する手法
K  x , x      n  k n  x, x  
 : n 番目のカーネルの重み
n
n
 各サブカーネルの重みβは,一般的にSVMの枠組み(マージ
ン最大化)で学習される.
MKL-SVM
通常のSVM
max  i 

i
1
 
2
i
j
y i y j k x i , x j 
max  i 

i, j
  y i i  0
i
s .t . 
 0   i  C
i
1
2
 
i
i, j
j
y i y j   l k l x i , x j 
l
  y i i  0 , l l  1
i
s .t . 
 0   i  C ,  l  0
 次元毎にサブカーネルを定義することで,特徴次元の重みを
学習する
K x , x   

d
d
 k d  x d , x d 
特定の次元
www.***.com
実験環境
 音声データ
 ATR研究用音声データベースより男声話者1名
3,120 mm
 RWCP実環境音声・音響データベースで収録されたインパルス応答を
クリーン音声に畳み込んで作成(特定話者実験)
6,660 mm
 残響時間:300 msec (残響可変室)
 音源方向:30, 90, 130°
:sound source
:microphone
(3クラス識別)
 音源距離:一律約2m
4,330 mm
www.***.com
4,180 mm
 観測信号データ
分析条件
 特徴量
 MFCC:16次元
 サンプリング周波数:12kHz 窓幅:32 msec フレームシフト:8 msec
 音響伝達特性の推定
 クリーン音声の学習データ数: 2620単語
 音素数:54 HMMの状態数:3 混合数:32
 位置の識別




学習データ数:50単語 テストデータ数:1000単語
SVMのカーネル関数: ガウシアンカーネル
SVMのスラック変数C:1
カーネル関数のパラメータ:実験的に決定
www.***.com
比較手法
GMM(混合数8)による識別と、以下3種類のSVMの
手法を比較
各カーネルの関数は
同じだが、パラメータ
は異なる
各カーネルの種類も
パラメータも等しい
x1
x1

x2
x2



k  x, x  
xD
従来の
単一カーネルSVM
K  x, x  

k x , x 
2

xD
k  x1 , x1 

2
k  x D , x D 
同一のカーネルを
次元ごと独立に計算
してMKL統合
x1
1
x2
2

xD
D
k 1  x1 , x1 
k 2  x 2 , x 2 

K  x, x  
k D  x D , x D 
カーネルのパラメータ
を次元ごとに変えてMKL統合
www.***.com
実験結果
 MKL-SVMによる識別手法が従来のSVM、GMMを上回った
 カーネル関数のパラメータを次元ごとに変化させることで、若
干精度が向上
Localization accuracy [%]
95
91.2
92
90.0
GMM
従来の単一カーネルSVM
89
85.7
MKL-SVM
86
84.2
83
カーネルパラメータを次元毎に
変えたMKL-SVM
80
www.***.com
位置毎の次元重みと音響伝達特性の分布
30°
90° and
30°
and 130°
90°
130°
Cepstral coefficient
30°
90°
130°
Cepstral order
次 位 30° 0.00 0.06 0.07 0.07 0.07 0.06 0.07 0.07 0.06 0.08 0.06 0.06 0.06 0.07 0.07 0.07
元 置 90° 0.00 0.06 0.06 0.06 0.07 0.08 0.10 0.07 0.06 0.07 0.07 0.06 0.06 0.06 0.07 0.06
重毎
み の 130° 0.01 0.05 0.09 0.07 0.05 0.11 0.06 0.11 0.05 0.07 0.06 0.05 0.05 0.06 www.***.com
0.05 0.07
マイクの位置のずれに対する頑健性の評価
Localization accuracy [%]
 テスト時に、マイクの位置を学習時の位置からずらして収録し
て識別精度を測定
 マイクの位置が10cmずれた時点で15~20%精度低下
100
91.2
90.0
85.7
84.2
90
GMM
80
従来の単一カーネルSVM
70
67.9
64.0
62.0
60
67.1
65.9
64.0
54.5
50
MKL-SVM
カーネルパラメータを次元毎
に変えたMKL-SVM
40
0
10
20
Gap of position of mic. [cm]
www.***.com
まとめ
次元ごとにサブカーネルを定義し、MKLで統合させる
ことで、音響伝達特性MFCCの次元重みを自動的に
学習させた
以前用いていたGMMによる識別や従来のSVMに比
べて高い識別精度が得られた
今後の課題
 収録環境が変化した場合、精度が大幅に低下
 音響伝達特性の正確な推定
www.***.com
ご清聴ありがとうございました
www.***.com
200cm
10cm
マイクロホンアレー
音源位置
実験に使用するマイク
www.***.com