単一マイクロホンで方向推定ができれば…
Download
Report
Transcript 単一マイクロホンで方向推定ができれば…
音響モデルを利用したシングルチャネルに
よる音源方向推定
06/12/15 電子情報通信学会 応用音響研究会
住田 雄司,滝口哲也,有木康雄(神戸大)
発表の流れ
研究背景
従来手法
単一マイクロホンによる音源方向推定
評価実験
マイクロホンアレーによる音源方向推定
従来手法の問題点
提案手法
音源方向推定の目的
提案手法による評価実験と考察
まとめ,今後の課題
研究背景
音源方向推定の目的
指向性マイクロホンを用いた目的音の強調
話者方向の推定
発話者方向にマイクロホンの指向性を形成
ノイズ方向にマイクロホンの死角を形成
ロボットの対話
会議システム
環境の認識
音源の探査
移動物体の検出
さまざまな状況において,音源方向推定の技術が必要とされている!
従来手法(1)
時間差の情報を用いた音源方向推定
例;2つのマイクロホンを用いて,
θ方向からの信号を受信
M1
x1 (t )
d
M2
x2 (t )
12 E x1 t x2 t G12 e jt d
R G12 e jt d
12 : 相互相関関数
G12 : x1とx2のクロススペクトル
R : 一般化相互相関関数
: 周波数重み
1
e.g. CSP
G12
相関関数を最大にする時間差τとマイク間距離 d
から,信号の到来方向θを求める.
従来手法(2)
強度差の情報を用いた音源方向推定
[1]
例;2つのマイクロホンを用いて,
θ方向からの信号を受信
deg.
M1
x1 (t )
d
5dB/div.
例;カージオイド指向性
M2
x2 (t )
指向性マイクロホンを用いて,方向別の強度差から,
信号の到来方向θを求める.
[1]羽入敏樹他, “複数の指向性マイクロホンの方向別感度差を
利用した音源探査,” 音講論, 3-9-3, pp.781-782, 2006-3
従来手法の問題点
複数のマイクロホンを用いてアレーを形成.これにより生じる到来信号の
時間差・強度差の情報により方向を推定していた.
複数のマイクロホンが
必要不可欠!
単一マイクロホンで方向推定ができれば…
コスト削減
マイクロホンの設置は容易
信号の同期を取らなくてもよいetc.
本研究では,単一マイクロホンに
よる音源方向の推定を目指す!
ウェアラブルなどの超小型の世界,産業におけるコスト重視の
世界では,とりわけ単一マイクロホンであることが重要といえる.
提案手法の概要
どのようにして単一マイクロホンで音源方向を推定するのか?
3
2
到来信号の時間差・強度差といった情報
は使えない!
1
H2
H3
H1
H1
H3
H2
H1~3のモデル
H1 ? H 2 ? H 3 ?
arg max Pr( H | H )
予め,方向ごとの音響伝達特性モデルを
作成しておく.入力音声があれば,そこから
音響伝達特性を推定し,各モデルと比較を
行う.最も尤度が大きかった方向を到来方
向として出力する.
θ方向より到来する音声から,どのようにして音響伝達特性を推定するのか?
クリーン音声モデル(e.g. Gaussian Mixture Model) → 予め学習しておくことが可能
EMアルゴリズム(Expectation Maximization)
を用いて,θ方向からの音響伝達特性を推定.
音響伝達特性の推定(1)
Acoustical
transfer function
Clean speech
S
H
Observed speech
O
対象とする環境のモデル
O(; t ) S (; t ) H ( )
log O(; t ) log S (; t ) log H ( )
N S; ,
Ocep i; t S cep i; t H cep i; t
OとSが分かれば,Hは推定可能
実際の場面では,クリーンな音声信号を観
測することはできない!
Sの代わりに,予め準備可能なクリーン音声
モデルを用いて,ケプストラム領域において
尤度最大基準に基づきOからHを分離する.
音響伝達特性の推定(2)
音響伝達特性の時系列データを,観測信号に対して,
そのモデルの尤度が最大となるようにして求める.
Hˆ arg max PrO S , H
H
D O Hˆ
t ,i
n , m ,i
ˆ ) (n, m) t ,i
Q ( H, Η
t
2
2
n , m ,i
t 1 n 1 m 1
i 1
T
t (n, m)
N
n,m N St ; μ n,m , n,m
M
m 1
N
Hˆ t ,i
M
n,m
N St ; μ n,m , n,m
: モデルパラメータの集合
: 分布の重み
D : 次元数
T :フレーム数
M
(n, m)
n 1 m 1
[2]
2
t
Ot ,i n ,m,i
2
M
M : 混合数
n , m ,i
t (n, m)
2
n , m ,i
n 1 m 1
N
N : 状態数
[2]A.Sankar and C-H.Lee, “A maximum-likelihood approach to
stochastic matching for robust speech recognition,” IEEE Trans.
Speech and Audio Processing,vol.4, no.3, pp.190-202, 1996.
提案手法のフローチャート
Train
Test
各方向からの音声入力(数単語)
ある方向から音声が到来
S
S
クリーン音声GMMを用いて,
尤度最大基準により音響伝達特性を推定
Ĥ
各方向における音響伝達特性GMMを構築
H
Ĥ
・入力の音響伝達特性と,各方向における音響伝達特性GMMを比較.
ˆ arg max P Hˆ
ˆ
H
・最も尤度が大きかった方向 を出力.
評価実験
実験環境
ドライソースにインパルス応答を畳み込んで実環境をシミュレーション
30deg.,90deg.,130deg. 3方向のうちの1方向より音声が到来する.
予め各方向のモデルを作成しておき,到来方向の判別を行う.
パラメータ
サンプリング周波数
12 [kHz]
窓関数
Hamming
窓の長さ
32 [ms]
フレームシフト
8 [ms]
特徴量
MFCC(16次元)
音声データと音響モデル
話者
クリーン音声の音響モデル
音響伝達特性の音響モデル
クリーン音声の学習データ
音響伝達特性の学習データ
テストデータ
特定話者(男性1名)
GMM(64混合)
GMM(1,2,4混合)
2620単語
10単語
1000単語
実験室
*
音源とマイクロホンの
距離: 2 [m]
残響時間: 300 [ms]
*http://tosa.mri.co.jp/sounddb/micarray/index.htm
実験結果(1)
方向別,混合数別の正解率 [%]
1 Mixture
2 Mixtures
4 Mixtures
30deg.
89.5
91.9
88.1
90deg.
18.0
58.9
67.0
130deg.
96.1
95.2
94.2
2方向(30deg.,90deg.)に限定した場合
1 Mixture
2 Mixtures
4 Mixtures
30deg.
100
100
100
90deg.
62.9
89.5
93.5
実験結果(2)
2方向における音響伝達特性の時間変化(音声:aisatsu)
発話区間は0.35 ~ 1.05 [sec]
MFCC-2
MFCC-6
実験結果(3)
それぞれの方向,混合数における識別率の比較
100
90
80
70
60
50
40
30
20
10
0
90deg.より音声到来
方向識別率[%]
方向識別率[%]
30deg.より音声到来
1mix
30°
2mix
90°
4mix
130°
100
90
80
70
60
50
40
30
20
10
0
130deg.より音声到来
方向識別率[%]
1mix
30°
2mix
90°
4mix
130°
100
90
80
70
60
50
40
30
20
10
0
1mix
30°
2mix
90°
4mix
130°
90deg.より音声が到来した場合に,130deg.と誤識別されることが多い!
誤識別の原因の考察(1)
音響伝達特性モデルの比較
Cepstral coefficient (mean)
単一正規分布における,方向毎の平均と分散の比較
20
15
10
5
0
-5
-10
-15
-20
・90deg.の平均値は他の2方向と
-25
-30
比較して,特に異なっている.
30°
90°
130°
・ある次元においては,3方向の
1 3 5 7 9 11 13 15
平均値がほぼ等しく,別の次元では
Cepstral order
全く違うといった状況が見受けられる.
Cepstral coefficient (var)
300
250
200
150
100
50
・低次元では90deg.の分散が大きく,
高次元では130deg.の分散が比較的
0
大きい.
1 3 5 7 9 11 13 15
→ 90deg.における正解率の低さ,
Cepstral order
130deg.への誤識別の多さの原因?
30°
90°
130°
誤識別の原因の考察(2)
音響伝達特性モデルの比較
15
10
5
30°
90°
130°
0
-5
250
200
30°
90°
130°
150
100
15
13
11
9
7
5
3
1
15
13
11
9
7
5
-15
300
50
・残響がない場合には,方向毎の平均と分散の違いが
ほとんど見受けられない.
0
→ 残響・反射といった要素が,方向毎の音響伝達特性を
特徴付けている?
Cepstral order
Cepstral order
3
-10
1
Cepstral coefficient (mean)
単一正規分布における,方向毎の平均と分散の比較
残響なし
Cepstral coefficient (var)
まとめ
様々な状況において,音源方向推定技術は必要とされている.
到来信号の時間差,強度差などを用いた従来の推定方法では,
複数のマイクロホンという条件が必要不可欠だった.
単一マイクロホンによる音源方向推定法を提案
クリーン音声GMMとEMアルゴリズムを用いて,観測された音声から
音響伝達特性を推定
各方向の音響伝達特性モデルを作成
入力音声から音響伝達特性を推定し,これらのモデルと比較して,
最も尤度が大きかった方向を到来方向として出力する.
評価実験より,単一マイクロホンによる音源方向推定の可能性を提示
今後の課題
方向数の増加,角度幅の縮小
文章による学習・テスト
単語単位では短すぎて安定しないのではないか?
→ モデルの分散増加
指向性マイクロホンの導入
現在はまだ3方向,角度の幅も40deg.,60deg.と開いている
無指向性マイクロホンと識別率を比較
識別方法の工夫
LDA,SVM,AdaBoostの導入etc.
正解率の向上
Thank you very much
for your attention!!
補足資料
実験結果:補足(1)
各方向におけるインパルス応答の比較
残響時間 300 [ms] の場合
30deg.
90deg.
130deg.
実験結果:補足(2)
各方向におけるインパルス応答の比較
残響時間が無しの場合
30deg.
90deg.
130deg.
マイクロホンアレー
*
今回の実験では,20番のマイクロホンのインパルス応答を使用
*http://tosa.mri.co.jp/sounddb/micarray/index.htm
実験機材の詳細
*
*http://tosa.mri.co.jp/soun
ddb/micarray/index.htm
無響室
*
*http://tosa.mri.co.jp/sounddb/micarray/index.htm
インパルス応答の畳み込み
ドライソース(本来発声した原音)にある部屋で測定したインパルス応答を畳み込むと,
その部屋で発生したかのように再現することができる.
s (t )
h(t )
M
o(t ) s (t i )h(i )
i 1
o(t )
M : インパルス応答長
このままだと計算量が膨大なので…
O( f ) S ( f ) H ( f )
MFCC(Mel Frequency Cepstrum Coefficient)
音の高さに対する人間の感覚尺度 → メル尺度(Mel Scale)
Mel ( f ) 2595 log 10 (1
f
)
700
周波数の対数におおよそ対応
人間の周波数に対する音の高さの感覚
低周波数 → 細かい
レ
ベ
ル
高周波数 → 粗い
・・・
m1
m2
各帯域フィルタの出力 m j と,
離散コサイン変換(DCT)を用い
て,MFCC係数が計算される.
・・・
mj
m j 1
cMFCC (i )
mN
メル周波数
2 N
i
m
cos
j
0
.
5
j
N j 1
N
EMアルゴリズム
観測データをxとすると,HMMにおける状態遷移のような直接観測できないデー
タyが存在する場合に,xの尤度を最大にするようなモデルパラメータθを求めると
きなどに用いる.
max Pr( x | )
実際には観測不可能なyが関係しているため,上式は容易には解けない.
そこで,式で解けるように以下のようなQ関数を定義する.
Q( ,ˆ) E log Pr( x, y | ˆ) | x,
EMアルゴリズムのステップ
1.
2.
パラメータ の初期値を設定
Q( , ˆ) 関数の最大にするような ˆ を選択
を ˆ で更新
3.
4.
収束条件を満たしていれば終了.そうでなければ2に戻る.
Template
template