音響伝達特性の識別に基づく 話者の頭部回転方向の推定

Download Report

Transcript 音響伝達特性の識別に基づく 話者の頭部回転方向の推定

CSP係数の識別に基づく話者の
頭部方向の推定
電子情報通信学会技術研究報告
2011年7月21, 22, 23日
高島遼一,滝口哲也,有木康雄
神戸大学大学院
研究背景
話者の位置の推定
「誰が話しているのか」
話者の頭部方向の推定
「誰に向かって話しているのか」
頭部方向推定の利用できるタスク
 より詳細な状況理解
(会議システム等)
 複数話者とロボットとの対話
 雑談/システム要求の判別
他人との会話
呼びかけ
(システム要求)
www.***.com
2
先行研究
マイクロホンアレー・ネットワークによる推定
 複数のマイクロホンアレーを、話者を囲むように配置
 各アレーから得られる音圧情報やCSPのピーク値など
左側のアレーのCSPの
ピーク値や音圧が高くなる
低くなる
頭部方向
[7] A. Brutti, M. Omologo, and P. Svaizer, Proc. Interspeech05, pp. 2337-2340, 2005.
[8] J. M. Sachar, and H. F. Silverman, Proc. ICASSP04, vol. 4, pp. 65-68, 2004.
www.***.com
3
研究目的
できるだけ少ないマイク数で、話者の位置や頭部の方向を推定
したい
アプローチ
音源位置や頭部方向によって異なる音響伝達特性(残響)に着目
影響:強
影響:弱
影響:強
影響:弱
www.***.com
4
Our previous work
音響伝達特性の識別に基づく話者の頭部方向の推定[高島, SP 2011-05]
音源位置:
頭部方向:
1
1
O
学習データ train

単一マイク 評価データ
Otest
Htrain
観測信号Oから
音響伝達特性H
を推定する
学習
Htest
音響伝達
特性を識別
識別結果
ˆ,ˆ
1. 候補となる音源位置、頭部方向毎に,観測信号 O の音響伝達特性 H を推定・学習
2. 評価データも同様に伝達特性 H を推定し,識別することで音源位置・頭部方向を推定
単一マイクのみで音源位置と頭部方向が推定可能
音響伝達特性の推定が正確でないため,頭部方向の細かい変化の識別は困難
より発話内容にロバストな音響伝達特性(残響)のパラメータ化は?
www.***.com
5
提案手法(1/2)
2ch マイクを用いて得られるCSP (Cross-power Spectrum
Phase) 係数に着目
残響がCSP係数のピーク値以外の値にも影響を及ぼす
CSP係数の全次元を残響特性を表すパラメータとして用いる
 DFTol t  DFT or t  
CSP   DFT 

 DFTol t   DFTor t  
1
頭部方向:横向き(180°)
or : observedsignal at right channel
ol : observedsignal at left channel
頭部方向:正面(90°)
www.***.com
6
提案手法(2/2)
候補となる音源位置・頭部方向毎にCSP係数を計算し,SVM
で学習する.
評価データに対して,そのCSP係数を識別することで音源位置
・頭部方向を推定する.
音源位置:
頭部方向:
1
1
CSPtrain 学習
O
学習データ train

2chマイク 評価データ
Otest
観測信号Oから
CSP係数を計算
(SVM)
CSPtest
CSP係数
を識別
(SVM)
識別結果
ˆ,ˆ
従来の音源位置推定法・頭部方向推定の先行研究との違い
残響特性をパラメータ化することが目的
CSP係数のピーク値以外の値も使用
事前に学習が必要
2ch マイクのみで実装可能
www.***.com
7
実験環境
 音声データ
 ATR研究用日本語音声データベースセットAより男性話者1名(50単語)
 収録環境
 音源位置の候補数:6
 残響時間:約1220msec
 マイク間隔: 30 cm
スピーカの頭部方向:8
(全6×8 = 48通り)
Unit : mm
4
1
3500
6300
Loudspeaker
1500
5
2
Microphones
Microphones
3
6
5
2
1500
6
4
1
3
1200
7200
1500
2000
www.***.com
8
実験環境
 音声データ
 ATR研究用日本語音声データベースセットAより男性話者1名
 収録環境
 音源位置の候補数:6
 残響時間:約1220msec
 マイク間隔: 30 cm
スピーカの頭部方向:8
0
270
90
180
6300
4
5
0
1
2
3500
0
90
270
Microphones
90
180

180
0
270
Microphones
90
180

1500
0
270

Unit : mm
1500
(全6×8 = 48通り)
0
90
270
180
90
6
3
1200
7200
270
1500
2000
180
スピーカから見てマイクの方向を90°とする
www.***.com
9
分析条件
 特徴量
 CSP係数:512 次元
 サンプリング周波数:12kHz 窓幅:32 msec フレームシフト:8 msec
 位置・頭部回転方向の識別
1単語ごとに位置・頭部方向の識別を行い,認識率を求める
 全収録データ数: 位置・頭部方向毎に 50 単語
 学習データ数:
位置・頭部方向毎に 1, 5, 10, 20, 30, 40単語
 テストデータ数: 位置・頭部方向毎に10単語
(組み合わせを変えて5-foldのクロスバリデーション)
 総テスト数: 2400 単語 (50 × 48)
 SVMのカーネル関数: ガウシアンカーネル
 SVMの学習誤りに対する重み係数C:1
www.***.com
10
学習データ数ごとの48クラス識別結果
www.***.com
11
次元数による精度の違い
 CSP係数の全次元の内、ピークを中心に次元数を増減させる
1(ピークの高さのみ) 51, 101, 201, 301, 401, 512(全次元)
512
401
301
201
101
51
1
www.***.com
12
次元数による精度の違い
 位置を2に固定し,頭部方向のみの識別 (8クラス識別)
次元数\学習単語数
1単語
5単語
10単語
20単語
30単語
40単語
1次元 (ピークのみ)
22.0
24.3
24.5
26.3
26.8
22.5
51次元
72.3
70.8
78.8
95.8
93.0
93.0
101次元
82.5
94.5
97.5
87.8
97.5
95.5
201次元
91.3
92.8
96.5
99.5
99.5
99.0
301次元
92.5
94.0
95.8
99.3
99.3
99.5
401次元
92.5
98.3
99.3
99.3
99.5
99.5
501次元
91.8
97.8
99.5
99.5
99.5
99.5
www.***.com
13
ピーク値のみを用いた場合のConfusion Matrix
ピークのみを用いた場合,ピーク値が高いか低いか
程度の識別しかできていない
270

180
予測値
角
度
0
45
90
135
180
225
270
315
0
0
0
20
0
0
60
0
20
45
0
8
74
0
0
10
0
8
実 90
測 135
値
180
0
0
92
0
0
2
0
6
0
8
60
0
0
22
0
10
0
0
20
0
0
60
0
20
225
0
0
20
0
0
60
0
20
270
0
0
20
0
0
60
0
20
315
0
0
20
0
0
60
0
20
0
90
www.***.com
14
雑音環境下での識別精度
2chマイクで収録した音声のうち,テストデータのみに
ピンクノイズを足し合わせる
 SN比:5, 10, 20 dB
www.***.com
15
雑音環境下での識別精度
音源位置ごとの位置・頭部方向の識別精度
 マイクの正面位置 (2・5) の認識精度が特に低い
 SNR 20 dB
4
1
5
2
6
3
Microphones
www.***.com
16
雑音環境下での識別精度
位置2におけるConfusion matrix (SNR 20 dB)
ほぼ全てのデータを90°と認識
予測値
角
度
0
0
4
0
96
0
0
0
0
0
0
2
98
0
0
0
0
0
45
45
90
135
180
225
270
315
270
実 90
測 135
値
180
0
0
100
0
0
0
0
0
0
0
100
0
0
0
0
0
0
0
98
0
2
0
0
0
225
0
0
96
0
0
4
0
0
270
0
0
98
0
0
0
2
0
315
0
0
96
0
0
0
0
4
180
0
90
www.***.com
17
雑音環境下での識別精度
両チャネルの収録音声に全く同じ波形のピンクノイズ
を足したことが原因
 大多数の評価データが90° (正面方向)と認識された
位置2, 頭部方向0°
ノイズなし
位置2, 頭部方向0°
SNR20 dB
位置2, 頭部方向90°
ノイズなし
www.***.com
18
まとめと今後の課題
 話者の位置・頭部方向ごとに異なる残響特性に着目
 CSP係数の形状を残響特性のパラメータとして用いて識別す
ることで,話者の位置と頭部方向の推定を2chマイクのみで
行った
 雑音環境下では雑音・音声の識別が必要
 テスト時の位置や頭部方向が学習時より少しずれた場合の評
価
 音源位置・頭部方向毎に事前の学習が必要なため、使えるタ
スクが限られる
 既知の位置・頭部方向の伝達特性を用いて、回帰により未知の位置・
頭部方向の伝達特性を表現できないか
www.***.com
19