2002年3月DSP研究会講演スライド
Download
Report
Transcript 2002年3月DSP研究会講演スライド
音声・音響信号を対象とした
ブラインド音源分離
奈良先端科学技術大学院大学
猿渡 洋
[email protected]
本日の発表内容
ブラインド音源分離(BSS)研究の背景
独立成分分析(ICA)に基づくBSSの説明
時間領域ICA
周波数領域ICA
各領域ICAの適用限界を実証
周波数領域ICAと時間領域ICAを統合した多段ICAに
基づく音源分離手法の提案
実環境下における分離実験結果および考察
まとめ
背景
ハンズフリー音声通信・認識システム
?
干渉音
マイクロホン
音声認識システム
今日の
天気は
何?
ユーザ
ユーザ以外の干渉音がマイクロホンに混入
音声認識精度の劣化
背景(Cont’d)
研究の目標
雑音に頑健なハンズフリー音声処理システム
の実現
マイクロホンアレー
複数のマイクロホン素子から構成される受音器
目的信号の強調,雑音抑圧が可能
マイクロホンアレー処理の欠点
音源の到来方位推定が必要
適応のために無音区間の推定が必要
ブラインド音源分離
複数の音源信号が混在して観測される場合,
観測信号のみから音源信号を推定する技術
独立成分分析(ICA)に基づく手法が主流
ICAに基づくブラインド音源分離
事前情報が不要(教師無し適応)
おはよう
話者1
音源1
互いに
独立
観測信号1
既知
こんにちは
話者2
マイクロホン1
マイクロホン2
音源2
音源信号を推定
観測信号2
ブラインド音源分離
複数の音源信号が混在して観測される場合,
観測信号のみから音源信号を推定する技術
独立成分分析(ICA)に基づく手法が主流
高残響(実)環境下では十分な性能が得られない
(残響時間=0.3秒 ←2400 taps FIRフィルタ)
<音声応用における課題>
残響に頑健なブラインド音源分離
アルゴリズムの構築
従来のアプローチ
時間領域ICA(TDICA)
時間領域においてFIR型の音源分離フィルタを
推定
周波数領域ICA(FDICA)
周波数領域において各周波数帯域毎に音源分離
フィルタを推定
TDICAに基づく音源分離手法
<利点>
信号自身が有する独立性を評価可能
最適点近傍での収束性に優れている
TDICAの適用
一般の残響抑圧信号処理においては,フィルタ長を長
くすることにより残響抑圧性能が向上する
<仮説>
TDICAにおいても,分離フィルタ長を長くする
ことにより,残響に頑健な音源分離が可能か?
フィルタ長と分離性能の関係を調査
実験条件
素子間隔:
4 cm
残響時間:
300 ms
原音声: 男女各2名による2短文
12通りの組み合わせ
音源分離性能の尺度: 干渉音の抑圧量 [dB]
フィルタ長と分離性能の関係
8
7.8
音源分離性能 [dB]
7
5.8
<欠点>
フィルタ長を長くしても
5 反復学習規則が複雑
4.4
分離性能は向上しない
4 残響環境下では収束性が悪い
2.8
3 直接音,初期反射音成分の分離しかできない
6
1.7
2
0.9
1
0.4
0.3
1000
2000
0
10
20
50
100
200
500
音源分離フィルタ長 [point]
FDICAに基づく音源分離手法
f
<利点>
周波数変換することにより混合問題を簡単化
分離フィルタの最適化を安定かつ高い収束性で実現
FDICAの適用
一般の残響抑圧信号処理においては,帯域分割数
(フィルタ長)を増やすことにより残響抑圧性能が向上
<仮説>
FDICAにおいても,分離フィルタの帯域分割数を
増やすことにより,残響に頑健な音源分離が可能か?
帯域分割数と分離性能の関係を調査
帯域分割数と分離性能の関係
過度に分割数を増やすと分離性能劣化
10
音源分離性能 [dB]
<新たな仮説>
9.4
8.5
7.6
7.4
8帯域分割数を過度に増やすと狭帯域信号間の
7.2
6.6
独立性の仮定が成立しなくなる?
6.1
6
4
3.0
2
狭帯域信号間の独立性を定量的に評価するために,
0
帯域分割数と狭帯域信号間の相関値の関係を調査
32
64
128
256 512 1024 2048 4096
帯域分割数
帯域分割数と狭帯域信号間の相関値の関係
狭帯域信号間の相関値
0.1
過度に分割数を増やすと相関が強くなる
0.08
<欠点>
0.06
帯域分割数を過度に増やすと狭帯域信号間の
0.04
相関が強くなり,独立性の仮定が成立しなくなる
0.02
0
32
64
128
256 512 1024 2048 4096
帯域分割数
帯域分割数と分離性能の関係
音源分離性能
相関低い
残響に強い
相関強い
残響に弱い
<欠点>
FDICAでは帯域分割処理により十分な分離性能
に達しない段階で性能が飽和する
少ない
帯域分割数
多い
各領域ICAの利点・欠点
周波数領域ICA(FDICA)
利点
周波数変換により
混合問題を簡単化
反復学習における安
定性,高速収束性
補う
欠点
前段
時間領域ICA(TDICA)
利点
補う
欠点
帯域分割処理により
利点を共に有効利用
信号自身が有する
独立性を評価可能
最適点近傍での収束
性に優れている
後段
反復学習規則が複雑
独立性の仮定が崩壊
残響環境下では収束
FDICAとTDICAを統合した
分離性能が飽和
性が悪い
多段ICA(MSICA)
by 西川 他, 2001
MSICAの分離過程
混合システム
周波数領域ICA
(FDICA)
混合問題を簡単化
反復学習における安定性,
高速収束性
時間領域ICA
(TDICA)
信号自身が有する独立性を
評価可能
最適点近傍での高収束性
提案手法の有効性検証
MSICAにおけるTDICA部のフィルタ長と分離
性能の関係を調査
TDICA,FDICA,及びMSICAの分離性能比較
フィルタ長と分離性能の関係
14
TDICA
音源分離性能 [dB]
12
MSICA
11.0
10.2
10.4
10.1
8
10.6
10.0
10
12.7
12.5
FDICA
9.4
7.8
5.8
6
4.4
4
2.8
1.7
2
0.9
0.4
0.3
0
10
20
50
100
200
500
音源分離フィルタ長 [point]
1000
2000
MSICAのTDICA部では長いフィルタによる学習が可能
提案手法の有効性検証
MSICAにおけるTDICA部のフィルタ長と分離
性能の関係を調査
TDICA,FDICA,及びMSICAの分離性能比較
各ICAの分離性能比較
18
音源分離性能 [dB]
16
TDICA
FDICA
MSICA
2
4
6
14
12
10
8
6
4
2
0
1
3
5
7
8
9
10
11
12
話者の組み合わせ番号
12通りの平均: TDICA: 5.9 dB,FDICA: 9.4 dB,MSICA:12.1 dB
考察
FDICAでは帯域分割処理により十分な分離性能に達
しない段階で性能が飽和
TDICAでは反復学習規則が複雑であるため長いフィ
ルタによる分離が困難
MSICAを用いることでTDICA,FDICAを上回る分離性
能が得られた
MSICAは本質的にTDICA,FDICAの問題点を解決した
といえる
MSICAによる分離音声の一例
残響時間
300 ms
混合音声(女性,男性)
分離音声(女性)
分離音声(男性)
女声
男声
-30° 40°
2素子
4cm間隔
まとめ
残響環境下における時間領域ICA(TDICA),
周波数領域ICA(FDICA)の適用限界を実証
FDICAとTDICAを統合した多段ICA(MSICA)に
基づくブラインド音源分離手法を提案
TDICA,FDICA,及びMSICAの分離性能比較
MSICAにおけるTDICA部では長いフィルタの学習が
可能であることを確認
MSICAの性能はTDICA,FDICAの性能を上回ること
を確認
今後の課題
現在のICAではまだまだ長い残響に対応できない
⇒音響信号処理の知見を有効に利用
空間情報(音源の方位,位置など)の利用
音声認識による性能評価
さらに複雑な混合の分離問題に関する検討
雑音が付加された混合
3個以上の複数音源が存在する混合