2002年3月DSP研究会講演スライド

Download Report

Transcript 2002年3月DSP研究会講演スライド

音声・音響信号を対象とした
ブラインド音源分離
奈良先端科学技術大学院大学
猿渡 洋
[email protected]
本日の発表内容
 ブラインド音源分離(BSS)研究の背景
 独立成分分析(ICA)に基づくBSSの説明
 時間領域ICA
 周波数領域ICA
 各領域ICAの適用限界を実証
 周波数領域ICAと時間領域ICAを統合した多段ICAに
基づく音源分離手法の提案
 実環境下における分離実験結果および考察
 まとめ
背景
ハンズフリー音声通信・認識システム
?
干渉音
マイクロホン
音声認識システム
今日の
天気は
何?
ユーザ
ユーザ以外の干渉音がマイクロホンに混入
音声認識精度の劣化
背景(Cont’d)
 研究の目標
 雑音に頑健なハンズフリー音声処理システム
の実現
 マイクロホンアレー
 複数のマイクロホン素子から構成される受音器
 目的信号の強調,雑音抑圧が可能
 マイクロホンアレー処理の欠点
 音源の到来方位推定が必要
 適応のために無音区間の推定が必要
ブラインド音源分離
 複数の音源信号が混在して観測される場合,
観測信号のみから音源信号を推定する技術
 独立成分分析(ICA)に基づく手法が主流
ICAに基づくブラインド音源分離
事前情報が不要(教師無し適応)
おはよう
話者1
音源1
互いに
独立
観測信号1
既知
こんにちは
話者2
マイクロホン1
マイクロホン2
音源2
音源信号を推定
観測信号2
ブラインド音源分離
 複数の音源信号が混在して観測される場合,
観測信号のみから音源信号を推定する技術
 独立成分分析(ICA)に基づく手法が主流
高残響(実)環境下では十分な性能が得られない
(残響時間=0.3秒 ←2400 taps FIRフィルタ)
<音声応用における課題>
残響に頑健なブラインド音源分離
アルゴリズムの構築
従来のアプローチ
 時間領域ICA(TDICA)
 時間領域においてFIR型の音源分離フィルタを
推定
 周波数領域ICA(FDICA)
 周波数領域において各周波数帯域毎に音源分離
フィルタを推定
TDICAに基づく音源分離手法
<利点>
 信号自身が有する独立性を評価可能
 最適点近傍での収束性に優れている
TDICAの適用
 一般の残響抑圧信号処理においては,フィルタ長を長
くすることにより残響抑圧性能が向上する
<仮説>
TDICAにおいても,分離フィルタ長を長くする
ことにより,残響に頑健な音源分離が可能か?
フィルタ長と分離性能の関係を調査
実験条件
素子間隔:
4 cm
残響時間:
300 ms
原音声: 男女各2名による2短文
12通りの組み合わせ
 音源分離性能の尺度: 干渉音の抑圧量 [dB]

フィルタ長と分離性能の関係
8
7.8
音源分離性能 [dB]
7
5.8
<欠点>
フィルタ長を長くしても
5 反復学習規則が複雑
4.4

分離性能は向上しない
4 残響環境下では収束性が悪い

2.8
3 直接音,初期反射音成分の分離しかできない

6
1.7
2
0.9
1
0.4
0.3
1000
2000
0
10
20
50
100
200
500
音源分離フィルタ長 [point]
FDICAに基づく音源分離手法
f
<利点>
 周波数変換することにより混合問題を簡単化
 分離フィルタの最適化を安定かつ高い収束性で実現
FDICAの適用
 一般の残響抑圧信号処理においては,帯域分割数
(フィルタ長)を増やすことにより残響抑圧性能が向上
<仮説>
FDICAにおいても,分離フィルタの帯域分割数を
増やすことにより,残響に頑健な音源分離が可能か?
帯域分割数と分離性能の関係を調査
帯域分割数と分離性能の関係
過度に分割数を増やすと分離性能劣化
10
音源分離性能 [dB]
<新たな仮説>
9.4
8.5
7.6
7.4
8帯域分割数を過度に増やすと狭帯域信号間の
7.2
6.6
独立性の仮定が成立しなくなる?
6.1
6
4
3.0
2
狭帯域信号間の独立性を定量的に評価するために,
0
帯域分割数と狭帯域信号間の相関値の関係を調査
32
64
128
256 512 1024 2048 4096
帯域分割数
帯域分割数と狭帯域信号間の相関値の関係
狭帯域信号間の相関値
0.1
過度に分割数を増やすと相関が強くなる
0.08
<欠点>
0.06
帯域分割数を過度に増やすと狭帯域信号間の
0.04
相関が強くなり,独立性の仮定が成立しなくなる
0.02
0
32
64
128
256 512 1024 2048 4096
帯域分割数
帯域分割数と分離性能の関係
音源分離性能
相関低い
残響に強い
相関強い
残響に弱い
<欠点>
FDICAでは帯域分割処理により十分な分離性能
に達しない段階で性能が飽和する
少ない
帯域分割数
多い
各領域ICAの利点・欠点
周波数領域ICA(FDICA)
 利点


周波数変換により
混合問題を簡単化
反復学習における安
定性,高速収束性
補う
 欠点
前段
時間領域ICA(TDICA)
 利点


補う
 欠点
 帯域分割処理により
利点を共に有効利用

信号自身が有する
独立性を評価可能
最適点近傍での収束
性に優れている
後段
反復学習規則が複雑
独立性の仮定が崩壊
 残響環境下では収束
FDICAとTDICAを統合した
分離性能が飽和
性が悪い
多段ICA(MSICA)

by 西川 他, 2001
MSICAの分離過程
混合システム
周波数領域ICA
(FDICA)
 混合問題を簡単化
 反復学習における安定性,
高速収束性
時間領域ICA
(TDICA)
 信号自身が有する独立性を
評価可能
 最適点近傍での高収束性
提案手法の有効性検証
 MSICAにおけるTDICA部のフィルタ長と分離
性能の関係を調査
 TDICA,FDICA,及びMSICAの分離性能比較
フィルタ長と分離性能の関係
14
TDICA
音源分離性能 [dB]
12
MSICA
11.0
10.2
10.4
10.1
8
10.6
10.0
10
12.7
12.5
FDICA
9.4
7.8
5.8
6
4.4
4
2.8
1.7
2
0.9
0.4
0.3
0
10
20
50
100
200
500
音源分離フィルタ長 [point]
1000
2000
MSICAのTDICA部では長いフィルタによる学習が可能
提案手法の有効性検証
 MSICAにおけるTDICA部のフィルタ長と分離
性能の関係を調査
 TDICA,FDICA,及びMSICAの分離性能比較
各ICAの分離性能比較
18
音源分離性能 [dB]
16
TDICA
FDICA
MSICA
2
4
6
14
12
10
8
6
4
2
0
1
3
5
7
8
9
10
11
12
話者の組み合わせ番号
12通りの平均: TDICA: 5.9 dB,FDICA: 9.4 dB,MSICA:12.1 dB
考察
 FDICAでは帯域分割処理により十分な分離性能に達
しない段階で性能が飽和
 TDICAでは反復学習規則が複雑であるため長いフィ
ルタによる分離が困難
 MSICAを用いることでTDICA,FDICAを上回る分離性
能が得られた
 MSICAは本質的にTDICA,FDICAの問題点を解決した
といえる
MSICAによる分離音声の一例
 残響時間
300 ms
 混合音声(女性,男性)
 分離音声(女性)
 分離音声(男性)
女声
男声
-30° 40°
2素子
4cm間隔
まとめ
 残響環境下における時間領域ICA(TDICA),
周波数領域ICA(FDICA)の適用限界を実証
 FDICAとTDICAを統合した多段ICA(MSICA)に
基づくブラインド音源分離手法を提案
 TDICA,FDICA,及びMSICAの分離性能比較
MSICAにおけるTDICA部では長いフィルタの学習が
可能であることを確認
 MSICAの性能はTDICA,FDICAの性能を上回ること
を確認

今後の課題
現在のICAではまだまだ長い残響に対応できない
⇒音響信号処理の知見を有効に利用
空間情報(音源の方位,位置など)の利用
 音声認識による性能評価
 さらに複雑な混合の分離問題に関する検討
 雑音が付加された混合
 3個以上の複数音源が存在する混合