講義スライド - 奈良先端科学技術大学院大学
Download
Report
Transcript 講義スライド - 奈良先端科学技術大学院大学
音情報処理論Ⅱ
独立成分分析によるブラインド音源分離と
その音声処理への応用
奈良先端科学技術大学院大学
情報科学研究科 音情報処理学講座
猿渡 洋
(2002年2月8日)
猿渡担当分の講義資料について
講義資料は以下から各自入手すること
/mandara/lecture/sawatari/OTO2/lecture*.ppt
(注)PowerPointとプリンタの相性により、配布資料形式
では一部数式が文字化けしていることがあるので、必
ず上記から資料を入手し「1ページ1枚のモード」でプリ
ントアウトしてみてください。
本日の講義内容
研究背景の概説
独立成分分析とブラインド音源分離
• 独立成分分析の基礎
• 独立成分分析によるブラインド音源分離
• 実際の音場への応用
独立成分分析における問題点
• 周波数帯域分割数と独立性の関係
• 反復学習の収束性改善法
マイクロホンアレー研究の背景
マイクロホンアレーとその応用
• 高性能な hands-free 通信
• 雑音にロバストな音声認識
古典的アプローチ: ビームフォーミング
• 遅延和型: 低サイドローブの実現が困難
• 適応型:目的音の方位・無音区間情報が必要
さらに自由度の大きい技術の開発が必要
マイクロホンアレーの問題点
遅延和型:素子係数により指向特性を制御
目的音
雑音も同時に
拾ってしまう
θ
適応型:雑音の到来方向に指向特性を適応
目的音
を指定
雑音のみを観測
する時間が必要
死角
θ
ブラインド音源分離の登場
Blind Source Separation (BSS)
• 複数の音源信号が混合されて観測された場合、
観測信号のみから音源信号を推定する技術
• 目的音の方位・無音区間情報が不要
独立成分分析(ICA)に基づくBSS
J. Cardoso, 1989
C. Jutten, 1990
(高次無相関化)
P. Common, 1994 (ICAという言葉を定義)
A. Bell et al., 1995 (infomaxによる定式化)
「独立」とは何か?
数学における「独立」の定義:
• 2つの確率事象に関する同時確率密度分布
p( x1, x2 )
が,それぞれの事象における周辺密度分布
p( x1 ), p( x2 )
の積で書ける場合を「(統計的に)独立」と呼
ぶ.つまり
独立
p( x1, x2 ) p( x1 ) p( x2 )
独立である場合の例
x2
x2
p( x1, x2 ) p( x1 ) p( x2 )
同時確率密度
p( x2 )
x1
周辺確率密度
周辺確率密度
p( x1 )
x1
独立ではない場合の例
x2
x2
p( x1, x2 ) p( x1 ) p( x2 )
同時確率密度
p( x2 )
x1 と x2 に
強い関連がある
x1
周辺確率密度
周辺確率密度
p( x1 )
x1
独立成分分析(ICA)とは何か?
独立な成分の抽出:
• 複数の確率信号が混合された観測系列から,
統計的に独立な個々の確率過程を分解抽出
する.
特徴:
• 独立性は「無相関性」よりも厳しい尺度であり,
確率信号同士の確率密度構造が問われる.
→情報幾何学と呼ばれる
→「独立⇒無相関」であるが、
「無相関⇒独立」は必ずしも成り立たない.
独立成分分析と主成分分析
主成分分析(PCA):
• 複数要因の混合で表現されるものの中から,分
散の大きなものの順に成分を取り出す.
• エネルギーの大きな因子を優先した成分分解法
→ エネルギーが大=影響が大と見なす
一方,独立成分分析は…
• エネルギーの大小とは無関係に,「独立」なもの
同士に分解する.小さな成分でも他と独立性が
高ければそれを抽出することが可能.
• 取り出される因子の順番は問わない.
ICAに基づくBSS とは?
既知
おはよう
Human 1
Source 1
Microphone 1
互いに独立
Microphone 2
こんにちは Source 2
Human 2
音源信号を推定
Observed signal 1
Observed signal 2
ICAに基づくBSSの定式化
線形混合過程
A11 A1K s1 (t ) x1 (t )
AL1 ALK sK (t ) xL (t )
混合行列
分離過程
コスト関数
独立?
音源信号
分離信号
観測信号
分離行列
y1 (t ) W11 W1L x1 (t )
yK (t ) WK1 WKL xL (t )
最適化
ICAにおける様々なコスト関数
分離信号ベクトル:
y(t ) y1 (t ),..., y2 (t )
T
Ey(t ) y (t ) diag
T
無相関化
• 信号間相関を最小化(複数時間区間利用)
非線形関数1
Ey (t ) y (t ) diag
3
T
• 高次相関をも最小化
非線形関数2 E Φ y(t ) y (t ) diag
• 源信号確率密度関数を仮定
T
Φ : シグモイド
関数等
非線型関数2の導出
独立⇒Kullback Leibler Divergenceの最小化問題
• 一般にKullback Leibler Divergenceとは2分布間の距離
p( z)
KL(v, z) p( z) log
dz
p(v)
上式において…
p(z) p( y1,, yK ) 分離信号 y(t) の同時分布密度関数
K
p(v) k 1 p( yk ) 周辺分布密度関数の積
とおき,これらのKLを分離行列Wに関して最小化すれば独立
p( y)
KL(W ) p( y) log K
dy
k 1 p( yk )
最小化
非線型関数2の導出(cont’d)
p( y)
KL(W ) p( y) log K
dy
k 1 p( yk )
K
H (Y ;W ) H (Yk ;W )
k 1
1. 結合エントロピー
2. 周辺エントロピー和
H (Y ;W ) p( y) log p( y)dy
p( x)(log p( x) logW )dx
H ( X ) logW ( p( y) p( x) / | W |)
H (Yk ;W ) p( y) log p( yk )dy
p( x) log p( yk )dx
(p( x)dx p( y)dy)
非線型関数2の導出(cont’d)
KL(W ) の W に関する勾配を求め,その逆方向に W を更新学習
KL(W )
W
(W T )1 p( x) ( y) x T dx
W
(W T )1 E x ( y) x T
I E y ( y) y
T
W
T 1
非線型関数2 ⇒ 0に至れば更新終了・収束
ただしここでは
log p( y1 ) log p( yK )
( y)
,...,
y
y
1
K
T
音声の場合
はSigmoid
関数で近似
可能
ICAに基づく BSSの応用先は?
時間差を扱わない混合過程のみに限定
→ 混合行列は実定数の場合のみ.
→ 複数信号が単に定数で混合されて観測される
というシチュエーションは実在するのか?
数学上の「トイモデル」を解いているだけであり,
なんら実際に生じる混合問題を解決していない
実環境音場への応用
マイクロホンアレーへの適用
→ 到来信号は各受音点(マイク)間にて時間差
を持つ.
→ 混合行列Aは,単純な実定数ではなく,畳み
込みの形で表現される.
実環境での線形混合過程
A11(t ) A1K (t ) s1 (t ) x1 (t )
AL1 (t ) ALK (t ) sK (t ) xL (t )
混合行列
音源信号
観測信号
実環境音場への応用(cont’d)
時間差のある畳み込み混合の2解法:
• 時間領域ICA:畳み込みフィルタを直接推定
⇒複雑な音場には対応困難
• 周波数領域ICA:周波数変換により問題単純化
周波数変換後の線形混合過程
A11( f ) A1K ( f ) S1 ( f ) X1 ( f )
AL1 ( f ) ALK ( f ) SK ( f ) X L ( f )
混合行列
音源信号
観測信号
複素定数による線形混合問題を各周波数別に解けばよい
周波数領域ICAの拡張
周波数領域ICAの問題:
①統計量(期待値)をどのように算出するか?
②音源の入れ替わり・利得不定問題
①の解決方法: 時間‐周波数分解
• 信号全体を一括してDFTするのではなく,短い
窓を掛けた部分のみを短時間DFT分析し,その
処理を時間方向に窓をシフトして繰り返す.
⇒ ある周波数成分を複素時系列として抽出
ICAにおいてサンプルに関する期待値を算出することが可能
時間‐周波数分解によるICA
周波数変換
時間遅れを含む混合問題を単純化
source 1
st-DFT
st-DFT
source 2
Y1 ( f , t ) と Y2 ( f , t ) が
互いに独立になるように
W( f )
を最適化
音源入れ替わり・利得不定問題
周波数帯域別にICAを行うと…
ICAでは因子の順番は不問
ICAでは因子の大きさは不問
周波数帯域毎に分離信号
が入れ替わってしまう
周波数帯域毎に分離信号
の利得がバラバラに…
解決方法:
1. 分離信号の包絡線を求めてその相関によりマージ
2. 分離行列からアレーの指向特性を算出して,その
方位情報よりマージ
分離音声例
無残響実験
•
•
•
•
混合音
分離音 (女性;信号包絡マージ)
分離音 (女性;指向特性マージ)
分離音 (男性;指向特性マージ)
残響付与実験 (残響時間 0.3 s)
•
•
•
•
混合音
分離音 (女性;信号包絡マージ)
分離音 (女性;指向特性マージ)
分離音 (男性;指向特性マージ)
音声1
音声2
-30° 40°
2素子,4 cm間隔
ICAに基づくBSSの問題点
そもそも音声ってどのくらい独立なの
→ 狭帯域分割信号は独立なのか?
→ ICAで分離できる性能の限界はどの程度か
ICAは本質的に非線形最適化問題を含む
→ 局所最適解への落ち込み
→ 収束性能の悪化
狭帯域信号(実部,1 kHz)
Male 1
Male 1
Male 2
Male 2
32分割
相関大
2048分割
周波数帯域分割数と分離性能
分離性能劣化
14
RT=150msec
SNR [dB]
12
RT=300msec
10
11.896
9.944
9.569
9.527
8.637
8.018
8
7.356
6.122
6
12.736
12.132
7.581
6.906
5.729
5.059
4
2
0
32
64
128
256
512
Number of Subbands
1024
2048
帯域分割数と独立性の関係
一般に,複雑な音場(長い残響等)に対応す
るには周波数帯域分割数を増やす必要あり.
しかし周波数領域ICAでは…
分割数を過度に増やすと狭帯域信号間の
独立性が低くなるため,分離性能が劣化する.
帯域分割数を増やすことが決して分離性能向
上にはつながらない.
周波数領域ICAの性能限界を与える重大な問題
ICAに基づくBSSの問題点
そもそも音声ってどのくらい独立なの
→ 狭帯域分割信号は独立なのか?
→ ICAで分離できる性能の限界はどの程度か
ICAは本質的に非線形最適化問題を含む
→ 局所最適解への落ち込み
→ 収束性能の悪化
収束改善法:ICAとBFを統合したBSS
独立成分分析(ICA)
ビームフォーミング(BF)
統一感のある情報源
音源のある方位に
を脳の内部で分類化
聞き耳を立てる
Aさんの声
音源間の質に着目
音源の位置に着目
両者間の対応付け・反復射影処理を用いる
ことにより、非独立または収束性の低い周
波数帯域における分離性能を向上させる。
反復学習内ダイバーシチ
Init W ( f )
ˆ l
ICA
ONE TIME
W ( f ):
BF
W
BF
(f)
DOA Estimation
W
ICA
(f)
Diversity with Cost Function
W (f)
else
if final
W (f)
Ordering & Scaling
W (f)
ˆ l
各周波数帯域
での音源分離
フィルタ
実験条件
素子間隔 4 cm の 2 素子アレー
音源 :
• 方位 -30°, 方位 40°の 2 音源
• 男性2名,女性2名による総当り組合せ
• 2種類の短文(3秒)を発声
音響条件 :
• 残響時間 RT= 0.15, 0.3 sec
評価基準 :
• 出力SNR [dB] – 入力SNR [dB]
• 各音源組合せ(12通り)の平均値を図示
実験結果:残響時間0.15 secの場合
改善法は高速・高分離性能
実験結果:残響時間0.3 secの場合
実験結果:ICAとBFの選択状況
性能向上の鍵は…
×: BFが選択されたことを示す
1. 反復初期におけるBF利用
→最適解近傍へ早く近づく
2. 反復後期ではICAによる最適化
→残響系逆フィルタをブラインド推定
3. 非独立な帯域はBFで近似
今後の展開
ICAによるBSSはどこへ行くのか?
• 数理解析上での進展
• 実際の音環境を取り扱えるには未だに至っていな
い.
• 共通の音源分離用データベースによる相互比較
• オンライン学習の高精度化(動く音源の分離)
現在: 解ける問題のみ机上で解いていた
今後: 実環境においていかにしてICAの実力を発揮させるか