講義資料4-2 - 奈良先端科学技術大学院大学

Download Report

Transcript 講義資料4-2 - 奈良先端科学技術大学院大学

音響信号処理特論
音響信号処理の基礎2(その2)
新しい音場再現の試み
2013年6月21日
猿渡 洋
国立大学法人
奈良先端科学技術大学院大学
目次
• バイノーラル vs. トランスオーラル?
• 「超臨場感」から「創臨場感」へ
• 様々な音場再現手法の位置づけ
– ディスクリートサラウンド
– トランスオーラルシステム
– 我々が目指す音場再現
• 我々の研究紹介
– 物理モデル
– ストラテジー
– アルゴリズム
• 音場再現例
• まとめと今後の課題
研究背景
• オーディオの音場再生技術
モノラル→ステレオ→5.1chサラウンド
臨場感あふれる音の再生
問題
再現を行う音場において収録音を忠実に再現すること
は可能であろうか?
究極の臨場感
収録音場の空間情報を精密にコピー
音場の再現とは?
ダミーヘッド+マイクロホン
室内音響伝達特性
逆システム
原音場
再現音場
音の「移動感」「距離感」「包囲感」の完全な再現
コンサートホール(原音場)における受聴者周辺の音空間(音場)を
リスニングルームにて再現
全ての音響情報の保存と再現
再現規模による分類
• 空間上の点を制御
– バイノーラルシステム
– トランスオーラルシステム
耳元周辺の制御
• 空間上のフィールドを制御
– 境界音場制御
– 多点入力・多点出力のトランス
オーラルシステム
(多チャネル音場再現システム)
頭部周辺の制御
ハードウェア的な分類
• 没入型
– デバイスを身に付けることにより,仮想世界の合成
情報以外の感覚情報を遮断する
– ヘッドホン,HMD などを使用する
• 開放型
– 特定のデバイスを身に付けずに,日常生活におい
て違和感のない仮想世界を実現する
– ラウドスピーカなどを使用する
バイノーラルシステム
Inverse
System
Head And Torso Simulator (HATS)
原音場
聴取者
• ダミーヘッド(もしくはHATS)を用いて収音,ヘッドフォン
で再生
• システムが簡易
• 聴取者の頭部回転や移動に弱く,音像が頭内定位する
トランスオーラルシステム
Inverse
System
原音場
再現音場
• ダミーヘッドで収音,2個以上のスピーカで再生
• 再現音場の伝達特性を考慮するため,逆フィルタ
を使用(残響やクロストークの抑圧)
• 特別な装着器具が不要
多チャネル・トランスオーラルシステムの作り方
H11
H21
G11
G12
G21
G31
H31
H12
H22
•
•
•
•
H32
G22
G32
原音を収録
再現する系の室内伝達関数を測定
伝達関数のインパルス応答から逆フィルタを設計
収録した原音に逆フィルタを畳み込む
広範囲での高精度音場再現
その一例:境界音場制御 [伊勢, 1997]
広い範囲で場の制御が可能なシステム
原音場
音源
制御したい
領域
制御点
再現音場
逆フィルタ
マイクロホン
非常に多数の点を制御する必要があり,
現実的な装置では実現が困難
制御する領域
バイノーラル vs. トランスオーラル
良い
装置規模・コスト
実現可能性
使用感・装着感
受聴エリア
少ない装置規模で実現
できる、受聴エリアの
広い技術はないのか?
悪い
バイノーラル
トランスオーラル
超多チャネル再現
(境界音場制御)
「超臨場感」から「創臨場感」へ
良い
装置規模・コスト
実現可能性
使用感・装着感
受聴エリア
原音忠実度だけでは
なく、ユーザが自由に
臨場感を制御できる
システム
→「創臨場感」
悪い
バイノーラル
トランスオーラル
超多チャネル再現
(境界音場制御)
様々な音場再現と我々が目指すシステムとの位置づけ
広範囲での場の制御
境界音場制御 (場の制御)
波面の制御による広範囲の場の近似
波面の制御
限られた点での場の制御
点制御
・トランスオーラルシステム
・ディスクリートサラウンド
・スピーカアレイによる波面合成 (MINT法)
特徴
・仮想臨場感
・受聴エリアが広く,ユーザ移動に頑健
特徴
・忠実再現
・受聴エリアが狭く,ユーザ移動に脆弱
様々な音場再現と我々が目指すシステムとの位置づけ
広範囲での場の制御
境界音場制御 (場の制御)
波面の制御による広範囲の場の近似
波面の制御
限られた点での場の制御
点制御
・トランスオーラルシステム
・ディスクリートサラウンド
・スピーカアレイによる波面合成 (MINT法)
特徴
・仮想臨場感
・受聴エリアが広く,ユーザ移動に頑健
特徴
・忠実再現
・受聴エリアが狭く,ユーザ移動に脆弱
点制御と波面制御を両立させた音場再現
ディスクリートサラウンド -波面の制御• ユーザを囲むスピーカ間での振幅・位相パンに
より,仮想臨場感再生
– ステレオフォニックや5.1ch サラウンドシステム
特徴
○ユーザ移動に頑健
△再現精度には限界がある
再生用スピーカ
受聴エリア
トランスオーラルシステム -点制御• バイノーラル録音をラウドスピーカで再現
• 室内伝達特性の逆フィルタを使用
• Multiple input/output INverse Theorem (MINT)
[Miyoshi et al.,1988]
– (再生スピーカ数)>(制御点)とすることにより厳密な室内伝達関数
の逆フィルタを設計可能
原音場
再現音場
ラウドスピーカ
音源
収録音
♪
♪
♪
♪
♪
制御点
ダミーヘッド
・
・
・
逆フィルタ
トランスオーラルシステム -点制御制御点で忠実再現が可能
原音場
音源
収録音
♪
♪
♪
♪
再現音場
スピーカ
x
♪
♪
♪
♪ ♪
♪
♪
G H  I
g11
S1
逆フィルタ
H
再現音
y
g21
・
G
・
g1M 
・
SM
室内
G2M 
伝達特性
単位行列化
y  GHx  x
トランスオーラルシステムの一例:(従来法)
Moore-Penrose一般逆行列を用いた音場再現 [神沼ら,2001]
• 逆フィルタにMoore-Penrose(MP)型一般逆行列を用いる
伝達関数行列に特異値分解を適用
1   0
 H
G   U   
O2,M 2  V  
 0 2 

1, 2 
特異値
U,V  :ユニタリ行列
1


一般逆行列
0
   

1

 H

1   U  
G    V    0

2  


  
 SMS2,
2 
任意性のあるサブスペース
トランスオーラルシステムの一例:(従来法)
Moore-Penrose一般逆行列を用いた音場再現 [神沼ら,2001]
• 逆フィルタにMoore-Penrose(MP)型一般逆行列を用いる
伝達関数行列に特異値分解を適用
1   0
 H
G   U   
O2,M 2  V  
 0 2 

1, 2 
特異値
U,V  :ユニタリ行列
 1

MP型一般逆行列
0 
   
1

Λ 1  H


G    V    0
  U  

2  


  
S2
 S MO
, 2 
 
サブスペースをゼロとし,任意性を固定
一般逆行列を用いた音場再現のイメージ
 Λ  H
G    V  
U  

 S  

耳にヌルスペース
耳だけ精密再現
両者の重ね合わせで音場は形成される
一般逆行列を用いた音場再現のイメージ
 Λ  H
G    V  
U  

 S  

制御点において忠実再現を行うが、制御点以外は未保証
よってユーザ移動によって再現性が劣化
MP型一般逆行列を用いた音場再現のイメージ
 Λ  H
G    V  
U  

O 

制御点において忠実再現
ユーザ移動によって再現性が劣化
一般逆行列の任意性のあるサブスペース
 Λ  H
G    V  
U  

 S  

MP型一般逆行列
一般逆行列
制御点における再現性に影響を与えないサブスペース
→自由に設定することが可能(ここを利用できないか?)
様々な音場再現と我々が目指すシステムとの位置づけ
境界音場制御 (場の制御)
波面の制御
点制御
点制御と波面制御を両立させた音場再現
・トランスオーラルシステム
・ディスクリートサラウンド
・スピーカアレイによる波面合成 (MINT法)
特徴
・仮想臨場感
・受聴エリアが広く,ユーザ移動に頑健
特徴
・忠実再現
・受聴エリアが狭く,ユーザ移動に脆弱
我々が目指す音場再現システム
• 波面の制御と点制御を両立させた音場再現
– 忠実再現かつ広い受聴エリアを
限られたスピーカで実現
ラウドスピーカ
受聴エリア
制御点
・
・
・
両立
点制御
波面の制御
我々が目指す音場再現のイメージ
単純な足し合わせでは
制御点における忠実再現が成り立たなくなる
点制御と波面制御を両立した音場再現
我々が目指す音場再現のイメージ
制御点において忠実再現
制御点以外において波面制御
MINTによる再現精度とサラウンドが持つ定位範囲を
併せ持つ音場再現
我々が目指す音場再現のイメージ
 Λ  H
G    V  
U  

 S  
サブスペースに
P
波面近似フィルタを埋め込む
我々が目指す音場再現のイメージ
 Λ  H
G    V  
U  

 S  
サブスペースに
P
波面近似フィルタを埋め込む
制御点において忠実再現
制御点以外では波面制御
様々な音場再現手法のまとめ
• 様々な観点での比較
実現性
ユーザ移動に 再現精度
よる頑健性
×
○
○
ディスクリートサラウンド 波面制御 ◎
○
△
トランスオーラルシステム
◎
×
○
◎
○
○
境界音場制御
(MP一般逆行列を用いた手法)
我々が目指す手法
点制御
サラウンドの持つ定位範囲とMINTによる再現精度とを併せ持つ手法
サブスペースの決定方法
• 波面の制御法
– 原音の方位のスピーカのみを鳴らす
T () (方位強調フィルタ)
を設計
具体的には 0
1
0
0
0
0
0
0
行列で表すと・・
方位強調フィルタの例
0

1
Tij (ω)  
0

0
0
i=スピーカ数 
0

j=制御点数
0

1
0

0
0

0

サブスペースの決定方法(続き)
M:スピーカ数
N:制御点数
非正方行列の一般逆行列
任意性のあるサブスペースが存在
 Λ() H
G ()  V ()     U ()
 S ()

U  V  :ユニタリ行列
Λ :特異値を要素とする対角行列
サブスペースの決定方法(続き)
M:スピーカ数
N:制御点数
求める逆フィルタ
 Λ()
 H
H ()  V ()  
  U ()
H
Vi  N 1~M , N ()T ()U ()
U  V  :ユニタリ行列
Λ :特異値を要素とする対角行列
一般逆行列と方位強調フィルタの距離最小化
一般逆行列
G  

MP型一般逆行列(任意項を0と固定)
方位強調フィルタ T ()
最適な逆フィルタ
[宮部 他,2006]
本システムの課題点
•
問題点
– 方位が既知である単一音源しか扱えない
複数音源のバイノーラル録音に対応できない
課題
複数音源のバイノーラル録音にどう対応したらよいか?
新しい物理モデルの導入
• 音源が2個までの場合
– ブラインド音源分離等で各音源を抽出し、推定された音源
方位から音を出す [猿渡 他、2006]
• 音源が3個以上の場合(一般的なソース)
– 2 ch入力から音源を個別に推定できないので、上記の方法
を用いることはできない
複数音源を扱える手法を構築するために
複数音源が形成する波面の新しいモデル化を導入する
[湯山、宮部 他、 2008]
→Binaural Cue Coding(低ビットレート圧縮符号化法)
から着想を得たモデル [Faller et al.,2003]
提案法で用いる物理モデル
複数音源が重なり合った波面を直接扱える物理モデル
音源毎の単一波面
・形状が定常な波面
複数音源の波面の重ね合わせ
・形状が非定常な波面
→非定常な音源信号の振幅や位相により重み付けられる
複数音源の足し合わせによる単一音源とみなすと,
その単一音源により形成される波面は単一波面
瞬時時刻・周波数毎に方位が変化
この単一波面の変化を方位でモデル化し,
時変システムで追従・再現できればよい
提案法で用いる物理モデル
複数音源が重なり合った波面を直接扱える物理モデル
音源毎の単一波面
・形状が定常な波面
複数音源の波面の重ね合わせ
・形状が非定常な波面
→非定常な音源信号の振幅や位相により重み付けられる
複数音源の足し合わせによる単一音源とみなすと,
その単一音源により形成される波面は単一波面
瞬時時刻・周波数毎に方位が変化
この単一波面の変化を方位でモデル化し,
時変システムで追従・再現できればよい
提案法で用いる物理モデル
複数音源が重なり合った波面を直接扱える物理モデル
音源毎の単一波面
・形状が定常な波面
複数音源の波面の重ね合わせ
・形状が非定常な波面
→非定常な音源信号の振幅や位相により重み付けられる
複数音源の足し合わせによる単一音源とみなすと,
その単一音源により形成される波面は単一波面
瞬時時刻・周波数毎に方位が変化
この単一波面の変化を方位でモデル化し,
時変システムで追従・再現できればよい
提案手法のストラテジー
瞬時時刻・周波数毎に重ね合わせ波面を解析・再現
• 短時間・狭帯域で重ね合わせ波面の方位推定
→その推定方位にパンを振ることで,複数音源の音を提示可能
周波数
…
…
…
…
37°
…
…
…
12°
…
…
…
-33°
-22°
…
…
時間
提案手法のアルゴリズム
• 以下の手順に基づいて,特定方位を強調する
逆フィルタを短時間・狭帯域毎に変化させ,フィルタリング
原音場
♪♪
♪
♪
♪
STEP1
短時間
フーリエ
変換
ITD・ILD
を用いた
狭帯域
方位推定
STEP2
強調
遅延や
ラウド
ゲインの
スピーカ
補正
割り振り
STEP3
サブスペース
埋め込み
再現
オーバー
ラップ
加算法
・
・
・
一般逆行列
[STEP.1] 短時間・狭帯域音源方位推定
[STEP.2] 推定された方位にパンを振る
フィルタ係数の決定および遅延・ゲインの補正
[STEP.3] 任意性のあるサブスペースに埋め込み
時変型方位強調フィルタの設計
[STEP.1]
• ITD・ILDを用いた水平面における狭帯域方位推定法 [H. Viste et al.,
2004]
・バイノーラル音方位推定の際に重要となる二つの手がかり
併用することで精度良く
- ITD(両耳間時間差) →低域で効果的
バイノーラル信号の方位推定が
- ILD(両耳間レベル差) →高域で効果的
可能
手順1:ITDにより推定方位の候補を算出
(空間エイリアシングが起こるため)
手順2:ILDにより算出した推定方位を用いて
ITDによる推定方位の候補を絞り込み
:ITDより算出した推定方位候補
:ILDより算出した推定方位
・周波数帯域によってITD・ILD・ITDILD併用を使い分け
ITD
0
ITDILD併用
1000
2000
ILD
6000 Frequency [Hz]
時変型方位強調フィルタの設計 (cont’d)
[STEP.2]
[STEP.3]
• 時間・周波数毎の
強調ラウドスピーカの割り振り
• サブスペース埋め込み
一般逆行列と時変型方位強調フィルタの距離最小化
Sine law に基づき
強調ラウドスピーカの重み付けを決定
一般逆行列
Lm1
G   
推定方位

t2
t1
Lm2
m1
m2
MP一般逆行列
提案手法逆フィルタ
時変型方位強調フィルタ
強調
ラウドスピーカ
M:スピーカ数
N:制御点数
求める逆フィルタ
 ΛN ()
 H
H (, t )  V ()  
  U ()
H
Vi  N 1~ M , N () E (, t )U ()
提案音場再現法の位置づけ
音場再現
波面制御
複数音源の重ね合わせ波面を
直接解析し,再現
制御点
・・・点制御
制御点以外・・・波面制御
点制御
一般逆行列により
制御点において忠実再現
受聴位置毎に
使い分けることで両立
点制御と波面制御を両立した音場再現
提案法と「創臨場感」との関係
音場再現
波面制御
複数音源の重ね合わせ波面を
直接解析し,再現
点制御
一般逆行列により
制御点において忠実再現
音源種類別に波面提示関数を変更すれば、
臨場感自体を編集可能 [例:原口、宮部 他、2007]
ユーザの好みにあわせて臨場感を創る
使用音源
Piano, Drum
and
Flute of 5s
一次音源方位
組み合わせ
(-60, 0, 60)
(-90, -30, 30)
(-30, 30, 90)
[deg]
二次音源数
10
制御点数
2
残響時間
160 [ms]
標本化周波数
48 [kHz]
量子化精度
16 [bit]
インパルス応答長 9600 [points]
3.90 [m]
実験条件
0.17 [m]
3.90 [m]
強調
二次音源
ラウドスピーカ
制御点
一次音源
素子間隔
0.17 [m]
使用窓
ハニング窓
FFT点数
16384 [points]
窓長
16384 [points]
制御帯域
150~6000 [Hz]
ゼロオーバーラップ長
4096 [points]
シミュレーション実験 -制御点における再現精度評価尺度
SNR [dB]  10 log


n
n
y(n)
2
y(n)  yˆ (n)
2
y(n) :原信号
yˆ (n) :制御点における再現信号
Conventional
(Drum, Piano, Flute) method with MP
(-60°,0°, 60°) 50.8 [dB]
Proposed
method
(-30°,0°, 30°) 51.0 [dB]
50.0 [dB]
49.3 [dB]
制御点における再現精度について,
僅かな再現性の劣化は見られるものの
聴感上は問題のないレベルだといえる
主観評価実験 -制御点以外における音質・制御点から前に30 cm 移動したときの再現信号をヘッドホン受聴により比較
・音源の配置や曲を変え、4つの刺激を与えた
・被験者は男性7名
(a):原信号
(b):バイノーラル録音ステレオ再生
(c):MP一般逆行列を用いた従来法
(d):提案手法
・時変型方位強調フィルタは非線形な処理により、
バイノーラル録音ステレオ再生や従来法と比べて
ミュージカルノイズが発生し音質の劣化が懸念される
・提案手法(埋め込み後)は逆フィルタによりミュージカルノイズがマスクされる
大幅な音質の劣化はなく、問題のないレベルだといえる
主観評価実験 -制御点以外における定位感精度実験手順
1. -90°から90°まで30°間隔の7方位から流したドライソースを聞かせる
2.一次音源・バイノーラル録音ステレオ再生・従来法(MP型)・提案法を
ランダムに聞かせ,音像の定位場所を前方の7方位より強制選択してもらう
被験者には実験を3回行ってもらう
1回目の実験:ピアノ演奏音
2回目の実験:ドラム演奏音
3回目の実験:フルート演奏音
• 使用音源: ピアノ演奏音とドラム演奏音とフルート演奏音の計3種類
• 被験者: 男性6名・女性1名の計7名
• 提示する音の数: 6セット
(音源方位組み合わせが3パターンでそれぞれに対し音源位置入
れ替えを行って得られた計6セット)
※ 制御点から前にずれた場所での評価
実験環境
3.90 [m]
右の写真のような環境下で
主観評価実験を行った
0.17 [m]
3.90 [m]
強調
二次音源
ラウドスピーカ
制御点
一次音源
残響時間:160 ms
真ん中の段のスピーカ10個を使用
実験結果 -制御点以外における定位感精度-
Perceived directions [deg]
(1) Primary source
90
60
30
0
-30
-60
-90
(2) Stereo playback
90
60
30
0
-30
-60
-90
-90 -60 -30 0 30 60 90
(3) Conventional method
-90 -60 -30 0 30 60 90
(4) Proposed method
90
60
30
0
-30
-60
-90
90
60
30
0
-30
-60
-90
-90-60 -30 0 30 60 90
-90-60 -30 0 30 60 90
Target direction [deg]
図 ピアノ演奏音の回答方向
実験結果 -制御点以外における定位感精度-
Perceived directions [deg]
(1) Primary source
90
60
30
0
-30
-60
-90
(2) Stereo playback
90
60
30
0
-30
-60
-90
-90 -60 -30 0 30 60 90
-90 -60 -30 0 30 60 90
(3) Conventional method
(4) Proposed method
90
60
30
0
-30
-60
-90
90
60
30
0
-30
-60
-90
-90-60 -30 0 30 60 90
-90-60 -30 0 30 60 90
Target direction [deg]
図 ドラム演奏音の回答方向
実験結果 -制御点以外における定位感精度-
Perceived directions [deg]
(1) Primary source
90
60
30
0
-30
-60
-90
(2) Stereo playback
90
60
30
0
-30
-60
-90
-90-60 -30 0 30 60 90
(3) Conventional method
90
60
30
0
-30
-60
-90
-90-60 -30 0 30 60 90
(4) Proposed method
90
60
30
0
-30
-60
-90
-90-60 -30 0 30 60 90
-90-60 -30 0 30 60 90
Target direction [deg]
図 フルート演奏音の回答方向
実験結果 -制御点以外における定位感精度-
Perceived directions [deg]
(1) Primary source
90
60
30
0
-30
-60
-90
(2) Stereo playback
90
60
30
0
-30
-60
-90
-90-60 -30 0 30 60 90
(3) Conventional method
90
60
30
0
-30
-60
-90
-90-60 -30 0 30 60 90
(4) Proposed method
90
60
30
0
-30
-60
-90
-90-60-30 0 30 60 90
-90-60 -30 0 30 60 90
Target direction [deg]
図 全体での回答方向
実験結果 -制御点以外における定位感精度-
すべての音源において従来法より提案法の方が定位感精度が良い
制御点以外で複数音源の方位を提示可能なことが確認された
まとめと今後の課題
•
•
•
様々な音場再現手法の位置づけを説明した
従来法や先行研究の問題点を指摘した新しい物理
モデルを導入し,波面制御と点制御を両立させ、か
つ複数音源も扱える音場再現手法を提案した
今後は、様々なタイプの波面埋め込み方法を試し、
より高品質な音場再現を実現するとともに、ユーザ
による臨場感制御技術との融合を図る。
参考文献:
1.
2.
3.
H. Saruwatari et al., WESPAC IX, 2006. (近似波面埋込)
S. Miyabe et al., IWAENC06, 2006. (近似波面埋込+BSS)
Y. Yuyama et al., ICASSP08, 2008 (近似波面埋込+BCC)
4.
Y. Haraguchi et al., ICASSP08, 2008.(臨場感操作)