講義資料3 - 奈良先端科学技術大学院大学

Transcript 講義資料3 - 奈良先端科学技術大学院大学

音響信号処理特論
音響信号処理の基礎
－雑音抑圧など－
奈良先端科学技術大学院大学
情報科学研究科音情報処理学講座
猿渡洋
（2013年6月7日）
音声とは？
音声信号の特徴
• 人間の口から発せられる言語構造をもつ信号
• 基本周波数：
• 男性平均125 Hz
• 女性平均250 Hz
• スペクトル構造：
• 長時間平均的には800 Hzまではほぼ平坦，
• 800 Hz以上は -10 dB/octの傾斜をもつ
比較的低周波数帯域にエネルギーが集中する信号
実環境における音声処理
我々が耳にすることができる音声信号は…
• 口から発せられた原音声信号は，空気を媒体とし
て伝達され，耳（マイクロホン）に到達する．
• 伝送の際に様々な変形が加わる．
実環境における変形要因
• 加法性変形：環境騒音，妨害話者
• 乗法性変形：室内残響（室内伝達関数），
受音系装置の音響歪
• その他の変形：実環境における発話状態変化
（Lombard効果）
実環境における変形要因
加法性変形
雑音
雑音等の干渉
n(t )
原音声
信号
s(t )
乗法性変形
反射による残響歪
sˆ(t )
H( f )
我々が実際に受け取ることのできる信号は…
sˆ(t )  IFFTH ( f )  s(t )  n(t )
？
加法性変形
雑音の特性
• 尺度：信号対雑音電力比（SN比）
2
E[s (t )]
SNR  10log10
2
E[n (t )]
[dB]
• 種類：計算機雑音，自動車雑音，話し声，音楽…
実環境における雑音のレベル
•
•
•
•
静かなオフィス： 45～50 dBA
広いオフィス： 60～70 dBA
走行自動車内： 65～75 dBA
ジェット機コクピット： 90 dBA以上
加法性変形 (cont’d)
1 m離れた場所での音声信号のレベルは…
• 普通の強さで発声される会話音声（男性）： 66 dB
• 普通の強さで発声される会話音声（女性）： 63 dB
一般に75 dB以上のレベルで発声されることはまれ
実環境でのSNR
•
•
•
•
静かなオフィス： 30～25 dBA
広いオフィス： 15～5 dBA
走行自動車内： 10～0 dBA
ジェット機コクピット： -15 dBA以下
常に実環境では雑音を意識しておく必要あり
乗法性変形
残響による空間伝達特性
• 尺度１：残響時間（音を停止してからエネルギーが-60
dB減少するまでの時間）
• 尺度２：波形歪（源波形からの変形を雑音とみなす
SNR)
• 尺度３：スペクトル歪（振幅スペクトル上でのSNR）
一般に、部屋の各壁の吸音率が小さく体積が大きい部屋
ほど残響時間が長く、音声への影響が大きい
実環境における残響時間例
•
•
•
•
自動車内
：
通常室内（小）：
会議室
:
コンサートホール：
80～100 msec
300 msec以上
700 msec以上
2000 msec以上
スペクトル変形
スペクトル変形
＋波形変形
その他の変形（発話状態変化）
Lombard効果
• ひどい雑音，過度の残響などにより，発話者か
ら発声される音声自身が変形してしまう現象
具体的な変形例
•
•
•
•
第一ホルマントの上昇
第二ホルマントの下降
スペクトルの傾きの変化
母音継続長が長くなる
実環境における変形音声例
原音声
加法性変形
• 白色雑音 SNR 20 dB
• 白色雑音 SNR 0 dB
• 有色雑音 SNR 0 dB
乗法性変形
•
•
•
•
壁による一次反射のみ
残響時間 400 msec
残響時間 900 msec
残響時間 2500 msec
加法性＆乗法性変形
• 白色雑音（SNR=20 dB）＆残響時間900 msec
実環境における信号処理
加法性変形に対する処理
•
•
•
•
•
スペクトルサブトラクション
ウィーナーフィルタ
櫛形フィルタ
ノイズキャンセラ
マイクロホンアレー
1入力，装置規模小
多点入力，装置規模大
乗法性変形に対する処理
•
•
•
•
ケプストラム正規化
逆フィルタ
適応エコーキャンセラ
MINT法
1入力，装置規模小
多点入力，装置規模大
スペクトルサブトラクション
基本原理：
• 雑音が定常であることを利用して，非音声区間
の信号より雑音の特徴量を推定しておき，雑音
混じりの音声の特徴量から雑音成分を取り除く．
Noisy Speech
α
St-DFT
Silence
Noise
Analysis
Detection
Estimation
Amplitude
Phase

St-IDFT

Output
Speech
スペクトルサブトラクション (cont’d)
具体的な信号処理：
時刻ｔでの雑音混じり信号を y(t ) ，
真の音声信号を s(t ) ，
雑音信号を n(t ) とする．
その時観測される信号は以下で与えられる．
y(t )  s(t )  n(t )
窓の位置をmで表した短時間フーリエ分析により
上の関係は周波数領域にて以下のように書ける
Y ( f , m)  S ( f , m)  N ( f , m)
スペクトルサブトラクション (cont’d)
本方法では以下のようにして信号推定を行う．
• 雑音信号を定常と仮定し，振幅スペクトルは入力
y(t ) から推定雑音を減算したものとする．
• 位相に関しては，入力信号のものを使用する．
この方法により推定される出力信号は…
Sˆ ( f , m)  | y( f , m) |  Em | N ( f , m) |

ここでは
Em | N ( f , m) |


, 


1/ 
e
j argY ( f ,m) 
：非音声区間で推定した雑音
：減算調節パラメータ
一般に  は2程度，  は1 or 2
スペクトルサブトラクション (cont’d)
本方法における利点は…
• 構造が単純．
• 定常雑音であれば抑圧効果大．
本方法における問題点・課題は…
•
•
•
•
雑音抑圧によりミュージカルトーンが発声
音声・非音声をどのように区別するか．
非定常な雑音にどのように対処するか．
減算調節パラメータをどのように決定するか．
スペクトルサブトラクション例
原音声
雑音付加音声
（SNR=0 dB, 白色雑音）
回復処理音声
櫛形フィルタ
基本原理：
• 音声が周期的な波形（周波数領域ではハーモ
ニクス構造を持つ）であることを利用して，音声
の基本周波数F0を推定しておき，雑音混じりの
音声信号に対してｎF0成分（ｎは整数）のみを
強調するハーモニクス構造フィルタを構成する．
観測信号周波数特性
櫛形フィルタ
出力信号
音声
雑音
F0
→ｆ
＝
×
F0
→ｆ
F0
→ｆ
櫛形フィルタ (cont’d)
本方法における利点は…
• 音声のハーモニクス構造を陽に利用．
• 非定常な雑音にもある程度対応可能．
本方法における問題点・課題は…
• 基本周波数を雑音中にどう推定するか．
• 「櫛の形」をどのように調節するか．
• ハーモニクス構造を持たない子音の回復．
ノイズキャンセラ
基本原理：
• ２本のマイクロホン（主マイクと参照マイク)を用意
する．主マイクでは音声と雑音が観測され，参照
マイクでは雑音のみが観測できると仮定する．同
時刻の雑音を参照マイクで受音して，主マイクで
の雑音混じり音声より差し引く．
• この際に，参照マイクから主マイクへの伝達特性
を適応的に同定する適応フィルタが使用される．
ノイズキャンセラ (cont’d)
構成図：
Speech
Primary Microphone
s(t )
s(t )  n( p) (t ) 
n( p) (t )
nˆ ( p) (t )
sˆ(t )

Output
Speech
e(t )
Adaptive
Noise
n( r ) (t )
Filter
Reference
Microphone
n( p) (t )
と
n( r ) (t ) は伝達経路が異なることに注意
ノイズキャンセラ (cont’d)
具体的な信号処理：
主マイク信号を y(t ) ，音声信号成分を s(t ) ，
( p)
雑音信号を n (t ) とすると以下が成り立つ．
y(t )  s(t )  n (t )
( p)
参照マイクでの雑音信号に適切なフィルタ h を
かけ主マイク信号から減算し，誤差 e(t ) を算出．
T
e(t )  y(t )   nˆ (t  i)h(i)  y(t )  h n
(r)
T
(r)
i 0
where h  h(0), h(1),..., h(T ) ,
T
n  nˆ (t ), nˆ (t  1),..., nˆ (t  T )
(r)
(r)
(r)
(r)
T
ノイズキャンセラ (cont’d)
音声信号 s(t ) と雑音信号 n( p) (t ) ， n( r ) (t ) に
おいて相関が無いと仮定すると，誤差のパワー J
は以下で与えられる．
J  Ee(t )2   E{s(t )  n( p) (t )  hT n( r ) }2 
 Es(t )   En (t )   h Rh  2d h
2
( p)
2
T
T
where R  En (n )  , d  En (t )n 
この J を h に関して最小化することにより，
最適フィルタ係数 h( opt) が以下のように得られる．
(r)
( opt)
h
(r) T
1
R d
( p)
 (1)
(r)
ノイズキャンセラ (cont’d)
式（1）を用いて最適なフィルタ係数を求めるには，
音声信号が無い時間に n( p) (t ) のみを観測して
d を推定しておく必要がある．
→ 実際上は困難である場合も多い
そこで，LMS（Least Mean Square）法によって
準最適なフィルタ係数 h を逐次推定する．まず
J の h に関する瞬時勾配は
e(t )2
e(t )
 2e(t )
 2e(t )n( r ) (2)
h
h
ノイズキャンセラ (cont’d)
LMS法では式（2）の瞬時勾配を誤差期待値の
代用とする．よって最急降下法が適用でき，以下
の更新式を得る．
hj1  hj    2e j (t )n
(r)
(3)
ここで j は， j 回目の反復における値である
ことを表し，  はステップサイズパラメータである．
式（1）に比べて，式（3）で推定されるものは，多少
揺らぎながらも真値に収束することが知られている．
ノイズキャンセラ (cont’d)
本方法における利点は…
• 適応的に雑音をほぼ完全に消去できる．
• 式（3）を使えば非定常・移動雑音にもある程
度対応可能．
本方法における問題点・課題は…
• 式（1）を用いる場合は無音区間推定が必要
• 式（3）では収束性が問題となる
• 参照マイクの配置に大きく依存
マイクロホンアレー
基本原理：
• ２本のマイクロホンシステムをさらに拡張
→ 多点受音処理系を構成
• 複数のマイクロホンを並べたものを
マイクロホンアレーと呼ぶ。
• 空間選択性を持ち，音声源の方位から到来する
信号のみ強調し雑音源を抑圧することが可能
• 指向特性（空間に対してアレーが形成する利得
の分布）によって，その性能を評価・図示できる．
マイクロホンアレーの歴史
両耳による音源方位の同定
（生物自身が持つアレー）
第一次大戦中フランス軍が
使用した音響アレー装置
音源のある方位に
聞き耳を立てる
From “Array Signal Processing”, D. Johnson
ディジタル信号処理技術の進歩とともに発展
マイクロホンアレーの構造
基本構造：
・多数のマイク素子を規則的に配列
・各素子の後段にフィルタを接続
・各素子でのフィルタ出力を総和
素子配列形態，フィルタ特性を
変化させることにより性能可変
Microphone
Speech
Filter
Filter
Noise
Filter
Array
Output
Σ
マイクロホンアレーの種類
加算型アレー：
• 目的信号の到来方位に鋭い指向特性を形成
• 例： Delay and Sum（遅延和）アレー
Filter and Sum アレー等
構造単純
減算型アレー：
• 雑音の到来方位に指向特性の死角を形成
• 例：死角制御型ビームフォーマ
適応型ビームフォーマ
性能対装置
サイドローブキャンセラ等
規模が優秀
加算型アレー
基本原理：
• 目的信号を同相化し，その到来方位（これを目的
方位; look directionという）に「メインローブ」と呼
ばれる鋭い指向性を形成する．
• 目的方位以外には，できるだけ低い利得を形成
し，雑音の混入を防ぐ．この目的方位以外に形成
される利得パターンのことを「サイドローブ」という．
メイン
ローブ
目的音
サイドローブを低
くすれば雑音を抑
圧可能
θ
遅延和アレー設計例
設計条件：
• 目的方位は0度，一様素子荷重係数を使用
• 素子数8，素子間隔5 cmの等間隔直線アレー
低い周波数ほど鋭い指向特性が形成困難になる
グレーティングローブによる劣化
• 8 kHzにおける指向特性（8素子5 cm間隔アレー）
メインローブ（0°方向）以外にも大きなローブが形成される．
これは「波長に対して素子間隔が広すぎる」ために生じた折
り返し歪でありグレーティングローブと呼ばれる．
加算型アレーの性能限界
周波数とメインローブ幅
（一様荷重係数の場合）
 width
波長
 50  アレー長 [°]
低周波数帯域にて狭い
メインローブを構成する
ことは困難
周波数とグレーティングローブ
グレーティングローブを避
けるための素子間隔条件
素子間隔＜波長/２
高周波数帯域において
はグレーティングを避け
ることは困難
高い・低いどちらの周波数帯域でも使用するには…
マイク素子を密に（グレーティングローブ対策）
かつ大量に（アレー長を増やすため）並べたアレーが必要
加算型アレーによる音声回復例
原音声
音声
雑音
残響が無い場合
• 単一マイクロホン
• 遅延和アレー
-50°
…
8素子，５ cm間隔
残響がある場合（残響時間＝400 msec）
• 単一マイクロホン
• 遅延和アレー
減算型アレー
基本原理：
• 各素子出力を雑音方位に関してまず同相化し，
その後，全素子の重み和が0になるように加算す
る．つまり，素子間にて雑音成分を減算している
ことになる．
• 上記処理は，指向特性上おいて，雑音方位に鋭
い「死角」を形成していることを意味する．
目的音
雑音に死角をあてる
θ
適応型アレー
基本原理：
• 雑音の到来方位を事前に知ること無く，「アレー
出力を最小にする」という規範のもとで，指向特
性を最適化する．これにより，限られたマイク素
子においても，効率的に雑音を抑圧可能である．
• 素子荷重係数の最適化には適応フィルタ理論が
用いられる．ここでは，目的方位を歪ませないた
めに「目的方位の利得を一定に保つ」という拘束
条件のもとでフィルタの最適化を行う．
拘束条件付きの最適化問題に帰着
適応型アレーの構造
Microphone
Speech
Adaptive
Filter
Adaptive
Filter
Array
Output
Σ
Noise
Adaptive
Filter
誤差信号→最小
目的方位の利得は一定に保つ
適応型アレーの指向特性例1
雑音数が少・残響少の場合
• 雑音に死角を形成することで雑音抑圧
→減算型アレーを自動形成
目的音
雑音に死角をあてる
θ
適応型アレーの指向特性例2
雑音数が少・残響大の場合
• 必ずしも雑音に死角を形成せず，雑音の残響成
分と併せてそれらの総和が0になるような指向特
性を形成する．
雑音の
残響
＋
目的音
－
雑音
＋－
θ
適応型アレーの指向特性例3
雑音数が大・残響大の場合
• 死角形成，残響との打ち消しあい，低サイドロー
ブによる抑圧，などを組み合わせて雑音を除去．
雑音1
目的音
雑音2
－
＋
θ
適応型アレーの特徴
利点
• 加算・減算型よりも少数のマイク素子にて，
効率的に雑音抑圧を行うことが出来る．
• 目的音の存在しない時間が与えられれば，
雑音方位を与えなくても環境に応じて雑音を
最適に抑圧することが出来る．
• 雑音の残響成分が存在しても，それらの総
和を最小化することにより雑音全体を除去．
環境にあわせて加算・減算型などの中から
最適なものが自動選択・組み合わされる．
適応型アレーの特徴（cont’d）
問題点・課題
• 素子数以上の死角を形成できない．つまり，
素子数以上の雑音は抑圧不可能．
• 目的音の無音区間情報が必要．
• 雑音方位が幅を持っている場合や，室内残響
の影響が大きい場合には，抑圧性能が劣化
する．
• 拘束条件付の最小化問題に帰着
→LMSアルゴリズムが使用できないので動的
環境変化に対して逐次フィルタ更新不可能
Griffith-Jim型適応アレーを用いることにより解決
Griffith-Jim型適応アレーの構造
Phase
Compensation
2
Array
Output
主パス
1
Σ
0
＋
K
K-Microphone
＋
－
目的方位信号成分を
含まないK-1 ch信号
－
参照パス
＋
－
Σ
K-1 ch
Adaptive
Filter
誤差信号→最小
Griffith-Jim型適応アレーの原理1
主パスは単純な加算型アレー
• サイドローブ部分に雑音が混入する．
一方，参照パスは…
• まず，隣あうアレー信号間で減算し，目的音
成分を除去しておく（K-1 chアレーに変換）．
• 次に，それらをK-1 ch適応フィルタに入力し，
主パスとの減算を行う．
主パス，参照パスの差を誤差信号と見な
し，それを最小化するようにLMSアルゴリ
ズムによってフィルタの最適化を行う．
Griffith-Jim型適応アレーの原理2
なぜ拘束条件付き問題にLMSが使えるのか?
主パス
メイン目的音（適応中は無
ローブ音）
サイドローブが
雑音を受音する
θ
参照パス
主パスと参照
パスの差を単
純に最小化
目的方位には死角
主パスとなるべく同じ
サイドローブを構成
θ
目的方位は
無歪みのまま
サイドローブ
のみ最小化
適応型アレーによる音声回復例
雑音混合音声
GJ型適応アレーによる回復音声
音声
雑音
50°
…
4素子，4.2 cm間隔
ブザー音
マイクロホンアレーの問題点
 マイクロホンアレー処理の欠点
 音源の到来方位推定が必要
 適応のために無音区間の推定が必要
 素子位置の変動に対応できない
 素子誤差を事前に補正しておく必要がある
？
マイクロホンアレーの問題点（続き）
遅延和型：素子係数により指向特性を制御
目的音
雑音も同時に
拾ってしまう
θ
適応型：雑音の到来方向に指向特性を適応
目的音
を指定
雑音のみを観測
する時間が必要
死角
θ
ブラインド音源分離の登場
Blind Source Separation (BSS)
• 複数の音源信号が混合されて観測された場合、観測信号
のみから音源信号を推定する技術
• 目的音の方位・無音区間情報が不要
• マイク素子位置・特性情報も不要
• マイク特性誤差があっても頑健に動作する
独立成分分析（ICA）に基づくBSS
J. Cardoso, 1989
C. Jutten, 1990
（高次無相関化）
P. Comon, 1994 （ICAという言葉を定義）
A. Bell et al., 1995 （infomaxによる定式化）
独立成分分析（ICA）とは何か？
独立な成分の抽出：
• 複数の確率信号が混合された観測系列から，
統計的に独立な個々の確率過程を分解抽出
する．
特徴：
• 独立性は「無相関性」よりも厳しい尺度であり，
確率信号同士の確率密度構造が問われる．
→情報幾何学と呼ばれる
→「独立⇒無相関」であるが、
「無相関⇒独立」は必ずしも成り立たない．
ICAに基づくBSS とは？
既知
おはよう
Human 1
Source 1
Microphone 1
互いに独立
Microphone 2
こんにちは Source 2
Human 2
音源信号を推定
Observed signal 1
Observed signal 2
ICAに基づくBSSの定式化
線形混合過程
 A11  A1K  s1 (t )   x1 (t ) 
           
 


 
 AL1  ALK  sK (t )  xL (t )
混合行列
分離過程
コスト関数
独立?
音源信号
分離信号
観測信号
分離行列
 y1 (t )  W11  W1L   x1 (t ) 
   
     

 

 
 yK (t ) WK1  WKL   xL (t )
最適化
ICA以外のBSS：Binary Masking (BM)
耳(マイクロホン)に接近している強い音源を，時間-周波数領域で抽出する手法
s1(t)
X1(f,t)
x1(t)
ST-DFT
f
X2(f,t)
x2(t)
s2(t)
f
Y1(f,t)
y2(t)
ST-IDFT
y1(t)
f
Y2(f,t)
f
パ
ワ
ー
の
比
較
ICA以外のBSS：Binary Masking (BM)
耳(マイクロホン)に接近している強い音源を，時間-周波数領域で抽出する手法
s1(t)
X1(f,t)
x1(t)
ST-DFT
f
X2(f,t)
x2(t)
s2(t)
f
Y1(f,t)
パ
ワ
ー
の
比
較
ST-IDFT
(t)
利点y1パワーの比較のみで高速
f
欠点音源信号間にスペクトルの重なりが無いという
Y (f,t)
前提条件(スパース性)が必要
欠点分離音に歪が生じる
y2(t)
2
f
実験条件
Sampling
frequency
8 kHz
Filter
length
Binary mask: 512 taps
ICA: 1024 taps
Source DOA
(1, 2)
Initial filter
Evaluation
score
(-60,
60),
(-60,
0),
(0, 60)
NBF steered to
(-15 , 15 )
0.58 m
4.25 m
Loudspeakers
(Height: 1.17 m)
s1(t)
s2(t)
2 1.50 m
1
Microphones
(Height: 1.17 m)
Reverberation
Signal to Noise Ratio [dB] Time: 200 ms
0.74 m
Sources
Speech/Stationary Noise
(3 seconds)
2.04 m
4.25 m
200 ms
2.02 m
Reverberation
音声＆音声の分離結果
• 全て12通り話者組合せの平均値
Observed signal
Signal to Noise Ratio [dB]
HO-ICA
Binary mask
HO-ICA + Binary mask
25
25
25
20
20
20
15
15
15
10
10
10
5
5
5
0
0
0
Source: (-60゜, 60゜)
Source: (-60゜, 0゜)
SO-ICA
Proposed
Source: (0゜, 60゜)
音声認識による評価（音声＆音声）
大語彙音声認識タスクによる評価（JNASデータベース、JULIUS
（PTM)による認識、音響モデルはクリーンモデル）
本実験においては16 kHzサンプリングデータを取り扱った
85
Binary Mask
ICA
ICA + BM
Proposed BSS
80
Word Accuracy [%]
75
各種従来法
提案法
提案法
70
各種従来法
65
60
55
50
45
40
音源方位=(-40, 30)
音源方位=(-40, 10)
今後のマイクロホンアレー技術は？

そろそろアレーアンテナ理論からの脱却を！



音声の波長（数ｍ～数ｃｍ）とアレーサイズ（＜50cm）から考えて、
アンテナ理論と同じでうまくいくはずがない。
反射がほとんど無いアンテナと、残響だらけの音声
残響を無視した理論は淘汰される！？


マイクロホンアレー研究における「死の谷」
よくあるパターン
１．残響無視で机上理論を立てる
「これは素晴らしい理論だ！残響成分は面倒だから誤差ってことにして
おこう」
２．意図的に残響を無視してシミュレーション実験
「うむうむ、やっぱり従来法よりも優れているな。よし！」
３．実機で実験＆公表
「（学会発表にて）残響がない環境では、理論通り従来より優れた性能が
出ました。実環境における残響対策は今後の課題です。」
４．「で今後はどうしよう…困った！最初から残響を理論に入れておくべきだ
った。」

音声・音響処理では、特に残響を強く意識して理論を立てるべき
今後のマイクロホンアレー技術は？

装置誤差を考慮に入れない理論も淘汰される！？




コンデンサマイクの素子誤差は予想以上に大きい（通常3 dB程度は
ばらつき、かつ温度・湿度にも過敏）。
1素子の場合では問題なく動いていても、素子数が多くなると誤差を
もったエレメントから成るシステムは弱い。
実際の環境では、手動キャリブレーションはほぼ不可能
万能な技術は無い。TPOに合わせた信号処理を！



音声通話系と音声認識系では要求されているものが異なる
これからは２つのタイプに分かれていくのでは？
１．雑音除去重視、目的音の歪み軽視型（応用音声認識）
２．雑音除去軽視、目的音の歪み重視型（応用音声通話）
万能さを目指して演算量を増やすよりも、目的に特化して高精度化・
リアルタイム化を目指す

講義資料3 - 奈良先端科学技術大学院大学

Transcript 講義資料3 - 奈良先端科学技術大学院大学

Directory