稀疏雙反旋積非負矩陣分解法結合遮罩應用於蛙類

Download Report

Transcript 稀疏雙反旋積非負矩陣分解法結合遮罩應用於蛙類

稀疏雙反旋積非負矩陣分解法結
合遮罩應用於蛙類盲訊號分離之
研究
學生:李建德
指導教授:陳文平 博士
電機工程系
國立高雄應用科技大學
網路應用實驗室
1
大綱

前言與動機

相關背景知識

研究方法

實驗結果

結論與未來展望
2
前言

現代生態調查技術
◦ 感測網路
◦ 無線網路

優點
◦ 改善人力及時間的成本消耗
◦ 資料保存及分享便利

缺點
◦ 資料量龐大分析不易

聲紋辨識系統
◦ 快速分析聲景資料
3
前言
4
前言

盲訊號分離
◦ 雞尾酒會問題
5
前言

獨立子空間分析:
◦ M. A. Casey and A. Westner[2000]
 Proceedings of the International Computer Music Conference
◦ Md. K. I. Molla and K. Hirose[2007]
 IEEE Transactions on Audio, Speech, and Language Processing

溫尼濾波器:
◦ L. Bonaroya and F. Bimbot[2003]
 International Symposium on Independent Component Analysis and
Blind Signal Separation
◦ E. M. Grais and H. Erdogan[2011]
 IEEE Digital Signal Processing, Sedona, Arizona

非負矩陣分解法:
◦ P. Smaragdis[2004]
 International Symposium on Independent Component Analysis and
Blind Source Separation
6
前言

獨立成分分析法結合其他方法:
◦ J. Lin and A. Zhang[2005]
 NDT & E International
◦ M. E. Davies and C. J. James[2007]
 Signal Processing
◦ X. Cheng, N. Li, Y. Cheng and Z. Chen[2007]
 International Conference on Bioinformatics and Biomedical
Engineering
◦ B. Mijović, M. D. Vos, I. Gligorijević, J. Taelman and S. V.
Huffel[2010]
 IEEE Transactions on Biomedical Engineering
7
動機



單通道盲訊號分離
聲紋辨識系統之前處理
提升分離訊號的品質
8
相關背景知識
預處理
白色化、時頻轉換
盲訊號分離
獨立成分分析法、非負矩陣分解法
後處理
訊號重建
9
相關背景知識

獨立成分分析法
◦ 從觀測訊號中找出統計獨立成分計算出解混合矩陣
◦ 限制條件
 原始訊號必須具備統計的獨立特性
 原始訊號中只允許一個成分為高斯分布
 觀測訊號至少要大於或等於原始訊號
◦ 處理步驟
 預處理
 置中化
 白色化
 量測非高斯成分
10
相關背景知識

量測非高斯訊號
◦ 峰態
◦ 交互資訊
◦ 負熵
隨機變數y
峰度值kurt(y)
I(x,y)
高斯分布(Gaussian)
J (Y )  H (Y gauss )  H (Y )
H(x)
非高斯分布(NonGaussian)
超高斯分布(SuperGaussian)
H(x|y) 次高斯分布(SubH(y|x)
Gaussian)
kurt(y) = 0
H(y)
kurt(y) > 0
kurt(y) < 0
J(Y):負熵值
H(x,y)
H(Ygauss):高斯分布的隨機變數之熵值
H(Y):待測的隨機變數之熵值
11
相關背景知識

非負矩陣分解法
…
...
H1
H2
…
W1 W2
…
...
V1
V1
=
W1

H1
+
W2

H2
12
相關背景知識

非負矩陣分解法
◦ 目標函數
 基於歐式距離
V 
2

 V nm
  nm 
2
n ,m
 基於KL散度
D (V ||  ) 

n ,m

V
 V nm log nm  V nm   nm

 nm





V :原始訊號
 :重建訊號
13
相關背景知識
初始化矩陣W與H
計算重建訊號
更新矩陣H
計算重建訊號
更新矩陣W
計算目標函數值
N
收斂?
Y
結束
14
相關背景知識

稀疏雙反旋積非負矩陣分解法(SNMF2D)
◦ 取得頻譜資訊與音高變化
◦ 稀疏控制因子

雙反旋積非負矩陣分解法
◦ τ個基底矩陣與φ個係數矩陣
◦ 移動(Shift)陣列元素

稀疏編碼
◦ 用少數的元素表示整體資訊
◦ 局部化
1

5
A 
9

13
2
3
6
7
10
11
14
15
4

8

12 

16 
0

1
0
A  
0

0
1
2
5
6
9
10
13
14
3

7

11 

15 
0

2
0
A 
1

5
0
0
0
0
2
3
6
7
0

0

4

8
15
相關背景知識
H d11
0
Hd12
Wd11 Wd21
Wd12 Wd22

V 
 W



H


16
相關背景知識

稀疏雙反旋積非負矩陣分解法
◦ 目標函數
 基於歐式距離
~
V 
2

1
2

~ 2
(V ij   ij )   f ( H )
i, j
 基於KL散度
~
D (V ||  ) 
V ij
~
V
log
 ij ~  V ij   ij   f ( H )
i. j
ij
f(•):稀疏函數
λ:稀疏因子
17
相關背景知識
初始化矩陣W與H
基底矩陣W正規化
重建訊號 
更新係數矩陣H
重建訊號 
更新基底矩陣W
計算目標函數值
N
是否收斂?
Y
結束
18
研究方法
Mask
Signal Input
Binary Mask
Signals Correction
Pre-processing
Post-processing
Data update
Reconstruct Signals
Separated Signals
SNMF2D
19
研究方法

預處理
◦ 時域訊號轉時頻訊號
 取分析視窗
 窗函數
 訊號轉換
2n
 Ns (1n ) , 0  j nN2kn N
  1
ˆ
)
s
(
n
)
e
w ( n ) sX(0n(.k)54
0
.
46
cos

, 0  n  N  1

 N 1
 0n  0 , otherwise
20
研究方法
W  1
W  2
W  3
11
H
H
22
H
H
H
H
W d 1
d 1
d 2
W d 2
V d 

d
  W


d
H

21
研究方法
拉都希氏赤蛙之重建訊號
梭德氏赤蛙之重建訊號
22
遮罩修正

遮罩修正
重建訊號
二位元遮罩
擷取訊號
計算混合比例
訊號修正
分離訊號
23
遮罩修正

遮罩二元化
◦ 重建訊號轉換成二位元的遮罩訊號
◦ 尋找適當的門檻值T
G ( x , y )  T ,0
M ( x, y )  
 G ( x , y )  T ,1
G(x,y): 重建訊號
M(x,y): 二位元遮罩訊號
24
遮罩修正

Otsu演算法
◦ 建立直方圖
Number
Element
25
遮罩修正
T
W1 
L
P
W2 
i
i 1
i
i  T 1
L
T
 i P
 i P
i
i
M1 
P
i 1
M
W1
L
T
T
T
T
T
2

i  T 1
W2
Element
T
D i  W 1W 2 ( M 1  M 2 )
2
T  arg max { D i }
1 i  L
26
遮罩修正
27
遮罩修正

擷取訊號
S ( x, y )  V ( x, y )  M ( x, y )
V(x,y):原始混合訊號
S(x,y): 擷取後的訊號
28
遮罩修正
29
遮罩修正

計算混合比例
Ri ( x , y ) 
Gi ( x, y )
GT ( x, y )
,1  i  N
GT(x,y): 分離訊號總和
Gi(x,y): 第i個分離訊號
Ri(x,y): 第i個混合比例
N: 分離訊號的數量
30
遮罩修正

訊號修正
~
S i ( x, y )  S i( x, y )  R i ( x, y ) , 1  i  N
S i ( x , y ) :擷取訊號
~
S i ( x , y ) :調整訊號
31
遮罩修正

訊號修正
~
ˆ
S i ( x, y )  S i ( x, y )  S j ( x, y )
, i j
 Sˆ ( x , y ) , Sˆ ( x , y )  0
Sˆ ( x , y )  
, Sˆ ( x , y )  0
0
Sˆ i ( x , y ) :修正後的訊號
32
遮罩修正
33
34
後處理
sˆ ( n ) 
1
N
N 1

j
X (k )e
2n
k
N
k 0
2
2
s ( n ) sin   s ( n ) cos   s  (n )
35
實驗結果
Parameter Items
Parameter Value
Window Size
512 samples
Window Overlapping
50%
Window Function
Hamming Window
Frequency Bin
512
STFT
SNMF2D
Basis Matrix 
[1…3]
Coefficient Matrix 
[1…5]
Sparse Factor
5
Frog Species
8
Mixtrue Items
7
36
實驗結果
評估因子—SDR(Signal-to-Distortion Ratio)
12
16
14
12
10
8
6
4
2
0
10
dB
8
30
MSDR
SSDR
30
50
2
80
SSDR
6
4
50
80
0
MSDR
SSDR
White-lippd
tree frog
Japanese tree frog
dB
dB

MSDR
Taipei green
tree frog
16
14
12
10
8
6
4
2
0
SSDR
MSDR
Latouche's frog
30
50
80
SSDR
MSDR
Japanese tree
frog
SSDR
MSDR
Latouche's
frog
SSDR
MSDR
Heymons's
narrowmouthed toad
37
8
20
6
15
4
30
2
0
SSDR
MSDR
SSDR
Eiffinger's tree
frog
MSDR
dB
25
10
30
50
5
50
80
0
SSDR
MSDR
Moltrecht's green
tree frog
Latouche's frog
12
10
8
6
4
2
0
SSDR
MSDR
80
Heymons's narrow
-mouthed toad
30
50
80
SSDR
MSDR
Heymons's narrow
-mouthed toad
dB
dB
dB
10
SSDR
MSDR
SSDR
White-lippd
tree frog
MSDR
Olive frog
12.5
10.5
8.5
6.5
4.5
2.5
0.5
-1.5
30
50
80
SSDR
MSDR
Moltrecht's
Green tree
frog
SSDR
MSDR
Taipei green
tree frog
SSDR
MSDR
Latouche's
frog
38
實驗結果
評估因子—SIR(Source-to-Interference Ratio)
30
25
25
20
20
15
dB
30
30
10
SSIR
MSIR
SSIR
30
50
5
80
0
15
10
50
5
80
0
MSIR
SSIR
Japanese tree frog
White-lippd
tree frog
MSIR
SSIR
Taipei green
tree frog
MSIR
Latouche's frog
30
25
20
dB
dB

15
10
30
5
50
80
0
SSIR
MSIR
Japanese tree
frog
SSIR
MSIR
Latouche's
frog
SSIR
MSIR
Heymons's
narrowmouthed toad
39
dB
30
50
80
SSIR
MSIR
dB
Eiffinger's tree
frog
SSIR
30
25
20
15
10
5
0
30
50
80
SSIR
MSIR
MSIR
SSIR
MSIR
Heymons's narrow
-mouthed toad
Moltrecht's green
tree frog
Latouche's frog
18
16
14
12
10
8
6
4
2
0
30
50
80
SSIR
MSIR
Heymons's narrow
-mouthed toad
SSIR
MSIR
White-lippd
tree frog
SSIR
MSIR
Olive frog
25
20
dB
dB
18
16
14
12
10
8
6
4
2
0
15
10
30
5
50
0
80
SSIR
MSIR
Moltrecht's
Green tree
frog
SSIR
MSIR
Taipei green
tree frog
SSIR
MSIR
Latouche's
frog
40
實驗結果
Method
Iterations
Variance
30
10.71275
50
7.56728
30
27.73557
50
19.40138
SNMF2D
SNMF2D+MASK
41
實驗結果
Parameter Items
Parameter Value
Frame Length
512 samples
Frame Overlapping
50%
Window Function
Hamming Window
Frequency Bin
512
Feature Parameters
Mel-Frequency Cepstral Coefficient
Feature Dimensions
15D
Test Syllable
410
42
實驗結果

辨識實驗
Method
SNMF2D
SNMF2D+MASK
Correct
Iterations
Total
Syllable
Syllable
30
410
203
49.51
50
410
200
48.78
80
410
205
50
30
410
318
77.56
50
410
323
78.78
80
410
334
81.46
Accuracy(%)
43
結論與未來展望

本論文所提出的方法
◦ 有效提升分離訊號的品質
◦ 利用較少的時間成本,提升分離訊號的品質
◦ 能有效的提升分離訊號的辨識率,平均辨識率可提升29.84%
44
結論與未來展望

未來展望
◦
◦
◦
◦
去噪方法之研究
判斷音檔物種的數量
初始值設定之研究
蒐集物種多樣性之聲音,並建立樣本於資料庫以提升辨識率
45
作者介紹

比賽
◦ 第七屆數位訊號處理創思設計競賽—入圍

專利
◦ 蛙聲混音分離方法—審查中
46
Thank you for your attention !!
47