Transcript 鳥聲辨~1
鳥聲辨識之初步研究與分析
INITIAL STUDIES AND ANALYSIS OF
BIRDSONG RECOGNITION
1
大綱
前言
特徵擷取
辨識模型
實驗分析
結論
2
前言
辨識系統兩大部分
語料訓練
語料辨識
3
特徵擷取
梅爾倒頻譜係數(Mel-scale Frequency Cepstral Coefficients,
MFCC)
共振峰(Formants)
音高(Pitch)
其他特徵(Others feature)
Preemphasi
s
Frame
blocking
Hammin
g
windows
4
梅爾倒頻譜係數
擷取步驟:
Frame
s
FFT
Triangula
r
bandpas
s filter
DCT
Delta
cepstrum
5
共振峰
6
共振峰
smoothing
擷取步驟:
Frame
s
fundamental
period
7
FFT
音高
基本頻率至半音的轉換公式如下:
semitone = 69 + 12*log2(frequency/440)
擷取步驟:
Frame
s
fundamental
frequency
smoothing
pitch
8
音高與頻率對照表
其他特徵
Aperiodicity
autocorrelation
Voicing degree
Energy
zero-crossing
9
辨識模型
高斯混合模型
隱藏式馬可夫模型
10
高斯混合模型
簡述
是由數個高斯分佈所組成的機率密度函數,利用高斯混
合模型中的每一個高斯分佈來模擬各種鳥鳴的聲音類別
w i : 混合加權值
{ wi , i , i }
i=1…M
i : 平均值向量
i : 共變異矩陣
高斯混合的機率密度函數可表示成:
M
p(x | )
w i bi ( x )
i=1…M
i 1
其中
bi ( x )
1
( 2 )
D
2
i
1
2
1 T 1
exp{ ( x i ) i ( x i )}
2
11
高斯混合模型
模型參數估測
最大可能性估算法(Maximum likelihood estimation , ML)
T
X { x1 ,..., x T }
p( X | )
p ( xt | )
t 1
期望值最大化(Expectation –maximization , EM)
Converge?
Initial
model
EM
Y
N
辨識法則
END
最大事後機率法則(Maximum a posteriori criterion)
Sˆ arg max
1 k S
T
t 1
log p ( x t | k )
12
隱藏式馬可夫模型
簡述
隱藏式馬可夫模型基本上是一種雙重隨機過程,而之所
以稱為隱藏式是因為其中有一組隨機過程是隱藏看不見
的
13
隱藏式馬可夫模型
隱藏式馬可夫的參數
轉移機率:常用A矩陣表示,EX.A(i,j)
A(1,1)=0.7
A(1,2)=0.3
狀態機率:常用B矩陣表示,EX.B(i,j)
1
B(i,j)=
( 2 )
D
2
1
2
T
1
exp{ ( x i j )
2
1
j
( x i j )}
j
14
隱藏式馬可夫模型
訓練流程圖
features
initialization
N
Viterbi
Decoding
Reestimation
Y
Converge?
15
實驗分析
MFCC維度之比較
16
實驗分析
各種特徵組合之實驗
17
實驗分析
混合鳥鳴語料辨識正確率
18
結論
能量資訊與MFCCs 之組合,辨識率最高
對單一鳥類辨識26-D的MFCCs效果比較好;對混合鳥
類辨識39-D且混和數高的效果較好
本系統於28 種鳥單一種類鳥鳴辨識率為84.38%; 混
合種類鳥鳴辨識正確率達78.67%
19