Transcript 鳥聲辨~1

鳥聲辨識之初步研究與分析
INITIAL STUDIES AND ANALYSIS OF
BIRDSONG RECOGNITION
1
大綱

前言

特徵擷取

辨識模型

實驗分析

結論
2
前言

辨識系統兩大部分
語料訓練
 語料辨識

3
特徵擷取
梅爾倒頻譜係數(Mel-scale Frequency Cepstral Coefficients,
MFCC)
 共振峰(Formants)
 音高(Pitch)
 其他特徵(Others feature)

Preemphasi
s
Frame
blocking
Hammin
g
windows
4
梅爾倒頻譜係數
擷取步驟:
Frame
s
FFT
Triangula
r
bandpas
s filter
DCT
Delta
cepstrum
5
共振峰
6
共振峰
smoothing
擷取步驟:
Frame
s
fundamental
period
7
FFT
音高
基本頻率至半音的轉換公式如下:
semitone = 69 + 12*log2(frequency/440)
擷取步驟:
Frame
s
fundamental
frequency
smoothing
pitch
8
音高與頻率對照表
其他特徵

Aperiodicity


autocorrelation
Voicing degree
Energy
 zero-crossing

9
辨識模型

高斯混合模型

隱藏式馬可夫模型
10
高斯混合模型

簡述
是由數個高斯分佈所組成的機率密度函數,利用高斯混
合模型中的每一個高斯分佈來模擬各種鳥鳴的聲音類別
w i : 混合加權值

  { wi ,  i ,  i }
i=1…M

 i : 平均值向量
 i : 共變異矩陣
高斯混合的機率密度函數可表示成:
M

p(x |  ) 


w i bi ( x )
i=1…M
i 1
其中

bi ( x ) 
1
( 2 )
D
2
i
1
2
1   T 1  
exp{  ( x   i )  i ( x   i )}
2
11
高斯混合模型

模型參數估測

最大可能性估算法(Maximum likelihood estimation , ML)
T


X  { x1 ,..., x T }

p( X |  ) 


p ( xt |  )
t 1
期望值最大化(Expectation –maximization , EM)
Converge?
Initial
model

EM
Y
N
辨識法則

END
最大事後機率法則(Maximum a posteriori criterion)
Sˆ  arg max
1 k  S
T

t 1

log p ( x t |  k )
12
隱藏式馬可夫模型

簡述
隱藏式馬可夫模型基本上是一種雙重隨機過程,而之所
以稱為隱藏式是因為其中有一組隨機過程是隱藏看不見
的
13
隱藏式馬可夫模型

隱藏式馬可夫的參數

轉移機率:常用A矩陣表示,EX.A(i,j)
A(1,1)=0.7
A(1,2)=0.3

狀態機率:常用B矩陣表示,EX.B(i,j)
1
B(i,j)=
( 2 )
D
2

1
2
 T
1 
exp{  ( x i   j ) 
2
1
j


( x i   j )}
j
14
隱藏式馬可夫模型

訓練流程圖
features
initialization
N
Viterbi
Decoding
Reestimation
Y
Converge?
15
實驗分析

MFCC維度之比較
16
實驗分析

各種特徵組合之實驗
17
實驗分析

混合鳥鳴語料辨識正確率
18
結論

能量資訊與MFCCs 之組合,辨識率最高

對單一鳥類辨識26-D的MFCCs效果比較好;對混合鳥
類辨識39-D且混和數高的效果較好

本系統於28 種鳥單一種類鳥鳴辨識率為84.38%; 混
合種類鳥鳴辨識正確率達78.67%
19