端點偵測介紹

Download Report

Transcript 端點偵測介紹

端點偵測介紹
端點偵測
• 端點偵測(End-point Detection, EPD):決定音訊開始和
結束的位置,又稱 Speech Detection 或是 VAD (Voice
Activity Detection)。
端點偵測
• 時域端點偵測-絕對值能量法、平方和能量法和越零率
• 絕對值能量法:
E n 
( N 1) 2
 s( p  i )
i   ( N 1) 2
• 平方和能量法:
En 
( N 1) 2
2


s
(
p

i
)

i   ( N 1) 2
其中E(n)為第n 個分析框的能量估算值,p 為該分析框的
中心點位置,N 為分析框寬度
• 越零率(Zero Crossing Rate, ZCR)是在訊號中,音訊通
越零點的次數
能量法與越零率
頻域端點偵測
• 訊號轉換:離散傅立葉轉換
X (k ) 
N 1
 x ( n )e
j
2n
k
N
n 0
其中N為分析視窗長度,X(k)為轉換後頻率成分k之能量
X(k)
… … ...
k1
k2
k3
… … ...
kN
Freq.
平均能量熵值
• 平均能量熵值
計算整段平均能量
u  n 1 A(n) / N
N
其中,u為整段訊號的平均能量點,A(n)為第n個點的振幅
值,N為訊號總點數
• 限制頻帶
X (k )  0
, k  250Hz
or k  6000 Hz
平均能量熵值
• 將平均能量加入機率密度
pi 
( X ( ki )   u )

N
i 1
( X ( ki )   u )
其中,β為調整值,u為平均能量
平均能量熵值
• 計算加入平均能量後的負熵值
H i  i 1 pi  log pi
N
其中,Hi為第i個音框下重新計算後的負熵值
平均能量熵值
決定門檻值
決定門檻值
• 取前N個音框之平均值
– 此方法假設一開始是靜音,但若一開始就有聲音此做法就很容易
發生錯誤
• 取音框中最大數值的0.1倍
– 此方法在音量忽大忽小時或雜訊太強時,會發生錯誤
• 取音框中最小數值的5倍
– 此方法在雜訊太強時,會發生錯誤
結合越零率
• 先訂出三個門檻值分別為:
• 高能量門檻值(τu)
• 低能量門檻值(τl)
• 越零率門檻值(τzc)
結合越零率
• 先以低能量門檻值(τl)為主,找出語音的起點
• 經過B個音框後,能量更是大於τu,則視N1為聲音的起始
點,反之在B個音框內有小於τl或是低於τu,則放棄N1繼續
往下找
結合越零率
• 找到N1之後,往回檢查前幾個音框的越零率,是否大於τzc ,
若是就繼續往回搜尋,直到越零率小於τzc為止
• 此時的 Nˆ 1與N2為此訊號的端點