端點偵測介紹

Transcript 端點偵測介紹

端點偵測介紹
端點偵測
• 端點偵測（End-point Detection， EPD）:決定音訊開始和
結束的位置，又稱 Speech Detection 或是 VAD (Voice
Activity Detection)。
端點偵測
• 時域端點偵測－絕對值能量法、平方和能量法和越零率
• 絕對值能量法：
E n 
( N 1) 2
 s( p  i )
i   ( N 1) 2
• 平方和能量法：
En 
( N 1) 2
2


s
(
p

i
)

i   ( N 1) 2
其中E(n)為第n 個分析框的能量估算值，p 為該分析框的
中心點位置，N 為分析框寬度
• 越零率（Zero Crossing Rate， ZCR）是在訊號中，音訊通
越零點的次數
能量法與越零率
頻域端點偵測
• 訊號轉換:離散傅立葉轉換
X (k ) 
N 1
 x ( n )e
j
2n
k
N
n 0
其中N為分析視窗長度，X(k)為轉換後頻率成分k之能量
X(k)
… … ...
k1
k2
k3
… … ...
kN
Freq.
平均能量熵值
• 平均能量熵值
計算整段平均能量
u  n 1 A(n) / N
N
其中，u為整段訊號的平均能量點，A(n)為第n個點的振幅
值，N為訊號總點數
• 限制頻帶
X (k )  0
, k  250Hz
or k  6000 Hz
平均能量熵值
• 將平均能量加入機率密度
pi 
( X ( ki )   u )

N
i 1
( X ( ki )   u )
其中，β為調整值，u為平均能量
平均能量熵值
• 計算加入平均能量後的負熵值
H i  i 1 pi  log pi
N
其中，Hi為第i個音框下重新計算後的負熵值
平均能量熵值
決定門檻值
決定門檻值
• 取前N個音框之平均值
– 此方法假設一開始是靜音，但若一開始就有聲音此做法就很容易
發生錯誤
• 取音框中最大數值的0.1倍
– 此方法在音量忽大忽小時或雜訊太強時，會發生錯誤
• 取音框中最小數值的5倍
– 此方法在雜訊太強時，會發生錯誤
結合越零率
• 先訂出三個門檻值分別為:
• 高能量門檻值（τu）
• 低能量門檻值（τl）
• 越零率門檻值（τzc）
結合越零率
• 先以低能量門檻值（τl）為主，找出語音的起點
• 經過B個音框後，能量更是大於τu，則視N1為聲音的起始
點，反之在B個音框內有小於τl或是低於τu，則放棄N1繼續
往下找
結合越零率
• 找到N1之後，往回檢查前幾個音框的越零率，是否大於τzc ，
若是就繼續往回搜尋，直到越零率小於τzc為止
• 此時的 Nˆ 1與N2為此訊號的端點

端點偵測介紹

Transcript 端點偵測介紹

Directory