語音辨識前處理介紹

Transcript 語音辨識前處理介紹

語音辨識前處理介紹
Jain-De,Lee
大綱

預強調

音框化

端點偵測

窗函數
預強調

為了補償語音在空氣傳送中，所衰減的高頻訊號，
故將語音訊號 s(n) 通過一個高通濾波器，其公式為:
F ( z )  1  az 1

此濾波器有+6dB/oct 高頻增強的特性，故語音訊號
通過此高通濾波器結果為:

s (n)  s (n)  as (n  1)
其中a為一個0.9 ~ 1.0之間的值
預強調
音框化

對於語音的離散時間訊號s(n)，利用一個固定長度的
視窗(Window)套上，並對視窗內的訊號做運算(如:
取語音特徵)，此行為稱加視窗，而套上的語音訊號
稱音框(Frame)

通常視窗長度為20~30ms之間

舉例來說，取樣頻率22050Hz，若取視窗長度512點
512 / 22050 ≈ 23.22ms
音框化

為了保有語音訊號改變的延續性，通常會讓前後音
框部分重疊，一般會重疊1/3或1/2個音框長度
取音框示意圖
端點偵測

一段語音檔案中，並不是所有的部分都是有效的訊
號，因此必須經由端點偵測來判定有聲區段與無聲
區段，其優點能讓系統提升效率及辨識率
有效聲段
端點偵測

一般端點偵測－絕對值能量法、平方和能量法

絕對值能量法：
E n 
( N 1) 2
 s( p  i )
i   ( N 1) 2
其中E(n)為第n 個分析框的能量估算值，p 為該分析框的中心點位置，
N 為分析框寬度
端點偵測

平方和能量法：
En 
( N 1) 2
2


s
(
p

i
)

i   ( N 1) 2
其中E(n)為第n 個分析框的能量估算值，p 為該分析框的中心點位置，
N 為分析框寬度
端點偵測

基本頻譜熵值：
pi ( f m ) 
E ( f m)

M
m 1
E( fm )
其中，pi(fm)為第i個音框下頻率fm的能量所佔比例，E(fm)
為頻率m的能量大小，M為傅立葉轉換點數
H i  i 1 pi ( f m )  log pi ( f m )
N
其中，Hi為第i個音框下的負熵值， pi(fm)為第i個音框下
頻率fm的能量所佔比例
端點偵測

平均能量熵值：
計算整段平均能量
u  n 1 A(n) / N
N
其中，u為整段訊號的平均能量點，A(n)為第n個點的振幅值，
N為訊號總點數
將平均能量加入機率密度
pi ' ( f m ) 
( E ( f m)   u )

M
m 1
其中，β為調整值
( E ( f m )  u )
端點偵測
計算加入平均能量後的負熵值
H i '  i 1 pi ' ( f m )  log pi ' ( f m )
N
其中，Hi’為第i個音框下重新計算後的負熵值
窗函數

為了消除視窗兩邊的訊號的不連續，通常會加上漢
明窗(Hamming Window)，其公式為:
2n

),
0.54  0.46 cos(
w(n)  
N 1
0,

良好窗函數的頻率響應


主葉(Main lobe)頻帶要窄
旁葉(Side-lobe)與主葉差距大
0  n  N 1
otherwise
窗函數

常見窗函數:
窗函數

窗函數的頻率響應

語音辨識前處理介紹

Transcript 語音辨識前處理介紹

Directory