Transcript 語音辨識前處理介紹
語音辨識前處理介紹 Jain-De,Lee 大綱 預強調 音框化 端點偵測 窗函數 預強調 為了補償語音在空氣傳送中,所衰減的高頻訊號, 故將語音訊號 s(n) 通過一個高通濾波器,其公式為: F ( z ) 1 az 1 此濾波器有+6dB/oct 高頻增強的特性,故語音訊號 通過此高通濾波器結果為: s (n) s (n) as (n 1) 其中a為一個0.9 ~ 1.0之間的值 預強調 音框化 對於語音的離散時間訊號s(n),利用一個固定長度的 視窗(Window)套上,並對視窗內的訊號做運算(如: 取語音特徵),此行為稱加視窗,而套上的語音訊號 稱音框(Frame) 通常視窗長度為20~30ms之間 舉例來說,取樣頻率22050Hz,若取視窗長度512點 512 / 22050 ≈ 23.22ms 音框化 為了保有語音訊號改變的延續性,通常會讓前後音 框部分重疊,一般會重疊1/3或1/2個音框長度 取音框示意圖 端點偵測 一段語音檔案中,並不是所有的部分都是有效的訊 號,因此必須經由端點偵測來判定有聲區段與無聲 區段,其優點能讓系統提升效率及辨識率 有效聲段 端點偵測 一般端點偵測-絕對值能量法、平方和能量法 絕對值能量法: E n ( N 1) 2 s( p i ) i ( N 1) 2 其中E(n)為第n 個分析框的能量估算值,p 為該分析框的中心點位置, N 為分析框寬度 端點偵測 平方和能量法: En ( N 1) 2 2 s ( p i ) i ( N 1) 2 其中E(n)為第n 個分析框的能量估算值,p 為該分析框的中心點位置, N 為分析框寬度 端點偵測 基本頻譜熵值: pi ( f m ) E ( f m) M m 1 E( fm ) 其中,pi(fm)為第i個音框下頻率fm的能量所佔比例,E(fm) 為頻率m的能量大小,M為傅立葉轉換點數 H i i 1 pi ( f m ) log pi ( f m ) N 其中,Hi為第i個音框下的負熵值, pi(fm)為第i個音框下 頻率fm的能量所佔比例 端點偵測 平均能量熵值: 計算整段平均能量 u n 1 A(n) / N N 其中,u為整段訊號的平均能量點,A(n)為第n個點的振幅值, N為訊號總點數 將平均能量加入機率密度 pi ' ( f m ) ( E ( f m) u ) M m 1 其中,β為調整值 ( E ( f m ) u ) 端點偵測 計算加入平均能量後的負熵值 H i ' i 1 pi ' ( f m ) log pi ' ( f m ) N 其中,Hi’為第i個音框下重新計算後的負熵值 窗函數 為了消除視窗兩邊的訊號的不連續,通常會加上漢 明窗(Hamming Window),其公式為: 2n ), 0.54 0.46 cos( w(n) N 1 0, 良好窗函數的頻率響應 主葉(Main lobe)頻帶要窄 旁葉(Side-lobe)與主葉差距大 0 n N 1 otherwise 窗函數 常見窗函數: 窗函數 窗函數的頻率響應