語音處理簡介

Download Report

Transcript 語音處理簡介

語音處理簡介
語音處理簡介
• 聲音訊號(Audio Signals):泛指由人耳聽到的各種聲音的訊
號
• 聲音代表了空氣的密度隨時間的變化,是一個連續的函數,
將聲音儲存到電腦時,必須先將訊號數位化,其中有幾個
參數需要考慮:
• 取樣頻率(sample Rate),常用的取樣頻率如下: (1) 8 kHz
(2) 16 KHz (3)22.05 KHz (4)44.1 KHz
• 取樣解析度(Bit Resolution):每個聲音資料點所用的位
元數,常用的數值如下: (1) 8-bit (2) 16-bit
• 聲道:一般只分單聲道(Mono)或立體聲(Stereo),立體
音即是雙聲道
辨識流程
預處理
特徵擷取
訓練
辨識
物種結果
語音預處理
預強調
取音框
窗函數
預強調
• 為了補償語音在空氣傳送中,所衰減的高頻訊號,故將語
音訊號 s(n) 通過一個高通濾波器,其公式為:

s (n)  s(n)  as(n  1)
其中a為一個0.9 ~ 1.0之間的值,一般都取0.95
• 舉例來說,某一訊號前三個取樣值如下所示:
Value
1200
1100
1300
…
Index
x(0)
x(1)
x(2)
…
預強調
• 經由預強調的值s為:
• s(0):
s(0) = x(0) = 1200
• s(1):
x(1)-0.95*x(0)
= 1100-0.95*1200
= - 40
• s(2):
x(2)-0.95*x(1)
= 1300-0.95*1100
= 255
音框化
• 在分析聲音時,通常以「短時距分析」(Short-term
Analysis)為主,因為音訊在短時間內是相對穩定的。
• 一般音框長度範圍為10ms至40ms之間,且為防止前後音
框變化劇烈,因此允許音框之間有重疊,重疊部分可以是
音框長度的 1/2 到 2/3 不等
切音框示意圖
音框化
• 假設取樣頻率為16kHz,音框長度取25ms,音框重疊部分
為15ms,則:
音框點數:
取樣點數(fs)*時間長度= 16kHz * 25ms =400點
音框重疊點數:
取樣點數(fs)*重疊時間長度= 16kHz * 15ms =240點
音框前進點數:
音框點數-音框重疊點數= 400-240 = 160點
音框化
總音框數:
(訊號總取樣點– 音框點數)/音框前進點數+1
• 一個長度1秒,取樣頻率16kHz的語音,總音框數為:
(訊號總取樣點– 音框點數)/音框前進點數+1
=(16000-400)/160+1
=98.5
出現小數點,取無條件進入法,最終總音框數為99
音框示意
原始訊號
音框1
音框2
音框3
音框4
1
2
3
4
1
2
3
4
3
4
音框前進點數
為2點
5
6
5
6
5
6
7
8
7
8
7
8
9
10
9
10
11
12
13
14
...
以上是音框示意圖, 音框點數(音框的長度): 4點
音框重疊部分: 1/2
音框重疊點數: 2點
總音框數: (16-4)/2+1=7
15
16
窗函數
• 為了消除視窗兩邊的訊號的不連續,通常會加上漢明窗
(Hamming Window),其公式為:
2n

),
0.54  0.46cos(
w(n)  
N 1

0,
其中 N為音框點數
0  n  N 1
otherwise
窗函數
漢明窗
漢明窗頻率響應
窗函數