語音處理簡介

Transcript 語音處理簡介

語音處理簡介
語音處理簡介
• 聲音訊號(Audio Signals):泛指由人耳聽到的各種聲音的訊
號
• 聲音代表了空氣的密度隨時間的變化，是一個連續的函數，
將聲音儲存到電腦時，必須先將訊號數位化，其中有幾個
參數需要考慮：
• 取樣頻率（sample Rate），常用的取樣頻率如下: (1) 8 kHz
(2) 16 KHz (3)22.05 KHz (4)44.1 KHz
• 取樣解析度（Bit Resolution）：每個聲音資料點所用的位
元數，常用的數值如下: (1) 8-bit (2) 16-bit
• 聲道:一般只分單聲道（Mono）或立體聲（Stereo），立體
音即是雙聲道
辨識流程
預處理
特徵擷取
訓練
辨識
物種結果
語音預處理
預強調
取音框
窗函數
預強調
• 為了補償語音在空氣傳送中，所衰減的高頻訊號，故將語
音訊號 s(n) 通過一個高通濾波器，其公式為:

s (n)  s(n)  as(n  1)
其中a為一個0.9 ~ 1.0之間的值，一般都取0.95
• 舉例來說，某一訊號前三個取樣值如下所示:
Value
1200
1100
1300
…
Index
x(0)
x(1)
x(2)
…
預強調
• 經由預強調的值s為:
• s(0):
s(0) = x(0) = 1200
• s(1):
x(1)-0.95*x(0)
= 1100-0.95*1200
= - 40
• s(2):
x(2)-0.95*x(1)
= 1300-0.95*1100
= 255
音框化
• 在分析聲音時，通常以「短時距分析」（Short-term
Analysis）為主，因為音訊在短時間內是相對穩定的。
• 一般音框長度範圍為10ms至40ms之間，且為防止前後音
框變化劇烈，因此允許音框之間有重疊，重疊部分可以是
音框長度的 1/2 到 2/3 不等
切音框示意圖
音框化
• 假設取樣頻率為16kHz，音框長度取25ms，音框重疊部分
為15ms，則:
音框點數:
取樣點數(fs)*時間長度= 16kHz * 25ms =400點
音框重疊點數:
取樣點數(fs)*重疊時間長度= 16kHz * 15ms =240點
音框前進點數:
音框點數-音框重疊點數= 400-240 = 160點
音框化
總音框數:
(訊號總取樣點– 音框點數)/音框前進點數+1
• 一個長度1秒，取樣頻率16kHz的語音，總音框數為:
(訊號總取樣點– 音框點數)/音框前進點數+1
=(16000-400)/160+1
=98.5
出現小數點，取無條件進入法，最終總音框數為99
音框示意
原始訊號
音框1
音框2
音框3
音框4
1
2
3
4
1
2
3
4
3
4
音框前進點數
為2點
5
6
5
6
5
6
7
8
7
8
7
8
9
10
9
10
11
12
13
14
...
以上是音框示意圖，音框點數(音框的長度): 4點
音框重疊部分: 1/2
音框重疊點數: 2點
總音框數: (16-4)/2+1=7
15
16
窗函數
• 為了消除視窗兩邊的訊號的不連續，通常會加上漢明窗
(Hamming Window)，其公式為:
2n

),
0.54  0.46cos(
w(n)  
N 1

0,
其中 N為音框點數
0  n  N 1
otherwise
窗函數
漢明窗
漢明窗頻率響應
窗函數

語音處理簡介

Transcript 語音處理簡介

Directory