Transcript cap2+3
2. REPREZENTAREA NUMERICĂ A
SEMNALULUI VOCAL
Reprezentarea numerică implică următoarele operaţii:
• eşantionarea efectuată cu o frecvenţă Fe compatibilă cu cerinţele
impuse de teorema eşantionării;
• cuantizarea fiecărui eşantion cu un pas de cuantizare q,
ales în funcţie de precizia dorită pentru reprezentare;
• codarea adecvată aplicaţiei particulare.
1. Eşantionarea
• spectrul semnalului vocal se poate întinde până la 12 kHz
==> ar trebui aleasă o frecvenţă de eşantionare Fe = 24 kHz
==> “costuri” (filtrare, transmisie, înregistrare etc.) ridicate.
• în cazul transmisiilor telefonice spectrul semnalului vocal
este limitat la 3.4 kHz
==> se alege frecvenţa de eşantionare Fe = 8 kHz.
• în aplicaţii de sinteză sau recunoaştere a vorbirii, valoarea
frecvenţei de eşantionare creşte (de exemplu: Fe = 16 kHz).
• semnalul audio (voce plus muzică) pretinde o bună
reprezentare în domeniul frecvenţă până la peste 20 KHz
==> utilizarea unei frecvenţe de eşantionare Fe = 44 - 48 kHz.
2. Cuantizarea
• operaţia de cuantizare a eşantioanelor produce o eroare care
se comportă ca un zgomot alb suprapus peste semnal.
• pasul de cuantizare q va fi impus de către raportul
semnal/zgomot dorit.
• în cazul transmisiei telefonice fiecare eşantion este
reprezentat pe 8 biţi.
• cuantizarea semnalului audio necesită o eroare de cuantizare
mai mică, folosindu-se cuvinte de 16 biţi.
• caracteristica esenţială care rezultă din modul de
reprezentare este debitul binar (debitul informaţional) [biţi/s].
• transmisia telefonică necesită un debit de 8000 8 = 64 Kb/s.
• transmisia sau înregistrarea unui semnal audio necesită un
debit de până la 48000 16 = 768 Kb/s.
3. Codarea
a) Codarea directă a semnalului
(“wave–form coding” = codarea formei de undă).
[PCM – Pulse Code Modulation, DPCM – Differential PCM, ADPCM –
Adaptive Differential PCM, DM– Delta Modulation, ADM – Adaptive Delta
Modulation, SBC – Sub-Band Coding, ATC – Adaptive Transform Coding etc.]
b) Codarea parametrică
(“source coding” = codarea sursei).
• parametrii ce caracterizează transmitanţa tractului vocal
(câştigul şi coeficienţii ai);
• parametrii ce caracterizează modul de excitaţie al tractului
vocal (zgomot alb sau tren de impulsuri periodice).
Clasificarea sistemelor de codare în funcţie de debitul binar
Tipul codării
Debitul biniar [kb/s]
Denumirea calităţii
codării
Calitate specifică
radiodifuziunii
64 (64-768)
Calitate C.C.I.T.T.
Codarea semnalului
(WAVE-FORM
CODING)
Codarea sursei
(SOURCE CODING)
16 – 64
4,8 – 16
Calitate acceptabilă pentru
comunicaţii
0,1 – 4,8
Calitate sintetică
Complexitatea relativă a sistemelor de codare a vorbirii
Sistemul
Modulaţia delta
adaptivă
Modulaţia
impulsurilor în cod
adaptivă
Codarea în sub-benzi
Codarea adaptivă a
transformatei
Codare LPC
(parametrică)
Vocoder formantic
Prescurtarea
ADM
Complexitatea relativă
1
ADPCM
2
SBC
ATC
5
50
LPC
100
-
500
3. PROPRIETĂŢI STATISTICE ALE
SEMNALULUI VOCAL
• semnalul vocal = realizare particulară a unui proces aleator nestaţionar.
• două tipuri de statistică:
• statistică pe termen lung
- proprietăţile statistice medii ale semnalului vocal sunt
estimate pe intervale de timp de ordinul câtorva zeci de
secunde şi mediate pe mai mulţi vorbitori;
• statistică pe termen scurt
- evaluarea proprietăţilor statistice pe tranşe temporale
de ordinul a 10-30 ms, în decursul cărora semnalul
poate fi considerat cvasistaţionar.
2500
2000
1500
1000
500
0
-500
-1000
-1500
-2000
-2500
1000
2000
3000
4000
Esantioane
5000
6000
7000
8000
Reprezentarea în timp a semnalului vocal obţinut la pronunţarea cuvântului “şase”
2500
2000
1500
1000
500
“a”
0
-500
-1000
-1500
-2000
-2500
1700
1750
1800
1850
1900
Esantioane
1950
2000
2050
2100
2500
2000
1500
1000
500
“s”
0
-500
-1000
-1500
-2000
-2500
3000
3100
3200
3300
Esantioane
3400
3500
3600
Caracteristici statistice ale semnalului vocal
Principalele caracteristici statistice ale semnalului vocal sunt:
• densitatea de probabilitate;
• valoarea medie;
• varianţa;
• rata trecerilor prin zero;
• funcţia de autocorelaţie;
• funcţia de autocovarianţă;
• coeficientul de autocorelaţie;
• densitatea spectrală de putere;
• densitate spectrală de putere pe termen scurt.
1. Densitatea de probabilitate
N - reprezintă numărul de eşantioane din semnalul x[n]
ale căror amplitudini sunt cuprinse în intervalul
2 , 2 atunci când n N , N
• densitatea de probabilitate a semnalului x[n] (pp. ergodic şi staţionar)
px lim
N
N 2 N
0
1
• estimări experimentale ale acestei densităţi de probabilitate,
realizate pe segmente de vorbire de ordinul a 50 secunde şi
mediate pe câteva zeci de vorbitori, au arătat că această
densitate de probabilitate este apropiată de distribuţia Laplace.
Legea de repartiţie
Uniformă
Gaussiană (normală)
Expresie analitică p x (m x 0 )
1
rect a
2a
2
1
exp 2
2 x
2 x
Laplace (biexponenţială)
2
1
exp
2 x
x
Gamma (de ordinul 1/2)
3
exp
8 x
2 x
3
Expresiile a 4 legi de repartiţie uzuale
2. Valoarea medie
• Valoarea medie a unui semnal staţionar (dacă variabila
aleatoare este continuă) este dată de relaţia:
mx
px d
• În cazul semnalelor discrete:
N
1
mx E x n lim
x n
N 2 N 1 n N
• Pentru semnalul vocal această medie va fi presupusă nulă
(ea nu conţine nici o informaţie utilă).
3. Varianţa
• cazul analogic - varianţa este dată de relaţia:
x2
mx px d m
2
x
0
2 p d
x
• pentru semnale discrete de medie nulă, relaţia de definiţie este:
N
1
x2 lim
x 2 n
N 2 N 1 n N
• acest parametru reprezintă energia medie a semnalului.
8
2.5
Energie/interval
x 10
2
1.5
1
0.5
0
0
0.1
0.2
0.3
0.4
0.5
Timp (s)
0.6
0.7
0.8
0.9
Evoluţia varianţei (energiei) pe termen scurt a semnalului
vocal corespunzător cuvântului “şase”, estimată pe tranşe
de 200 eşantioane (25 ms)
1
4. Rata trecerilor prin zero
• Pentru un semnal eşantionat se consideră că există treceri prin zero
atunci când două eşantioane succesive au semnul opus.
• Rata trecerilor prin zero pe termen scurt se determinată cu formula:
1 mN N 1
Z m
sgn x n sgn x n 1
2 N n mN
m
- indicele tranşei
N = lungimea tranşei
• Rata trecerilor prin zero pe termen lung prezintă o repartiţie
apropiată de cea gaussiană, cu o valoare medie de 0.49 pentru
fonemele nesonore şi de 0.14 pentru cele sonore.
Rata de treceri prin zero/interval
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0.1
0.2
0.3
0.4
0.5
Timp (s)
0.6
0.7
0.8
Rata trecerilor prin zero pentru cuvântul “şase”
0.9
1
5. Funcţia de autocorelaţie
• pentru un semnal aleator discret funcţia de autocorelaţie
se exprimă prin speranţa matematică (media statistică):
xx k E x n x n k
• pentru un semnal staţionar şi ergodic:
N
1
xx k x n x n k lim
x n x n k
N 2 N 1 n N
• pentru o tranşă de lungime finită (N eşantioane):
1 N k 1
ˆ xx k
x n x n k
N k n 0
Proprietăţi ale funcţiei de autocorelaţie:
xx k xx k
• funcţie pară:
• max xx k xx 0
• dacă x n x n N xx k xx k N
6. Funcţia de autocovarianţă
• relaţie similară cu cea a funcţiei de autocorelaţie,
după ce în prealabil s-a extras valoarea medie:
xx k E x n mx x n k mx
x nsemnal ergodic
x n mx x n k mx xx k mx2
• în cazul semnalului vocal media a fost presupusă nulă
==> funcţia de autocovarianţă = funcţia de autocorelaţie:
xx k xx k
x2 xx 0 xx 0
7. Coeficientul de autocorelaţie
• Coeficientul de autocorelaţie reprezintă funcţia de autocorelaţie
normată la valoarea sa maximă:
xx k
xx k
xx 0
xx k 1,1
• În cazul tranşei sonore, funcţia de autocorelaţie este
cvasiperiodică şi în primul maxim diferit de cel din origine
permite determinarea frecvenţei fundamentale
• În cazul tranşei nesonore, funcţia de autocorelaţie nu mai este
periodică şi în general nu mai conţine maxime comparabile
cu cel din din origine.
1
0.5
0
-0.5
0
20
40
60
80
100
k
120
140
160
180
200
0
20
40
60
80
100
k
120
140
160
180
200
1
0.5
0
-0.5
Coeficientul de autocorelaţie pe termen scurt
pentru o tranşă sonoră (sus), respectiv nesonoră (jos)
F0
1
1
F 8000
e
133 Hz
T0 P Te P
60
8. Densitatea spectrală de putere
• Densitatea spectrală de putere se defineşte prin
transformata Fourier a funcţiei de autocorelaţie:
S xx e j xx e j F xx k
k
xx k e jk
f
2
Fe
• O estimare a acesteia se obţine luând o secvenţă de lungime
finită din funcţia de autocorelaţie, utilizând o fereastră de ponderare:
ˆ xx e j w k xx k e jk
Sˆxx e j
k
K
k K
xx k e jk
9. Densitatea spectrală de putere pe termen scurt
• Pe termen scurt semnalul vocal se poate presupune cvasistaţionar
==> se poate folosi transformata Fourier de la semnalele deterministe:
X n, e j x m w n m e jm
m
70
DSP (ts)
sonor
dB
60
50
40
0
500
1000
1500
2000
Hz
2500
3000
3500
4000
0
500
1000
1500
2000
Hz
2500
3000
3500
4000
45
dB
DSP (ts)
nesonor
40
35
30
25