Transcript cap2+3

2. REPREZENTAREA NUMERICĂ A
SEMNALULUI VOCAL
Reprezentarea numerică implică următoarele operaţii:
• eşantionarea efectuată cu o frecvenţă Fe compatibilă cu cerinţele
impuse de teorema eşantionării;
• cuantizarea fiecărui eşantion cu un pas de cuantizare q,
ales în funcţie de precizia dorită pentru reprezentare;
• codarea adecvată aplicaţiei particulare.
1. Eşantionarea
• spectrul semnalului vocal se poate întinde până la 12 kHz
==> ar trebui aleasă o frecvenţă de eşantionare Fe = 24 kHz
==> “costuri” (filtrare, transmisie, înregistrare etc.) ridicate.
• în cazul transmisiilor telefonice spectrul semnalului vocal
este limitat la 3.4 kHz
==> se alege frecvenţa de eşantionare Fe = 8 kHz.
• în aplicaţii de sinteză sau recunoaştere a vorbirii, valoarea
frecvenţei de eşantionare creşte (de exemplu: Fe = 16 kHz).
• semnalul audio (voce plus muzică) pretinde o bună
reprezentare în domeniul frecvenţă până la peste 20 KHz
==> utilizarea unei frecvenţe de eşantionare Fe = 44 - 48 kHz.
2. Cuantizarea
• operaţia de cuantizare a eşantioanelor produce o eroare care
se comportă ca un zgomot alb suprapus peste semnal.
• pasul de cuantizare q va fi impus de către raportul
semnal/zgomot dorit.
• în cazul transmisiei telefonice fiecare eşantion este
reprezentat pe 8 biţi.
• cuantizarea semnalului audio necesită o eroare de cuantizare
mai mică, folosindu-se cuvinte de 16 biţi.
• caracteristica esenţială care rezultă din modul de
reprezentare este debitul binar (debitul informaţional) [biţi/s].
• transmisia telefonică necesită un debit de 8000  8 = 64 Kb/s.
• transmisia sau înregistrarea unui semnal audio necesită un
debit de până la 48000  16 = 768 Kb/s.
3. Codarea
a) Codarea directă a semnalului
(“wave–form coding” = codarea formei de undă).
[PCM – Pulse Code Modulation, DPCM – Differential PCM, ADPCM –
Adaptive Differential PCM, DM– Delta Modulation, ADM – Adaptive Delta
Modulation, SBC – Sub-Band Coding, ATC – Adaptive Transform Coding etc.]
b) Codarea parametrică
(“source coding” = codarea sursei).
• parametrii ce caracterizează transmitanţa tractului vocal
(câştigul  şi coeficienţii ai);
• parametrii ce caracterizează modul de excitaţie al tractului
vocal (zgomot alb sau tren de impulsuri periodice).
Clasificarea sistemelor de codare în funcţie de debitul binar
Tipul codării
Debitul biniar [kb/s]
Denumirea calităţii
codării
Calitate specifică
radiodifuziunii
 64 (64-768)
Calitate C.C.I.T.T.
Codarea semnalului
(WAVE-FORM
CODING)
Codarea sursei
(SOURCE CODING)
16 – 64
4,8 – 16
Calitate acceptabilă pentru
comunicaţii
0,1 – 4,8
Calitate sintetică
Complexitatea relativă a sistemelor de codare a vorbirii
Sistemul
Modulaţia delta
adaptivă
Modulaţia
impulsurilor în cod
adaptivă
Codarea în sub-benzi
Codarea adaptivă a
transformatei
Codare LPC
(parametrică)
Vocoder formantic
Prescurtarea
ADM
Complexitatea relativă
1
ADPCM
2
SBC
ATC
5
50
LPC
100
-
500
3. PROPRIETĂŢI STATISTICE ALE
SEMNALULUI VOCAL
• semnalul vocal = realizare particulară a unui proces aleator nestaţionar.
• două tipuri de statistică:
• statistică pe termen lung
- proprietăţile statistice medii ale semnalului vocal sunt
estimate pe intervale de timp de ordinul câtorva zeci de
secunde şi mediate pe mai mulţi vorbitori;
• statistică pe termen scurt
- evaluarea proprietăţilor statistice pe tranşe temporale
de ordinul a 10-30 ms, în decursul cărora semnalul
poate fi considerat cvasistaţionar.
2500
2000
1500
1000
500
0
-500
-1000
-1500
-2000
-2500
1000
2000
3000
4000
Esantioane
5000
6000
7000
8000
Reprezentarea în timp a semnalului vocal obţinut la pronunţarea cuvântului “şase”
2500
2000
1500
1000
500
“a”
0
-500
-1000
-1500
-2000
-2500
1700
1750
1800
1850
1900
Esantioane
1950
2000
2050
2100
2500
2000
1500
1000
500
“s”
0
-500
-1000
-1500
-2000
-2500
3000
3100
3200
3300
Esantioane
3400
3500
3600
Caracteristici statistice ale semnalului vocal
Principalele caracteristici statistice ale semnalului vocal sunt:
• densitatea de probabilitate;
• valoarea medie;
• varianţa;
• rata trecerilor prin zero;
• funcţia de autocorelaţie;
• funcţia de autocovarianţă;
• coeficientul de autocorelaţie;
• densitatea spectrală de putere;
• densitate spectrală de putere pe termen scurt.
1. Densitatea de probabilitate
N - reprezintă numărul de eşantioane din semnalul x[n]
ale căror amplitudini sunt cuprinse în intervalul

 

  2 ,  2  atunci când n    N , N 
• densitatea de probabilitate a semnalului x[n] (pp. ergodic şi staţionar)
px    lim
N
N  2 N
  0
1
• estimări experimentale ale acestei densităţi de probabilitate,
realizate pe segmente de vorbire de ordinul a 50 secunde şi
mediate pe câteva zeci de vorbitori, au arătat că această
densitate de probabilitate este apropiată de distribuţia Laplace.
Legea de repartiţie
Uniformă
Gaussiană (normală)
Expresie analitică p x   (m x  0 )
1
 rect a  
2a
 2 
1
 exp   2 
2   x
 2 x 
Laplace (biexponenţială)
 2 
1
 exp  

2  x
  x 
Gamma (de ordinul 1/2)
 3
 exp  
8 x 
 2 x
3
Expresiile a 4 legi de repartiţie uzuale



2. Valoarea medie
• Valoarea medie a unui semnal staţionar (dacă variabila
aleatoare este continuă) este dată de relaţia:
mx 

  px   d

• În cazul semnalelor discrete:
N
1
mx  E  x  n   lim
x  n

N  2 N  1 n  N
• Pentru semnalul vocal această medie va fi presupusă nulă
(ea nu conţine nici o informaţie utilă).
3. Varianţa
• cazul analogic - varianţa este dată de relaţia:
 x2 



  mx  px   d   m
2
x

0

2 p  d

 x 

• pentru semnale discrete de medie nulă, relaţia de definiţie este:
N
1
 x2  lim
x 2  n

N  2 N  1 n  N
• acest parametru reprezintă energia medie a semnalului.
8
2.5
Energie/interval
x 10
2
1.5
1
0.5
0
0
0.1
0.2
0.3
0.4
0.5
Timp (s)
0.6
0.7
0.8
0.9
Evoluţia varianţei (energiei) pe termen scurt a semnalului
vocal corespunzător cuvântului “şase”, estimată pe tranşe
de 200 eşantioane (25 ms)
1
4. Rata trecerilor prin zero
• Pentru un semnal eşantionat se consideră că există treceri prin zero
atunci când două eşantioane succesive au semnul opus.
• Rata trecerilor prin zero pe termen scurt se determinată cu formula:
1 mN  N 1
Z  m 
sgn x  n  sgn x  n  1

2 N n  mN

m

- indicele tranşei
N = lungimea tranşei
• Rata trecerilor prin zero pe termen lung prezintă o repartiţie
apropiată de cea gaussiană, cu o valoare medie de 0.49 pentru
fonemele nesonore şi de 0.14 pentru cele sonore.
Rata de treceri prin zero/interval
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0.1
0.2
0.3
0.4
0.5
Timp (s)
0.6
0.7
0.8
Rata trecerilor prin zero pentru cuvântul “şase”
0.9
1
5. Funcţia de autocorelaţie
• pentru un semnal aleator discret funcţia de autocorelaţie
se exprimă prin speranţa matematică (media statistică):
 xx  k   E  x  n  x  n  k 
• pentru un semnal staţionar şi ergodic:
N
1
 xx  k   x  n x  n  k   lim
x n x n  k 

N  2 N  1 n  N
• pentru o tranşă de lungime finită (N eşantioane):
1 N  k 1
ˆ xx  k  
x  n x  n  k 

N  k n 0
Proprietăţi ale funcţiei de autocorelaţie:
 xx  k    xx  k 
• funcţie pară:


• max  xx  k    xx 0
• dacă x  n  x  n  N    xx  k    xx  k  N 
6. Funcţia de autocovarianţă
• relaţie similară cu cea a funcţiei de autocorelaţie,
după ce în prealabil s-a extras valoarea medie:
 xx  k   E  x  n   mx   x  n  k   mx 
x nsemnal ergodic

  x  n   mx   x  n  k   mx    xx  k   mx2
• în cazul semnalului vocal media a fost presupusă nulă
==> funcţia de autocovarianţă = funcţia de autocorelaţie:
 xx  k    xx  k 
 x2   xx  0   xx  0
7. Coeficientul de autocorelaţie
• Coeficientul de autocorelaţie reprezintă funcţia de autocorelaţie
normată la valoarea sa maximă:
 xx  k 
 xx  k  
 xx  0
 xx  k   1,1
• În cazul tranşei sonore, funcţia de autocorelaţie este
cvasiperiodică şi în primul maxim diferit de cel din origine
permite determinarea frecvenţei fundamentale
• În cazul tranşei nesonore, funcţia de autocorelaţie nu mai este
periodică şi în general nu mai conţine maxime comparabile
cu cel din din origine.
1
0.5
0
-0.5
0
20
40
60
80
100
k
120
140
160
180
200
0
20
40
60
80
100
k
120
140
160
180
200
1
0.5
0
-0.5
Coeficientul de autocorelaţie pe termen scurt
pentru o tranşă sonoră (sus), respectiv nesonoră (jos)
F0 
1
1
F 8000

 e
 133 Hz
T0 P  Te P
60
8. Densitatea spectrală de putere
• Densitatea spectrală de putere se defineşte prin
transformata Fourier a funcţiei de autocorelaţie:
S xx  e j    xx  e j   F  xx  k  


k 
 xx  k  e jk 
f
  2
Fe
• O estimare a acesteia se obţine luând o secvenţă de lungime
finită din funcţia de autocorelaţie, utilizând o fereastră de ponderare:
ˆ xx  e j    w k  xx  k  e jk  
Sˆxx  e j   
k
K

k  K
 xx  k  e jk 
9. Densitatea spectrală de putere pe termen scurt
• Pe termen scurt semnalul vocal se poate presupune cvasistaţionar
==> se poate folosi transformata Fourier de la semnalele deterministe:
X  n, e j    x  m w n  m e jm
m
70
DSP (ts)
sonor
dB
60
50
40
0
500
1000
1500
2000
Hz
2500
3000
3500
4000
0
500
1000
1500
2000
Hz
2500
3000
3500
4000
45
dB
DSP (ts)
nesonor
40
35
30
25