Transcript cap2+3
2. REPREZENTAREA NUMERICĂ A SEMNALULUI VOCAL Reprezentarea numerică implică următoarele operaţii: • eşantionarea efectuată cu o frecvenţă Fe compatibilă cu cerinţele impuse de teorema eşantionării; • cuantizarea fiecărui eşantion cu un pas de cuantizare q, ales în funcţie de precizia dorită pentru reprezentare; • codarea adecvată aplicaţiei particulare. 1. Eşantionarea • spectrul semnalului vocal se poate întinde până la 12 kHz ==> ar trebui aleasă o frecvenţă de eşantionare Fe = 24 kHz ==> “costuri” (filtrare, transmisie, înregistrare etc.) ridicate. • în cazul transmisiilor telefonice spectrul semnalului vocal este limitat la 3.4 kHz ==> se alege frecvenţa de eşantionare Fe = 8 kHz. • în aplicaţii de sinteză sau recunoaştere a vorbirii, valoarea frecvenţei de eşantionare creşte (de exemplu: Fe = 16 kHz). • semnalul audio (voce plus muzică) pretinde o bună reprezentare în domeniul frecvenţă până la peste 20 KHz ==> utilizarea unei frecvenţe de eşantionare Fe = 44 - 48 kHz. 2. Cuantizarea • operaţia de cuantizare a eşantioanelor produce o eroare care se comportă ca un zgomot alb suprapus peste semnal. • pasul de cuantizare q va fi impus de către raportul semnal/zgomot dorit. • în cazul transmisiei telefonice fiecare eşantion este reprezentat pe 8 biţi. • cuantizarea semnalului audio necesită o eroare de cuantizare mai mică, folosindu-se cuvinte de 16 biţi. • caracteristica esenţială care rezultă din modul de reprezentare este debitul binar (debitul informaţional) [biţi/s]. • transmisia telefonică necesită un debit de 8000 8 = 64 Kb/s. • transmisia sau înregistrarea unui semnal audio necesită un debit de până la 48000 16 = 768 Kb/s. 3. Codarea a) Codarea directă a semnalului (“wave–form coding” = codarea formei de undă). [PCM – Pulse Code Modulation, DPCM – Differential PCM, ADPCM – Adaptive Differential PCM, DM– Delta Modulation, ADM – Adaptive Delta Modulation, SBC – Sub-Band Coding, ATC – Adaptive Transform Coding etc.] b) Codarea parametrică (“source coding” = codarea sursei). • parametrii ce caracterizează transmitanţa tractului vocal (câştigul şi coeficienţii ai); • parametrii ce caracterizează modul de excitaţie al tractului vocal (zgomot alb sau tren de impulsuri periodice). Clasificarea sistemelor de codare în funcţie de debitul binar Tipul codării Debitul biniar [kb/s] Denumirea calităţii codării Calitate specifică radiodifuziunii 64 (64-768) Calitate C.C.I.T.T. Codarea semnalului (WAVE-FORM CODING) Codarea sursei (SOURCE CODING) 16 – 64 4,8 – 16 Calitate acceptabilă pentru comunicaţii 0,1 – 4,8 Calitate sintetică Complexitatea relativă a sistemelor de codare a vorbirii Sistemul Modulaţia delta adaptivă Modulaţia impulsurilor în cod adaptivă Codarea în sub-benzi Codarea adaptivă a transformatei Codare LPC (parametrică) Vocoder formantic Prescurtarea ADM Complexitatea relativă 1 ADPCM 2 SBC ATC 5 50 LPC 100 - 500 3. PROPRIETĂŢI STATISTICE ALE SEMNALULUI VOCAL • semnalul vocal = realizare particulară a unui proces aleator nestaţionar. • două tipuri de statistică: • statistică pe termen lung - proprietăţile statistice medii ale semnalului vocal sunt estimate pe intervale de timp de ordinul câtorva zeci de secunde şi mediate pe mai mulţi vorbitori; • statistică pe termen scurt - evaluarea proprietăţilor statistice pe tranşe temporale de ordinul a 10-30 ms, în decursul cărora semnalul poate fi considerat cvasistaţionar. 2500 2000 1500 1000 500 0 -500 -1000 -1500 -2000 -2500 1000 2000 3000 4000 Esantioane 5000 6000 7000 8000 Reprezentarea în timp a semnalului vocal obţinut la pronunţarea cuvântului “şase” 2500 2000 1500 1000 500 “a” 0 -500 -1000 -1500 -2000 -2500 1700 1750 1800 1850 1900 Esantioane 1950 2000 2050 2100 2500 2000 1500 1000 500 “s” 0 -500 -1000 -1500 -2000 -2500 3000 3100 3200 3300 Esantioane 3400 3500 3600 Caracteristici statistice ale semnalului vocal Principalele caracteristici statistice ale semnalului vocal sunt: • densitatea de probabilitate; • valoarea medie; • varianţa; • rata trecerilor prin zero; • funcţia de autocorelaţie; • funcţia de autocovarianţă; • coeficientul de autocorelaţie; • densitatea spectrală de putere; • densitate spectrală de putere pe termen scurt. 1. Densitatea de probabilitate N - reprezintă numărul de eşantioane din semnalul x[n] ale căror amplitudini sunt cuprinse în intervalul 2 , 2 atunci când n N , N • densitatea de probabilitate a semnalului x[n] (pp. ergodic şi staţionar) px lim N N 2 N 0 1 • estimări experimentale ale acestei densităţi de probabilitate, realizate pe segmente de vorbire de ordinul a 50 secunde şi mediate pe câteva zeci de vorbitori, au arătat că această densitate de probabilitate este apropiată de distribuţia Laplace. Legea de repartiţie Uniformă Gaussiană (normală) Expresie analitică p x (m x 0 ) 1 rect a 2a 2 1 exp 2 2 x 2 x Laplace (biexponenţială) 2 1 exp 2 x x Gamma (de ordinul 1/2) 3 exp 8 x 2 x 3 Expresiile a 4 legi de repartiţie uzuale 2. Valoarea medie • Valoarea medie a unui semnal staţionar (dacă variabila aleatoare este continuă) este dată de relaţia: mx px d • În cazul semnalelor discrete: N 1 mx E x n lim x n N 2 N 1 n N • Pentru semnalul vocal această medie va fi presupusă nulă (ea nu conţine nici o informaţie utilă). 3. Varianţa • cazul analogic - varianţa este dată de relaţia: x2 mx px d m 2 x 0 2 p d x • pentru semnale discrete de medie nulă, relaţia de definiţie este: N 1 x2 lim x 2 n N 2 N 1 n N • acest parametru reprezintă energia medie a semnalului. 8 2.5 Energie/interval x 10 2 1.5 1 0.5 0 0 0.1 0.2 0.3 0.4 0.5 Timp (s) 0.6 0.7 0.8 0.9 Evoluţia varianţei (energiei) pe termen scurt a semnalului vocal corespunzător cuvântului “şase”, estimată pe tranşe de 200 eşantioane (25 ms) 1 4. Rata trecerilor prin zero • Pentru un semnal eşantionat se consideră că există treceri prin zero atunci când două eşantioane succesive au semnul opus. • Rata trecerilor prin zero pe termen scurt se determinată cu formula: 1 mN N 1 Z m sgn x n sgn x n 1 2 N n mN m - indicele tranşei N = lungimea tranşei • Rata trecerilor prin zero pe termen lung prezintă o repartiţie apropiată de cea gaussiană, cu o valoare medie de 0.49 pentru fonemele nesonore şi de 0.14 pentru cele sonore. Rata de treceri prin zero/interval 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.1 0.2 0.3 0.4 0.5 Timp (s) 0.6 0.7 0.8 Rata trecerilor prin zero pentru cuvântul “şase” 0.9 1 5. Funcţia de autocorelaţie • pentru un semnal aleator discret funcţia de autocorelaţie se exprimă prin speranţa matematică (media statistică): xx k E x n x n k • pentru un semnal staţionar şi ergodic: N 1 xx k x n x n k lim x n x n k N 2 N 1 n N • pentru o tranşă de lungime finită (N eşantioane): 1 N k 1 ˆ xx k x n x n k N k n 0 Proprietăţi ale funcţiei de autocorelaţie: xx k xx k • funcţie pară: • max xx k xx 0 • dacă x n x n N xx k xx k N 6. Funcţia de autocovarianţă • relaţie similară cu cea a funcţiei de autocorelaţie, după ce în prealabil s-a extras valoarea medie: xx k E x n mx x n k mx x nsemnal ergodic x n mx x n k mx xx k mx2 • în cazul semnalului vocal media a fost presupusă nulă ==> funcţia de autocovarianţă = funcţia de autocorelaţie: xx k xx k x2 xx 0 xx 0 7. Coeficientul de autocorelaţie • Coeficientul de autocorelaţie reprezintă funcţia de autocorelaţie normată la valoarea sa maximă: xx k xx k xx 0 xx k 1,1 • În cazul tranşei sonore, funcţia de autocorelaţie este cvasiperiodică şi în primul maxim diferit de cel din origine permite determinarea frecvenţei fundamentale • În cazul tranşei nesonore, funcţia de autocorelaţie nu mai este periodică şi în general nu mai conţine maxime comparabile cu cel din din origine. 1 0.5 0 -0.5 0 20 40 60 80 100 k 120 140 160 180 200 0 20 40 60 80 100 k 120 140 160 180 200 1 0.5 0 -0.5 Coeficientul de autocorelaţie pe termen scurt pentru o tranşă sonoră (sus), respectiv nesonoră (jos) F0 1 1 F 8000 e 133 Hz T0 P Te P 60 8. Densitatea spectrală de putere • Densitatea spectrală de putere se defineşte prin transformata Fourier a funcţiei de autocorelaţie: S xx e j xx e j F xx k k xx k e jk f 2 Fe • O estimare a acesteia se obţine luând o secvenţă de lungime finită din funcţia de autocorelaţie, utilizând o fereastră de ponderare: ˆ xx e j w k xx k e jk Sˆxx e j k K k K xx k e jk 9. Densitatea spectrală de putere pe termen scurt • Pe termen scurt semnalul vocal se poate presupune cvasistaţionar ==> se poate folosi transformata Fourier de la semnalele deterministe: X n, e j x m w n m e jm m 70 DSP (ts) sonor dB 60 50 40 0 500 1000 1500 2000 Hz 2500 3000 3500 4000 0 500 1000 1500 2000 Hz 2500 3000 3500 4000 45 dB DSP (ts) nesonor 40 35 30 25