Transcript cap1

1. INTRODUCERE ÎN PRELUCRAREA
SEMNALULUI VOCAL
1.1. Obiectivele prelucrării semnalului vocal
• Reprezentarea numerică a semnalului vocal
• moduri de reprezentare
• proprietăţi statistice ale semnalului vocal
• codarea şi compresia vorbirii
• Analiza semnalului vocal în domeniile timp şi frecvenţă
• punerea în evidenţă a proprietăţilor spectrale ale
semnalului vocal
• utilizarea analizei spectrale în determinarea unor
parametri utili în sinteză şi recunoaştere
• Sinteza semnalului vocal (sinteza vorbirii)
= producerea semnalului vocal pornind de la un
dicţionar de elemente fonetice şi de reguli, sau pornind
de la o anumită reprezentare parametrică a semnalului.
•
•
sinteza unor mesaje vocale cu conţinut predeterminat
sinteza vorbirii pornind de la un text oarecare scris
• Recunoaşterea vorbirii
= a face maşina capabilă să interpreteze cuvintele sau
frazele pronunţate de un vorbitor.
•
•
•
•
recunoaşterea cuvintelor izolate
recunoaşterea cuvintelor înlănţuite
recunoaşterea de mari vocabulare
recunoaşterea vorbirii continue
• Recunoaşterea vorbitorului
= se urmăreşte recunoaşterea (identificarea) unei
persoane după voce
• Aplicaţii speciale ale prelucrării semnalului vocal
• aplicaţii în domeniul medical, cum ar fi cele
referitoare la patologia laringelui, bazate pe detectarea
unor variabilităţi de pronunţie sau detectarea unor stări
particulare (stres, minciună, etc.)
• aplicaţii în studiul limbilor străine
• aplicaţii în dezvoltarea sistemelor de comunicaţie
multimedia.
1.2. Generalităţi asupra semnalului vocal
• Vorbirea este facultatea de a comunica gândurile printr-un
sistem de sunete articulate.
• Informaţia conţinută într-un mesaj este dată de
fluctuaţiile presiunii aerului, generate şi apoi emise de către
aparatul fonator uman.
• aceste fluctuaţii constituie semnalul vocal.
• ele sunt detectate de către ureche, care realizează
o operaţie de analiză a semnalului.
• rezultatele analizei sunt transmise creierului,
care le interpretează şi le foloseşte pentru
a comanda funcţiile vorbirii.
• Un mesaj vocal este constituit dintr-o succesiune de
unităţi (elemente) minimale lipsite de sens, numite foneme,
care prin asociere generează structuri sau elemente constitutive
de nivel superior: silabe, cuvinte, fraze.
• Conţinutul unui mesaj vocal poate fi definit în sens strict
şi în sens larg.
• În sens strict conţinutul mesajului este dat de
inteligibilitatea sa (asemănător cu un mesaj scris).
• În sens larg, conţinutul mesajului vocal ia în consideraţie
toate intonaţiile ce însoţesc producerea sa (creştere
puternică a conţinutului mesajului vocal faţă de cel scris).
• O trăsătură specifică a semnalului vocal este redundanţa.
(redundanţă = introducerea în mesaj a unor componente
informaţionale mai mult decât este necesar pentru
inteligibilitatea sa completă în absenţa zgomotului).
• prezenţa redundanţei în semnalul vocal îl face rezistent
la perturbaţiile mediului ambiant.
• redundanţa este prezentă şi la nivel semantic, fapt ce
uşurează înţelegerea mesajului de către creier.
• Cadenţa maximă (ritmul maxim) de asimilare a unui mesaj
este determinată de conţinutul strict al mesajului.
• Fie un mesaj constituit din elemente discrete aparţinând unui
ansamblu de date (de exemplu un alfabet) X = {x1, x2, …, xL}.
• Dacă p(xi) reprezintă probabilitatea de apariţie a simbolului xi,
selectarea acestuia va aduce informaţia I = – log2 p(xi) .
• Entropia sursei (informaţia medie asociată producerii mesajului X)
este dată de relaţia:
L
H ( X )   p( xi )log 2 p( xi )
[biţi]
i 1
• Entropia prezintă un maxim care s-ar produce atunci când
fonemele ar fi echiprobabile:
1
1
1
H max ( X )   L   log 2   log 2
L
L
L
[biţi]
• Pentru fiecare limbă se pot determina mărimile p(xi) (reprezentând
probabilităţile de apariţie a fonemului xi) prin analize statistice
efectuate pe lucrări literare cu un vocabular bogat.
• pentru limba engleză (L = 42):
Hmax(X) = log242 = 5.39 biţi
Hs(X) = 4.9 biţi
• pentru limba franceză (L = 36):
Hmax(X) = log236 = 5.17 biţi
Hs(X) = 4.73 biţi
• pentru limba română (L = 34):
Hmax(X) = log234 = 5.08 biţi
Hs(X) = necunoscut
• pe baza mărimilor determinate statistic, fiecare fonem poate fi
codat cu 5 biţi.
• într-o conversaţie curentă sunt pronunţate în medie 10 foneme pe
secundă, ceea ce conduce la un debit informaţional de 50 biţi/s.
• Formula de calcul pentru debitul maxim de informaţie pe un
canal analogic fără erori (capacitatea canalului):
S

C  B  log 2 1  
 Z
[biţi/sec.]
B = banda de trecere [Hz]
S/Z = raportul semnal pe zgomot
• pentru un canal telefonic cu B = 3000 Hz şi S/Z = 30 dB rezultă:
C  3000  log 2 1  1000   3000  log 2 210  30000
[biţi/sec.]
 redundanţă mare în acest canal (faţă de 50 biţi/s stabilit anterior).
• există mult mai multă informaţie într-un mesaj telefonic decât
într-un mesaj scris, unde informaţia este redusă la strictul necesar
pentru inteligibilitate; sporul de informaţie este datorat intonaţiei,
timbrului, etc.
1.3. Mecanismul fonaţiei
• Vorbirea = produs al aparatului fonator uman, controlat de
sistemul nervos central, care primeşte permanent informaţie
prin reacţia acustică (recepţia auditivă a semnalului).
• Aparatul fonator uman nu este un aparat special destinat producerii
vorbirii, ci este realizat prin adaptarea la această funcţie a unor
organe aparţinând în principal aparatelor respirator şi masticator.
• Aparatul respirator furnizează energia necesară producerii vorbirii,
atunci când aerul este expirat prin trahee.
• La capătul superior al traheei se găseşte laringele, unde presiunea
aerului este modulată înainte de a fi aplicată canalului (tractului)
vocal care se întinde de la laringe la buze.
• În zona centrală a laringelui se găsesc coardele vocale; acestea pot
închide complet laringele, iar depărtându-se, formează o deschidere
triunghiulară, denumită glotă.
• Prin glotă, aerul trece liber în timpul respiraţiei şi vocii şoptite,
precum şi în timpul formării sunetelor nesonore.
• Sunetele sonore se produc prin vibraţia periodică a coardelor vocale,
tractului vocal fiindu-i aplicate impulsuri periodice de presiune.
• Tractul vocal este un ansamblu de cavităţi situate între glotă şi buze,
cuprinzând cavitatea faringiană, cavitatea bucală şi cavitatea nazală
(în derivaţie cu cavitatea bucală).
• Intensitatea sunetului emis este strâns legată şi determinată de
presiunea aerului aflat în amonte de laringe.
• Înălţimea sunetului este determinată de frecvenţa de vibraţie a
coardelor vocale, denumită frecvenţă fundamentală (F0 - pitch).
• Inversul acestei frecvenţe (T0), se numeşte perioadă fundamentală.
• Frecvenţa fundamentală poate varia între limitele:
• 80 - 200 Hz pentru o voce masculină
• 150 - 450 Hz pentru o voce feminină
• 200 - 600 Hz pentru o voce de copil
• Două sunete sonore de aceeaşi intensitate şi de aceeaşi înălţime
se disting prin timbru, care este determinat de amplitudinile
relative ale armonicelor fundamentalei.
a
2000
1000
0
-1000
-2000
100
200
300
400
500
Esantioane
600
700
800
900
1000
b
70
65
dB
60
55
50
45
40
0
500
1000
1500
2000
Frecventa[Hz]
2500
3000
3500
4000
• Unui sunet sonor îi corespunde în timp un semnal cvasiperiodic.
• Structura armonică a spectrului se mai numeşte structură de pitch.
• Anvelopa spectrului prezintă maxime denumite formanţi, care
corespund frecvenţelor proprii ale tractului vocal.
• Spectrul unui sunet sonor are structură formantică.
a
300
200
100
0
-100
-200
-300
200
400
600
800
1000
1200
1400
Esantioane
b
45
dB
40
35
30
25
0
500
1000
1500
2000
Frecventa[Hz]
2500
3000
3500
4000
• Un sunet nesonor nu prezintă structură periodică; forma sa în
domeniul timp este asemănătoare cu cea a semnalelor de tip zgomot.
• Sunetul nesonor poate fi asimilat cu un zgomot alb filtrat de către
tractul vocal.
• Strucura spectrală are caracteristici tipice de zgomot.
1.4. Modelarea producerii vorbirii
• tractul vocal  înlănţuire (concatenare) de tuburi sonore de
lungimi şi secţiuni diferite (între glotă şi cavitatea bucală):
• lungimea medie  17 cm (la bărbaţi)
• secţiunea maximă  20 cm2
• cavitatea nazală (cuprinsă între vălul palatin şi nări):
• lungime  12 cm
• secţiune constantă
• pentru sunetele sonore, sursa este un tren periodic de impulsuri
(reproduce creşterea rapidă a presiunii aerului, urmată de o cădere mai lentă).
modelat prin răspunsul unui filtru trece-jos (FTJ) de ordinul 2
şi frecvenţă de tăiere  100 Hz.
Modelarea sursei pentru sunetele sonore:
e[n]
y[n]
G(z)
e  n    P [ n] 
G z 

   n  kP
P
k 0
A
1   z 1 1   z 1 
y  n  e  n  g  n 

 g  n  kP 
T0 Fe 8000


 64
T F0 125
 ,  R
g[n]  Z 1 G ( z )
k 0
• pentru sunetele nesonore, sursa este un zgomot alb
de varianţă unitară.
• tractul vocal  succesiune de tuburi acustice elementare.
 cascadă de rezonatori, cu transmitanţa globală:
T  z 
B
K
 1  b1k z 1  b2k z 2 
k 1
• fiecare rezonator elementar (de ordinul 2) are o caracteristică
de tip trece bandă şi simulează producerea unui anumit formant.
• deschiderea buzelor are o caracteristică de selectivitate de tip
trece-sus ce poate fi modelată prin transmitanţa:
R( z)   (1  z 1)
• funcţia de transfer globală a tractului vocal (considerată între
excitaţia idealizată şi semnalul emis):
H ( z )  G ( z )T ( z ) R( z ) 
 1  z 1 

1   z 1
1 
 z 1
K
  1  b1k z 1  b2k z 2 
k 1
• dacă se consideră   1 :
H ( z) 


1   z 1
K

k 1
1  b1k z 1  b2k z 2



A z 
K
2 K 1
k 1
i 1
A( z )  1   z 1   1  b1k z 1  b2k z 2   1 
 ai z i
 model numai cu poli sau autoregresiv (AR - Auto-Regressive )
Observaţii:
1  z 1
1. Simplificarea
1

1
1  z
este oarecum forţată şi ar fi posibilă numai pentru fonemele sonore
• o variantă mai corectă:
R( z )   1  az 1 
R( z ) 

1
1  az 1

a 1
0  a 1

1  az 1  a 2 z 2  ...
2. Fonemele nazale nu pot fi produse cu modelul AR
• cavităţile bucală şi nazală sunt cuplate în paralel:
H ( z) 
1
A1  z 

2
A2 ( z )

 1 A2 ( z )   2 A1 ( z )
A1 ( z ) A2 ( z )
 model ARMA (Auto-Regressive Moving Average)
1.5. Caracteristici fonetice
• Mesajul vocal este compus din sunete distincte, denumite foneme.
• Fonem = cea mai mică unitate sonoră prezentă în vorbire.
• Fiecare limbă are propriile foneme
• limbile etimologice - valoarea fonetică diferă de transcrierea literală
• limbile fonetice - valoarea fonetică este apropiată de transcrierea literală
• Pentru redarea grafică a valorii fonetice a literelor, grupurilor
de litere şi cuvintelor se foloseşte “Alfabetul fonetic internaţional”.
• Producerea unui fonem dat lasă loc unei anumite variabilităţi.
pe plan acustic; variaţiile fonemului se numesc alofoni.
• Pentru fiecare limbă fonemele sunt împărţite în clase şi subclase.
Fiecare clasă este legată de modul de articulare a aparatului fonator.
• Dacă s-ar considera tractul vocal ca un singur tub acustic cu
lungimea l (metri), rezonanţele acestuia (frecvenţele formanţilor) ar fi:
Fk   2k  1
c
Hz
4l
k N* , c = viteza sunetului = 340 m/s.
Ex:
c
340
34000


 500 Hz
4l 4  0,17 4 17
 Fk   2k  1  500 Hz
 F1 = 500 Hz, F2 = 1500 Hz, F3 = 2500 Hz
 formanţii vocalei neutre e mut din limba franceză
(foarte apropiaţi de cei ai vocalei ă din limba română)
- configuraţia tractului la emisia acestei vocale este foarte
apropiată de cea observată în perioadele de linişte, tractul
fiind în repaos.
• Dacă s-ar considera tractul vocal la producerea fonemelor
corespunzătoare vocalelor ca fiind format din două secţiuni
(două tuburi acustice în cascadă) cu lungimile l1, l2 şi ariile A1, A2:
A1
[cm2]
1
8
A2
[cm2]
7
1
l1
[cm]
9
9
l2
[cm]
8
6
Vocala
a
i
F1
[Hz]
750
250
F2
[Hz]
1250
1900
F3
[Hz]
2700
2800
• Plajele primilor 3 formanţi pentru câteva dintre vocalele limbii române
(mărimile barate semnifică valorile medii statistice ale formanţilor):
Vocala
Plaja F1
[Hz]
i
e
a
o
u
200-450
250-650
450-1100
225-675
200-475
Plaja F2 F2
Plaja F3 F3
F1
[Hz]
[Hz]
[Hz]
[Hz]
[Hz]
300 1850-2625 2200 2575-3500 2950
400 1475-2800 1950 2200-3350 2750
700 950-2100 1300 2050-3275 2600
400 550-1400 1000 1800-3350 2600
350 550-1200 850 2100-3050 2500
• Reprezentarea unor vocale ale limbii franceze în planul formanţilor F1, F2:
F1 [Hz]
800
a
600
400
ε
o
200
0
u
1000
y
2000
i
3000
F2 [Hz]