Traitement de la parole -Introduction- TSI Télécommunications, services & usages Jean-Marie Gorce Codage Restauration -quantification -codage par modèles -transmission -analyse SNR -filtrage Analyse-synthèse Com.

Download Report

Transcript Traitement de la parole -Introduction- TSI Télécommunications, services & usages Jean-Marie Gorce Codage Restauration -quantification -codage par modèles -transmission -analyse SNR -filtrage Analyse-synthèse Com.

Traitement de la parole
-Introduction-
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Codage
Restauration
-quantification
-codage par modèles
-transmission
-analyse SNR
-filtrage
Analyse-synthèse
Com. Multimodale
-multimédia
-son-image
-les 5 sens
-modélisation physique
-modélisation électrique
-analyse spectrale
-prédiction linéaire
Reconnaissance
-modélisation du langage
-théorie de la décision
-intelligence artificielle
Compréhension
Identification
-base de données
-grammaire, analyse sémantique
‘speaker specific’
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Auditeur
Locuteur
idée,
niveau cognitif,
pensée.
La
parole
?????????
compréhension
objectif : la communication
traitement
cognitif
construction
grammaticale.
commande
musculaire.
système
phonatoire
signal
acoustique
=
vecteur de la
parole
TSI
Télécommunications, services & usages
prétraitement
sensoriel
système
auditif
Jean-Marie Gorce
‘la parole aux télécoms’
problème :
limité dans l’espace
Locuteur
signal acoustique
microphone
signal
électrique
Auditeur
écouteur
transmission
électromagnétique
CAN
signal
électrique
CNA
câble
signal
numérique
hertzien
TSI
Télécommunications, services & usages
signal
numérique
Jean-Marie Gorce
Le codage de la parole
degré de complexité
-analogique
E
R
E
-numérique
quantification
échantillonnage
CAN
CNA
R
-codage
modélisation
compression
CAN codeur décod.
CNA
R
E
Normes de communication
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Aspects abordés dans ce cours
•
•
•
•
modélisation du signal de parole
le codage direct (PCM, DPCM, APCM, ADPCM)
la prédiction linéaire (APC,LPC,RPE-LTP)
la quantification vectorielle (VSELP, CELP,
ACELP)
• transformée en sous-bande (MBE,MELP)
• signal audio musical : HD, (MPEG, MIDI)
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Traitement de la parole
-Etude du signal de parole-
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Plan

production naturelle de la parole

modélisation physique

modélisation spectrale, analyse de Fourier

modélisation paramétrique autorégressive
TSI
Télécommunications, services & usages
Jean-Marie Gorce
I-Production naturelle de la parole
1) un peu de physiologie
narines
Cavité
nasale
C. buccale
langue
lèvres
oesophage
glotte
larynx
Trachée artère
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Cordes
vocales
Le larynx :
- voisé ou non voisé
- fréquence fondamentale (pitch)
épiglotte
muqueuse
glotte
TSI
Télécommunications, services & usages
Jean-Marie Gorce
2) Le rôle des cordes vocales : sons voisés
Un son voisé est défini par :
- sa fréquence fondamentale (=hauteur)
- son timbre = rapport entre fondamental et harmonique
0.4
amplitude
0.3
‘e’
0.2
0.1
0
-0.1
-0.2
-0.30
0.05
0.1
0.15
0.2
temps
TSI
Télécommunications, services & usages
0.25
0.3
Jean-Marie Gorce
0.35
3) Représentation simplifiée :
souffle
Pharynx
cordes
vocales
Cavité
buccale
E
Cavité
nasale
E
0.6
amplitude
0.4
0.2
0
-0.2
-0.4
b
0
on
0.1
0.2
j
0.3
ou
0.4
0.5
r
0.6
0.7
0.8
temps
TSI
Télécommunications, services & usages
Jean-Marie Gorce
0.9
4) Les différents types de sons (phonèmes)
Les voyelles (voisées)
Orales
souffle
cordes
vocales
[A, E, I, O, U, OU...]
Pharynx
Cavité
buccale
E
Nasales
souffle
cordes
vocales
[IN, UN, AN, ON]
TSI
Télécommunications, services & usages
Pharynx
Cavité
buccale
E
Cavité
nasale
E
Jean-Marie Gorce
[e]
PSD [e]
0.4
50
40
(dB)
0.2
0
30
20
10
-0.2
0
50
t (ms)
[on]
0
0
100
0.4
1
2
3
f (kHz)
PSD [on]
4
5
1
2
3
f (kHz)
4
5
50
40
(dB)
0.2
0
30
20
10
-0.2
0
50
t (ms)
Télécommunications, services & usages
0
0
100
TSI
Jean-Marie Gorce
Les consonnes
Liquides
souffle
cordes
vocales
[R,L]
Pharynx
Cavité
buccale
E
Nasales
souffle
cordes
vocales
[M,N,GN]
TSI
Télécommunications, services & usages
Pharynx
Cavité
buccale
E
Cavité
nasale
E
Jean-Marie Gorce
Fricatives non voisées
[F, S, CH]
souffle
Pharynx
Cavité
buccale
E
Fricatives voisées
[V, Z, J]
souffle
Pharynx
Cavité
buccale
cordes
vocales
TSI
Télécommunications, services & usages
Jean-Marie Gorce
E
[ch]
0.1
0.05
0
-0.05
-0.1
0
10
20
30
40
50
t (ms)
60
70
80
90
100
6
7
8
9
10
PSD [ch]
30
(dB)
20
10
0
-10
-20
0
1
2
3
4
5
f (kHz)
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Occlusives non voisées
[P, T, K]
souffle
Pharynx
Cavité
buccale
E
Occlusives voisées
[B, D, G]
souffle
Pharynx
cordes
vocales
TSI
Télécommunications, services & usages
Cavité
buccale
E
Cavité
nasale
E
Jean-Marie Gorce
[bon]
1
0.5
0
-0.5
-1
0
[b]
[on]
50
100
150
t (ms)
[par]
0.1
0.05
0
-0.05
[p]
-0.1
0
[a]
50
[r]
100
150
t (ms)
TSI
Télécommunications, services & usages
Jean-Marie Gorce
II-Modélisation physique
TSI
Télécommunications, services & usages
Jean-Marie Gorce
III-Modélisation harmonique
Modèle de Dudley (VOCODER) également développé en 1930
Bandpass
filter 1
Nonlinearity
Lowpass
filter
Sampling
rate
reduction
Amplitude
Compression
Bandpass
filter Q
Nonlinearity
Lowpass
filter
Sampling
rate
reduction
Amplitude
Compression
speech
TSI
Télécommunications, services & usages
Jean-Marie Gorce
[e]
PSD [e]
0.4
50
40
(dB)
0.2
0
30
20
10
-0.2
0
50
t (ms)
0
0
100
1
2
3
f (kHz)
DFT
Transformée de Fourier = décomposition spectrale
TSI
Télécommunications, services & usages
Jean-Marie Gorce
4
5
Quelques propriétés spectrales
•Sons voisés
Fondamental (pitch)
Harmoniques
Formants
PSD [e]
50
(dB)
40
30
20
10
f (kHz)
0
0
1
2
TSI
Télécommunications, services & usages
3
4
Jean-Marie Gorce
5
•Sons non voisés
Bruit blanc
(souffle)
PSD [ch]
30
(dB)
20
10
0
-10
-20
0
1
2
3
4
5
f (kHz)
TSI
Télécommunications, services & usages
6
7
8
9
Jean-Marie Gorce
10
Non stationnarité : le spectrogramme
bonjour
0.6
0.4
0.2
0
-0.2
-0.4
0
0.1
0.2
0.3
0.4
0.5
t (s)
0.6
0.7
0.8
0.9
1
0.1
0.2
0.3
0.4
0.5
t (s)
0.6
0.7
0.8
0.9
1
f (MHz)
2
1.5
1
0.5
0
0
TSI
Télécommunications, services & usages
Jean-Marie Gorce
sachez parler
0.1
0.05
0
-0.05
-0.1
0
0.1
0.2
0.3
0.4
0.5 0.6
t (s)
0.7
0.8
0.9
1
0.1
0.2
0.3
0.4
0.5 0.6
t (s)
0.7
0.8
0.9
1
f (MHz)
4
3
2
1
0
0
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Signal aléatoire :
Transformée de Fourier
Signal
Densité spectrale de puissance
Processus stationnaire, ergodique
Plusieurs réalisations,
Energie finie
DSP=mean(TSF)
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Processus gaussien non corrélé
Signal
Signal
Fourier
DSP
0
TSI
Télécommunications, services & usages
Jean-Marie Gorce
IV-Modélisation paramétrique
La modélisation paramétrique présentée repose sur les propriétés
de la transformée en z et de la modélisation ARMA
(filtres IIR; FIR).
Quelques rappels :
- transformée en z
-modélisation ARMA
-les différentes représentations des modèles AR
TSI
Télécommunications, services & usages
Jean-Marie Gorce
1) La transformée en z
la transformée en Z est aux signaux échantillonnés ce que la
transformée de Laplace est aux signaux continus (automatisme)
•déf.

X( z)   x k   z

k
X(z) est définie comme la
somme d’une série relative
aux échantillons temporels x[k]
étude du domaine de convergence en fonction de z
•prop.
linéarité
décalage temporel
convolution temporelle
TSI
Télécommunications, services & usages
cf. cours
TSI
Jean-Marie Gorce
•liens avec la transformée de Fourier discrète
si on restreint l’espace de z au cercle unité, z=e(jw) , on retrouve
la transformée de Fourier :
jw
Xd (f )  X(z  e ) 

 j2 fk
x
[
k
]

e

k  
Im(z)
la périodicité du spectre
apparaît naturellement, en
fonction de la fréquence
d’échantillonnage
f=0
|z|<1
Re(z)
f=fe
TSI
Télécommunications, services & usages
Jean-Marie Gorce
•Fonction de transfert numérique H(z)
x[k]
y[k]=(x*h)|k
h[k]
H(z)
X(z)
Y(z)=X(z).H(z)
z=exp(j2f)
Xd(f)
z=exp(j2f)
Yd(f)
Hd(f)
Comme pour la TFD, le passage dans le domaine des z, permet
de remplacer l’opération de convolution par une opération de
multiplication => mathématiquement très intéressant
TSI
Télécommunications, services & usages
Jean-Marie Gorce
•cas spécifique où H(z) est un polynôme du type
H ( z) 
b 0  b1  z1  ... b q  z q
1  a 1  z1  ... a p  zp
Tous les pôles dans le cercle unité => stabilité du filtre
Tous les zéros dans le cercle unité =>phase minimale
remarques :
a0=1 pour unicité du modèle
ai, bi réels si signal réel
factorisation numérateur => q zéros
factorisation dénominateur => p pôles
TSI
Télécommunications, services & usages
Jean-Marie Gorce
•intérêt de cette structure
y( k )  a 1y( k  1)  ... a p y( k  p )  b 0 x( k )  b1x( k  1)  ...bp x( k  p )
expression dans le domaine temporel
Y(z)=X(z).H(z)
expression dans le domaine spectral
H(f )  H( z  e jw ) 
b 0  b1  e  jw  ...  bq  e  jqw
1  a1  e  jw  ...  ap  e  jpw
TSI
Télécommunications, services & usages
Jean-Marie Gorce
2) Modélisation ARMA
def. d’un gabarit
•problème de filtrage :
y[k]
x[k]
H (z)
x[k]
•problème de modélisation:
u[k]
H (z)
TSI
Télécommunications, services & usages
y[k]
-
+
Jean-Marie Gorce
e[k]
•modélisation ARMA (moving average autoregressive)
- les zéros caractérisent la partie ‘moyenne ajustée’.
- les pôles caractérisent la partie ‘autorégressive’.
•modélisation MA (moyenne ajustée)
- modèle ’tout zéros ’
spectres doux
•modélisation AR (autorégressive)
- modèle ’tout pôles’
- algorithmes d’estimation très rapides.
- spectres présentant des pics.
MA
AR ordre infini
TSI
Télécommunications, services & usages
Jean-Marie Gorce
p=0.85
p=0.6
p=0.3
•Exemple de modèles AR, 1 pôle réel
réponse impulsionnelle
réponse spectrale
20
1
position des pôles
0.9
0.25
15
0.8
0.7
(dB)
0.6
0.5
0.4
10
0.5
-0.5
0
5
0.3
-0.25
0.2
0
0.1
0
0
n
50
Télécommunications, services & usages
-5
-0.5
0
TSI
fr
0.5
Jean-Marie Gorce
p=0.85; 0.3
p=0.85 exp(j/4)
p=0.3 exp(j/2)
•Exemple de modèles AR, 2 pôles conjugués
réponse impulsionnelle
1
réponse spectrale
position des pôles
20
0.25
15
(dB)
0.5
-0.5
10
0
0
5
-0.25
0
-1
-5
0
50 -0.5
Télécommunications, services
&
usages
n
TSI
0
fr
0.5
Jean-Marie Gorce
3) Modélisation ARMA de la parole
•représentation shématique du signal de parole :
source
E
Canal n
Canal 1
la source peut être un bruit blanc (sons non voisés ou chuchotés)
ou 1 train périodique pour les sons voisés.
le conduit vocal peut être représenté par une succession de tubes acoustiques,
(pharynx, cavité buccale, nasale) modélisés par des résonateurs.
l’émetteur, lèvres ou narines, représente une charge acoustique pour l’onde
sonore qui y arrive.
TSI
Télécommunications, services & usages
Jean-Marie Gorce
xv(k)
•source pour les sons voisés
G0
G ( z) 
1  z  1 1  z  1


G(z)

réponse spectrale
60
réponse impulsionnelle
10
50
=0.97, =0.85,
fE=44kHz
(dB)
40
30
5
20
10
00
00
100 200 300 400 500
n
TSI
Télécommunications, services & usages
1
2
f (kHz)
Jean-Marie Gorce
3
4
Source (sortie de G(z) ) pour les sons voisés
5
4
3
2
1
0
0
500
1000
1500
2000
n
fE=44kHz
TSI
Télécommunications, services & usages
Jean-Marie Gorce
2500
•source pour les sons non voisés
TSI
Télécommunications, services & usages
Jean-Marie Gorce
•canal ou tube acoustique
La réponse acoustique d’un tube est caractérisée par un résonateur.
La réponse d’un résonateur est donnée par
Ai
Vi ( z) 
1  a 1,i z 1  a 2,i z 2
modèle AR d’ordre 2
Chaque résonateur est un ‘formant’ dont la fréquence centrale est :
1
 1   a 1, i / 2 
Fi 
f E cos 

2
 a 2, i 
Le conduit vocal est donc bien modélisé par un modèle AR, ordre 2n
V ( z) 
A
n
1
2
1

a
z

a
z
 1,i
2,i
i1
TSI
Télécommunications, services & usages
Jean-Marie Gorce
réponse spectrale
réponse impulsionnelle
1.5
4
position des pôles
2
1
11kHz
(dB)
0
0.5
-2
-4
22kHz
0
-6
-8
0
-11kHz
-10
-12
-0.5
-14
-1
0
50
n
100
0
5
f (kHz)
TSI
Télécommunications, services & usages
Jean-Marie Gorce
•L’émetteur (lèvres ou narines)
La pression observée à une certaine distance des lèvres est proportionnelle
à la dérivée du volume des lèvres :

R ( z)  C  1  z  1

modèle MA d’ordre 1
TSI
Télécommunications, services & usages
Jean-Marie Gorce
•Son voisé
G(z)
R(z)
Vn(z)
V1(z)
V(z)
T( z) 


  1  a
T0 1  z1

1  z
1

1  z
1
n
i1
1
2
z

a
z
1i
2i

qui tend vers 1 modèle AR d’ordre 2n+1, si un des pôles de G(z)
est proche de l’unité
TSI
Télécommunications, services & usages
Jean-Marie Gorce
•Son nasalisé
les sons nasalisés font intervenir simultanément les cavités nasale et bucale.
G(z)
T( z) 
V1(z)
T1
T2
A ( z)T1  A1 ( z)T2

 2
A1 ( z) A 2 ( z)
A1 ( z)  A 2 ( z)
TSI
Télécommunications, services & usages
Vn(z)
R(z)
V’(z)
R’(z)
modèle ARMA
Jean-Marie Gorce
4) En résumé
•complexité de la production de la parole (sons voisés,
occlusifs etc...).
•principales propriétés spectrales du signal de parole
(électrique ou acoustique) : fondamentale, harmonique,
formants, bande passante vocale, non stationnarité,
stationnarité locale (20ms), signal stochastique
•modèles ARMA d’un processus physique (intérêt pour le
codage)
•un modèle AR pouvait suffire dans certains cas.
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Traitement de la parole
-Le codage de la parole-
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Problématique du codage
qualité
débit
complexité
coût
Compression
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Exemple :
norme CCITT G.711
Échantillonnage : 8kHz
Quantification : non uniforme (A-law ou µ-law) sur 8 bits
Débit : 64kb/s
TSI
Télécommunications, services & usages
Jean-Marie Gorce
A-La quantification scalaire
(quantization)

L’échantillonnage

La quantification uniforme

La quantification non uniforme

La quantification différentielle

La quantification adaptative
TSI
Télécommunications, services & usages
Jean-Marie Gorce
I-L’échantillonnage
(sampling)
Fréquence d ’échantillonnage ???
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Recouvrement spectral
PSD [ch]
30
(dB)
20
10
0
-10
-20
0
1
2
3
4
5
6
f (kHz)
7
8
Théorème de Shannon : fmax=Fe/2
•filtre anti-repliement (anti-aliasing)
Initial
aliased
TSI
Télécommunications, services & usages
prefiltered
Jean-Marie Gorce
9
10
II-La quantification
Exemple : quantification sur 3 bits
TSI
Télécommunications, services & usages
Jean-Marie Gorce
1° quelques définitions
•La quantification
x 
Q(x)
y  D q ; D q  q1 ,  , q n 
- L : nombre de valeurs quantifiées
- b : nombre de bits de codage; L = 2b
- x(0) ... x(L) : niveaux de décision
- x(0),x(L) : seuils
- d(i)=x(i)-x(i-1) : pas de quantification
- y(1) ... y(L) : valeurs quantifiées
TSI
Télécommunications, services & usages
Jean-Marie Gorce
•L’erreur de quantification : q(x)=Q(x)-x
- granulation : erreur liée au nombre de valeurs choisies (se2)
- saturation : erreur liée au dépassement des seuils (sd2).
q(n)
x(n)
+
q(n)
+
y(n)
•signaux aléatoires
le signal de parole est considéré comme un signal aléatoire à
moyenne nulle et variance sx2.
l’erreur de quantification sera donc appelée bruit de
quantification, en général à moyenne nulle (0,se2).
TSI
Télécommunications, services & usages
Jean-Marie Gorce
VS ???
[sachez parler]
histogramme
-0.1
TSI
Télécommunications, services & usages
0
0.1
Jean-Marie Gorce
•facteur de charge G
G=xs/sx
•Rapport Signal-Bruit (RSB ou SNR)
 s x2 

RSB  10 log 2
2 
se sd 
[dB]
RSB  6.02  b  4.77  20 log( G )
TSI
Télécommunications, services & usages
Jean-Marie Gorce
2° la quantification uniforme
définition :
- y(i)=1/2 ( x(i-1)+x(i) )
-d(i)= d qlqsoit i
-valeurs seuils : -xs, xs
propriétés :
- d=2 xs /L
- erreur de granulation |e|< d/2
TSI
Télécommunications, services & usages
Jean-Marie Gorce
TSI
Télécommunications, services & usages
Jean-Marie Gorce
TSI
Télécommunications, services & usages
Jean-Marie Gorce
3° la quantification non-uniforme
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Transformation non-linéaire préalable
q(n)
x(n)
+
Compression
des
amplitudes
Dilatation
des
amplitudes
y(n)
Signal de distribution uniforme
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Norme: Modulation par Impulsions Codées (MIC, 64kbits/s)
(Pulse Code Modulation, PCM)
Filtre
100-3400Hz
Éch.
fE=8kHz
Compression
d ’amplitude
Quantification
8bits
Norme européenne
F( x ) 
Ax
1  ln(A)
F( x)  xmax
sgn( x); 0 
1  ln(A
x
xmax
 A 1
x
)
x
xmax
1
sgn( x); A 
1
1  ln(A)
xmax
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Représentation de la loi de compression
TSI
Télécommunications, services & usages
Jean-Marie Gorce
TSI
Télécommunications, services & usages
Jean-Marie Gorce
TSI
Télécommunications, services & usages
Jean-Marie Gorce
III-La quantification différentielle
(differential quantization)
1° Principe
q(n)
x(n)
+
r(n)
y(n)
z-1
x(n-1)
Décorrélation >>>
s r2  2s x2 1   x (1)
TSI
Télécommunications, services & usages
Jean-Marie Gorce
2° Gain RSB
Si x(1)>0.5, sr2 < sx2,
A nombre de niveaux constant, on peut réduire le pas de quantification
et améliorer le RSB dans un rapport sr2/sx2
  RSB   10 log(
1
21   x (1) 
TSI
Télécommunications, services & usages
)
Jean-Marie Gorce
3° Mise en œuvre codage-décodage
q(n)
x(n)
r(n)
+
t(n)
y(n)
z-1
+
y(n-1)
x(n-1)
y(n)=x(n)+e(n);
z-1
e(n)=q(n)+e(n-1)
Intégration de l ’erreur !!!!
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Idée : coder la différence par rapport à la sortie
q(n)
x(n)
r(n)
+
t(n)
y(n)
-
+
y(n-1)
y(n-1)
z-1
Remarque : OK si le signal est correctement codé ; quantification suffisante
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Délocalisation du décodage
q(n)
x(n)
r(n)
+
t(n)
y(n)
-
+
y(n-1)
y(n-1)
z-1
z-1
+
TSI
Télécommunications, services & usages
Jean-Marie Gorce
4° Prédiction linéaire
r(n)=x(n)-x(n-1)
r(n)=x(n)-a1.x(n-1) - a2.x(n-2) - … - ap.x(n-p)
•Variance de l ’erreur faible.
•Erreur = bruit blanc
•Justification de ce modèle
d’après la théorie de la parole
•Quel ordre p ?
•Quels paramètres AR ?
•Quel gain ?
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Modélisation AR
q(n)
x(n)
r(n) +
t(n)
y(n)
-
+
y(n-1)
y(n-1)
P(z)
P(z)
+
P(z)=a1z-1 + a2z-2 + ... + apz-p
TSI
Télécommunications, services & usages
Jean-Marie Gorce
2° Système DPCM (MICD)
0.1
0.05
0
-0.05
-0.1
20ms (160 ech);
8kHz
ARMA(6,2);
2-5 bits/ech. (16-64 kb/s)
TSI
Télécommunications, services & usages
Jean-Marie Gorce
IV-La quantification adaptative
(adaptive quantization)
1° Principe : adapter au fur et à mesure les paramètres (AR, gain)
du signal de parole
couplée avec la quantification différentielle
Modulation par Impulsions Codées Différentielle Adaptative (MICDA)
Adaptive Differential Pulse Code Modulation (ADPCM)
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Disponible sur le site Texas Instrument
http://www.ti.com/sc/docs/psheets/abstract/apps/bpra053.htm
TSI
Télécommunications, services & usages
Jean-Marie Gorce
4) En résumé
•système PCM : fe=8kHz, 8pts/ech. 64kb/sec,
•Système ADPCM : fe=8kHz, 4<.<8pts/ech. 16-64kb/sec
Objectif :
<16 kb/sec
Moins de
2bits/point !!!!!!!!
TSI
Télécommunications, services & usages
Jean-Marie Gorce
B-La quantification vectorielle

Principe de la quantification vectorielle

Quantification vectorielle prédictive
(CELP).

1 exemple de codeur utilisé en téléphonie
cellulaire : GSM.
TSI
Télécommunications, services & usages
Jean-Marie Gorce
I-La quantification vectorielle
(vectorial quantization)
1° Principe : Regrouper les échantillons pour les transmettre.
Mieux rentabiliser chaque bit utilisé.
V(m)
Règle du
plus proche
voisin
i(m)
V’1…V’ L
Inspection V’(m)
dans une
table
V’1…V’ L
V(m)  xm  1  N  1m  N
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Exemple pour M=2 : le codage vectoriel permet d ’adapter la
répartition des codes.
TSI
Télécommunications, services & usages
Jean-Marie Gorce
2° Algorithmie : Comment choisir le dicitonnaire ??
algorithme de Lloyd-Max
1- Initialiser le ‘dictionnaire’ >> niveaux
2- Appliquer la règle du plus proche voisin
(minimiser l’erreur de codage) >> seuils implicites
3- Appliquer la règle du centroïde
(minimiser l’erreur de décodage) >> niveaux
4- Refaire 2 et 3 jusqu’à convergence...
TSI
Télécommunications, services & usages
Jean-Marie Gorce
II-LPC (linear predictive coding)
1° Principe : Minimiser la corrélation entre échantillons codés
simultanément pour simplifier le travail du ‘ dictionnaire ’.
V(m)
R(m)
A(z)
-
Optimisation
des paramètres AR
pour chaque vecteur
Règle du
plus proche
voisin
i(m)
R’1…R’ L
V’(m)
Inspection R’(m)
1/A(z)
dans une
table
R’1…R’ L
Coder l ’erreur après modélisation AR
V(z) = Bruit(z)/A(z)
TSI
Télécommunications, services & usages
Jean-Marie Gorce
2° Codeur prédictif excité par des codes (Code Excited
Linear Predictive Coding, CELP) :
Minimiser les distorsions en minimisant l ’erreur relative
au signal initial.
V(m)
Règle du
plus proche
voisin
i(m)
Inspection
dans une
table
V’1…V’ L
1/A(z)
V’M
AR(m)
1/A(z)
R’1…R’ L
R’1…R’ L
TSI
Télécommunications, services & usages
Jean-Marie Gorce
V’(m)
3° Prédiction long terme (long terme prediction, LTP) :
Ajouter un 2ième étage de prédiction pour prendre en compte
la périodicité des sons voisés....
4° Introduction d ’un facteur perceptuel
(préfiltrage W(z)) :
Utiliser les principes de ‘masquage du son’ pour concentrer
l ’erreur dans les zones non perceptuelles
(cf. cours sons audio).
TSI
Télécommunications, services & usages
Jean-Marie Gorce
III-Codeurs GSM
passe-haut
(>80Hz)
Estimation
AR
Prédiction
à long terme
Modélisation
du bruit
Paramètres AR
Paramètres b,Q
Index du dictionnaire
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Norme GSM, FR (Full Rate)
(RPE-LTP, Regular Pulse Excitation with Long Term Prediction)
1- Pré-accentuation H(z)=(1-0.86z-1 )
2- LPC ordre 8, algorithme de Schur sur N=160échantillons.
Codage des coefficients sur 36bits/fen160ech
1.8kbit/s
3- Prédiction à long terme (2 coefs b et Q) sur fenêtres N=40éch.
Codage des coefficients (7+2)bits/fen40ech
1.8kbit/s
4- Sous échantillonnage par 3 =>4 signaux de 13 éch.
On garde seulement le plus énergétique (2bits).
Quantification non uniforme sur 3bits des 13 éch.
Quantification non uniforme du facteur d’échelle sur 6bits.
Codage (2+3*13+6)bits /fen40ech
9.4kbit/s
13kbit/s
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Norme GSM, EFR (Enhanced Full Rate)
(CELP Code Excited Linear Prediction)
(GSM 06.60 version 6.0.1, release 1997)
http://www.etsi.org/
P:/gorceGSM_juillet2000
1- Pré-filtrage (passe-haut, 80Hz)
2- LPC ordre 10, par fenêtres pondérées, N=160 échantillons
Codage des coefficients sur 38bits/fen160ech
1.9kbit/s
3- Prédiction à long terme (2 coefs b et Q) sur fenêtres N=40éch.
Codage des coefficients (9;6 +4)bits/fen 40ech
2.3kbit/s
4- Dictionnaire à structure algébrique.
Codage des coefficients 35 bits/fen 40ech
Codage du gain statique 5bits/fen 40 ech
7 kbit/s
1 kbit/s
12.2kbit/s
TSI
Télécommunications, services & usages
Jean-Marie Gorce
2- LPC ordre 10, par fenêtres pondérées, N=160 échantillons
f1
f2
f3
f4
Estimation d ’un modèle AR ordre 10 après fenêtrage WI(n) et WII(n) :
- directement modèles pour les sous-fenêtres f2 et f4.
- par interpolation modèles pour les sous-fenêtres f1 et f3.
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Codage des coefficients AR (2 vecteurs) sous forme d ’une matrice, pour les 2 fenêtres.
(on code ensemble les modèles des 4 sous fenêtres d ’un ‘ frame ’
Rem : on ne code pas directement les coefficients AR, mais des coefficients
équivalents dans un espace fréquentiel équivalent. (LSF, linear spectral frequencies)
On obtient en sortie un bruit
Filtre de blanchiment
H(z )  Az 
Filtre de synthèse quantifié
H(z)  1 / Âz
TSI
Télécommunications, services & usages
Jean-Marie Gorce
2b- filtrage ‘perceptuel’
A( z )
W( z ) 
Az /  
Limiter le bruit de quantification dans les zones fréquentielles
à haute énergie (formants)
s(t)
|S(z)|
|W(z)|
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Résumé de la phase de prédiction linéaire
s(n)
Â(z)
w(n)
w’(n)
A(z)/A(z/)
160 éch.
Paramètres AR définis pour des fenêtres de 40 éch. (5ms)
Â(z)=1+ a1.z-1 + a2.z-2 + …+a10.z-10
Transmission et codage des paramètres d ’une fenêtre sur 2
regroupement par 2 :
codage sur 38bits pour 160 échantillons (20ms), de la différence avec les vecteurs
précédents.
TSI
Télécommunications, services & usages
Jean-Marie Gorce
s(n)
w’(n)
Reste une certaine périodicité >>> Prédiction long terme
TSI
Télécommunications, services & usages
Jean-Marie Gorce
3- Prédiction à long terme
« pitch synthesis filter »
1
1
H LT ( z ) 

Bz  1  bz Q
y(n)=e(n)+b.y(n-Q)
i.e. périodicité de période Q.
Filtrage
w’(n)
B(z)
w’’(n)
160 éch.
Paramètres b,Q définis
pour des fenêtres de 40 éch.
B(z)=1-bz-Q
TSI
Télécommunications, services & usages
Pour b : 4bits / sous-fenêtre
Pour Q, codage sur les sous-fenêtres
- codage f1 et f3 (9bits x2)
- codage de la différence pour f2 et f4
(6bits x2).
Jean-Marie Gorce
4- Codage Par dictionnaire algébrique
Dans une fenêtre, codage des 10 / 40 échantillons les plus forts
10 ech = 5 mots de 2 impulsions
Mot Code
Impulsions Positions
1
i0, i5
0,5,10,15,20,25,30,35
2
i1, i6
1,6,11,16,21,26,31,36
3
i2, i7
2,7,12,17,22,27,32,37
4
i3, i8
3,8,13,18,23,28,33,38
5
i4, i9
4,9,14,19,24,29,34,39
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Codage de l ’erreur W’’(n) par mots codes : c1+c2+c3+c4+c5
Minimisation de l ’erreur de synthèse
Mot Code i : 2 impulsions =>
- position de chaque impulsion (8 positions) sur 3bits.
- signe de la première sur 1 bit (l ’autre signe est déduit).
code Gray
000
001
011
010
110
111
101
100
Code à transmettre : 1 101 011
7 bits par mot code => 35 bits / ssfen
Codage d ’un coefficient de gain statique :
Conservation de l ’énergie du signal
TSI
Télécommunications, services & usages
5 bits /ssfen
Jean-Marie Gorce
En résumé
•Codage de base (PCM) 64kbit/s. qualité téléphonique
(pas audio).
•Codage adaptatif différentiel (ADPCM), même qualité à
32kbit/s. Acceptable jusqu’à 16kbit/s.
•Codage vectoriel : regrouper les valeurs à coder pour
diminuer la redondance. Autour de 10kbit/s. (militaire :
4.kbit/s).
•Complexité des méthodes hybrides. Augmentation des
performances. Codage en sous-bandes???
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Traitement de la parole
-Le codage du son-
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Problématique du codage
qualité
débit
complexité
coût
Compression
TSI
Télécommunications, services & usages
Jean-Marie Gorce
A-Qu ’est-ce qu ’un son ?

La parole (cf. cours précédent)

La musique

Les autres sons
TSI
Télécommunications, services & usages
Jean-Marie Gorce
I-La parole
(résumé)
Propriétés connues :
- fmax=3,4kHz (=> Fe=8kHz)
- Processus de formation (formants, pitch, harmoniques)
- Modélisation AR performante.
- Loi de distribution ~ Laplace (=>A-law, µ-law)
Objectif :transmission d ’un
message compréhensible
et reconnaissance du locuteur
Mise en œuvre de codeurs spécifiques très performants
TSI
Télécommunications, services & usages
Jean-Marie Gorce
II-La musique
(naturelle ou synthétique)
1° Les notes
pitch, fondamental, tonalité…do, re….
même note,
octave différente
0
La
La
110Hz 220Hz
La
440Hz
f
1 octave = x2
TSI
Télécommunications, services & usages
Jean-Marie Gorce
2° Les harmoniques
1
0
-1
0
5
10
15
TSI
Télécommunications, services & usages
20
Jean-Marie Gorce
25
3° Le timbre (forme d ’onde; waveform)
TSI
Télécommunications, services & usages
Jean-Marie Gorce
4° Musique :
- Somme de plusieurs notes (pitch)
- Différentes formes d ’ondes (les instruments)
+ chant =parole modulée.
IL FAUT COUVRIR TOUT LE SPECTRE AUDIBLE
TSI
Télécommunications, services & usages
Jean-Marie Gorce
III-Les autres sons
Applications : TVHD, Vidéo, Multimédia ….
Les bruits ambiants, les onomatopées, etc….
Bruits sourds (chute d ’eau…)
Bruits brusques (bris de glace…)
= transmettre tout ce qui est susceptible d ’être perçu
par l ’auditeur.
TSI
Télécommunications, services & usages
Jean-Marie Gorce
B-Codage ‘ Audio ’
?
codeur
décodeur
Émetteur
Récepteur
N ’autoriser que les pertes non perceptibles
TSI
Télécommunications, services & usages
Jean-Marie Gorce
I-Modèle psychoacoustique
1° Bande passante : Seuil d’audibilité d’une sinusoïde
BP=[20Hz ; 20kHz]
TSI
Télécommunications, services & usages
fE>40kHz
Jean-Marie Gorce
3° Masquage fréquentiel
(f1,P1=80 dB) : sinusoïde masquante
(f2,P2) : P2 à émettre pour entendre f2
TSI
Télécommunications, services & usages
Jean-Marie Gorce
2° Bandes critiques fréquentielles (critical bands)
Détection
de f+df
Passage
des Hertz
au??
Bark
10
Bark
2
 f

f


Bf   6 log
 
1

 600  600



1
10
100
1k
10k
f(Hz)
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Courbes de masquage >> segments de droite indépendante de f1
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Exemple de bande critique en BF (120Hz)
2
1.8
1.6
1.4
1.2
1
0.8
0.6
0.4
0.2
0
1 bark
f
20
40
60
80
100
120
140
160
180
200
32 bandes critiques de 20 Hz à 20 kHz, f : 80-3500 Hz
TSI
Télécommunications, services & usages
Jean-Marie Gorce
4° Masquage temporel
Après un son relativement fort, masquage de la bande critique
(et voisines…) pendant un certain délai.
TSI
Télécommunications, services & usages
Jean-Marie Gorce
4° Masquage fréquentiel et temporel
TSI
Télécommunications, services & usages
Jean-Marie Gorce
5° Nouvelle approche de compression :
utilisée dans MPEG
Principe : utiliser les propriétés de masquage de certaines
zones de fréquence pour réduire le débit nécessaire.
Pertes non perceptibles
Passage dans le domaine de Fourier nécessaire
Codage en sous-bandes
TSI
Télécommunications, services & usages
Jean-Marie Gorce
II-norme MPEG Audio
1°) Etat des lieux
Qualité Audio Numérique
44.1kHz
16bit (96dB relativement au seuil d ’audibilité)
loi de distribution inconnue (pas de A-law)
stéréo
Débit de 1,4Mbit/s
TSI
Télécommunications, services & usages
Jean-Marie Gorce
2°) Objectifs
•Stockage (CD) : morceau de musique de 50 ’
1.4Mbit/s*50*60=5.05Gbit=630MO
•Transmission (TVHD, multimedia) : temps réel
diminuer le débit pour améliorer les capacités de
transmission.
Compression sans pertes audibles
Normalisation nécessaire
TSI
Télécommunications, services & usages
Jean-Marie Gorce
3°) MPEG Audio
Moving Pictures Coding Experts Group
http://drogo.cselt.it/mpeg/
Janvier 1988 : naissance, groupe mandaté par ISO/EIC
MPEG = normalisation vidéo / audio / system
MPEG-1 : qualité VHS sur CD-rom
(352x288 + CD audio @ 1.5Mbit/s)
MPEG-2 : TVHS, multimedia
==>TV numérique
AAC (fin Avril97) Advanced Audio Coding
MPEG-4 : diminuer le débit; coder infos complémentaires
==>Multimédia
TSI
Télécommunications, services & usages
Jean-Marie Gorce
4°) MPEG-1 audio
3 couches définies (qualité/complexité du codage)
pour qualité audio :
Tx de réduction
layer 1 : 384 kb/s
layer 2 : 256…192 kb/s
layer 3 : 128…112 kb/s
1/4
1/6..1/8
1/10..1/12
Mais différentes fréquences d ’échantillonnage et débits
autorisés (32kHz, 44.1kHz, 48kHz)
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Qualité de compression, couche 3
sound quality
telephone
sound
better than
shortwave
better than
AM radio
similar to
FM radio
near-CD
CD
bandwidth
mode
bitrate
reduction
ratio
2.5 kHz
mono
8 kbps *
96:1
4.5 kHz
mono
16 kbps
48:1
7.5 kHz
mono
32 kbps
24:1
11 kHz
15 kHz
>15 kHz
stereo
stereo
stereo
56...64 kbps
96 kbps
112..128kbps
26...24:1
16:1
14..12:1
*) Fraunhofer uses a non-ISO extension of MPEG Layer-3
for enhanced performance ("MPEG 2.5")
From the Fraunhofer Institute for Integrated Circuits, Applied Electronics
Center, IIS-A, http://www.iis.fhg.de/about/index.html
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Principe général de MPEG-1 (et suivants)
in
Filtres
Décomposition
en bandes critiques
Allocation des
bits (f(s²))
Quantification
+Codage
Exploitation
masquage
TSI
Télécommunications, services & usages
Jean-Marie Gorce
384 ech.
Layer 1 : Masquage fréquentiel + QScal
Layer 2 : + Masquage temporel
Layer 3 : + Redondance stéréo + Huffman
TSI
Télécommunications, services & usages
Jean-Marie Gorce
III-Codage en sous-bandes
1°) Sous-échantillonnage
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Spectre d ’un signal échantillonné
A
-fE
-fE/2
f0
fE/2
fE
Composante continue ??
Constante, Sinusoïde f0=fE, ou f0=2.fE
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Recouvrement spectral
A
-fE
-fE/2
f0
fE/2
fE
Sous-échantillonnage
A/2
-fE
-fE/2
f0
fE/2
TSI
Télécommunications, services & usages
fE
Jean-Marie Gorce
Filtre anti-repliement
A/2
-fE
-fE/2
f0
fE/2
fE
fE/4
A/2
-fE
-fE/2
f0
fE/2
TSI
Télécommunications, services & usages
fE
Jean-Marie Gorce
2°) Décomposition en 2 sous-bandes
A
-fE
-fE/2
f0
fE/2
fE
fE/2
fE
Périodicité!!!
A
-fE
-fE/2
f0
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Représentation des 2 sous-bandes
A
-fE
-fE/2
f0
fE/2
fE
A
-fE
-fE/2
f0
fE/2
TSI
Télécommunications, services & usages
fE
Jean-Marie Gorce
Sous-échantillonnage des 2 sous-bandes
A/2
-fE
-fE/2
f0
fE/2
fE
A/2
-fE
-fE/2
f0
fE/2
TSI
Télécommunications, services & usages
fE
Jean-Marie Gorce
3°) Sur-échantillonnage
A
-fE
-fE/2
f0
fE/2
fE
A
-2.fE
-fE -fE/2 f0 fE/2 fE
TSI
Télécommunications, services & usages
2.fE
Jean-Marie Gorce
dans le domaine temporel
TSI
Télécommunications, services & usages
Jean-Marie Gorce
Filtre passe-bas=interpolateur
A
-2.fE
-fE -fE/2 f0 fE/2 fE
TSI
Télécommunications, services & usages
2.fE
Jean-Marie Gorce
4°) Sous / Sur-échantillonnage d ’un facteur m
perte d ’information
x(n)
xSE(n)
H(z)
m
m
F(z)
TSI
Télécommunications, services & usages
xSE(n)
x’(n)
Jean-Marie Gorce
Schéma de principe de la décomposition en 2 sous-bandes
x(n)
H0(z)
2
N points
2
H1(z)
x0(n)
N/2 points
x1(n)
N/2 points
H0 : filtre réel [0; fe/4]
H1 : filtre réel [fe/4; fe/2]
TSI
Télécommunications, services & usages
Jean-Marie Gorce
5°) Généralisation en N sous-bandes
N/m points
x(n)
H0(z)
m
x0(n)
m F0(z)
N points
x1(n)
H1(z)
Hm(z)
m F1(z)
m
m
xm(n)
m Fm(z)
TSI
Télécommunications, services & usages
Jean-Marie Gorce
TSI
Télécommunications, services & usages
Jean-Marie Gorce
6°) Les problèmes techniques
1) Le choix des filtres H : parfaits => IIR
2) Approximation => choix des filtres F adaptés
(transformée en Cosinus)
3) Sélectionner la bonne longueur de vecteur initial
4) Nombre de bandes de fréquences
TSI
Télécommunications, services & usages
Jean-Marie Gorce
7°) Les progrès MPEG-2, 4
Utiliser le modèle psycho-acoustique pour choisir le nombre
de bits par bande de fréquence.
Utiliser une répartition non homogène de l’ échelle
des fréquences.
Utiliser la redondance entre voies stéréo (ou 5 voies, surround).
Intégration du codage vectoriel / prédiction linéaire sur les
bandes de fréquences.
TSI
Télécommunications, services & usages
Jean-Marie Gorce
IV-Conclusion
Codage
parole
(téléphonie)
full-duplex
Codage
audio
(musique)
Un bon codeur = répondre à des contraintes spécifiques
au plus près.
Interactions entre vectoriel / sous-bandes
TSI
Télécommunications, services & usages
Jean-Marie Gorce