Transcript Titre
Maurice CHARBIT, Gérard CHOLLET,
Niklas PAULSSON, Dijana PETROVSKA
(charbit,chollet,paulsson,petrovsk)@tsi.enst.fr
ENST/CNRS-LTCI
46 rue Barrault
75634 PARIS cedex 13
ENST
RNRT-SYMPATEX
16 novembre 2000, Avancement SYMPATEX
Codage de la Parole
à très bas débit.
CNRS-LTCI
Plan
• Quel codeur pour quel débit ?
• Le compromis espace mémoire / débit
• Vocodeur phonétique
• Analyse/Synthèse et modifications prosodiques
• Perspectives
ENST
RNRT-SYMPATEX
16 novembre 2000, Avancement SYMPATEX
• Quantification matricielle, indexation
CNRS-LTCI
Classification des codeurs
VL
3
BR
4
2
G 729 G 728
(92)
G 723-1 (96)
2400 HSX (96)
G721
(96)
(84)
1200 HSX
GSM
FS
1016
ST4209
(97) ST 4198
(87)
(90)
(83)
(87)
ST 4479
(93)
1
0,5k
1k
LPC 10
(83)
2k
4k
Parametric coders
ENST
G711
(72)
8k
Hybrid coders
16k
32k
64k
Waveform coders
RNRT-SYMPATEX
Bit rate (bits/s)
16 novembre 2000, Avancement SYMPATEX
5
Indicative
Quality
(MOS)
CNRS-LTCI
Conserver la qualité en diminuant le débit:
Comment est-ce possible ?
Exploiter les limites de l’audition,
utilisation du modèle source-filtre de production de la
parole,
exploiter les contraintes dynamiques des
articulateurs,
quantification matricielle des séquences de spectres,
modèle de langage, ...
ENST
RNRT-SYMPATEX
16 novembre 2000, Avancement SYMPATEX
quantification vectorielle du signal source,
CNRS-LTCI
Conserver la qualité en diminuant le débit:
Le prix à payer
Complexité du codeur,
retard au décodage,
sensibilité aux erreurs de transmission,
sensibilité aux bruits.
ENST
RNRT-SYMPATEX
16 novembre 2000, Avancement SYMPATEX
mémoire importante,
CNRS-LTCI
ENST
Source
Filtre
CELP
6500 bps
1500 bps
LPC-10
600 bps
1800 bps
ALISP
250 bps
150 bps
RNRT-SYMPATEX
16 novembre 2000, Avancement SYMPATEX
Modèle source-filtre et
allocation des bits.
CNRS-LTCI
Améliorations des codeurs
Indicative
Quality
(MOS)
5
G.711
(64 kb/s)
G.721
(32 kb/s)
G.728 G.729
(16 kb/s) (8 kb/s)
Minimum qual. for high
cost application
4
Consumer quality
Minimum qual. For low
cost application
HSX
(2,4 kb/s)
2
LPC 10
(2,4 kb/s)
ALISP
(.4 kb/s)
1
1970
ENST
1980
1990
2000
RNRT-SYMPATEX
2010
16 novembre 2000, Avancement SYMPATEX
3
CNRS-LTCI
Principes de codage à bas et très bas débits
Parole à coder
Parole restituée
(telephone: 64kbit/sec)
(PC/MM: 176kbit/sec)
Source + Filtre
Codage / Décodage
des paramètres
Source + Filtre
(LPC, CELP)
Segmentation
et Reconnaissance
acoustique
Reconnaissance
de la parole et
du locuteur
ENST
(800-16kbit/sec)
Synthèse à partir
des paramètres
Source + Filtre
Codage / Décodage
d’unités segmentales
Unités de
+ caract. du locuteur
Synthèse
(100-600 bit/sec)
Codage / Décodage
Texte et Locuteur
(50-200 bit/sec)
RNRT-SYMPATEX
Synthèse
à partir du Texte
16 novembre 2000, Avancement SYMPATEX
Analyse
CNRS-LTCI
Codage segmental
Approche segmentale nécessaire.
Pour des débits inférieurs à 500 bps, Il faut prendre en compte les
dépendances inter-trames.
Ensemble d’unités acoustiques obtenues automatiquement
Représentant de manière précise et concise les sons d’une langue.
Unités ALISP Automatic Language Independant Speech Processing.
ENST
RNRT-SYMPATEX
16 novembre 2000, Avancement SYMPATEX
Sans recourir à une base de donnée étiquetée phonétiquement.
CNRS-LTCI
Codeur segmental
Analyse spectrale
Analyse prosodique
CODEUR
ENST
Dictionnaire
d’unités de
codage
Reconnaissance
unité acoustique
Dictionnaire
parole synthétique
d’unités de
synthèse
Indice unité
acoustique
Paramètres
prosodiques
RNRT-SYMPATEX
Synthèse par
concaténation
HNM, PSOLA
DECODEUR
16 novembre 2000, Avancement SYMPATEX
Parole originale
CNRS-LTCI
16 novembre 2000, Avancement SYMPATEX
La décomposition temporelle
ENST
RNRT-SYMPATEX
CNRS-LTCI
Segmentation induite par la décomposition temporelle
16 novembre 2000, Avancement SYMPATEX
Segmentation sur des zones spectralement stables
ENST
RNRT-SYMPATEX
CNRS-LTCI
Topologie des modèles HMM
a22
1
a12
2
a33
a23
3
a44
a34
4
a25
5
Modèle de langage : unigrammes, facteur de langage g.
Observation T trames : 3 flux de paramètres indépendants
et de mêmes poids : LPCC; DLPCC; D log(E).
Pour chaque flux une loi gaussienne simple.
ENST
RNRT-SYMPATEX
16 novembre 2000, Avancement SYMPATEX
3 états émetteurs
CNRS-LTCI
16 novembre 2000, Avancement SYMPATEX
Segmentation et étiquetage par HMM
ENST
RNRT-SYMPATEX
CNRS-LTCI
Analyse/Synthèse et
modifications prosodiques
Les alternatives:
• PSOLA / MBROLA
• HSX
16 novembre 2000, Avancement SYMPATEX
• Harmoniques + Bruit
ENST
RNRT-SYMPATEX
CNRS-LTCI
Modèle Harmonique + Bruit
Objectives:
• Faciliter les modifications prosodiques
• Représentation assez simple
• Basé sur l’acoustique de la parole
ENST
16 novembre 2000, Avancement SYMPATEX
Le modèle:
RNRT-SYMPATEX
CNRS-LTCI
Analyse Harmoniques + Bruit
A
f
A
Paramètres H+B
Estimation de
l’enveloppe
harmonique
f
Estimation des
harmoniques
+
Voisé
Signal à l ’entrée
ENST
Non-voisé
Voisement
+
Estimation
AR
RNRT-SYMPATEX
Estimation
AR du
résiduel
16 novembre 2000, Avancement SYMPATEX
Détection du
pitch, et
l’énergie
CNRS-LTCI
Synthèse Harmoniques + Bruit
Voisement
Non-voisé
Synthèse
LPC
Voisé
Génération des
harmoniques
Synthèse
LPC
ENST
+
Signal resynthetisé
Calculer
la phase
+
RNRT-SYMPATEX
16 novembre 2000, Avancement SYMPATEX
Paramètres H+B
CNRS-LTCI
Modifications prosodiques
et spectrales
• contrôle de l’enveloppe énergétique
• ajustement de la fréquence fondamentale
• adaptation au locuteur par modification spectrale
ENST
RNRT-SYMPATEX
16 novembre 2000, Avancement SYMPATEX
• anamorphose temporelle par DTW
CNRS-LTCI
• améliorer l’intelligibilité et la qualité.
• choix d’unités compatibles pour le
codage et la synthèse à partir du texte.
• rendre le codeur indépendant du
locuteur et de la langue.
• restituer l’identité du locuteur.
ENST
RNRT-SYMPATEX
16 novembre 2000, Avancement SYMPATEX
Perspectives
CNRS-LTCI
Et à plus longs termes...
16 novembre 2000, Avancement SYMPATEX
• utiliser la technique ALISP de codage avec
des références étiquetées phonétiquement
pour faciliter la reconnaissance automatique
de la parole,
• expérimenter le codage ALISP en vérification
du locuteur.
ENST
RNRT-SYMPATEX
CNRS-LTCI