Transcript Titre
Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON, Dijana PETROVSKA (charbit,chollet,paulsson,petrovsk)@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault 75634 PARIS cedex 13 ENST RNRT-SYMPATEX 16 novembre 2000, Avancement SYMPATEX Codage de la Parole à très bas débit. CNRS-LTCI Plan • Quel codeur pour quel débit ? • Le compromis espace mémoire / débit • Vocodeur phonétique • Analyse/Synthèse et modifications prosodiques • Perspectives ENST RNRT-SYMPATEX 16 novembre 2000, Avancement SYMPATEX • Quantification matricielle, indexation CNRS-LTCI Classification des codeurs VL 3 BR 4 2 G 729 G 728 (92) G 723-1 (96) 2400 HSX (96) G721 (96) (84) 1200 HSX GSM FS 1016 ST4209 (97) ST 4198 (87) (90) (83) (87) ST 4479 (93) 1 0,5k 1k LPC 10 (83) 2k 4k Parametric coders ENST G711 (72) 8k Hybrid coders 16k 32k 64k Waveform coders RNRT-SYMPATEX Bit rate (bits/s) 16 novembre 2000, Avancement SYMPATEX 5 Indicative Quality (MOS) CNRS-LTCI Conserver la qualité en diminuant le débit: Comment est-ce possible ? Exploiter les limites de l’audition, utilisation du modèle source-filtre de production de la parole, exploiter les contraintes dynamiques des articulateurs, quantification matricielle des séquences de spectres, modèle de langage, ... ENST RNRT-SYMPATEX 16 novembre 2000, Avancement SYMPATEX quantification vectorielle du signal source, CNRS-LTCI Conserver la qualité en diminuant le débit: Le prix à payer Complexité du codeur, retard au décodage, sensibilité aux erreurs de transmission, sensibilité aux bruits. ENST RNRT-SYMPATEX 16 novembre 2000, Avancement SYMPATEX mémoire importante, CNRS-LTCI ENST Source Filtre CELP 6500 bps 1500 bps LPC-10 600 bps 1800 bps ALISP 250 bps 150 bps RNRT-SYMPATEX 16 novembre 2000, Avancement SYMPATEX Modèle source-filtre et allocation des bits. CNRS-LTCI Améliorations des codeurs Indicative Quality (MOS) 5 G.711 (64 kb/s) G.721 (32 kb/s) G.728 G.729 (16 kb/s) (8 kb/s) Minimum qual. for high cost application 4 Consumer quality Minimum qual. For low cost application HSX (2,4 kb/s) 2 LPC 10 (2,4 kb/s) ALISP (.4 kb/s) 1 1970 ENST 1980 1990 2000 RNRT-SYMPATEX 2010 16 novembre 2000, Avancement SYMPATEX 3 CNRS-LTCI Principes de codage à bas et très bas débits Parole à coder Parole restituée (telephone: 64kbit/sec) (PC/MM: 176kbit/sec) Source + Filtre Codage / Décodage des paramètres Source + Filtre (LPC, CELP) Segmentation et Reconnaissance acoustique Reconnaissance de la parole et du locuteur ENST (800-16kbit/sec) Synthèse à partir des paramètres Source + Filtre Codage / Décodage d’unités segmentales Unités de + caract. du locuteur Synthèse (100-600 bit/sec) Codage / Décodage Texte et Locuteur (50-200 bit/sec) RNRT-SYMPATEX Synthèse à partir du Texte 16 novembre 2000, Avancement SYMPATEX Analyse CNRS-LTCI Codage segmental Approche segmentale nécessaire. Pour des débits inférieurs à 500 bps, Il faut prendre en compte les dépendances inter-trames. Ensemble d’unités acoustiques obtenues automatiquement Représentant de manière précise et concise les sons d’une langue. Unités ALISP Automatic Language Independant Speech Processing. ENST RNRT-SYMPATEX 16 novembre 2000, Avancement SYMPATEX Sans recourir à une base de donnée étiquetée phonétiquement. CNRS-LTCI Codeur segmental Analyse spectrale Analyse prosodique CODEUR ENST Dictionnaire d’unités de codage Reconnaissance unité acoustique Dictionnaire parole synthétique d’unités de synthèse Indice unité acoustique Paramètres prosodiques RNRT-SYMPATEX Synthèse par concaténation HNM, PSOLA DECODEUR 16 novembre 2000, Avancement SYMPATEX Parole originale CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX La décomposition temporelle ENST RNRT-SYMPATEX CNRS-LTCI Segmentation induite par la décomposition temporelle 16 novembre 2000, Avancement SYMPATEX Segmentation sur des zones spectralement stables ENST RNRT-SYMPATEX CNRS-LTCI Topologie des modèles HMM a22 1 a12 2 a33 a23 3 a44 a34 4 a25 5 Modèle de langage : unigrammes, facteur de langage g. Observation T trames : 3 flux de paramètres indépendants et de mêmes poids : LPCC; DLPCC; D log(E). Pour chaque flux une loi gaussienne simple. ENST RNRT-SYMPATEX 16 novembre 2000, Avancement SYMPATEX 3 états émetteurs CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX Segmentation et étiquetage par HMM ENST RNRT-SYMPATEX CNRS-LTCI Analyse/Synthèse et modifications prosodiques Les alternatives: • PSOLA / MBROLA • HSX 16 novembre 2000, Avancement SYMPATEX • Harmoniques + Bruit ENST RNRT-SYMPATEX CNRS-LTCI Modèle Harmonique + Bruit Objectives: • Faciliter les modifications prosodiques • Représentation assez simple • Basé sur l’acoustique de la parole ENST 16 novembre 2000, Avancement SYMPATEX Le modèle: RNRT-SYMPATEX CNRS-LTCI Analyse Harmoniques + Bruit A f A Paramètres H+B Estimation de l’enveloppe harmonique f Estimation des harmoniques + Voisé Signal à l ’entrée ENST Non-voisé Voisement + Estimation AR RNRT-SYMPATEX Estimation AR du résiduel 16 novembre 2000, Avancement SYMPATEX Détection du pitch, et l’énergie CNRS-LTCI Synthèse Harmoniques + Bruit Voisement Non-voisé Synthèse LPC Voisé Génération des harmoniques Synthèse LPC ENST + Signal resynthetisé Calculer la phase + RNRT-SYMPATEX 16 novembre 2000, Avancement SYMPATEX Paramètres H+B CNRS-LTCI Modifications prosodiques et spectrales • contrôle de l’enveloppe énergétique • ajustement de la fréquence fondamentale • adaptation au locuteur par modification spectrale ENST RNRT-SYMPATEX 16 novembre 2000, Avancement SYMPATEX • anamorphose temporelle par DTW CNRS-LTCI • améliorer l’intelligibilité et la qualité. • choix d’unités compatibles pour le codage et la synthèse à partir du texte. • rendre le codeur indépendant du locuteur et de la langue. • restituer l’identité du locuteur. ENST RNRT-SYMPATEX 16 novembre 2000, Avancement SYMPATEX Perspectives CNRS-LTCI Et à plus longs termes... 16 novembre 2000, Avancement SYMPATEX • utiliser la technique ALISP de codage avec des références étiquetées phonétiquement pour faciliter la reconnaissance automatique de la parole, • expérimenter le codage ALISP en vérification du locuteur. ENST RNRT-SYMPATEX CNRS-LTCI