Transcript codage

Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet

Synthèse de la Parole

1.

2.

3.

4.

5.

6.

7.

8.

Introduction, Historique, Domaines d’applications Synthèse à partir d’un texte / à partir de concepts Traduction Graphèmes --> Phonèmes et Prosodèmes Synthèse articulatoire / acoustique

Synthèse par concaténation Modèles de langage Evaluation Conclusions

1

1.7 Domaines du Traitement Automatique de la Parole

PHONETIQUE GRAPHEMES VERS PHONEMES RECONNAISSANCE SYNTHESE ANALYSE

Bla-bla

bla … STOCKAGE TRANSMISSION RESTITUTION

Bla-bla

2

Biblio

• Traitement de la parole, R.Boite… (chapitre 7) Presses Polytechniques et Universitaires Romandes (2000) • Spoken Language Processing, X. Xuang…. (Part 4, chapitres 14 16) Prentice Hall (2001) 3

1. Définitions

Système de synthèse vocale à partir d’un texte (« text to speech –TTS » ) ou à partir de concepts : Idéalement c'est une machine capable de synthétiser (lire) n'importe quel texte (même des mots nouveaux), imitant n'importe quel locuteur, de manière aussi fidèle que possible (intelligibilité, spontanéité) et en générant toutes les informations nécessaires dans un message vocal.

Provenance du texte: à partir d'un texte introduit sur un clavier, scanné, issu d'un système de reconnaissance optique de caractères ("Optical Character Recognition OCR"), ou produit automatiquement par un système de dialogue homme-machine (synthèse à partir de concepts).

4

La synthèse, pour quoi faire ?

• • • • • • •

Services de télécommunications

 Rendre toute information écrite disponible via le téléphone (horaires de cinéma, horaires de train, informations routières, état d’un compte en banque, dernière facture téléphonique, etc.)

Applications en bureautique

 Terminaux parlants, lecture des emails par la voix, etc.

Applications dans les transports

 Information dans les automobiles, aide à l’exploitation des trains, lecture de cadrans dans les avions, etc.

Aide aux personnes handicapées

 Un handicapé peut s’exprimer par le biais d’un synthétiseur (cours du célèbre astrophysicien Stephen Hawking)

Apprentissage des langues étrangères

 Dictionnaires électronique avec prononciation intégrée, logiciels d’apprentissage des langues étrangères, traduction automatique, etc.

Livres et jouets parlants

 À l’usage des enfants en bas âge

Communication naturelle avec la machine

5

2. Applications prévisibles

Ceci nous permettrait (dans le futur) d'atteindre les buts suivants: • d'atteindre des taux de compression élevés (utile p.ex. dans la transmission des messages parlés) • d'avoir une grande flexibilité concernant le choix des voix de synthèse • de préserver des informations extra-textuelles (stress, prosodie, vitesse d’élocution,…) • d'avoir une méthode de représentation alternative aux documents textuels (utile plus pour les aveugles, ou pour des applications mains-libres ) • de disposer d'un système complet et convivial de dialogue homme machine 6

mais encore

• Aide à l’apprentissage (ou perfectionnement) de langues étrangères (système tonal du chinois ou les variations de Fo ont des signification différentes, traducteur multi-langues) • Monde ludique des livres et jouets parlants • Monitoring vocal pour des informations urgentes ou multiples (pilote d'avions) • Améliorer nos connaissance théoriques sur la phonétique, compréhension de la parole, perception 7

3. Situation actuelle des synthétiseurs de parole à partir du texte

• possible pour un très petit nombre de locuteurs (voix féminine ou masculine) • pour un vocabulaire restreint • pour des langues pour lesquelles des grosses bases de données existent, et dont la grammaire est bien étudié • pour des nouvelle langues il faut tout recommencer • Constatation: on est loin du but !

8

Structure d’un système de synthèse

SYNTHESE DE LA PAROLE A PARTIR DU TEXTE Texte TRAITEMENT DU LANGAGE NATUREL Formalismes linguistiques Moteurs d’inférence Inférences logiques Phonèmes Prosodie TRAITEMENT DU SIGNAL NUMERIQUE Modèles mathématiques Algorithmes Calculs numériques Parole

9

5. Modules et flux de données des systèmes TTS

texte Traitement du langage naturel (analyse morpho-synthaxique) Phonèmes Formalismes linguistiques Moteurs d'inférence Inférences logiques Prosodie Traitement du signal numérique Modèles mathématiques Algorithmes Calculs numériques 10

Du Texte à la Phonétique

Texte Pré-processeur Analyseur morphologique Analyseur contextuel Analyseur syntaxique prosodique Phonétiseur Générateur de prosodie Structure de données Phonèmes Prosodie

11

5.1 Module traitement du langage naturel

• Pré-processeur: transforme le texte, de façon à identifier des séquences de caractères qui risquent de poser un problème (nombres, abréviations, acronymes, …) • Analyseur morphologique: identifie les syntagmes possibles pour chaque mot individuellement (nom, prénom, verbe,…) • Analyseur contextuel : comme avant mais en contexte, donc permet de réduire la liste des syntagmes possibles; • Analyseur syntaxique-prosodique : affine les résultat de l'analyseur contextuel, et établit un découpage du texte en groupes de mots, pour leur associer une prosodie.

• Convertisseur graphème -phonème (phonétisation) 12

Prétraitement des données textuelles

• détection des fins de phrases (les ponctuations ne sont pas toujours des indicateurs de fins de phrases, 12.3.4, p.ex., Dr….

• implique l'identifications des mots à problèmes  Acronymes  FDA = Food and Drug Administration;  CO (carbon oxyde, Colorado, commanding officer..)  MD (doctor of medicine or Maryland)  Phrases ambigues  At 8 am I ( At or  At 8 am I ( At eight am I  dates  Temps  Monnaie  Grands nombres (quelle suite de chiffres,p.ex pour les cartes de crédit)……  …… 13

5.1.2 Analyseur linguistique

principalement le parseur syntactique et sémantique • Peuvent utiliser les règles de NLP (Natural language Processing) si elles existent ( elles sont dérivés des grands corpus textuels) • Sert à mettre des tags fonctionnels sur des mots et à lever les ambiguités détectés dans le module de prétraitement • les ambiguités sémantiques sont souvent difficiles à résoudre ( At 8 am I) Solution possible: • utilisation des langages structurés (xml) avec des "tags" spécifiques 14

5.2 Phonétiseur automatique

Plus le vocabulaire est grand, plus on a des problèmes, et il n'existe pas de solution globale, car les problèmes sont très variés: • homographes hétérophones i.e. des mots qui s'écrivent de la même façon mais se prononcent différemment (des os, un os) • Coarticulation (dans un mot) • liaisons phonétiques entre groupes de mots : deux à deux (liaison optionnelle) ou plat exquis (liaison interdite)… • en français le e muet ( surtout dans le sud de la France..) • nouveaux mots (acronymes y compris) • Noms propres 15

Phonétisation (1)

16

Phonétisation (2)

17

5.3 Prosodie

• C'est la manière de prononciation qui est importante pour la compréhension (dénotation et co-notation); Elle comprend :  les pauses  le pitch (Fo)  la vitesse de prononciation  l'amplitude 18

Prosodie : la « musique » de la parole

19

5.4 Traitement du signal numérique

• Transforme la suite de phonèmes et leur prosodie en signal sonore: c'est le module de synthèse • Il existe deux familles de synthétiseurs :  par règle  par concaténation  avec modification de la forme d'onde (prosodie)  sans modification de la forme d'onde  en domaine limité (enregistrement de phrases entières) 20

Qu’est-ce qu’un diphone ?

21

Concaténation de diphones

22

5.5 Qualité et couverture textuelle

Qualité Bonne Concaténation domaine limité Mauvaise basse Concaténation sans modif forme d'onde Concaténation avec modif. forme d'onde par règles Couverture textuelle (pourcentage de phrases de qualité maximale) elevé 23

5.6 Synthétiseurs par règle

Avec les phones + prosodie on utilise • des règles (Pitch, contour, formants,… 40 paramètres) • avec modèles de production (LPC) Laborieux et de mauvaise qualité 24

5.7 Synthétiseurs par concaténation

• Concaténation de quelles unités:  mots  syllabes  tri-phones  di-phones • Qualité qui augmente lorsque la taille des unités augmente (mais on besoin de bases de données plus grandes ) • Problème de couverture 25

6. Évaluation

est un problème difficile, et pour le moment il n'existent pas de normes d'évaluation communes.

• Problèmes rencontrés:  dépendance de la tâche (réservations de vols, lecture de e-mails )  test au laboratoire différent des test réels  évaluation automatique ou par des utilisateurs humains  Si utilisateurs humains : préférence subjective vs efficacité 26

7. Des alternatives

• Utiliser plusieurs sources d'information pour lever les ambiguïtés, ou les problèmes dues au conditions difficiles … • Par ex : à la place des machines parlantes introduire des visages parlants 27

Liens Internet

Synthèse

• http://tcts.fpms.ac.be/synthesis/mbrola.html

• http://www.bell-labs.com/project/tts/#examples • http://www.cstr.ed.ac.uk/projects/festival/ • http://www.research.att.com/projects/tts/

Codage

• http://people.qualcomm.com/karn/voicedemo/ 28

8.3 Codeurs segmentaux

• Permettent la plus grande réduction du débit (<800bps), mais nécessitent des méthodes de reconnaissance des unités segmentales.

• Résultats similaires dans l'implémentation des systèmes dépendant du locuteur.

• Comment pourrait-on encore réduire le débit: en transmettant le texte reconnu, et en effectuant de la synthèse à partir du texte du coté du transmetteur.

29

Recherche actuelle

30