Transcript de la parole - Sites personnels de TELECOM ParisTech
Le traitement automatique de la parole
Comment reproduire les processus physiologiques et cognitifs humains?
Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon http://www.ddl.ish-lyon.cnrs.fr/ [email protected]
DEA de Sciences Cognitives 1
Plan 1. Introduction aux processus de la communication parlée 2. Analyse de la parole 3.
Synthèse de la parole 4. Reconnaissance de la parole 5. Reconnaissance du locuteur DEA de Sciences Cognitives 2
1. Introduction aux processus de la communication parlée DEA de Sciences Cognitives 3
Quelques segments d’un signal DEA de Sciences Cognitives 4
Quelques propriétés du signal de parole
• • • •
La parole est quasi-stationnaire La parole est 70% du temps (pseudo )périodique (bruit ou silence le reste du temps) La parole est un signal large bande (il remplit toute la largeur de bande) La parole est un signal à bande limitée (0-8000 Hz essentiellement) DEA de Sciences Cognitives 5
Anatomie de l’appareil vocal (1) DEA de Sciences Cognitives 6
Anatomie de l’appareil vocal (2) DEA de Sciences Cognitives 7
Anatomie de l’appareil vocal (3) DEA de Sciences Cognitives 8
Fonctionnement acoustique de l’appareil vocal
• •
Système acoustique = excitateur + résonateur Trois modes de fonctionnement
–
Excitation glottique du conduit vocal
–
Excitation du conduit vocal en un point de constriction par un bruit d’écoulement
–
Excitation du conduit vocal par une impulsion acoustique DEA de Sciences Cognitives 9
Transcription phonétique du français DEA de Sciences Cognitives 10
Transcription phonétique du français DEA de Sciences Cognitives 11
Description acoustique de la parole DEA de Sciences Cognitives 12
Voyelles orales françaises DEA de Sciences Cognitives 13
Triangle vocalique DEA de Sciences Cognitives 14
Représentation acoustique (ex. 1) DEA de Sciences Cognitives 15
Représentation acoustique (ex. 2) DEA de Sciences Cognitives 16
Grille polaire de Maeda DEA de Sciences Cognitives 17
Coupes saggitales des voyelles DEA de Sciences Cognitives 18
Fonctions d’aires des voyelles DEA de Sciences Cognitives 19
Anatomie de l’oreille DEA de Sciences Cognitives 20
Les limites de l’oreille
• • •
L’oreille est à bande limitée L’oreille est fausse sur des sons purs L’oreille n’est pas également sensible
• •
L’oreille a une résolution en temps limitée L’oreille a une résolution en fréquence limitée DEA de Sciences Cognitives 21
2. Analyse de la parole DEA de Sciences Cognitives 22
Objectifs de l’analyse de parole Extraire des paramètres du signal de parole
• • • • •
afin de : Retirer l’information non pertinente Réduire la redondance Obtenir une représentation plus compacte Atteindre un niveau d’abstraction plus élevé Définir des mesures de ressemblance simples DEA de Sciences Cognitives 23
Principes
• • • •
Prétraitement Découpage en trames
–
Taille des trames
–
Décalage entre trames Fenêtrage Extraction de paramètres acoustiques DEA de Sciences Cognitives 24
Principe d’une analyse acoustique DEA de Sciences Cognitives 25
Paramètres acoustiques non spectraux
• • • •
Energie Fréquence fondamentale Taux de passage par zéro du signal Taux de passage par zéro de la dérivée du signal DEA de Sciences Cognitives 26
L’enveloppe spectrale Les approches conventionnelles visent à extraire des caractéristiques
• • •
de l’enveloppe spectrale.
Analyse par banc de filtres Analyse par prédiction linéaire Coefficients cepstraux DEA de Sciences Cognitives 27
Analyse par banc de filtres (1) DEA de Sciences Cognitives 28
Analyse par banc de filtres (2) DEA de Sciences Cognitives 29
Analyse par banc de filtres (3) DEA de Sciences Cognitives 30
Analyse par prédiction linéaire (1) Modélisation de la parole sous forme d’un filtre de prédiction linéaire e(t) Filtre de prédiction linéaire
i p
0
a i
s
(
t
i
)
e
(
t
)
s(t) DEA de Sciences Cognitives 31
Analyse par prédiction linéaire (2) DEA de Sciences Cognitives 32
Coefficients cepstraux
•
On applique une transformée de Fourier inverse sur le module du spectre logarithmique.
•
Les premiers coefficients caractérisent l’enveloppe spectrale.
DEA de Sciences Cognitives 33
L’information dynamique
•
On représente l’information dynamique par la dérivée première (vitesse) et la dérivée seconde (accélération) des paramètres cepstraux → paramètres deltas et deltas-deltas
c
(
t
)
k k
p p k
c
(
t k k
p p k
k
)
c
(
t
)
k k
p p k
2
c
(
t k k
p p k
2
k
)
DEA de Sciences Cognitives 34
3. Synthèse de la parole DEA de Sciences Cognitives 35
• • • • • • •
La synthèse, pour quoi faire ?
Services de télécommunications
– Rendre toute information écrite disponible via le téléphone (horaires de cinéma, horaires de train, informations routières, état d’un compte en banque, dernière facture téléphonique, etc.)
Applications en bureautique
– Terminaux parlants, lecture des emails par la voix, etc.
Applications dans les transports
– Information dans les automobiles, aide à l’exploitation des trains, lecture de cadrans dans les avions, etc.
Aide aux personnes handicapées
– Un handicapé peut s’exprimer par le biais d’un synthétiseur (cours du célèbre astrophysicien Stephen Hawking)
Apprentissage des langues étrangères
– Dictionnaires électronique avec prononciation intégrée, logiciels d’apprentissage des langues étrangères, traduction automatique, etc.
Livres et jouets parlants
– À l’usage des enfants en bas âge
Communication naturelle avec la machine DEA de Sciences Cognitives 36
Structure d’un système de synthèse SYNTHESE DE LA PAROLE A PARTIR DU TEXTE Texte TRAITEMENT DU LANGAGE NATUREL Formalismes linguistiques Moteurs d’inférence Inférences logiques Phonèmes Prosodie TRAITEMENT DU SIGNAL NUMERIQUE Modèles mathématiques Algorithmes Calculs numériques Parole DEA de Sciences Cognitives 37
Traitement du langage naturel Texte Pré-processeur Analyseur morphologique Analyseur contextuel Analyseur syntaxique prosodique Phonétiseur Générateur de prosodie Structure de données Phonèmes Prosodie DEA de Sciences Cognitives 38
Analyse morpho-syntaxique DEA de Sciences Cognitives 39
Phonétisation (1) DEA de Sciences Cognitives 40
Phonétisation (2) DEA de Sciences Cognitives 41
Synthétiseur par prédiction linéaire DEA de Sciences Cognitives 42
Synthétiseur à formants DEA de Sciences Cognitives 43
Synthèse par règles (1) DEA de Sciences Cognitives 44
Synthèse par règles (2) DEA de Sciences Cognitives 45
Synthèse par concaténation d’unités DEA de Sciences Cognitives 46
Qu’est-ce qu’un diphone ?
DEA de Sciences Cognitives 47
Concaténation de diphones DEA de Sciences Cognitives 48
Prosodie : la « musique » de la parole DEA de Sciences Cognitives 49
Exemples
• • • • • • • •
ICP-Grenoble (F), 1993 CNET-Lannion (F), 1993 (TD-PSOLA) KTH-Stockholm (S), 1993 LAIP-Lausanne (CH), 1996 (MBR PSO) University-Mons (B), 1993 (LPC) University-Mons (B), 1993 (MBE) University-Mons (B), 1993 (MBR PSO) University-Mons (B), 1993 (TD PSO) DEA de Sciences Cognitives 50
Liens Internet sur la synthèse
• http://tcts.fpms.ac.be/synthesis/mbrola.html
• http://www.bell-labs.com/project/tts/#examples • http://www.cstr.ed.ac.uk/projects/festival/ • http://www.research.att.com/projects/tts/
DEA de Sciences Cognitives 51
4. Reconnaissance de la parole DEA de Sciences Cognitives 52
Objectifs
• • •
Transformer un signal de parole en : Texte (dictée vocale, transcription) Action (commande vocale, systèmes de dialogue) Information indexée (annotation, indexation) DEA de Sciences Cognitives 53
Les sources de variabilité
• • •
Les facteurs intra-locuteurs : co-articulation, variation dans la prononciation, etc.
Les facteurs inter-locuteurs : physiologie, age, sexe, psychologie, familiarité avec l’application, etc.
L’environnement : bruit, micro, canal de transmission, présence d’autres locuteurs, etc.
DEA de Sciences Cognitives 54
Variabilité intra- et inter-locuteur DEA de Sciences Cognitives 55
Variabilité intra-locuteur DEA de Sciences Cognitives 56
Typologie des systèmes
• • •
Type de parole
• •
Taille du vocabulaire Niveau de dépendance par rapport aux locuteurs Environnement d’utilisation Profil des utilisateurs potentiels DEA de Sciences Cognitives 57
Type de parole
• • • • • •
Mots isolés Mots connectés Détection de mots clés Parole contrainte Parole continue Parole spontanée DEA de Sciences Cognitives 58
Taille du vocabulaire
• • • • •
Quelques mots (5 – 50) Petit vocabulaire (50 – 500) Vocabulaire moyen (500 – 5000) Grand vocabulaire (5000 – 50000) Très grand vocabulaire (> 50000) DEA de Sciences Cognitives 59
Dépendance au locuteur
•
Dépendant du locuteur : le système fonctionne correctement avec un utilisateur particulier
•
Adaptation au locuteur = utilise quelques données spécifiques d’un locuteur pour adapter le système à une nouvelle voix
Indépendant du locuteur : le système fonctionne avec n’importe quel utilisateur DEA de Sciences Cognitives 60
Environnement d’utilisation
•
Parole large-bande (ordinateur, etc.)
•
Environnement calme (bureau + micro-casque)
•
Parole bande étroite avec distorsion (téléphone, etc.)
•
Bruit de fond DEA de Sciences Cognitives 61
Profil des utilisateurs potentiels
•
Utilisation professionnelle par des spécialistes
•
Entraîné / naïf
•
Fréquent / occasionnel
•
Grand public
•
Utilité
•
Coopération DEA de Sciences Cognitives 62
Deux exemples
•
Dictée vocale Parole continue
• •
Grand vocabulaire Adaptation au locuteur
• •
Bureau+micro-casque Utilisateurs d’ordinateurs
• • • • •
Service téléphonique Détection de mots clés Quelques mots Indépendant du locuteur Parole téléphonique Grand public DEA de Sciences Cognitives 63
Système de reconnaissance de mots DEA de Sciences Cognitives 64
Programmation dynamique (DTW)
Mot 1 Mot inconnu Y Mot 2 Mot n ( X , Y ) meilleur
d
2 (
x
i
,
y
chemin
j
)
DEA de Sciences Cognitives 65
Contraintes locales DEA de Sciences Cognitives 66
Contraintes locales : exemple DEA de Sciences Cognitives 67
Modèle de Markov caché : principe DEA de Sciences Cognitives 68
Modèles de Markov cachés (HMM)
Mot inconnu Y Mot 1 Mot 2 Mot n ( X , Y ) log meilleur chemin P (
y
j
S X i )
DEA de Sciences Cognitives 69
Viterbi : exemple DEA de Sciences Cognitives 70
Algorithme de Viterbi : exercice DEA de Sciences Cognitives 71
Les trois composantes d’un système
• • •
Les modèles acoustiques
–
Pour transformer des paramètres acoustiques en phonèmes (ou parfois directement des mots) Le lexique
–
Pour transformer une suite de phonèmes en mots Le modèle de langage
–
Pour transformer une suite de mots en phrases DEA de Sciences Cognitives 72
Modèles acoustiques (1) DEA de Sciences Cognitives 73
Modèles acoustiques (2) Le mot « américain » DEA de Sciences Cognitives 74
•
Modèles de langage A un instant donné, tous les mots n’ont pas la même probabilité de présence :
–
Le petit chat boit du …
• •
Grammaires probabilistes : toutes les phrases sont possibles mais avec des probabilités différentes Grammaires à états finis : partition binaire des séquences de mots en « séquences possibles » et « séquences impossibles » DEA de Sciences Cognitives 75
Modèle acoustique + Modèle de langage DEA de Sciences Cognitives 76
Performances DEA de Sciences Cognitives 77
Recherche actuelle DEA de Sciences Cognitives 78
5. Reconnaissance du locuteur DEA de Sciences Cognitives 79
Définition de la RAL Reconnaissance automatique du locuteur (RAL) =
reconnaître l’identité d’une personne à partir d’un enregistrement de sa voix à l’aide d’une technique entièrement automatique, et donc reproductible.
DEA de Sciences Cognitives 80
Un domaine pluri-disciplinaire
ergonomie traitement du signal théorie de la décision théorie de l’information
RAL
reconnaissance des formes statistiques probabilités phonétique linguistique
DEA de Sciences Cognitives 81
Typologie des tâches
• • •
Identification Vérification
du locuteur du locuteur
en ensemble fermé Identification
du locuteur
en ensemble ouvert
• • •
Suivi
de locuteurs
Détection de changement
de locuteur
Segmentation
par locuteurs
• •
Classes
de locuteurs
Adaptation
au locuteur DEA de Sciences Cognitives 82
Niveau de dépendance au texte
• • • • • •
Systèmes à mot de passe individuel , fixe Systèmes à mot de passe commun , fixe Systèmes à vocabulaire fixe mots variables) (ordre des Systèmes à texte imprédictible par le système) (imposé Systèmes dépendant d’un évènement phonétique Systèmes à texte totalement libre DEA de Sciences Cognitives 83
Typologie des erreurs
• •
Identification du locuteur en ensemble fermé :
–
Mauvaise classification
NOMBRE DE LOCUTEURS Vérification du locuteur :
– – –
Fausse acceptation (non détection) Faux rejet (fausse alarme) EER (taux d’égale erreur) SEUIL DE DECISION DEA de Sciences Cognitives 84
Empreinte ou signature ?
•
Motivations :
– – –
Caractéristiques physiologiques Origine géographique Contexte socioculturel
•
Difficultés :
–
Non reproductibilité (état de santé, facteurs psychologiques, état émotionnel, âge, etc.)
dérive temporelle de la voix
– –
Bruits ambiants, canal de transmission Modifications intentionnelles (masquage, imitation) → pas d’empreinte vocale mais plutôt une signature vocale
DEA de Sciences Cognitives 85
Et l’homme ?
• • • • •
L’homme n’est pas particulièrement bon pour ce type de tâche.
Il faut beaucoup d’entraînement pour y arriver.
Même sur des voix familières, on a parfois des difficultés.
C’est encore plus dur à travers le téléphone.
Quand c’est possible, on utilise plutôt le visage.
DEA de Sciences Cognitives 86
Les enjeux scientifiques de la RAL
• •
Quelles sont les informations utilisées par l’homme pour reconnaître une voix ?
Faut il utiliser les mêmes dans un système automatique ?
• •
Quelles sont les informations extractibles d’un enregistrement d’une voix ? Comment faire un modèle de locuteur ?
DEA de Sciences Cognitives 87
Comment reconnaître une personne ?
• •
Quelles informations ?
– – – –
Spectrales (analyse acoustique) Phonétiques (façon de prononcer les sons) Idiolectales (façon d’utiliser les mots) Prosodiques (intensité, hauteur, longueur) Comment les exploiter ?
–
Modèles statistiques
– –
Réseaux de neurones Réseaux bayésiens DEA de Sciences Cognitives 88
Les enjeux applicatifs de la RAL
• • •
Surtout vérification 3 grandes familles :
– – –
Applications sur site Applications télécoms Applications policières / judiciaires Mais aussi :
–
Organisation de l’information
– –
Jeux Etc.
DEA de Sciences Cognitives 89
Applications sur site
La personne doit être physiquement présente en un lieu précis
-
Serrure vocale (pour des locaux, un compte informatique, etc.) Interactivité matérielle (retrait d’argent à un guichet automatique, etc.)
Environnement contrôlable Système dissuasif L’utilisateur peut porter sur lui ses caractéristiques vocales Possibilité de techniques additionnelles de vérification de l’identité Possibilité d’intervention humaine DEA de Sciences Cognitives 90
Applications télécoms
La vérification s’opère à distance
-
Accès à des services pour des abonnés (serveurs, données, etc.) Transactions à distance (opérations bancaires, paiements par carte bancaire, etc.)
Signal de mauvaise qualité et fluctuant Dissuasion médiocre (anonymat) Les caractéristiques vocales doivent être centralisées Difficulté à implanter d’autres techniques de vérification de l’identité Pas d’intervention humaine possible DEA de Sciences Cognitives 91
Applications policières/judiciares
Recherche de suspects, d’éléments de preuve, de preuves, etc.
-
Tests auditifs par des experts Lecture de spectrogrammes par des experts Méthodes (semi-)automatiques
Identification ou vérification Pas de contraintes de temps réel Très importante hétérogénéité des enregistrements Possibilité de modifications intentionnelles Indépendance au texte souhaitable → Nécessité d’une précaution extrême
pas toujours garantie
DEA de Sciences Cognitives 92
Mais aussi…
• • •
Organisation de l’information
– –
Structuration, archivage de documents sonores Navigation dans ces documents Jeux
– –
Augmenter l’interactivité Utilisation de profils de joueurs Personnalisation des services
–
Stocker un profil d’utilisateur pour accéder plus rapidement à des services DEA de Sciences Cognitives 93
Les enjeux applicatifs : conclusion
•
La technologie est prête pour des applications ne nécessitant pas un niveau de sécurité très élevé.
•
L’ergonomie peut pallier certaines faiblesses des algorithmes.
•
La parole n’est pas le moyen le plus robuste en vérification de l’identité, mais c’est l’un des plus naturels (avec la reconnaissance de visage).
•
Il est nécessaire d’informer largement les milieux policiers et judiciaires des limites de la reconnaissance du locuteur.
DEA de Sciences Cognitives 94
Les enjeux stratégiques
• •
Ecoutes téléphoniques
–
Protection de la démocratie ?
–
Intrusion dans la vie privée ?
Recherche de suspects / Authentification
–
Le corbeau de l’affaire Grégory
–
La cassette Ben Laden DEA de Sciences Cognitives 95
Historique
• • •
Trois étapes Reconnaissance par l’écoute faite par des « experts » (à partir de 1940) Reconnaissance par la lecture de spectrogrammes réalisée par des « experts » (de 1960 à 1970) Reconnaissance par des systèmes automatiques (ou pseudo-automatiques) (à partir de 1970) DEA de Sciences Cognitives 96
Reconnaissance par l’écoute Tests par paires DEA de Sciences Cognitives 97
Reconnaissance par spectrogrammes DEA de Sciences Cognitives 98
Reconnaissance automatique
• •
Systèmes reposant sur des modélisations statistiques Ordres de grandeur pour la vérification (EER)
–
En laboratoire : dépendant du texte conditions idéales <0.1 % parole téléphonique (lignes fixes) 0.5 à 2 % indépendant du texte 0.5 à 1 % 5 à 10 %
– –
Pour des applications commerciales :
•
Performances connues mais non publiques
•
Jugées suffisantes pour quelques produits pionniers Pour des applications policières / judiciaires :
•
Performances évaluées ?
DEA de Sciences Cognitives 99
Composantes d’un système
•
Une phase d’apprentissage
–
Construction d’un modèle de locuteur
•
Une phase de test
–
Comparaison entre un énoncé et un modèle de locuteur DEA de Sciences Cognitives 100
Phase d’apprentissage signal analyse paramètres modélisation identité ENTREES DEA de Sciences Cognitives Dictionnaire de modèles de référence SORTIE 101
Phase de test en identification signal ENTREE analyse paramètres modélisation Dictionnaire de modèles de référence comparaison Scores décision SORTIE DEA de Sciences Cognitives 102
signal Phase de test en vérification analyse paramètres modélisation identité ENTREES Dictionnaire de modèles de référence comparaison Score décision SORTIE DEA de Sciences Cognitives 103
La phase de paramétrisation DEA de Sciences Cognitives 104
Paramètres d’analyse
• •
Paramètres spectraux :
–
Analyse par banc de filtres ou analyse LPC
– –
Transformation cepstrale Paramètres delta (et delta-delta) Paramètres prosodiques :
–
(Log énergie et) delta-Log-énergie
–
Fréquence fondamentale
–
Paramètres de durée → Existe-t-il des paramètres spécifiques
à la reconnaissance du locuteur?
DEA de Sciences Cognitives 105
Modélisation
• • • • • • •
Les précurseurs Programmation dynamique (DTW) Quantification vectorielle (VQ) Modèles de Markov cachés (HMM) Réseaux de neurones (NN) Modèles auto-régressifs vectoriels (ARVM) Modèles par mélange de Gaussiennes (GMM) DEA de Sciences Cognitives 106
Les précurseurs PRUZANSKY 1963 Mesure de corrélation entre spectres à long terme ATAL 1968 Utilisation de contours prosodiques normalisés BRICKER 1971 Mesure de Mahalanobis sur spectres à long terme DEA de Sciences Cognitives 107
Programmation dynamique (DTW) DODDINGTON 1974, ROSENBERG 1976, FURUI 1981, etc.
“Bonjour” locuteur 1 “Bonjour” locuteur test Y “Bonjour” locuteur 2 “Bonjour” locuteur n ( X , Y )
d
meilleur 2 (
x
i
,
y
chemin
j
)
DEA de Sciences Cognitives 108
Quantification vectorielle (VQ) SOONG, ROSENBERG 1987
Dictionnaire locuteur 1 “Bonjour” locuteur test Y Dictionnaire locuteur 2 Dictionnaire locuteur n ( X , Y )
d
meilleure 2 (
C
X
i
quant.
,
y
j
)
DEA de Sciences Cognitives 109
Modèles de Markov cachés (HMM) ROSENBERG 1990, TSENG 1992
“Bonjour” locuteur test Y “Bonjour” locuteur 1 “Bonjour” locuteur 2 “Bonjour” locuteur n ( X , Y ) log meilleur chemin P (
y
j
S X i )
DEA de Sciences Cognitives 110
Modèles de Markov cachés (HMM) PORITZ 1982, SAVIC 1990
HMM locuteur 1 “Bonjour” locuteur test Y HMM locuteur 2 HMM locuteur n ( X , Y ) log meilleur chemin P (
y
j
S X i )
DEA de Sciences Cognitives 111
Modèles par mélange de Gaussiennes(GMM) REYNOLDS 1995 DEA de Sciences Cognitives 112
La phase de décision
•
Calcul d’un score
–
Avec le modèle de locuteur considéré
–
Avec un « modèle du monde »
–
Rapport entre les deux scores
•
Comparaison à un seuil
–
Si supérieur au seuil, on « accepte »
–
Si inférieur au seuil, on « rejette » DEA de Sciences Cognitives 113
L’évaluation
• •
EER : fausse acceptation = faux rejet Courbe DET :
•
Les évaluations NIST DEA de Sciences Cognitives 114
La caractérisation du locuteur à DDL
• • • • •
Recherche d’une technique d’analyse du signal plus adaptée Amélioration des modèles statistiques et recherche d’algorithmes plus efficaces pour les apprendre Intégration des informations prosodiques dans les systèmes Modélisation de la dérive temporelle de la voix Utilisation de la reconnaissance du locuteur dans des tâches d’indexation sonore DEA de Sciences Cognitives 115
Conclusion sur la RAL
• • •
Domaine pluridisciplinaire nécessitant des connaissances multiples Bonnes performances sur des données propres et en laboratoire, mais très insuffisantes pour des domaines nécessitant un haut degré de sécurité ou le domaine judiciaire On peut parler de signature vocale mais pas d’empreinte vocale DEA de Sciences Cognitives 116
Perspectives de la RAL
• •
Améliorer les systèmes
–
Nouvelles sources d’information (prosodie)
– – – –
Analyse du signal plus adaptée Meilleurs modèles statistiques Robustesse (meilleure prise en compte de la variabilité) Etude de la dérive temporelle de la voix Autres tâches
–
Segmentation par locuteurs
–
Indexation par locuteurs DEA de Sciences Cognitives 117
Discussion sur une actualité récente
• • •
La vérification d’identité dans les milieux judiciaires L’affaire Grégory – la cassette Ben Laden
•
Des articles de journaux la semaine dernière La prise de position des scientifiques français DEA de Sciences Cognitives 118
Bibliographie
• R. Boite, H. Bourlard, T. Dutoit, J. Hancq, and H. Leich.
Traitement de la parole.
Presses Polytechniques Romandes.
• Calliope.
La parole et son traitement automatique.
Masson, 1989.
DEA de Sciences Cognitives 119