de la parole - Sites personnels de TELECOM ParisTech

Download Report

Transcript de la parole - Sites personnels de TELECOM ParisTech

Le traitement automatique de la parole

Comment reproduire les processus physiologiques et cognitifs humains?

Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon http://www.ddl.ish-lyon.cnrs.fr/ [email protected]

DEA de Sciences Cognitives 1

Plan 1. Introduction aux processus de la communication parlée 2. Analyse de la parole 3.

Synthèse de la parole 4. Reconnaissance de la parole 5. Reconnaissance du locuteur DEA de Sciences Cognitives 2

1. Introduction aux processus de la communication parlée DEA de Sciences Cognitives 3

Quelques segments d’un signal DEA de Sciences Cognitives 4

Quelques propriétés du signal de parole

• • • •

La parole est quasi-stationnaire La parole est 70% du temps (pseudo )périodique (bruit ou silence le reste du temps) La parole est un signal large bande (il remplit toute la largeur de bande) La parole est un signal à bande limitée (0-8000 Hz essentiellement) DEA de Sciences Cognitives 5

Anatomie de l’appareil vocal (1) DEA de Sciences Cognitives 6

Anatomie de l’appareil vocal (2) DEA de Sciences Cognitives 7

Anatomie de l’appareil vocal (3) DEA de Sciences Cognitives 8

Fonctionnement acoustique de l’appareil vocal

• •

Système acoustique = excitateur + résonateur Trois modes de fonctionnement

Excitation glottique du conduit vocal

Excitation du conduit vocal en un point de constriction par un bruit d’écoulement

Excitation du conduit vocal par une impulsion acoustique DEA de Sciences Cognitives 9

Transcription phonétique du français DEA de Sciences Cognitives 10

Transcription phonétique du français DEA de Sciences Cognitives 11

Description acoustique de la parole DEA de Sciences Cognitives 12

Voyelles orales françaises DEA de Sciences Cognitives 13

Triangle vocalique DEA de Sciences Cognitives 14

Représentation acoustique (ex. 1) DEA de Sciences Cognitives 15

Représentation acoustique (ex. 2) DEA de Sciences Cognitives 16

Grille polaire de Maeda DEA de Sciences Cognitives 17

Coupes saggitales des voyelles DEA de Sciences Cognitives 18

Fonctions d’aires des voyelles DEA de Sciences Cognitives 19

Anatomie de l’oreille DEA de Sciences Cognitives 20

Les limites de l’oreille

• • •

L’oreille est à bande limitée L’oreille est fausse sur des sons purs L’oreille n’est pas également sensible

• •

L’oreille a une résolution en temps limitée L’oreille a une résolution en fréquence limitée DEA de Sciences Cognitives 21

2. Analyse de la parole DEA de Sciences Cognitives 22

Objectifs de l’analyse de parole Extraire des paramètres du signal de parole

• • • • •

afin de : Retirer l’information non pertinente Réduire la redondance Obtenir une représentation plus compacte Atteindre un niveau d’abstraction plus élevé Définir des mesures de ressemblance simples DEA de Sciences Cognitives 23

Principes

• • • •

Prétraitement Découpage en trames

Taille des trames

Décalage entre trames Fenêtrage Extraction de paramètres acoustiques DEA de Sciences Cognitives 24

Principe d’une analyse acoustique DEA de Sciences Cognitives 25

Paramètres acoustiques non spectraux

• • • •

Energie Fréquence fondamentale Taux de passage par zéro du signal Taux de passage par zéro de la dérivée du signal DEA de Sciences Cognitives 26

L’enveloppe spectrale Les approches conventionnelles visent à extraire des caractéristiques

• • •

de l’enveloppe spectrale.

Analyse par banc de filtres Analyse par prédiction linéaire Coefficients cepstraux DEA de Sciences Cognitives 27

Analyse par banc de filtres (1) DEA de Sciences Cognitives 28

Analyse par banc de filtres (2) DEA de Sciences Cognitives 29

Analyse par banc de filtres (3) DEA de Sciences Cognitives 30

Analyse par prédiction linéaire (1) Modélisation de la parole sous forme d’un filtre de prédiction linéaire e(t) Filtre de prédiction linéaire

i p

 0

a i

s

(

t

i

) 

e

(

t

)

s(t) DEA de Sciences Cognitives 31

Analyse par prédiction linéaire (2) DEA de Sciences Cognitives 32

Coefficients cepstraux

On applique une transformée de Fourier inverse sur le module du spectre logarithmique.

Les premiers coefficients caractérisent l’enveloppe spectrale.

DEA de Sciences Cognitives 33

L’information dynamique

On représente l’information dynamique par la dérivée première (vitesse) et la dérivée seconde (accélération) des paramètres cepstraux → paramètres deltas et deltas-deltas

c

 (

t

) 

k k

    

p p k

c

(

t k k

    

p p k

k

) 

c

 (

t

) 

k k

    

p p k

2 

c

(

t k k

    

p p k

2 

k

)

DEA de Sciences Cognitives 34

3. Synthèse de la parole DEA de Sciences Cognitives 35

• • • • • • •

La synthèse, pour quoi faire ?

Services de télécommunications

– Rendre toute information écrite disponible via le téléphone (horaires de cinéma, horaires de train, informations routières, état d’un compte en banque, dernière facture téléphonique, etc.)

Applications en bureautique

– Terminaux parlants, lecture des emails par la voix, etc.

Applications dans les transports

– Information dans les automobiles, aide à l’exploitation des trains, lecture de cadrans dans les avions, etc.

Aide aux personnes handicapées

– Un handicapé peut s’exprimer par le biais d’un synthétiseur (cours du célèbre astrophysicien Stephen Hawking)

Apprentissage des langues étrangères

– Dictionnaires électronique avec prononciation intégrée, logiciels d’apprentissage des langues étrangères, traduction automatique, etc.

Livres et jouets parlants

– À l’usage des enfants en bas âge

Communication naturelle avec la machine DEA de Sciences Cognitives 36

Structure d’un système de synthèse SYNTHESE DE LA PAROLE A PARTIR DU TEXTE Texte TRAITEMENT DU LANGAGE NATUREL Formalismes linguistiques Moteurs d’inférence Inférences logiques Phonèmes Prosodie TRAITEMENT DU SIGNAL NUMERIQUE Modèles mathématiques Algorithmes Calculs numériques Parole DEA de Sciences Cognitives 37

Traitement du langage naturel Texte Pré-processeur Analyseur morphologique Analyseur contextuel Analyseur syntaxique prosodique Phonétiseur Générateur de prosodie Structure de données Phonèmes Prosodie DEA de Sciences Cognitives 38

Analyse morpho-syntaxique DEA de Sciences Cognitives 39

Phonétisation (1) DEA de Sciences Cognitives 40

Phonétisation (2) DEA de Sciences Cognitives 41

Synthétiseur par prédiction linéaire DEA de Sciences Cognitives 42

Synthétiseur à formants DEA de Sciences Cognitives 43

Synthèse par règles (1) DEA de Sciences Cognitives 44

Synthèse par règles (2) DEA de Sciences Cognitives 45

Synthèse par concaténation d’unités DEA de Sciences Cognitives 46

Qu’est-ce qu’un diphone ?

DEA de Sciences Cognitives 47

Concaténation de diphones DEA de Sciences Cognitives 48

Prosodie : la « musique » de la parole DEA de Sciences Cognitives 49

Exemples

• • • • • • • •

ICP-Grenoble (F), 1993 CNET-Lannion (F), 1993 (TD-PSOLA) KTH-Stockholm (S), 1993 LAIP-Lausanne (CH), 1996 (MBR PSO) University-Mons (B), 1993 (LPC) University-Mons (B), 1993 (MBE) University-Mons (B), 1993 (MBR PSO) University-Mons (B), 1993 (TD PSO) DEA de Sciences Cognitives 50

Liens Internet sur la synthèse

• http://tcts.fpms.ac.be/synthesis/mbrola.html

• http://www.bell-labs.com/project/tts/#examples • http://www.cstr.ed.ac.uk/projects/festival/ • http://www.research.att.com/projects/tts/

DEA de Sciences Cognitives 51

4. Reconnaissance de la parole DEA de Sciences Cognitives 52

Objectifs

• • •

Transformer un signal de parole en : Texte (dictée vocale, transcription) Action (commande vocale, systèmes de dialogue) Information indexée (annotation, indexation) DEA de Sciences Cognitives 53

Les sources de variabilité

• • •

Les facteurs intra-locuteurs : co-articulation, variation dans la prononciation, etc.

Les facteurs inter-locuteurs : physiologie, age, sexe, psychologie, familiarité avec l’application, etc.

L’environnement : bruit, micro, canal de transmission, présence d’autres locuteurs, etc.

DEA de Sciences Cognitives 54

Variabilité intra- et inter-locuteur DEA de Sciences Cognitives 55

Variabilité intra-locuteur DEA de Sciences Cognitives 56

Typologie des systèmes

• • •

Type de parole

• •

Taille du vocabulaire Niveau de dépendance par rapport aux locuteurs Environnement d’utilisation Profil des utilisateurs potentiels DEA de Sciences Cognitives 57

Type de parole

• • • • • •

Mots isolés Mots connectés Détection de mots clés Parole contrainte Parole continue Parole spontanée DEA de Sciences Cognitives 58

Taille du vocabulaire

• • • • •

Quelques mots (5 – 50) Petit vocabulaire (50 – 500) Vocabulaire moyen (500 – 5000) Grand vocabulaire (5000 – 50000) Très grand vocabulaire (> 50000) DEA de Sciences Cognitives 59

Dépendance au locuteur

Dépendant du locuteur : le système fonctionne correctement avec un utilisateur particulier

Adaptation au locuteur = utilise quelques données spécifiques d’un locuteur pour adapter le système à une nouvelle voix

Indépendant du locuteur : le système fonctionne avec n’importe quel utilisateur DEA de Sciences Cognitives 60

Environnement d’utilisation

Parole large-bande (ordinateur, etc.)

Environnement calme (bureau + micro-casque)

Parole bande étroite avec distorsion (téléphone, etc.)

Bruit de fond DEA de Sciences Cognitives 61

Profil des utilisateurs potentiels

Utilisation professionnelle par des spécialistes

Entraîné / naïf

Fréquent / occasionnel

Grand public

Utilité

Coopération DEA de Sciences Cognitives 62

Deux exemples

Dictée vocale Parole continue

• •

Grand vocabulaire Adaptation au locuteur

• •

Bureau+micro-casque Utilisateurs d’ordinateurs

• • • • •

Service téléphonique Détection de mots clés Quelques mots Indépendant du locuteur Parole téléphonique Grand public DEA de Sciences Cognitives 63

Système de reconnaissance de mots DEA de Sciences Cognitives 64

Programmation dynamique (DTW)

Mot 1 Mot inconnu Y Mot 2 Mot n  ( X , Y )   meilleur

d

2 (

x

i

,

y

chemin

j

)

DEA de Sciences Cognitives 65

Contraintes locales DEA de Sciences Cognitives 66

Contraintes locales : exemple DEA de Sciences Cognitives 67

Modèle de Markov caché : principe DEA de Sciences Cognitives 68

Modèles de Markov cachés (HMM)

Mot inconnu Y Mot 1 Mot 2 Mot n  ( X , Y )    log meilleur chemin P (

y

j

S X i )

DEA de Sciences Cognitives 69

Viterbi : exemple DEA de Sciences Cognitives 70

Algorithme de Viterbi : exercice DEA de Sciences Cognitives 71

Les trois composantes d’un système

• • •

Les modèles acoustiques

Pour transformer des paramètres acoustiques en phonèmes (ou parfois directement des mots) Le lexique

Pour transformer une suite de phonèmes en mots Le modèle de langage

Pour transformer une suite de mots en phrases DEA de Sciences Cognitives 72

Modèles acoustiques (1) DEA de Sciences Cognitives 73

Modèles acoustiques (2) Le mot « américain » DEA de Sciences Cognitives 74

Modèles de langage A un instant donné, tous les mots n’ont pas la même probabilité de présence :

Le petit chat boit du …

• •

Grammaires probabilistes : toutes les phrases sont possibles mais avec des probabilités différentes Grammaires à états finis : partition binaire des séquences de mots en « séquences possibles » et « séquences impossibles » DEA de Sciences Cognitives 75

Modèle acoustique + Modèle de langage DEA de Sciences Cognitives 76

Performances DEA de Sciences Cognitives 77

Recherche actuelle DEA de Sciences Cognitives 78

5. Reconnaissance du locuteur DEA de Sciences Cognitives 79

Définition de la RAL Reconnaissance automatique du locuteur (RAL) =

reconnaître l’identité d’une personne à partir d’un enregistrement de sa voix à l’aide d’une technique entièrement automatique, et donc reproductible.

DEA de Sciences Cognitives 80

Un domaine pluri-disciplinaire

ergonomie traitement du signal théorie de la décision théorie de l’information

RAL

reconnaissance des formes statistiques probabilités phonétique linguistique

DEA de Sciences Cognitives 81

Typologie des tâches

• • •

Identification Vérification

du locuteur du locuteur

en ensemble fermé Identification

du locuteur

en ensemble ouvert

• • •

Suivi

de locuteurs

Détection de changement

de locuteur

Segmentation

par locuteurs

• •

Classes

de locuteurs

Adaptation

au locuteur DEA de Sciences Cognitives 82

Niveau de dépendance au texte

• • • • • •

Systèmes à mot de passe individuel , fixe Systèmes à mot de passe commun , fixe Systèmes à vocabulaire fixe mots variables) (ordre des Systèmes à texte imprédictible par le système) (imposé Systèmes dépendant d’un évènement phonétique Systèmes à texte totalement libre DEA de Sciences Cognitives 83

Typologie des erreurs

• •

Identification du locuteur en ensemble fermé :

Mauvaise classification

NOMBRE DE LOCUTEURS Vérification du locuteur :

– – –

Fausse acceptation (non détection) Faux rejet (fausse alarme) EER (taux d’égale erreur) SEUIL DE DECISION DEA de Sciences Cognitives 84

Empreinte ou signature ?

Motivations :

– – –

Caractéristiques physiologiques Origine géographique Contexte socioculturel

Difficultés :

Non reproductibilité (état de santé, facteurs psychologiques, état émotionnel, âge, etc.)

dérive temporelle de la voix

– –

Bruits ambiants, canal de transmission Modifications intentionnelles (masquage, imitation) → pas d’empreinte vocale mais plutôt une signature vocale

DEA de Sciences Cognitives 85

Et l’homme ?

• • • • •

L’homme n’est pas particulièrement bon pour ce type de tâche.

Il faut beaucoup d’entraînement pour y arriver.

Même sur des voix familières, on a parfois des difficultés.

C’est encore plus dur à travers le téléphone.

Quand c’est possible, on utilise plutôt le visage.

DEA de Sciences Cognitives 86

Les enjeux scientifiques de la RAL

• •

Quelles sont les informations utilisées par l’homme pour reconnaître une voix ?

Faut il utiliser les mêmes dans un système automatique ?

• •

Quelles sont les informations extractibles d’un enregistrement d’une voix ? Comment faire un modèle de locuteur ?

DEA de Sciences Cognitives 87

Comment reconnaître une personne ?

• •

Quelles informations ?

– – – –

Spectrales (analyse acoustique) Phonétiques (façon de prononcer les sons) Idiolectales (façon d’utiliser les mots) Prosodiques (intensité, hauteur, longueur) Comment les exploiter ?

Modèles statistiques

– –

Réseaux de neurones Réseaux bayésiens DEA de Sciences Cognitives 88

Les enjeux applicatifs de la RAL

• • •

Surtout vérification 3 grandes familles :

– – –

Applications sur site Applications télécoms Applications policières / judiciaires Mais aussi :

Organisation de l’information

– –

Jeux Etc.

DEA de Sciences Cognitives 89

Applications sur site

La personne doit être physiquement présente en un lieu précis

-

Serrure vocale (pour des locaux, un compte informatique, etc.) Interactivité matérielle (retrait d’argent à un guichet automatique, etc.)

    

Environnement contrôlable Système dissuasif L’utilisateur peut porter sur lui ses caractéristiques vocales Possibilité de techniques additionnelles de vérification de l’identité Possibilité d’intervention humaine DEA de Sciences Cognitives 90

Applications télécoms

La vérification s’opère à distance

-

Accès à des services pour des abonnés (serveurs, données, etc.) Transactions à distance (opérations bancaires, paiements par carte bancaire, etc.)

    

Signal de mauvaise qualité et fluctuant Dissuasion médiocre (anonymat) Les caractéristiques vocales doivent être centralisées Difficulté à implanter d’autres techniques de vérification de l’identité Pas d’intervention humaine possible DEA de Sciences Cognitives 91

Applications policières/judiciares

Recherche de suspects, d’éléments de preuve, de preuves, etc.

-

Tests auditifs par des experts Lecture de spectrogrammes par des experts Méthodes (semi-)automatiques

    

Identification ou vérification Pas de contraintes de temps réel Très importante hétérogénéité des enregistrements Possibilité de modifications intentionnelles Indépendance au texte souhaitable → Nécessité d’une précaution extrême

pas toujours garantie

DEA de Sciences Cognitives 92

Mais aussi…

• • •

Organisation de l’information

– –

Structuration, archivage de documents sonores Navigation dans ces documents Jeux

– –

Augmenter l’interactivité Utilisation de profils de joueurs Personnalisation des services

Stocker un profil d’utilisateur pour accéder plus rapidement à des services DEA de Sciences Cognitives 93

Les enjeux applicatifs : conclusion

La technologie est prête pour des applications ne nécessitant pas un niveau de sécurité très élevé.

L’ergonomie peut pallier certaines faiblesses des algorithmes.

La parole n’est pas le moyen le plus robuste en vérification de l’identité, mais c’est l’un des plus naturels (avec la reconnaissance de visage).

Il est nécessaire d’informer largement les milieux policiers et judiciaires des limites de la reconnaissance du locuteur.

DEA de Sciences Cognitives 94

Les enjeux stratégiques

• •

Ecoutes téléphoniques

Protection de la démocratie ?

Intrusion dans la vie privée ?

Recherche de suspects / Authentification

Le corbeau de l’affaire Grégory

La cassette Ben Laden DEA de Sciences Cognitives 95

Historique

• • •

Trois étapes Reconnaissance par l’écoute faite par des « experts » (à partir de 1940) Reconnaissance par la lecture de spectrogrammes réalisée par des « experts » (de 1960 à 1970) Reconnaissance par des systèmes automatiques (ou pseudo-automatiques) (à partir de 1970) DEA de Sciences Cognitives 96

Reconnaissance par l’écoute Tests par paires DEA de Sciences Cognitives 97

Reconnaissance par spectrogrammes DEA de Sciences Cognitives 98

Reconnaissance automatique

• •

Systèmes reposant sur des modélisations statistiques Ordres de grandeur pour la vérification (EER)

En laboratoire : dépendant du texte conditions idéales <0.1 % parole téléphonique (lignes fixes) 0.5 à 2 % indépendant du texte 0.5 à 1 % 5 à 10 %

– –

Pour des applications commerciales :

Performances connues mais non publiques

Jugées suffisantes pour quelques produits pionniers Pour des applications policières / judiciaires :

Performances évaluées ?

DEA de Sciences Cognitives 99

Composantes d’un système

Une phase d’apprentissage

Construction d’un modèle de locuteur

Une phase de test

Comparaison entre un énoncé et un modèle de locuteur DEA de Sciences Cognitives 100

Phase d’apprentissage signal analyse paramètres modélisation identité ENTREES DEA de Sciences Cognitives Dictionnaire de modèles de référence SORTIE 101

Phase de test en identification signal ENTREE analyse paramètres modélisation Dictionnaire de modèles de référence comparaison Scores décision SORTIE DEA de Sciences Cognitives 102

signal Phase de test en vérification analyse paramètres modélisation identité ENTREES Dictionnaire de modèles de référence comparaison Score décision SORTIE DEA de Sciences Cognitives 103

La phase de paramétrisation DEA de Sciences Cognitives 104

Paramètres d’analyse

• •

Paramètres spectraux :

Analyse par banc de filtres ou analyse LPC

– –

Transformation cepstrale Paramètres delta (et delta-delta) Paramètres prosodiques :

(Log énergie et) delta-Log-énergie

Fréquence fondamentale

Paramètres de durée → Existe-t-il des paramètres spécifiques

à la reconnaissance du locuteur?

DEA de Sciences Cognitives 105

Modélisation

• • • • • • •

Les précurseurs Programmation dynamique (DTW) Quantification vectorielle (VQ) Modèles de Markov cachés (HMM) Réseaux de neurones (NN) Modèles auto-régressifs vectoriels (ARVM) Modèles par mélange de Gaussiennes (GMM) DEA de Sciences Cognitives 106

Les précurseurs PRUZANSKY 1963 Mesure de corrélation entre spectres à long terme ATAL 1968 Utilisation de contours prosodiques normalisés BRICKER 1971 Mesure de Mahalanobis sur spectres à long terme DEA de Sciences Cognitives 107

Programmation dynamique (DTW) DODDINGTON 1974, ROSENBERG 1976, FURUI 1981, etc.

“Bonjour” locuteur 1 “Bonjour” locuteur test Y “Bonjour” locuteur 2 “Bonjour” locuteur n  ( X , Y )  

d

meilleur 2 (

x

i

,

y

chemin

j

)

DEA de Sciences Cognitives 108

Quantification vectorielle (VQ) SOONG, ROSENBERG 1987

Dictionnaire locuteur 1 “Bonjour” locuteur test Y Dictionnaire locuteur 2 Dictionnaire locuteur n  ( X , Y )  

d

meilleure 2 (

C

X

i

quant.

,

y

j

)

DEA de Sciences Cognitives 109

Modèles de Markov cachés (HMM) ROSENBERG 1990, TSENG 1992

“Bonjour” locuteur test Y “Bonjour” locuteur 1 “Bonjour” locuteur 2 “Bonjour” locuteur n  ( X , Y )    log meilleur chemin P (

y

j

S X i )

DEA de Sciences Cognitives 110

Modèles de Markov cachés (HMM) PORITZ 1982, SAVIC 1990

HMM locuteur 1 “Bonjour” locuteur test Y HMM locuteur 2 HMM locuteur n  ( X , Y )    log meilleur chemin P (

y

j

S X i )

DEA de Sciences Cognitives 111

Modèles par mélange de Gaussiennes(GMM) REYNOLDS 1995 DEA de Sciences Cognitives 112

La phase de décision

Calcul d’un score

Avec le modèle de locuteur considéré

Avec un « modèle du monde »

Rapport entre les deux scores

Comparaison à un seuil

Si supérieur au seuil, on « accepte »

Si inférieur au seuil, on « rejette » DEA de Sciences Cognitives 113

L’évaluation

• •

EER : fausse acceptation = faux rejet Courbe DET :

Les évaluations NIST DEA de Sciences Cognitives 114

La caractérisation du locuteur à DDL

• • • • •

Recherche d’une technique d’analyse du signal plus adaptée Amélioration des modèles statistiques et recherche d’algorithmes plus efficaces pour les apprendre Intégration des informations prosodiques dans les systèmes Modélisation de la dérive temporelle de la voix Utilisation de la reconnaissance du locuteur dans des tâches d’indexation sonore DEA de Sciences Cognitives 115

Conclusion sur la RAL

• • •

Domaine pluridisciplinaire nécessitant des connaissances multiples Bonnes performances sur des données propres et en laboratoire, mais très insuffisantes pour des domaines nécessitant un haut degré de sécurité ou le domaine judiciaire On peut parler de signature vocale mais pas d’empreinte vocale DEA de Sciences Cognitives 116

Perspectives de la RAL

• •

Améliorer les systèmes

Nouvelles sources d’information (prosodie)

– – – –

Analyse du signal plus adaptée Meilleurs modèles statistiques Robustesse (meilleure prise en compte de la variabilité) Etude de la dérive temporelle de la voix Autres tâches

Segmentation par locuteurs

Indexation par locuteurs DEA de Sciences Cognitives 117

Discussion sur une actualité récente

• • •

La vérification d’identité dans les milieux judiciaires L’affaire Grégory – la cassette Ben Laden

Des articles de journaux la semaine dernière La prise de position des scientifiques français DEA de Sciences Cognitives 118

Bibliographie

• R. Boite, H. Bourlard, T. Dutoit, J. Hancq, and H. Leich.

Traitement de la parole.

Presses Polytechniques Romandes.

• Calliope.

La parole et son traitement automatique.

Masson, 1989.

DEA de Sciences Cognitives 119