Transcript perception

Chapitre 1
-------Perception
Naturelle et Artificielle
de la Parole
Jean-Sylvain Liénard
LIMSI-CNRS
ORSAY
M2 Recherche Informatique
Filière Sciences Cognitives
Module PNPA
Déc 04 – Fév 05
Organisation du cours 04-05
1. Perception naturelle et artificielle de la parole
2. Audition et modèles auditifs bas niveau
3. Perception auditive
4. Intelligibilité et contenu non linguistique de la parole
5. Modèles perceptifs de haut niveau
6. Analyse de scènes acoustiques: ASA et CASA
Quelques propriétés de la
Perception Naturelle
Definition : perception naturelle
• fonction par laquelle un organisme prend
connaissance de son environnement
• contribue à élaborer un comportement
• fonction vitale pour la survie
• du signal au sens: monde physique, monde
cognitif, logiques différentes
• multiples modalités, une seule interprétation
Catégorisation
• l'identification des objets du monde implique que
des signaux différents soient placés dans la
même catégorie
• la catégorisation selon Eleanor Rosch
– principe du monde perçu
– principe d'économie cognitive
– ---> organisation hiérarchique des concepts, peu de rapports
avec la perception. cf "ontologies" en IA
• catégorisation perceptive
– perception catégorielle vs continue
– cf Reconnaissance des Formes, processus ascendants
Utilisation des régularités
• le monde change peu et lentement: régularités
spatiales et temporelles
• la perception utilise massivement la prédiction, à
toutes les échelles de temps.
• il faut aller plus vite que le phénomène considéré
• rôle de l'attention, processus descendants
 La perception est plus une projection sur le monde
que l'activation d'une représentation BN du monde
Utilisation de tous les indices
• le monde est perçu par le biais de multiples
canaux d'information; multimodalité
• exploitation simultanée de tous ces canaux, en
fonction du but
• détection immédiate de toute incohérence, si elle
a une importance pour la poursuite du but
• à l'intérieur d'un même canal on peut avoir
plusieurs types d'information complémentaires
Dualité perception-action
• la perception sert à guider l'action (p.ex. regarder où
l'on va),
• et l'action à affiner la perception (p.ex. s'approcher
pour mieux voir un objet)
• perception "active", double sens :
– complémentarité flux ascendant et descendant
– association avec une action comportementale
Représentations intermédiaires
• le passage du bas au haut niveau ne peut se
faire en une seule étape
• comment déterminer les niveaux intermédiaires ?
• Sont-ils identiques pour tous les individus ?
• Problème d'apprentissage
Problèmes et modèles pour la
Perception Artificielle
Repères
• années 40-60 : théorie de l'information,
cybernétique, reconnaissance des formes,
systèmes cellulaires
• années 60-80: perceptron et XOR, divorce IA/RF
• années 80-2000: connexionnisme, sciences
cognitives, cognition et perception situées,
société de l'information
• Actuellement : l'IA nouvelle, apprentissage,
fouille de données, méthodes probabilistes, IA
distribuée
le grand problème: la variabilité
• Variabilité du signal, à "contenu constant" ; mais à quel
contenu se réfère-t-on ?
– en reconnaissance de la parole : l'information "linguistique " (celle qui
correspond à la langue écrite)
– en reconnaissance du locuteur : l'identité du locuteur (quoi qu'il dise ?)
– en reconnaissance d'objets : le label de l'objet (quelles que soient les
conditions de prise de vue et d'éclairement ?)
• Hypothèse : contenu du signal = toute l'information
perceptible par un humain
• Proposition : la variabilité reflète la non-prise en compte
d'une partie de l'information perceptive du signal
Catégorisation vs Multicatégorisation
Catégorisation
description
bas niveau
pixels
A
B
A
A
a
description
haut niveau
identité
A
B
A
B
A
B
A
B
A
B
Multicatégorisation
description
bas niveau
pixels
A
B
A
A
a
description
haut niveau
identité
casse
position
A
B
Maj.
Min.
Gauche
Droite
A
B
Maj.
Min.
Gauche
Droite
A
B
Maj.
Min.
Gauche
Droite
A
B
Maj.
Min.
Gauche
Droite
A
B
Maj.
Min.
Gauche
Droite
En Catégorisation, seul un
descripteur haut niveau est
défini (ici l'identité de
l'objet).
Il en résulte une grande
variabilité (non-coïncidence
des classes bas et haut
niveau).
En définissant plusieurs
descripteurs haut niveau
(multicatégorisation =
plusieurs points de vue sur
l'objet) la variabilité est
fortement réduite.
La catégorisation est une
forme particulière de
multicatégorisation.
En ingéniérie : Traitement des
Formes vs Reconnaissance
des Formes
Perception Située
• la perception est contextuelle
– prend en compte la situation du système dans son
contexte
• la perception est active
– double flux ascendant et descendant
– action sur l'environnement
• la perception est multicatégorielle
– tout signal perceptivement significatif peut faire l'objet
d'une description complète à tout niveau d'abstraction
– c'est le système cognitif qui choisit les aspects pertinents
du signal, selon la situation
La perception comme changement de
représentation
hn
bn
entités longues
et décorrélées
entités courtes et
mélangées
Divers modes de fonctionnement
ascendant
descendant
Double flux
hn
hn
hn
bn
bn
bn
• l'information bn est
prédominante
• l'information hn est
prédominante
• les informations hn
et bn sont partielles
• prévisibilité nulle
• prévisibilité totale
• streaming, pop-up,
descripteurs
intrinsèques (bn),
Gestalt, émergence
• attention et
connaissances
attachées aux niveaux
supérieurs
• prédominance d'un
niveau (plus proche
hn ou bn, ou mieux
structuré)
• conflit possible
Perception Située
Sous-but
SYSTEME COGNITIF
concepts
hiérarchies
sensori-motrices
couplages
sensori
moteurs
signaux
Monde
(interne/externe)
Analyse, reconnaissance
et perception de la parole
Le signal de parole
Sert à la communication entre humains
- différences avec communication écrite
double structure acoustique
- spectrale ou segmentale, mieux visible en
bande large
- harmonique ou suprasegmentale, mieux
visible en bande étroite
Modèle source-filtre
- inspiré par les mécanismes de la production
Communication : oral vs écrit
Communication orale
Communication écrite
Transmission
• Le problème du débit d'information
---> comment supprimer
l'information "superflue" ?
L'appareil vocal
Analyse acoustique de la parole
Exemples de spectrogrammes
– Winsnoori
• 101.wav
voix H
• 201.wav
• 102.wav
voix H
• 202.wav
Guy a péri bêtement du diabète en Italie
id
La porte du garage tomba avec lourdeur
id
– Sections en bande large et bande étroite
– Evolution de Fo
voix F
voix F
Les voyelles
spectrogrammes des voyelles
F1 et F2 prépondérants: démo Snack Formants
Fricatives (constrictives)
Plosives (occlusives)
• Synthèse à partir des phonèmes
- A chaque phonème est associé un état stable
- Le problème de coarticulation : ch + a ne fait pas cha
- Il faut donc respecter les transitions
- Synthèse par règles
Avec un synthétiseur paramétrique (à formants) : calcul des transitions
acoustiques
• Reconnaissance par mots isolés
Apprentissage
Reconnaissance
• Le problème de l'alignement
temporel
Alignement par programmation
dynamique DTW
Reconnaissance par mots enchaînés
Extension de la programmation dynamique
Reconnaissance par modèles de Markov
cachés
- Le signal est représenté par une suite d'états acoustiques
- le nombre d'états possibles est limité (d'après corpus)
- probabilités de transition et d'émission (d'après corpus)
- programmation dynamique
Modèle de mot
Formulation bayésienne
- Le message est représenté par une suite de mots
- Probabilités déterminées d'après corpus
- Proba message :: proba suite acoustique x proba suite de mots
Performances actuelles (2000)
Mesurées en termes de taux d’erreurs de mots
nécessite un corpus transcrit manuellement (référence)
Chiffres
Journaux lus
Journaux
televises
Conversations tel.
40%
20%
7%
0.7%
0.01%
0.5%
4%
Machine ~ 10% des performances humaines...
Point de vue
sur la reconnaissance de la parole
• Les approches actuelles sont limitées
– méthodes essentiellement ascendantes et monocatégorielles,
basées sur la Reconnaissance des Formes
– suffisantes pour certaines applications
– mais progrès asymptotiques, dûs seulement à puissance de
calcul et collecte de bases de données
• Point de vue situé
– prendre en compte simultanément tous les aspects perceptifs du
signal : parole, locuteur, situation, contexte, prise de son
– chercher les lois de variation du signal en fonction des
descripteurs non-linguistiques
Variabilité du signal de parole
• Le signal de parole varie considérablement selon le locuteur et
la situation, à contenu linguistique constant --> Rechercher des invariants ?
• La reconnaissance automatique : trop de variabilité ?
–
principes actuels : alignement temporel, modélisation probabiliste (acoustique et lexicale).
Puissance de calcul, grandes bases de données
–
limitations : variations du locuteur et de la prise de son; domaine sémantique restreint (cf
systèmes experts). Problème artificiellement contraint.
–
proposition : reconnaître à la fois ce qui est dit, qui le dit, où et comment
• La synthèse : pas assez de variabilité ?
–
voix synthétique ennuyeuse et inexpressive. Comment déduire du texte écrit les descripteurs
non-linguistiques qui n'y sont pas ?
Perception de la parole
branche verbale
branche prosodique
niveau 6 500ms
unités cognitives
niveau 5 200ms
unités lexicales
niveau 4 60ms
unités phonetiques
• les niveaux d'abstraction
sont déterminés par la
résolution temporelle
• à chaque niveau la
description du contenu
perceptif est complète
• descripteurs de plus en
niveau 3 30ms
traits phonétiques
plus indépendants
• traitement conjoint des
niveau 2 15ms
indices acoustiques
niveau 1 1ms
unités cochléaires
niveau 0 0.1ms
Signal
informations linguistiques
et non-linguistiques
• deux flux d'information:
ascendant et descendant