Transcript Perception de la parole - Bienvenue sur Aix Marseille
Perception de la parole
Jonathan Grainger
Bibliographie
• Segui, J. & Ferrand, L. (2000). Leçons de parole. Paris: Odile Jacob • Spinelli, E. & Ferrand, L. (2005). Psychologie du Langage, Paris: Armand Colin • Ferrand, L. (2001). Cognition et Lecture. Bruxelles: DeBoeck
Sujet humain Résultats des expériences Corpus linguistique Base de données linguistiques confrontation Modèle computationnel Résultats des simulations
ORAL ECRIT acquisition perception X production + taille des unités de traitement : lettres/phonèmes - mots - phrases - texte/discours
Perception des unités élémentaires du langage émetteur récepteur
émetteur récepteur = cerveau
Le Phonème - classification des sons du langage développée par les linguistes sur la base des informations articulatoires - la plus petite unité de son dont le changement modifie le sens
/bal/ = /b/ + /a/ + /l/ /bar/ = /b/ + /a/ + /r/
- la principale fonction des sons d’une langue est d’établir des distinctions entre les unités de signification (ou mots) de cette langue.
Distinction entre « phone » et « phonème » qui est spécifique à une langue donnée - et le concept d’allophone - un phonème peut avoir plusieurs réalisations acoustiques différentes sans que l’on perçoive un changement de sens (les allophones) - variations contextuelles (« cou » vs. « qui ») et non-contextuelles (accents régionaux) - variations inter-langues : exemple du /r/ et /l/ en langue japonaise
Les caractéristiques articulatoires qui déterminent la prononciation des consonnes en langue française - lieu d’articulation : endroit où la voie vocale est fermée (ex : bilabial = fermeture au niveau des lèvres) - le mode d’articulation : occlusif, nasal, fricatif, glissant, liquide - voisement : l’entrée en vibration des cordes vocales (ex : /b/voisé; /p/ non-voisé)
L’analyse acoustique des sons du langage
/p/ /b/
Le Spectrogramme Pour plus d’informations voir : http://cslu.cse.ogi.edu/tutordemos/SpectrogramReading/spectrogram_reading.html
Est-ce que le phonème est une unité perceptive de base dans la reconnaissance de mots parlés?
Données pour : La perception catégorielle
Perception Catégorielle
/ba/ 1. Création d’un continuum entre deux catégories /da/
Perception Catégorielle
1
/ba/ 1. Création d’un continuum entre deux catégories /da/ 1 ...
3 … 5 … 7
Perception Catégorielle
2
1. Expérience de classification 100 Frontière nette % /ba/ 1 ...
3 … 5 … 7
Les problèmes avec le phonème : Le phonème est défini en termes articulatoires, alors que les sons de parole arrivent sous forme acoustique comment établir une relation entre les deux?
Deux problèmes principaux: 1) L’invariance - ex : la coarticulation 2) La segmentation - les frontières entre les phonèmes ne sont pas toujours très évidentes dans le signal acoustique
Spectrogramme de l’énoncé « mille neuf cent quatre-vingt-sept »
Distribution des indices acoustiques correspondant aux différents segments d’une syllabe
Proposition de structure non-linéaire de la syllabe Attaque /b/ Syllabe /bal/ Noyau Rime /al/ Coda /b/ /a/ /l/
Une approche expérimentale en psycholinguistique : La tâche de détection de sons linguistiques Cible = /b/ maison, fleur, vélo, bateau, … Cible = /ba/ maison, fleur, vélo, bateau, … (Savin & Bever, 1970, JVLVB, « The non-perceptual reality of the phoneme)
Détection de syllabes et compatibilité syllabique (Mehler et al., 1981, JVLVB) Type de Mot : CV / CVC ( ex : BA.LANCE vs. BAL.CON) Type de Cible : CV / CVC (ex : BA vs. BAL) TR CV Type de mot CVC CV Type de cible CVC
(Cutler et al., 1986, JML)
Le rôle de la sonorité L’échelle de sonorité (Selkirk, 1984) obstruantes < nasales < liquides < semi-voyelles < voyelles
-
sonorité
+
Le rôle de la sonorité Syllabe optimale et frontière syllabique optimale p1 p2/p3 S1 p1 S2 p2/p3
La reconnaissance de mots parlés Lexique phonologique représentations phonologiques des mots (mise en correspondance : segmentation lexicale) représentations infralexicales (segmentation infralexicale) signal acoustique
Le problème de la segmentation lexicale Dans le flux continu de la parole, comment détecter les frontières entre les mots?
Les frontières syllabiques ne correspondent pas toujours à des frontières lexicales - problème de l’enchaînement (ex : sac anglais) et de la liaison enchaînée (ex : petit ami) en langue française. Erreurs de segmentation chez le jeune enfant : le « néléphant » - mais l’adulte corrige ces erreurs et l’enfant reçoit un signal qui accentue les frontières lexicales (« child directed speech ») => stratégie de segmentation basée sur l’identification lexicale chez l’adulte (mais comment fait l’enfant?).
Quelles sont les autres stratégies possibles?
Utilisation des indices dans le signal : 1) Indices phonétiques - variations allophoniques (ex : nitrate vs. night rate) 2) Indices prosodiques - ex : MSS, stratégie de segmentation métricale (en langue anglaise, la plupart des syllabes accentuées se trouvent au début d’un mot).
3) Régularités phonotactiques - certaines séquences de phonèmes ne peuvent pas apparaître à l’intérieur d’un mot (ex : /j/ /f/) mais peuvent apparaître entre deux mots (ex :sage femme). Certaines séquences ne peuvent apparaître qu’à la frontière entre deux syllabes (ex : /t/ /l/ dans « atlas »).
4) Probabilités transitionnelles - la probabilité que le phonème /y/ suive le phonème /x/ : p(intra) vs. p(inter) détermine la probabilité qu’il s’agit d’une frontière lexicale ou non
Stratégie de segmentation basée sur l’identification lexicale 1) Alignement par phonème (ex : TRACE, Shortlist) : chaque nouveau phonème constitue le début potentiel d’un mot 2) Alignement par syllabe - SOSH (Content et al., 2001, JML) : syllable onset segmentation heuristic : chaque nouvelle syllabe constitue le début potentiel d’un mot
L’approche scientifique en psychologie cognitive explication théorique modélisation observations prédictions expérimentales expérimentation
L’approche scientifique en psychologie cognitive modèle de la reconnaissance de mots parlés TR / erreurs dans une tâche expérimentale influence d’une variable donnée sur les temps d’identification des mots mesure des temps d’identification des mots
Comment mesurer le temps d’identification d’un mot parlé?
Les techniques comportementales en psychologie expérimentale : 1) Gating : /e/? - /ele/? - /elef/?
2) Décision lexicale : /bal/ est un mot? /nal/ est un mot?
3) Shadowing : répétition à voix haute du mot que l’on vient d’entendre
Les modèles de la reconnaissance de mots parlés 1) Le modèle de la cohorte (Marslen-Wilson & Welsh, 1978, Cognitive Psychology) … et le principe d’activation multiple
QuickTime™ et un décompresseur Photo - JP EG sont requis pour visualiser cette image.
Pour le modèle de la cohorte 1) Bon appariement entre le PU (théorique) et le PI (gating task) 2) Corrélation entre le PU (théorique) et la N400 (composante ERP)
0ms = début du mot
0ms = point d’unicité
Contre le modèle de la cohorte 1) l’effet de fréquence : les mots qui apparaissent fréquemment dans le langage (ex : TABLE) sont identifiés plus facilement que les mots qui apparaissent plus rarement (ex : CABLE) 2) l’effet de voisinage phonologique : les mots avec beaucoup de voisins phonologiques (ex : BALLE - salle, calle, dalle, bol, bar …) sont plus difficilement identifiés que les mots avec peu de voisins phonologiques (ex : BOMBE) 3) … et le problème de la segmentation lexicale
Les modèles qui appliquent la stratégie de segmentation par identification lexicale (avec alignement par phonème) TRACE (McClelland & Elman, Cognitive Psychology, 1986) Shortlist (Norris, Cognition, 1994) - Le principe de compétition (inhibition) lexicale : on ne reconnaît qu’un seul mot à la fois
Stratégie de segmentation par identification lexicale et principe de compétition lexicale - comment combiner les deux?
Le problème des mots « enchâssés » Ex : « chaud » dans « chômage » Par rapport à « chaud » dans «le temps chaud …»
« chaud » « chômage » /chômage/ « chaud » et « chômage » sont alignés - donc en compétition
« temps » « chaud » /temps chaud/ « temps » et «chaud » ne sont pas alignés donc ils ne sont pas en compétition
QuickTime™ et un décompresseur Photo - JP EG sont requis pour visualiser cette image.
Shortlist QuickTime™ et un décompresseur Photo - JPEG sont requis pour visualiser cette image.
QuickTime™ et un décompresseur Photo - JP EG sont requis pour visualiser cette image.
QuickTime™ et un décompresseur Photo - JP EG sont requis pour visualiser cette image.
QuickTime™ et un décompresseur Photo - JPEG sont requis pour visualiser cette image.
Résultats expérimentaux en faveur des modèles TRACE et Shortlist (favorables aux deux principes centraux de ces modèles :
l’activation multiple
et
la compétition lexicale
): 1) Effet de fréquence et effet de voisinage phonologique 2) Effet d’amorçage phonologique 3) Word spotting - tâche de détection de mot
L’amorçage phonologique (Slowiaczek et al., 2000, JML) 1) Initial overlap inhibition - ex : TRACE-TRAME ; l’effet inhibiteur est plus fort avec les amorces mots qu’avec les amorces nonmots (ex : TRALE-TRAME). Effet d’inhibition lexicale.
2) Final-overlap facilitation - ex : TRACE-GRACE l’effet facilitateur est identique pour les amorces mots et les amorces nonmots (ex : PRACE-GRACE). Effet de facilitation prélexicale.
Word spotting (McQueen et al., 1994, JEP:LMC) Détection d’un mot enchâssé dans un nonmot - ex : « mess » dans « demess » est plus lent que « mess » dans « nemess» (« demess » est le début d’un mot possible en anglais (domestic) Rôle des frontières syllabiques en langue française ( Dumay et al., 2002, Brain and Language ) « lac » dans « zun.lac » est plus rapide que « lac » dans « zu.glac » (SOSH)
The eye-tracking paradigm
•Les participants doivent cliquer avec la souris sur l’objet mentionné : “click on the net” distractor target competitor distractor
target frequency (Dahan et al., 2001, Cognitive Psychology)
competitor frequency
Différences entre TRACE et Shortlist : Interactivité vs. autonomie Shortlist modèle autonome (feedforward) TRACE modèle interactif (ff + feedback) mots mots phonèmes signal phonèmes signal
Différences entre TRACE et Shortlist : Interactivité vs. autonomie Pour l’interactivité : l’influence lexicale sur l’identification des phonèmes - la restauration phonémique : on présente PATTEUR, vous entendez BATTEUR (Samuel, 1984, JEP:GEN) - effet de lexicalité dans la détection de phonèmes : /t/ est plus rapide dans BATEAU que dans MATEAU
Point d’unicité et détection de phonèmes (Frauenfelder et al., 1990, JEP:HPP ) Pour l’interactivité : - la détection d’un phonème est plus rapide dans un mot que dans un nonmot lorsqu’il est présenté après le point d’unicité - ex : /l/ dans VOCA
B
ULAIRE vs. SOCABULAIRE Contre l’interactivité : - aucune influence négative des informations lexicales erronées - ex : /t/ dans VOCABUTAIRE vs. SOCABUTAIRE
semantics O-words P-words O-units printed word O-P-C P-units spoken word effets orthographiques sur la perception des mots parlés …
Abréviations JEP:GEN - Journal of Experimental Psychology: General JEP:HPP - Journal of Experimental Psychology: Human Perception and Performance JEP:LMC - Journal of Experimental Psychology: Learning, Memory and Cognition JML - Journal of Memory and Language JVLVB - Journal of Verbal Learning and Verbal Behavior