Phonétisation, alignement et association dans les grands corpus oraux en anglais Caroline Bouzon, Cyril Auran & Daniel Hirst Laboratoire Parole et Langage, UMR 6057
Download ReportTranscript Phonétisation, alignement et association dans les grands corpus oraux en anglais Caroline Bouzon, Cyril Auran & Daniel Hirst Laboratoire Parole et Langage, UMR 6057
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Caroline Bouzon, Cyril Auran & Daniel Hirst Laboratoire Parole et Langage, UMR 6057 CNRS Disponible sur le site: http://www.lpl.univ-aix.fr/~EPG/ INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Introduction
Recherches actuelles en linguistique et en phonétique souvent fondées sur l’analyse de corpus oraux Problématique Alignement / Association d’actualité dans les études sur l’intonation (Session Spéciale de SP2002) Segmentation au niveau phonétique Intérêt particulier pour les corpus oraux phonétisés et alignés au niveau des phonèmes
Méthodologie Aix-MARSEC
INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Plan
Aix-MARSEC : les origines La méthodologie Aix-MARSEC Phonétisation brute Optimisation de la phonétisation Alignement automatique Autres niveaux d’analyse Perspectives et Conclusion INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Aix-MARSEC Les origines
INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Aix-MARSEC : les origines
SEC
Spoken English Corpus
MARSEC
MAchine Readable SEC INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Aix-MARSEC : les origines
Spoken English Corpus
55 000 mots, 339 min. et 18 sec.
Archives de la BBC (années 1980) 11 styles de parole Parole naturelle 53 locuteurs (17 locutrices et 36 locuteurs) Transcription orthographique Annotation prosodique: 14 symboles de type tonetic stress marks INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Aix-MARSEC : les origines
MAchine Readable Spoken English Corpus
Alignement temporel au niveau du mot et de l’unité intonative (mineure & majeure) Annotation prosodique: les 14 symboles utilisés pour le SEC sont remplacés par 14 symboles ASCII (G. Knowles & B. Williams)
→
tonetic stress marks
INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais < > _ ~ /’ ‘/ \ /
Aix-MARSEC : les origines
14 symboles ASCII pour l’annotation prosodique : (Roach, 1994) low level high level step-down step-up (high) rise-fall high high fall fall-rise high rise , ‘ ,\ \, * | || low rise low fall (low rise-fall – not used) low fall-rise stressed but unaccented minor intonation unit boundary major intonation unit boundary INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Aix-MARSEC : les origines
Pré-traitements et homogénéisation du corpus Suppression des fichiers son défectueux ou étiquettes manquantes Conversion des fichiers étiquettes au format ‘textgrid’ (Praat) Vérification et correction des étiquettes de mot avec Praat (fenêtre minimale de correction: 50ms) Modification d’étiquettes dans 82 fichiers Marquage des fichiers modifiés par ajout de ‘mod’ dans le nom INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Aix-MARSEC : les origines
Pré-traitements: prédiction de la durée des phonèmes Campbell (1992) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Méthodologie Aix-MARSEC
INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Méthodologie Aix-MARSEC
1. Phonétisation brute 2. Optimisation de la phonétisation 3. Alignement automatique 4. Autres niveaux d’analyse INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Méthodologie Aix-MARSEC : Phonétisation brute
INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Phonétisation brute
Méthode par dictionnaires Fonctionnement général : Recherche automatique dans le dictionnaire de prononciation (‘Advanced Learners’ Dictionary’, Oxford University Press): 71 000 mots en entrée Conversion en SAMPA (exemples des voyelles simples) I e - e { Q V U A: O: 3: : : : @ i: - i: u: : INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Phonétisation brute
Fonctions PERL traitant : Chiffres et combinaisons de lettres + chiffres Suites de majuscules (abréviations) Génitifs et les formes contractées Pluriel/3ème pers. sing. & part. passé/prétérit réguliers INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Phonétisation brute
Utilisation de quatre dictionnaires différents Dictionnaire "général" Advanced Learners’ Dictionary (formes phonologiques sous-jacentes) Dictionnaire "mots inconnus" (700 mots transcrits manuellement) Dictionnaire "formes problématiques" (hésitations, coupures) Dictionnaire "formes réduites" INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Phonétisation brute
Traitement des formes réduites But: améliorer la phonétisation Création d’un dictionnaire des formes réduites en anglais à partir de O’Connor (1967) et Faure (1975) Condition de réduction: absence de marque prosodique (TSM) Exemple: précédé d’une TSM, ‘/and -> transcrit /{nd/ non précédé d’une TSM, and -> transcrit /@nd/ (dictionnaire de formes réduites) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Phonétisation brute
Problèmes non résolus 1. Doublons (mots avec deux entrées dans le dictionnaire) Exemples: object, wind Aucune solution automatique (pas d’accent lexical, 1 er cas)… … mais possibilité de différenciation avec un système de reconnaissance 2. Dates (chiffres entre 1000 et 1999 traités comme des dates) Système de reconnaissance INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Méthodologie Aix-MARSEC : Optimisation de la phonétisation
INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Optimisation de la phonétisation
1) Méthode "brute" fondée sur l’extraction de lexique Récupération de formes phonologiques (« citation forms ») 2) L’oral est caractérisé par certains phénomènes de production (élisions, réductions, assimilations, métathèses, …) Nécessité de modéliser ces phénomènes pour générer une phonétisation plus proche du signal : optimisation de la phonétisation « phonologique » INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Optimisation de la phonétisation
Utilisation de règles contraintes : Paramètres intonatifs Paramètres temporels Paramètres phonotactiques INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Optimisation de la phonétisation
1. Paramètres intonatifs: présence / absence de TSM 2. Paramètres temporels Seuil minimal: 5ms Seuils pour certains phonèmes (Klatt, 1979) /t – d/= 55ms; /@/= 55ms; /T/= 110ms Transformé z: z < 0 élision z ≥ 0 pas d’élision 3. Paramètres phonotactiques INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Optimisation de la phonétisation
Paramètres phonotactiques : règles d’élision de phonèmes Littérature : Jones (1990), Wells (1990) et Gimson (réédité par Cruttenden, 1997) Observation d’un échantillon des données du corpus
15 règles d’élision
INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Optimisation de la phonétisation
Règles d’élision de phonèmes (1) Si z < 0, alors: Règle n°1: élision du phonème /d/ dans and Règle n°2: élision de /h/ dans les formes he, he’d, he’ll, he’s, his, him (position non-initiale d’UI; TSM) Règle n°3: élision de /h/ dans la forme her (mêmes conditions) Règle n°4 : élision de /t/ dans le contexte /t/ # /t-d/ (seuil) Règle n°5 : élision de /d/ dans le contexte /d/ # /t-d/, hors terminaison -ed /Id/ INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Optimisation de la phonétisation
Règles d’élision de phonèmes (2) Règle n°6 : élision de /t/ et /d/ dans le contexte C 1 + /t-d/ # C 2 -/hj/ Règle n°7 : élision de /p/ dans le contexte /mp/ (#) + C -/r-l-j/ Règle n°8 : élision de /k/ dans le contexte /Nk/ (#) [ptksSTf] Règle n°9 : élision de /l/ dans le contexte /O:/ + /l/ (#) + C Règle n°10 : élision du phonème /T/ dans le contexte C + /T/ (#) + /s/ (seuil) Règle n°11 : élision dans le contexte /s/ + /p - t - k/ (#) + /s/ INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Optimisation de la phonétisation
Règles d’élision de phonèmes (3) Règle n°12 : élision du schwa dans le contexte /@/ + /l - r/ + voyelle réduite /I - @/ (seuil) mais évitement d’enchaînement /rl/ et simplification des séquences /rr/ et /ll/ Règle n°13 : élision du schwa dans /k@n/'Syll en position initiale (seuil) Règle n°14 : élision du schwa dans l’auxiliaire de modalité can (seuil) Règle n°15 : élision du schwa dans le contexte /k-p/ + /@/ + /n/ # (seuil) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Optimisation de la phonétisation
4083 phonèmes élidés sur les 199.770 du corpus (≈ 2 %) Évaluation des règles d’élision de phonèmes (comparaison avec fichiers observés)
MESURES
RAPPEL PRECISION SILENCE BRUIT F-MESURE 50,51 % 74,44 % 49,49 % 25,56 % 60,18 % INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Méthodologie Aix-MARSEC : Alignement automatique
INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Alignement automatique
On considère généralement (Di Cristo et Hirst, 1997) qu’il faut 16 h pour transcrire et aligner 1 minute de parole au niveau phonématique Soit 5280 heures pour les 5h30 du corpus (plus de 1 an et demi à raison de 10h par jour 7 jours par semaine) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Alignement automatique
Méthode Alignement réalisé par Christophe Lévy et Pascal Nocéra du Laboratoire d’Informatique d’Avignon (cf. Nocéra et al., 2000) Modèles de Markov Cachés (HMMs) entraînés sur le corpus TIMIT Alignement par application de l’algorithme Viterbi contraint par la phonétisation (« force Viterbi ») INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Alignement automatique
Évaluation (1) Absence de biais lié aux élisions lors de la phase d’alignement (Tests de Wilcoxon et de Kolmogorov-Smirnov sous R)
Graphique Quantile-Quantile Wilcoxon Kolmogorov-Smirnov P valeurs
0.7757
1 -300 -200 -100 0 100 200 Avec élisions INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Alignement automatique
Évaluation (2)
Seuil 64 ms 32 ms 20 ms 16 ms 15 ms 10 ms 5 ms % de décalages inférieurs au seuil
93.25 % 82.02 % 68.37 % 59.97 % 57.40 % 42.43 % 23.72 % INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Méthodologie Aix-MARSEC : Autres niveaux d’analyse
INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Autres niveaux d’analyse
Regroupements et alignements automatiques Syllabes (Principe d’Attaque Maximale; Pulgram, 1970) Constituants syllabiques (Attaque, Noyau et Coda) Pieds Accentuels (Abercrombie, 1967) Unités rythmiques (Jassem, 1952) Mots Unités intonatives (mineures & majeures) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Autres niveaux d’analyse
Autres traitements (cf. Présentation D. Hirst, 22 mai 2003) Application de l’algorithme MOMEL Codage des points cibles par l’algorithme INTSINT Éléments pour le traitement de la problématique alignement / association sur parole naturelle INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Perspectives & conclusion
INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Perspectives et Conclusion
Amélioration de la phonétisation : Nouvelles règles (exemple: the) Affinement des contraintes Suppression fondée sur l’alignement automatique INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Perspectives et Conclusion
Amélioration de l’alignement : Utilisation de modèles phonétiques plus adaptés Application itérative d’un algorithme de programmation dynamique (DTW) (cf. Di Cristo & Hirst, 1997) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Perspectives et Conclusion
Aix-MARSEC : une méthodologie … Un système de phonétisation fiable (94,79 % de phonèmes prédits correctement) Un système portable (scripts multi-plateformes en langage Perl, dictionnaires modulaires) Un ensemble d’outils de génération de granularités variables (regroupements automatiques à divers niveaux) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Perspectives et Conclusion
… et un corpus : 5h30 de parole continue - 52 locuteurs - 11 styles de parole - 195.687 phonèmes, 88.794 syllabes, 54.083 mots - alignement aux niveaux du phonème, constituant syllabique, syllabe, mot, pied, unité rythmique, cibles MOMEL/INTSINT, unité intonative (mineure / majeure) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Illustration
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Merci de votre attention
INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003