Phonétisation, alignement et association dans les grands corpus oraux en anglais Caroline Bouzon, Cyril Auran & Daniel Hirst Laboratoire Parole et Langage, UMR 6057

Download Report

Transcript Phonétisation, alignement et association dans les grands corpus oraux en anglais Caroline Bouzon, Cyril Auran & Daniel Hirst Laboratoire Parole et Langage, UMR 6057

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Caroline Bouzon, Cyril Auran & Daniel Hirst Laboratoire Parole et Langage, UMR 6057 CNRS Disponible sur le site: http://www.lpl.univ-aix.fr/~EPG/ INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Introduction

Recherches actuelles en linguistique et en phonétique souvent fondées sur l’analyse de corpus oraux Problématique Alignement / Association d’actualité dans les études sur l’intonation (Session Spéciale de SP2002) Segmentation au niveau phonétique Intérêt particulier pour les corpus oraux phonétisés et alignés au niveau des phonèmes

Méthodologie Aix-MARSEC

INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Plan

Aix-MARSEC : les origines La méthodologie Aix-MARSEC Phonétisation brute Optimisation de la phonétisation Alignement automatique Autres niveaux d’analyse Perspectives et Conclusion INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Aix-MARSEC Les origines

INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Aix-MARSEC : les origines

SEC

Spoken English Corpus

MARSEC

MAchine Readable SEC INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Aix-MARSEC : les origines

Spoken English Corpus

55 000 mots, 339 min. et 18 sec.

Archives de la BBC (années 1980) 11 styles de parole Parole naturelle 53 locuteurs (17 locutrices et 36 locuteurs) Transcription orthographique Annotation prosodique: 14 symboles de type tonetic stress marks INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Aix-MARSEC : les origines

MAchine Readable Spoken English Corpus

Alignement temporel au niveau du mot et de l’unité intonative (mineure & majeure) Annotation prosodique: les 14 symboles utilisés pour le SEC sont remplacés par 14 symboles ASCII (G. Knowles & B. Williams)

tonetic stress marks

INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais < > _ ~ /’ ‘/ \ /

Aix-MARSEC : les origines

14 symboles ASCII pour l’annotation prosodique : (Roach, 1994) low level high level step-down step-up (high) rise-fall high high fall fall-rise high rise , ‘ ,\ \, * | || low rise low fall (low rise-fall – not used) low fall-rise stressed but unaccented minor intonation unit boundary major intonation unit boundary INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Aix-MARSEC : les origines

Pré-traitements et homogénéisation du corpus Suppression des fichiers son défectueux ou étiquettes manquantes Conversion des fichiers étiquettes au format ‘textgrid’ (Praat) Vérification et correction des étiquettes de mot avec Praat (fenêtre minimale de correction: 50ms) Modification d’étiquettes dans 82 fichiers Marquage des fichiers modifiés par ajout de ‘mod’ dans le nom INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Aix-MARSEC : les origines

Pré-traitements: prédiction de la durée des phonèmes Campbell (1992) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Méthodologie Aix-MARSEC

INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Méthodologie Aix-MARSEC

1. Phonétisation brute 2. Optimisation de la phonétisation 3. Alignement automatique 4. Autres niveaux d’analyse INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Méthodologie Aix-MARSEC : Phonétisation brute

INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Phonétisation brute

Méthode par dictionnaires Fonctionnement général : Recherche automatique dans le dictionnaire de prononciation (‘Advanced Learners’ Dictionary’, Oxford University Press): 71 000 mots en entrée Conversion en SAMPA (exemples des voyelles simples) I  e - e {  Q  V U   A: O: 3:  :  :  : @  i: - i: u:  : INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Phonétisation brute

Fonctions PERL traitant : Chiffres et combinaisons de lettres + chiffres Suites de majuscules (abréviations) Génitifs et les formes contractées Pluriel/3ème pers. sing. & part. passé/prétérit réguliers INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Phonétisation brute

Utilisation de quatre dictionnaires différents Dictionnaire "général" Advanced Learners’ Dictionary (formes phonologiques sous-jacentes) Dictionnaire "mots inconnus" (700 mots transcrits manuellement) Dictionnaire "formes problématiques" (hésitations, coupures) Dictionnaire "formes réduites" INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Phonétisation brute

Traitement des formes réduites But: améliorer la phonétisation Création d’un dictionnaire des formes réduites en anglais à partir de O’Connor (1967) et Faure (1975) Condition de réduction: absence de marque prosodique (TSM) Exemple: précédé d’une TSM, ‘/and -> transcrit /{nd/ non précédé d’une TSM, and -> transcrit /@nd/ (dictionnaire de formes réduites) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Phonétisation brute

Problèmes non résolus 1. Doublons (mots avec deux entrées dans le dictionnaire) Exemples: object, wind Aucune solution automatique (pas d’accent lexical, 1 er cas)… … mais possibilité de différenciation avec un système de reconnaissance 2. Dates (chiffres entre 1000 et 1999 traités comme des dates) Système de reconnaissance INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Méthodologie Aix-MARSEC : Optimisation de la phonétisation

INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Optimisation de la phonétisation

1) Méthode "brute" fondée sur l’extraction de lexique Récupération de formes phonologiques (« citation forms ») 2) L’oral est caractérisé par certains phénomènes de production (élisions, réductions, assimilations, métathèses, …) Nécessité de modéliser ces phénomènes pour générer une phonétisation plus proche du signal : optimisation de la phonétisation « phonologique » INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Optimisation de la phonétisation

Utilisation de règles contraintes : Paramètres intonatifs Paramètres temporels Paramètres phonotactiques INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Optimisation de la phonétisation

1. Paramètres intonatifs: présence / absence de TSM 2. Paramètres temporels Seuil minimal: 5ms Seuils pour certains phonèmes (Klatt, 1979) /t – d/= 55ms; /@/= 55ms; /T/= 110ms Transformé z: z < 0  élision z ≥ 0  pas d’élision 3. Paramètres phonotactiques INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Optimisation de la phonétisation

Paramètres phonotactiques : règles d’élision de phonèmes Littérature : Jones (1990), Wells (1990) et Gimson (réédité par Cruttenden, 1997) Observation d’un échantillon des données du corpus

15 règles d’élision

INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Optimisation de la phonétisation

Règles d’élision de phonèmes (1) Si z < 0, alors: Règle n°1: élision du phonème /d/ dans and Règle n°2: élision de /h/ dans les formes he, he’d, he’ll, he’s, his, him (position non-initiale d’UI; TSM) Règle n°3: élision de /h/ dans la forme her (mêmes conditions) Règle n°4 : élision de /t/ dans le contexte /t/ # /t-d/ (seuil) Règle n°5 : élision de /d/ dans le contexte /d/ # /t-d/, hors terminaison -ed /Id/ INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Optimisation de la phonétisation

Règles d’élision de phonèmes (2) Règle n°6 : élision de /t/ et /d/ dans le contexte C 1 + /t-d/ # C 2 -/hj/ Règle n°7 : élision de /p/ dans le contexte /mp/ (#) + C -/r-l-j/ Règle n°8 : élision de /k/ dans le contexte /Nk/ (#) [ptksSTf] Règle n°9 : élision de /l/ dans le contexte /O:/ + /l/ (#) + C Règle n°10 : élision du phonème /T/ dans le contexte C + /T/ (#) + /s/ (seuil) Règle n°11 : élision dans le contexte /s/ + /p - t - k/ (#) + /s/ INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Optimisation de la phonétisation

Règles d’élision de phonèmes (3) Règle n°12 : élision du schwa dans le contexte /@/ + /l - r/ + voyelle réduite /I - @/ (seuil) mais évitement d’enchaînement /rl/ et simplification des séquences /rr/ et /ll/ Règle n°13 : élision du schwa dans /k@n/'Syll en position initiale (seuil) Règle n°14 : élision du schwa dans l’auxiliaire de modalité can (seuil) Règle n°15 : élision du schwa dans le contexte /k-p/ + /@/ + /n/ # (seuil) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Optimisation de la phonétisation

4083 phonèmes élidés sur les 199.770 du corpus (≈ 2 %) Évaluation des règles d’élision de phonèmes (comparaison avec fichiers observés)

MESURES

RAPPEL PRECISION SILENCE BRUIT F-MESURE 50,51 % 74,44 % 49,49 % 25,56 % 60,18 % INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Méthodologie Aix-MARSEC : Alignement automatique

INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Alignement automatique

On considère généralement (Di Cristo et Hirst, 1997) qu’il faut 16 h pour transcrire et aligner 1 minute de parole au niveau phonématique Soit 5280 heures pour les 5h30 du corpus (plus de 1 an et demi à raison de 10h par jour 7 jours par semaine) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Alignement automatique

Méthode Alignement réalisé par Christophe Lévy et Pascal Nocéra du Laboratoire d’Informatique d’Avignon (cf. Nocéra et al., 2000) Modèles de Markov Cachés (HMMs) entraînés sur le corpus TIMIT Alignement par application de l’algorithme Viterbi contraint par la phonétisation (« force Viterbi ») INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Alignement automatique

Évaluation (1) Absence de biais lié aux élisions lors de la phase d’alignement (Tests de Wilcoxon et de Kolmogorov-Smirnov sous R)

Graphique Quantile-Quantile Wilcoxon Kolmogorov-Smirnov P valeurs

0.7757

1 -300 -200 -100 0 100 200 Avec élisions INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Alignement automatique

Évaluation (2)

Seuil 64 ms 32 ms 20 ms 16 ms 15 ms 10 ms 5 ms % de décalages inférieurs au seuil

93.25 % 82.02 % 68.37 % 59.97 % 57.40 % 42.43 % 23.72 % INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Méthodologie Aix-MARSEC : Autres niveaux d’analyse

INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Autres niveaux d’analyse

Regroupements et alignements automatiques Syllabes (Principe d’Attaque Maximale; Pulgram, 1970) Constituants syllabiques (Attaque, Noyau et Coda) Pieds Accentuels (Abercrombie, 1967) Unités rythmiques (Jassem, 1952) Mots Unités intonatives (mineures & majeures) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Autres niveaux d’analyse

Autres traitements (cf. Présentation D. Hirst, 22 mai 2003) Application de l’algorithme MOMEL Codage des points cibles par l’algorithme INTSINT Éléments pour le traitement de la problématique alignement / association sur parole naturelle INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Perspectives & conclusion

INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Perspectives et Conclusion

Amélioration de la phonétisation : Nouvelles règles (exemple: the) Affinement des contraintes Suppression fondée sur l’alignement automatique INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Perspectives et Conclusion

Amélioration de l’alignement : Utilisation de modèles phonétiques plus adaptés Application itérative d’un algorithme de programmation dynamique (DTW) (cf. Di Cristo & Hirst, 1997) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Perspectives et Conclusion

Aix-MARSEC : une méthodologie … Un système de phonétisation fiable (94,79 % de phonèmes prédits correctement) Un système portable (scripts multi-plateformes en langage Perl, dictionnaires modulaires) Un ensemble d’outils de génération de granularités variables (regroupements automatiques à divers niveaux) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Perspectives et Conclusion

… et un corpus : 5h30 de parole continue - 52 locuteurs - 11 styles de parole - 195.687 phonèmes, 88.794 syllabes, 54.083 mots - alignement aux niveaux du phonème, constituant syllabique, syllabe, mot, pied, unité rythmique, cibles MOMEL/INTSINT, unité intonative (mineure / majeure) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Illustration

Phonétisation, alignement et association dans les grands corpus oraux en anglais

Merci de votre attention

 INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003