la présentation

Download Report

Transcript la présentation

Une approche multi-disciplinaire
pour le traitement automatique
des langues peu dotées
Laurent Besacier
Université Joseph Fourier (Grenoble 1)
Laboratoire d’Informatique de Grenoble
Equipe GETALP
Plan

Contexte & Enjeux
– La diversité linguistique

Objet
– Une étude des langues abordée selon l’angle du traitement
automatique

Multidisciplinarité
– Informatique, Signal, Phonétique, Linguistique de terrain, etc.

Exemples
– Sur des langues issues de quatre continents
– Revitalisation d’un langue peu dotée du sud-ouest colombien
Plan

Contexte & Enjeux
– La diversité linguistique
« We should treat language diversity as we treat bio-diversity »
David Crystal, Language Death - Cambridge: CUP, 2000
Diversité des langues sur Internet
-Top-10: +200%
-Chinois: +414%
-Arabe: +940%
-Autres : +440%
(sauf top-10)
[ITU] 30/6/07
Diversité des systèmes d’écriture
Diversité des langues parlées
Langues les plus parlées dans le monde
(source : www.ethnologue.com ; pris en 2007)
Diversité mais…
-Quelques dizaines de langues
n’ont plus qu’un locuteur
-500 langues avec <500
locuteurs
-1500 langues avec < 1000
locuteurs
-3000 langues avec < 10.000
-5000 langues avec < 100.000
-96% des langues parlées par
seulement 4% de la population
mondiale
Diversité mais…
-Quelques dizaines de langues
n’ont plus qu’un locuteur
-500 langues avec <500
locuteurs
-1500 langues avec < 1000
locuteurs
-3000 langues avec < 10.000
-5000 langues avec < 100.000
-96% des langues parlées par
seulement 4% de la population
mondiale
Enjeux patrimoniaux (documentation /
revitalisation des langues en danger)
Diversité mais…
Source : « Human Language Technologies for Europe », E.U., April 2006


Langues véhiculaires (lingua-franca) qui prédominent
Nombreux contenus (texte, audio) produits par des « non natifs»
Quelques technologies centrales pour
aborder cette diversité…

Traduction automatique
– Traduction, par une machine, d’un texte en langue source vers un
texte en langue cible

Reconnaissance automatique de la parole multilingue
– Transcription, par une machine, d’un enregistrement (ou d’un flux)
contenant de la parole
• Speech-to-text
• Doit être disponible pour un grand nombre de langues
• Doit prendre en compte les variétés dialectales, les locuteurs non natifs,
etc

Enjeux
– Systèmes interactifs multilingues
– Accès multilingue à l’information (et publication multilingue
d’informations)
Plan

Contexte & Enjeux
– La diversité linguistique

Objet
– Une étude des langues abordée selon l’angle
du traitement automatique
Langues peu dotées : définition

Langues présentant certaines, sinon toutes
les caractéristiques suivantes :
– manque d’un système d’écriture unique ou d’une
orthographe stable
• www.omniglot.com seules 800 langues environ sur 6000
possèdent un système d’écriture
– présence limitée sur le Web,
– manque d’expertises linguistiques, phonétiques
– manque de ressources pour le TALN
• données linguistiques, corpus monolingues et bilingues,
dictionnaires
électroniques,
thésaurus,
analyseurs
morphologiques/syntaxiques, étiqueteurs, etc.
! Différent d’une langue en danger
mais caractéristiques communes !
Langues peu dotées : défis

Pour le traitement automatique
– Proposer des techniques qui vont bien au-delà du
simple re-apprentissage des modèles
– Systèmes phonologiques particuliers
– Langue non écrite
– Problèmes de segmentation en mots
– Remise en cause des unités de modélisation standard
(mots/phonèmes)
– Variantes dialectales
– Présence massive de locuteurs non natifs
– Alternance codique
Langues peu dotées : défis

Pour les langues elle-mêmes
–
–
–
–
Outiller les langues
Aider les linguistes de terrain, les phonéticiens
Participer à la revitalisation de certaines langues …
… ou à leur sauvegarde
Plan

Contexte & Enjeux
– La diversité linguistique

Objet
– Une étude des langues abordée selon l’angle
du traitement automatique

Multidisciplinarité
– Informatique, Signal, Phonétique, Linguistique
de terrain, etc.
Multidisciplinarité


Fossé entre experts de la langue (les locuteurs euxmêmes) et experts en technologies (les développeurs
de systèmes)
Nécessité d’emprunter des ressources et des
connaissances issues de langues proches
– Appel aux dialectologues, aux phonéticiens

Accéder aux locuteurs / collecter des données selon
les règles élémentaires éthiques et techniques
– Linguistes de terrain, ethnologues, traducteurs

Revitalisation via l’utilisation d’outils d’aide à
l’apprentissage
– Enseignants des langues, didacticiens
Pour arriver où ?

Outiller les langues
– Correcteurs orthographiques, transcription, dictionnaires, etc.

Participer à leur revitalisation…
– Apprentissage des langues

… ou à leur sauvegarde
– Numérisation, accès, recherche d’information
• Humanités numériques…

Proposer / aborder de nouveaux paradigmes /
questionnements
– Modélisation multilingue pour la reconnaissance automatique de
la parole
– Traduction de parole à partir d’une langue non écrite
– Rôle de la technologie dans l’évolution des langues
Rôle de la technologie dans l’évolution
des langues

Nicholas Ostler : président de la fondation pour les
langues en danger (Foundation for Endangered
Languages)
– The Last Lingua Franca: English Until the Return of Babel, by
Nicholas Ostler Walker & Co

A propos des technologies actuelles de traduction
automatique, l’auteur indique
– « A technological revolution could save declining tongues from
extinction. Those who now neglect their traditional regional
language in favor of English would no longer need a lingua franca
to access the same commercial and cultural opportunities »

Concept de « langue virtuelle »
Plan

Contexte & Enjeux
– La diversité linguistique

Objet
– Une étude des langues abordée selon l’angle du traitement
automatique

Multidisciplinarité
– Informatique, Signal, Phonétique, Linguistique de terrain, etc.

Exemples
– Langues issues de quatre continents
– Revitalisation d’un langue peu dotée du sud-ouest colombien
Ressources nécessaires pour la RAP
Dictionnaire de
prononciation
signal
Signal
Modélisation
acoustique
Modèles acoustiques
Signaux annotés
Système de RAP
Phrase
Modélisation du
langage
Corpus textuels
Vocabulaire




Corpus textuels et de parole
Dictionnaire de prononciation
Modèles acoustiques
Modèles de langage
Modèles de
langage
Phrase
reconnue
Modélisation acoustique translingue
Phonème FR
Phonème VN
•FR/VN ~63% couverture
•Si plusieurs langues source
(ex: modèle multilingue de 7
langues)
=> 87% couverture
Bénéfice d’une
couverture
multilingue
Modélisation acoustique multilingue

Représentation des unités acoustiques (pour la
reconnaissance de parole) dans un espace multilingue
–
–
–

Collection de HMMs
Appris sur des bases de parole multilingues
Modèles « à large couverture » représentant les unités
phonétiques des langues du monde
Mesures de similarité entre phonèmes (ou unités plus
complexes)
–
Amorçage (bootstrap) des modèles acoustiques pour les
langues peu dotées
»
–
Adaptation de modèles à la parole non native
»
–
Thèse Viet-Bac Le (juin 2006)
Thèse Tien-Ping Tan (juillet 2008)
Identification de l’accent
Amorçage de modèles pour la
reconnaissance automatique du vietnamien
PI
VN
FR
CH
EN
« Automatic Speech Recognition for Under-Resourced Languages:
Application to Vietnamese Language » IEEE Transactions on ASL, 2009
(with Viet-Bac LE)
Exemple de résultats (2006)

Portabilité rapide d’un système de reconnaissance de parole vers
le vietnamien et le khmer
Performance de RAP pour le vietnamien (% syllabes correctes)
Corpus de dialogue
Système source
Français
Multilingue
(CMU, 7 langues)
Adapt 1h
Adapt 2h
WA
WA
Connaissance
60.4
63.6
Données
61.6
63.8
Connaissance
64.6
66.3
Données
63.8
65.3
Distance
chi,cro,fr,ge,
jap,esp,turc
Même méthodologie appliquée au khmer : système de RAP développé en
quelques semaines : WA=73.6% sur des phrases lues
Exemple de résultats (2008)
Adaptation de modèles à la parole non native
vietnamien (L1) parlant français (L2)
88
Vietnamien
83
WER (%)
78
Anglais non natif (Vietnamiens)
Mandarin
73
68
63
58
53
48
1,0/ 0,0 0,9/ 0,1 0,8/ 0,2 0,7/ 0,3 0,6/ 0,4 0,5/ 0,5 0,4/ 0,6 0,3/ 0,7 0,2/ 0,8 0,1/ 0,9 0,0/ 1,0
Poids (Français/ langue source)
MA FR
(L2)
MA VN
(L1)
Exemple de résultats (2009)


RI multilingue
http://www.thestarchallenge.sg/
– Lancé par une compagnie singapourienne
– ~50 participants dont le LIG (collaboration avec MRIM)
• LIG finaliste (top 5)


Contenus multilingues, fortement accentués (singlish)
Recherche par API (requêtes constituées de
phonèmes de l’Alphabet Phonétique International)
– Utilisation d’un modèle multilingue à large couverture qui transcrit
les documents selon l’alphabet phonétique international
“Content-based search in multilingual audiovisual documents using the
International Phonetic Alphabet.”, Multimedia Tools and Applications
Journal, 48(1)
Exemple de résultats (2010)

Aide à l’analyse d’une langue en danger (Punu)
Résultat de l’alignement forcé du mot [dile:m͡bi] confronté
à l’alignement de référence (ligne du haut).
Using automatic speech recognition for phonological purposes: Study of Vowel
Lenght in Punu (Bantu B40). Laphon 12 (with Hadrien GELAS & al)

Travail similaire en cours sur le Mo-Piu (Vietnam)
Exemple de résultats (2012)


Structure syllabique de la
langue amharique et de son
système d’écriture
Unités CV pour la modélisation
acoustique
Modèle
Phonèmes
Syllabes
Hybride
WER
17,8%
14,8%
13,7%
Syllable-Based and Hybrid Acoustic Models for
Amharic Speech Recognition. SLTU 2012 (avec
M. Y. Tachbelie, S. T. Abate & S. Rossato)
Collecter des données langagières sur le Web

Collecte de données textuelles monolingues
–
parfois unique moyen de collecter des données pour certaines
langues
utile pour collecter des données sur un domaine particulier
problèmes de remise en forme des données : ex. restauration des
diacritiques pour le roumain
–
–
Enhancing Automatic Speech Recognition for Romanian by Using
Machine Translated and Web-based Text Corpora SPECOM'2011
(avec H. Cocu & C. Burileanu)

Collecte de données textuelles bilingues
–
Thèse de Thi-Ngoc-Diep Do
•
•
A partir de corpus comparables ou de corpus partiellement parallèles
Itération de la boucle collecte-apprentissage (non supervisé ou peu
supervisé)
“Mining a comparable text corpus for a Vietnamese – French
statistical machine translation system”, EACL/WMT 2009
Revitalisation d’une langue en danger
du sud-ouest colombien



Projet Ecos-Nord avec DDL et Université du
Cauca
Langues du sud-ouest colombien : Nasa Yuwe
(Paes) et Nam Trik
Développement de technologies
informatiques pour compléter les outils
informatiques didactiques
– apprentissage autonome des langues (outils d’aide à la
prononciation).
Pronunciation Learning System for the 32 vowel system
of Nasa Yuwe Language. SLTU 2012 (avec R. Naranjo,
E. Marsico, F. Pellegrino & T. Rojas)
Colombie & Cauca
Contexte




Nasa : deuxième plus grand groupe ethnique en
Colombie
Maintien de la tradition orale au fil du temps
La communauté Nasa est maintenant en train de
perdre l'usage de la langue
Efforts visant à revitaliser la langue
– Unification de l'alphabet Nasa
– Enseignement de la langue!


4 voyelles (A, E, I, U) – chaque groupe subdivisé
en oral et nasal
4 modes d’articulation des voyelles : normal
(basic), coup de glotte (glottal stop), aspirée
(aspirated) et allongée (elongated), soit au total
32 voyelles !
Description des voyelles
(Rojas, 2011) – publication en espagnol
Premiers objectifs

Construire et optimiser un système de
classification de voyelles

Construire un prototype de CAPT (Système
d’Apprentissage de la Prononciation
Assisté par Ordinateur)

Mettre en place et appliquer des tests réels
avec des locuteurs natifs et des
(Rapide) Revue de l’Apprentissage de
la Prononciation Assisté par Ordinateur
– Modèles fondés sur le calcul d’un rapport de
vraisemblance (likelihood ratio test - LRT) (Fraco
et al 99).
– Modèles fondés sur le calcul d’une probabilité
a posteriori (Fraco et al 99).
– Modèles de qualité de la prononciation
(goodness of pronunciation – GOP) (Witt & Young
00).
– Modèles
acoustico-phonetiques
classifieurs binaires (Troun et al. 09).
avec
Corpus
Mots isolés contenant les voyelles cibles
 Les apprenant participent à des exercices de
prononciation avec ces mots
 Vocabulaire limité (250 mots)
 Structure phonétique : CV, VC, CVC, CCVCV
 4224 enregistrements de locuteurs natifs
– 132 répetitions pour chacune des 32 voyelles
 1088 enregistrements d’apprenants (non
natifs)
 Les voyelles sont segmentées en utilisant la
technique DTW

Paramètres et Modèles Utilisés
 Vecteurs
de paramètres
– 30 coefficients LPC et énergie residuelle
– Sous-échantillonage à 16 kHz (44kHz au départ)
 K-plus
proches
neighbor – KNN)
voisins
(K-nearest
– 3-NN + distance euclidienne
 Perceptron
multi-couches
perceptron – MLP)
(Multilayer
– 16-25-25-8 or 16-25-25-2
– Algo. de Levenberg-Marquardt
 Modèles
de Markov Cachés (HMM)
Expériences

Validation croisée (20-replis)
– 80% apprentissage / 20% test

Première expérience
– Un classifieur pour chacun des 4 groupes de
voyelles (A, E, I, U)
– Performances décevantes

Seconde expérience
– Un classifieur (binaire) appris pour chaque voyelle
– 106 occurences “positives”, 106 occurences
“negatives” pour chaque voyelle (%Correct=~75%)
Expériences
Troisième expérience
 Utilisation du “bagging”
– Connu pour être utile sur de petits corpus
– Sélectionne aléatoirement n sous-ensembles
de données, et entraine 1 classifieur avec
chaque sous ensemble (n au total). Les n
classifieurs sont combinés par vote majoritaire
(Kuncheva, 2004)
 Accroissement
du nombre d’occurences
“negatives” de 106 à 742 par voyelle

Performance pour les groupes de
voyelles A et E (3è expérience)
Performance pour les groupes de
voyelles I et U (3è expérience)
Performance > 80% avec “bagging” et ajout d’exemples négatifs
Prototype & première évaluation
Distribution des scores non natifs vs
natifs
5 locuteurs natifs ; 845 signaux
3 locuteurs non natifs ; 1088 signaux
scores normalisés entre 0 et 1
Analyse des confusions des apprenants
nonA natifs
E
a a’ aʰ
a 14 1
a’ 2 10 1
aʰ
12
a: 8
1
ã 1 1 2
ã' 1 1 2
ãʰ
2
ãː 7 2 1
a:
1
2
4
4
2
4
ã
1
2
1
7
1
4
ã'
1
1
ãʰ
ãː
2
1
11
8
2
e
e'
eʰ
e:
ẽ
ẽ’
ẽʰ
ẽ:
I
I
i'
iʰ
i:
ĩ
ĩ'
ĩʰ
ĩ:
i
10
1
2
3
3
3
e'
4
9
1
2
1
6
eʰ
1
e:
1
ẽ
3
2
ẽ’
ẽʰ
ẽ:
2
15
2
1
4
3
3
u'
uʰ
5
1
6
10
1
2
3
2
11
5
U
i'
10
3
1
2
1
1
e
7
3
iʰ
6
1
i:
2
ĩ
ĩ'
5
3 2
2 4
7 4
12 1
2 13
6
7 2
ĩʰ
1
ĩ:
1
1
1
8
1
2
5
u
u'
uʰ
u:
ũ
ũ'
ũʰ
ũ:
u
14
1
4
2
7
2
3
8
u:
2
ũ
14
8
1
2
4
2
8
1
3
5
1
2
ũ'
ũʰ
1
2
1
ũ:
2
1
10
1
4
1
8
1
2
Analysis des confusions du système


Pour les locuteurs non natifs, est-ce que les
confusions sont dues aux erreurs du système ou aux
erreurs de prononciation des apprenants ?
Pas encore analysé mais, si on insiste sur la voyelle a’
(glottale)
– 38 signaux contenant un a’
•
•
•
•
•
•
9 classés comme a’
9 classés comme a (7 detections correctes d’erreur d’apprenant)
9 classés comme ã (2 detections correctes d’erreur d’apprenant)
6 classés comme ã' (non analysé)
3 classés comme a: (non analysé)
2 classés comme ã: (non analysé)
Discussion
Modèles pour les 32 voyelles du Nasa yuwe
 Les taux de précision sont en moyenne
supérieurs à 80% pour les locuteurs natifs
 MLP + bagging sont les meilleurs classifieurs
binaires
 Certaines confusions des apprenants ont pu
être mises en évidence grâce au processus
automatique
– Voyelles allongées vs normales

References













CASACUBERTA, F., VIDAL, E., AIBAR, P. (1991). Decodificación Acústico Fonética mediante
plantillas subléxicas. Procesamiento del lenguaje natural, Nº. 11. 265-274.
CRIC. (2000). Acerca de la unificación del alfabeto Nasa yuwe. Revista C'ayu'ce número 4.
52-53.
CRIC. (2001). Cartilla Nasa yuwe Cartilla. Consejo Regional Indígena del Cauca.
DUDA, O. HARD, R. STORK, P. (2000). Patter Clasification. 2 Ed. Jhon Wiley & Son.
MARSICO, E., ROJAS, T. (1998). Etude acoustique préliminarire des 16 voyelles orales du
Paez de Talaga, langue amérindienne. XXII journees d’etude sur la parole.
KUNCHEVA, L. (2004). Combining pattern classifiers: models and algorithms. Ed. Jhon
Wiley.
FRANCO, H., NEUMEYER, L., KIM, Y., RONEN, O., BRATT, H. (1999). Automatic detection of
phone-level mispronunciation for language learning. In: Proc. European Conference on
Speech Communication and Technology. 851–854.
FREUND, Y. SCHAPIRE, R. (1997). A decision theoretic generalization of On line learning and
an application to Boosting. Journal of computer and system sciences 55, pp. 119-139.
HAYKIN, S. (1998). Neural Networks: A Comprehensive Foundation (2nd Edition), Prentice
Hall.
HUANG, X., ACERO, A., HON, H. (2001). Spoken Language Processing. Prentice Hall. 290-303.
RABINER, L. JUANG, B.H. (1993). Fundamental Speech Recognition, Prentice - Hall
International Inc.
SAKOE, H., CHIBA, S. (1978). Dynamic programming optimization for spoken word
recognition, IEEE Trans. Acoust. Speech Signal Process. Vol. ASSP-26, No. 1. 43-49.
TROUN, K., NERI, A., CUCCHIARINI, C., STRIK, H. (2009). Automatic pronunciation error
detection:
an
acoustic-phonetic
approach.
University
of
Nijmegen.
http://citeseerx.ist.psu.edu/.

Merci de votre attention…

Pour en savoir plus…
http://pi.imag.fr