Information Rate: Work in progress - DDL

Download Report

Transcript Information Rate: Work in progress - DDL

Typologies linguistiques
et
identification automatique des langues :
vers des typologies automatiques ?
François Pellegrino
[email protected]
Laboratoire Dynamique Du Langage
UMR 5596 CNRS –Université Lumière Lyon 2
Ecole thématique VPL - Cargèse juin 2006
Typologies automatiques ??

‘Typology(ies)’ = 8 millions de “hits” sous Google

‘Automatic’ = 470 M.

‘Automatic typology(ies)’… 21 “hits”


Moitié télédétection spatiale
Moitié DDL ou assimilés
Merci de votre attention...
=> une utopie !
2
Plan

Introduction:


Partie I : l’état des lieux



Des données typologiques à la reconnaissance des langues
Des modèles automatiques à leur interprétation linguistique
Partie II : la prosodie, terrain d’investigation




la rencontre espérée entre la typologie et la modélisation
automatique
Introduction
La dimension rythmique

Typologie & modélisation automatique

Typologie et modélisation automatique
La dimension tonale lexicale
Conclusions
3
Indice 1
Analyse
linguistique
Données audio
Données textuelles
A
Descriptions
linguistiques
Indice 2
a
b
Typologies linguistiques
Analyse
automatique
Audio
B
Perspective historique
Textes
Alignement
Données lexicales ou codage en cognats
Corpus textuels
Analyse statistique
Interface :
Typologie
automatique
Identification
automatique
des langues
Modèles
phonétiques, phonotactiques, prosodiques
4
Plan

Introduction:


Partie I : l’état des lieux



Des données typologiques à la reconnaissance des langues
Des modèles automatiques à leur interprétation linguistique
Partie II : la prosodie, terrain d’investigation




la rencontre espérée entre la typologie et la modélisation
automatique
Introduction
La dimension rythmique

Typologie & modélisation automatique

Typologie et modélisation automatique
La dimension tonale lexicale
Conclusions
5
Les bases de donnees typologiques

Caveat





Représentativité des langues
Qualité des données primaires
Consistance/cohérence inter-langues des données
Biais d’analyse lié au cadre théorique choisi
De formidables outils…





Plusieurs centaines de langues
UPSID (UCLA Phonological Segment Inventory Database)
ULSID (UCLA Lexical and Syllabic Inventory Database)
WALS (World Atlas of Language Structures)
AUTOTYP
… à exploiter automatiquement
6
Bases de donnees typologiques
UPSID/CaSSoPI
UCLA Phonological Segment Inventory Database
Maddieson, (1984) ; Maddieson and Precoda (1990)
~
V
V
Both
102/451 - 23%
51/451 - 11%
11/451 - 2.4%
 Identification des langues
 Corrélations phonologiques
7
Bases de donnees typologiques
UPSID/CaSSoPI

Utilisation pour rechercher des indices pertinents
 Hombert
& Maddieson, (1998)
 Indices discriminants et détectables automatiquement
Contraste dental vs. labio-dental // vs. // ; // vs. // : +discriminant –
détectable
 Clicks : + discriminant +détectable


Limites
 Comment
modéliser ces indices ?
 Évaluer leur incidence dans la parole réelle (probabilité d'apparition)
 Des inventaires phonologiques à la parole

Prises en compte de processus phonologiques ou phonétiques
 Anglais : pas de voyelles nasales phonologiques
pourtant ‘sable’ : /snd/ (phonologique) est prononcé [sd] (phonétique)
 Incidence statistique moins grande ?
 Conclusion
Détection des traits rares potentiellement intéressante
 Non encore exploitée automatiquement
 Prise en compte de l'incidence des traits fondamentale


Ohala, & Marsico, 2001, "Differentiating phonetic from phonological events in speech"
8
Bases de donnees typologiques
WALS



Haspelmath et al. (2005)
2,600 langues
140 caractéristiques (670 types) phono-morpho-syntaxiques
60,000 données (sur 364 000 potentielles)
9
Bases de donnees typologiques
WALS : distances typologiques
Extrait de Michael Cysouw, (2006), transparent 21.
10
Bases de donnees typologiques
Conclusions

BD fondamentales pour des recherches linguistiques



Tendances universelles
Caractéristiques aréales, historiques, universelles
Mais encore peu utiles pour l’identification
automatique




Niveaux morpho-syntaxiques hors d’atteinte des analyses
automatiques translinguistiques
Difficulté à prendre en compte des phénomènes phonétiques fins
Problème de la distinction entre phénomène phonétique et
phonologique
MAIS analyse typologique peut proposer des pistes

Incidence de traits (aspiration, friction, contrastes de durée)
11
Plan

Introduction:


Partie I : l’état des lieux



Des données typologiques à la reconnaissance des langues
Des modèles automatiques à leur interprétation linguistique
Partie II : la prosodie, terrain d’investigation




la rencontre espérée entre la typologie et la modélisation
automatique
Introduction
La dimension rythmique

Typologie & modélisation automatique

Typologie et modélisation automatique
La dimension tonale lexicale
Conclusions
12
Classification des langues
a partir de donnEes textuelles

Visée historique : le calcul d’arborescences de langues



À partir de données lexicales (listes de Swadesh, etc.)

Lexique de base supposé peu sujet aux emprunts (chiffres, parentèle, etc.)


Taux de partage de cognats (codage manuel, attention aux emprunts !)
Alignement phonétique des lexiques (distance d’édition : nb
insertions/déletions, remplacements)
2 approches pour estimer les distances inter-langues
Méthodologies empruntées à la bioinformatique (génomique)

Construction d’arbres ou de réseaux
Gray, & Atkinson (2003)
Bryant et al. (2005)
13
identification automatique des langues
a partir de donnees textuelles

Identification automatique des langues



À partir de corpus textuels (journaux, mails, etc.)
Approches par comptage statistique (cooccurrences)
Un problème... peu problématique



Grands corpus disponibles (pour langues à tradition écrite)
Caractère discret des inputs
Une validité linguistique indéniable
Damashek, (1995)
14
Classification/identification des langues
a partir de donnees textuelles
Conclusion

Des méthodes diverses


Cooccurrences (identification à partir de corpus)
Distances (reconstruction d'arbres de proximité)



Cognats
Alignements
Une interprétation linguistique possible

Prise en compte du lexique et de la morphosyntaxe
15
L’identification automatique des langues a partir de donnees
parlees

Caveat




Relativement peu de langues prises en compte (quelques dizaines
au mieux)
Langues non représentatives en termes typologiques (choix dicté
par l’application ou par la disponibilité des données)
Prise en compte de la variabilité intra-langue (parlers, accents,
dialectes) balbutiante
Une affaire d’échelle

Comment définir une langue, un dialecte, etc. ?



Intercompréhension complète ?
Intercompréhension immédiate ?
Taux de lexique partagé ?
16
Id. auto. langues parlees
Les approches

Approche acoustico-phonétique




Paramètres spectraux/cepstraux (MFCC, LPC, SDC)
Modèle de Mélange de lois Gaussiennes (GMM)
Modélisation acoustique globale de l’espace phonétique
Approche phonético-phonotactique



Paramètres spectraux/cepstraux (MFCC, LPC, SDC)
Modèles de Markov Cachés (MMC) + n-grammes
Modélisation des contraintes phonologiques d’enchaînements





Utilisation des MMC comme opérateurs de projection
 Espace acoustique (continu, multidimensionnel) -> Espace pseudophonémique (discret, unidimensionnel)
Prise en compte des vraisemblances MMC
Utilisation de plusieurs MMC ou d'un MMC unique multilingue
Utilisation d'unités de nature syllabique
Approches prosodiques
17
Id. auto. langues parlees
Utilisation linguistique ?


Interprétation des matrices de confusion
Format des évaluations

NIST : tâche de vérification de la langue


Equal Error Rate et Detection Error Trade-off (et non matrice de confusion)
Hétérogénéité des ressources


Choix des langues
Dialectes et diglossie





Vietnamien Nord/Sud
Hindi
Arabe
…
Accents


env. 1/3 des locuteurs français de OGI MLTS sont québécois
Locuteurs hispanophones d’Amérique centrale ou du nord
18
Id. auto. langues parlees
Utilisation linguistique : essayons !

Matrice de confusion (Id. correcte = 57%)



1.4
Hegde & Murthy, 2005 (OGI MLTS)
Modélisation acoustique : MFCC + phase (group delay)
Représentation multidimensionnelle (MultiDimensional Scaling)
1.2
Trait acoustique partagé ?
- consonnes rétroflexes
Distance
1
KOrean
FArsi
MAndarin
FRench
SPanish
GErman TAmil
HIndi
VIetnamese
0.8
JApanese
0.6
Stress-accent
0.4
Syllable-timed
FR
0.2
Stress-timed
Origine commune
KO
Lexique
partagé
ENglish
JA
MA
FR
SP
EN
GE
FA
HI
TA
VI
Mora-timed
Pitch-accent
SP
Tone language
VI
EN GE HI
MA
TA KO JA
FA
19
Id. auto. langues parlees
Utilisation linguistique II
Matrice de confusion (Id. correcte 84%)


Système MIT (NIST LRE 2003 – 12 langues – CallFriend)
Modélisation acoustique + phonétique + phonotactique
1.98
ARabic
ENglish
FArsi
FRench
GErman
HIndi
JApanese
KOrean
MAndarin
SPanish
TAmil
VIetnamese
1.96
1.94
Distance

1.92
1.9
1.88
EN
GE
AR
FA
FR
MA
D’après A. Martin & M. Przybocki, (2003)
JA
KO
HI
TA
SP
VI
20
Id. auto. langues parlees
Utilisation linguistique : le point

Conclusions

Matrices de confusion potentiellement intéressantes


Mais interprétation très spéculative





Émergence de facteurs historiques, aréaux ou typologiques
Distances très multidimensionnelles (=> réduction pour représentation)
Modèles principalement acoustiques
Interprétations plutôt lexicales ou morphosyntaxiques
Lexique partagé => éléments phonético-phonologiques potentiellement proches
Perspectives


Choix de langues linguistiquement pertinentes
Conception de modèles modulaires





Modèles acoustiques => systèmes phonologiques
Modèles phonotactiques => structures syllabiques, mais aussi lexique
Modèles rythmiques
Modèles intonatifs
Nécessité d’un travail en concertation entre linguistes et
modélisateurs
21
Intermede & Changement d’echelle :
les dialectes anglais britanniques

Problématique




Dialectes anglais des îles britanniques
Description sociolinguistique plus ou moins disponible
Exploitation automatique de traits linguistiques ?
Travail en cours (thèse de Emmanuel Ferragne)



Rythme et intonation
Diphtongaison
Systèmes vocaliques



Résultats




Alignement automatique HTK (transcription orthographique connue)
Corrélations entre matrices de distances des voyelles
91 % id. correcte (13 dialectes)
Etude des mergers
cf. Poster (trop tard...)
Autres études "linguistico-modélisatrices"

Dialectes arabes (M. Barkat-Defradas et collègues)
22
Plan

Introduction:


Partie I : l’état des lieux



Des données typologiques à la reconnaissance des langues
Des modèles automatiques à leur interprétation linguistique
Partie II : la prosodie, terrain d’investigation




la rencontre espérée entre la typologie et la modélisation
automatique
Introduction
La dimension rythmique

Typologie & modélisation automatique

Typologie et modélisation automatique
La dimension tonale lexicale
Conclusions
23
La prosodie - introduction

La prosodie


Mélodie du langage
Vision structuraliste puis générativiste



“…prosodic features cannot simply be seen as features which are
superimposed on segments.” (Fox, 2000, p. 2)
Portées ou domaines des traits prosodiques (d’après Fox, 2000)






Phénomènes suprasegmentaux = traits ayant une portée de plusieurs
segments
Length / Rhythm
Accent
Tone
Intonation
cf. exposé Jacqueline Vaissière
Portée de l’exposé


Rythme (régularité perceptive liée à l’occurrence d’unités ou
d’événements)
Utilisation lexicale ou morphémique du Fo (des tons à Ø)
24
Les parametres acoustiques



Fo : pitch, fréquence fondamentale (Hz)
Intensité (dB)
Durée (s)



Durée des syllabes
Durée des intervalles interaccentuels, des pieds accentuels…
Durée des phonèmes



Contrastes de durée (gémination, voyelles longues)
Réduction de quantité vocalique (jusqu’à l’élision)
Des paramètres…




liés au locuteur
Modulables au cours de la phonation
Porteurs d’informations linguistiques ou paralinguistiques
(attitude et émotion, état physiologique)
Difficilement comparables d’un enregistrement à l’autre
=> Paramètres surtout étudiés de manière relative (variations)
25
Typologie rythmique


Rythme = interface segmental/suprasegmental
Importance du rythme

Implications cognitives

Acquisition : rythme et segmentation du flux continu de parole



Phonological bootstrapping : Morgan & Demuth, (1996)

Production/Compréhension : unités rythmiques comme unités d'accès lexical ?

Théorie de la syllabe et théorie de l'optimalité, etc.
Implications phonologiques
la syllabe...


Une structure intuitivement universelle
MAIS certaines langues s’éloignent de ce schéma idyllique

Noyaux syllabiques consonantiques
 Consonnes syllabiques (e.g. anglais ‘bottle’ [])


Mais aussi occlusives non voisées
berbère chleuh (AA, Maroc) ‘donne-le’ [Sk] (cf. Ridouane (2003))
bella coola (Salishan, Canada) ‘North-East wind’ [sps] Bagemihl (1991)
Analyse syllabique peu pertinente

Gokana (Niger-Congo, Nigéria)
Hyman (1983)
kε̃ ε̃̀ - ε̃̀
- ε̃̀ - ε̃ - ε̃́
wake –CAUS –LOG – him - FOC
26
Typologie rythmique :
de la di/TRI-chotomie...

La vision traditionnelle dichotomique

Deux classes rythmiques (Pike, 1945) :

Rythme syllabique (syllable-timed) : français, espagnol, ...
Rythme accentuel (stress-timed) : anglais, néerlandais, russe

Rythme moraïque (moraic-timed) : unité infra-syllabique (japonais, tamoul)



A la recherche de l'isochronie (Abercrombie, 1967)



Puis une troisième (par ex. Ladefoged, 1975)
Hypothèse : les langues cherchent toutes à régulariser les
durées syllabiques ou interaccentuelles
Mise à l'épreuve (Roach, 1982, ...) : pas concluante
Un continuum ?

Argumentation de Dauer (1983)


Rythme = "effet de bord" de phénomènes phonologiques
 Contraintes de complexité de la structure syllabique
 Existence du phénomène de réduction vocalique
Les langues se situent sur un continuum +- accentuel à -+ syllabique
27
Typologie rythmique :
...au continuum

Existence de langues non prototypiques



(Nespor, 1990)
Catalan : langue syllabique à réduction vocalique
Polonais : langue à structure syllabique riche sans réduction
vocalique
Continuum ou espace multidimensionnel ?

Auer (1993) propose une typologie en 5 "classes" (1 dimension)






Syllabique prototypique
Syllabique non prototypique
Intermédiaire
Accentuel non prototypique
Accentuel prototypique
(yoruba, navaho, ...)
(japonais, hausa, ...)
(français, turc, ...)
(ouzbèque, tamang, ...)
(russe, anglais, ...)
Basée sur une analyse multicritère



Complexité syllabique (cf. aussi Levelt et Van de Vijver, 1998)
Processus phonologiques (réduction, épenthèse, harmonie vocalique, ...)
Utilisation du Fo (présence de tons +- contrainte, accentuation, etc.)
28
Premier Bilan sur
les typologies rythmiques linguistiques

Une typologie difficile à établir




Multidimensionnelle
Continue
Basée sur relativement peu de langues (max. Auer : 34 langues)
MAIS

Corrélations entre rythme et composantes morphosyntaxiques



Langues agglutinantes : plutôt syllabiques
Autres rapprochements (ordre Tête-Complément, affixation, etc.) mais
contestés (cf. Auer, 1993 pour une discussion)
un réalité perceptuelle

Discrimination par des nouveaux-nés humains et non humains (tamarins) de
stimuli identiques/différents en fonction de l'appartenance à des classes
rythmiques (stress-timed vs. syllable-timed) (Nazzi et Ramus, 2003).
=> Existence de corrélats acoustiques du rythme
29
typologies rythmiques
Correlats acoustiques :
un travail fondateur

Travaux de thèse de Franck Ramus (e.g. Ramus et
al., 1999)



8 langues – 5 énoncés (15 à 19 syllabes) / locutrice – 4 locutrices
/ langues
Segmentation manuelle en intervalles consonantiques et
vocaliques
Calcul de paramètres à l'échelle de l'énoncé


%V quantité vocalique (rapport de la durée vocalique totale/durée énoncé)
DC écart-type de la durée des intervalles consonantiques

Limites de l'approche
Corpus très contraint
 Non prise en compte de caractéristiques dynamiques du rythme
 Variations
 Enchaînements trochaïques/iambiques??

30
typologies rythmiques
Correlats acoustiques :
Extensions, generalisations ??

Autres travaux de même type


Galves (2002) : paramètres issus d'une échelle de sonorité
Grabe et Lowe, (2002)

30.0
Calcul d'indices locaux (Pairwise Variability Indices)
40.0
ST DEV of int ervocalic intervals
² C)
(
50.0
60.0
70.0
80.0
40.0
British English
Greek
Est onian
Welsh
45.0
Singapore English
%V
Rumanian
50.0
French
P olish
Catalan
Dutch
Luxembourg
Japanese
German
Malay
Spanish
T hai
T amil
55.0
Mandarin
60.0
31
typologies rythmiques
Correlats acoustiques :
Variations

Variations dialectales


Arabe dialectal
Influence du débit de parole
DC
Ma
Al
Jo
Tu
*
+
Eg Sy
*
FR
CA
EN
%V
d'après Hamdi et al., (2004)

Anglais britannique

Ask to E. Ferragne
d'après Dellwo et Wagner, (2003)
32
Typologie rythmique :
Modelisation automatique
Dominey et Ramus, 2000

Modélisation neuromimétique du rythme



Données


Corpus spécifique (dit RNM)
Résultats



Réseau récurrent dédié au traitement des séquences
temporelles
Les entrées du réseau sont des étiquettes C ou V
échantillonnées toutes les 5 ms et alignées manuellement.
78 % de discrimination correcte pour (EN – JA)
52 % de discrimination correcte (Hasard) pour (EN – DU)
Commentaires


Résultats cohérents avec une prise en compte du rythme
Résultats cohérents avec sujets humains
33
Typologie rythmique :
Modelisation automatique
Farinas et al., 2005 ; Rouas et al., 2005
Modélisation statistique de "pseudo-syllabes"



Segmentation automatique du signal (infra-phonémique)
André-Obrecht, (1988)
Détection automatique de noyaux vocaliques
Segmentation en intervalles vocaliques et consonantiques
e a m
E  E
 e


n
Amplitude

0


0.6
0.8
1.0
Time (s)



0.4
Codage en pseudo-syllabes CCV.CCV.CV.CCCV.CV.CCC
Paramétrage :


0.2
Dc : durée de l'intervalle consonantique
Dv : durée de l'intervalle vocalique
Nc : nombre de segments (complexité) de l'intervalle consonantique
Modélisation MMG dans cet espace tridimensionnel
Ajout de paramètres dérivés de Fo et E : accentuation
34
Typologie rythmique :
Modelisation automatique
Farinas et AL., 2005 ; Rouas et al., 2005

Evaluation

Corpus de parole lue MULTEXT (7 langues)


Validation croisée (5 LANGUES)
 Modèle de rythme seul : 79 % d’identification correcte
 Modèle « d’accentuation » : 78 % d’identification correcte
 Fusion : 92 % d’identification correcte
Evaluation classique app/tst (très peu de données…)
 Fusion : 86 % d’identification correcte (5 langues)
 Modèle de rythme seul : 67 % d’identification correcte (7 langues)


Comparaison modèle GMM acoustique : 99 %
Corpus de parole spontanée OGI MLTS (11 langues)



Identification :
 très mauvais résultats
Discrimination par paire
 du hasard à 80 % en fonction des langues
Encore du travail…
35
Plan

Introduction:


Partie I : l’état des lieux



Des données typologiques à la reconnaissance des langues
Des modèles automatiques à leur interprétation linguistique
Partie II : la prosodie, terrain d’investigation




la rencontre espérée entre la typologie et la modélisation
automatique
Introduction
La dimension rythmique

Typologie & modélisation automatique

Typologie et modélisation automatique
La dimension tonale lexicale
Conclusions
36
Typologie intonative lexicale

La vision traditionnelle



Langues à tons (tone languages) – vietnamien, mandarin, yoruba

Exemple cantonais :

Exemple somali : "ínan" ‘garçon’ vs. "inán" ‘fille’

CVCVCV vs. CVCVCV – (dialecte de Tokyo)
Langues à accent tonal (pitch-accent languages) – japonais
Langues à accent tonique (stress-accent languages) – espagnol,
anglais



/'pervert/ (nom) vs. /per'vert/ (verb)
Le Fo n'est pas forcément utilisé (réduction qualitative et/ou quantitative)
Perspectives récentes

Continuum d’utilisation lexicale de Fo




(Remijsen, 2003 ; Hyman, 2005)
Tons à placement libre
Tons à placement – à + contraints (tons sandhi, neutralisation de tons)
Tons limités à 1 syllabe par mot (pitch-accent ?)
Interactions stress/tons

Co-existence de système de tons et de stress : Ma'ya (Austronésien)
 3 tons possibles sur dernière syllabe + accent
37
Modelisation de Fo et E (niveau global)
Itahashi, 1995

Modélisation statistique de l’intonation



Extraction automatique du Fo
Approximation polygonale de la courbe de Fo
Calculs de paramètres sur Fo et E




Analyse discriminante dans l’espace des paramètres
Expériences



Pentes moyennes sur les segments
Moments d’ordre supérieurs sur les segments (écart-type, coefficients
d'asymétrie et d'aplatissement)
Données

Extraits d’OGI MLTS (6 langues, 20 secondes)

63.3 % d’identification correcte
Résultats
Commentaires


Approche basée sur des statistiques globales dérivées de la mélodie
Travaux non continués
38
Modelisation de Fo et E (niveau global)
ThymE–Gobbel & Hutchins, 1999

Modélisation statistique de la prosodie




Données


OGI MLTS (11 langues, 45 s., discrimination par paires)
Résultats


Basée sur des « syllabes » (i.e. des segments entre 2 minima
d'énergie)
Paramètres intra- et inter- syllabiques dérivés de Fo, des
durées, de l’énergie
Comparaison statistique d’histogrammes
75 % d’identification correcte
Commentaires


Beaucoup de paramètres analysés
Évaluation de la corrélation avec des typologies prosodiques
39
Modelisation de Fo et E (dynamique)
Cummings et al., 1999

Modélisation neuromimétique de l’intonation



Données


OGI MLTS (5 langues, 45 s., discrimination par paires)
Résultats


Réseau récurrent
Les entrées sont des paramètres dérivés de E et Fo
Entre hasard et 69 % discrimination correcte
Commentaires

Meilleurs résultats avec DFo qu’avec DE
40
Modelisation de Fo et E (dynamique)
ADAMI, 2003

Modélisation n-gramme de Fo et E

Segmentation en segments monotones par rapport à E et Fo






Données


CALLFRIEND (3 langues, tâche de vérification de la langue)
Résultats


montée de F0 et montée de l’énergie
montée de F0 et descente de l’énergie,
descente de F0 et montée de l’énergie,
descente de F0 et descente de l’énergie,
segment non voisé.
EER :
Commentaires

Approche totalement automatique prenant en compte les enchaînements
(et non des statistiques globales)
41
Modelisation de Fo et E (dynamique)
Rouas, 2005

Modélisation n-gramme de Fo et E





0.95
Données


inspiré de Adami et Fujisaki
Séparation
0.9 en macro et micro-mélodie (ligne de base et résidu)
Étiquettes composites tenant compte des 2 niveaux de
0.85(exemple : montée(M)-montée(m), etc.)
variations
2 niveaux temporels : infra-syllabique (segments) ou pseudo0.8
syllabiques
0.75
MULTEXT (7 langues, parole lue, env. 20s., peu de données)
Résultats
0.7
0.65
0.6
0.55
IT
SP
FR
JA
EN
MA
GE
42
Modelisation de Fo et E (dynamique)
Rouas, 2005

Fusion des approches rythmiques (67 % d’id. correcte) et
intonative (71 % d’id. correcte)

Extension à la parole spontanée (OGI MLTS)
43
Conclusion sur prosodie et identification automatique

Typologie prosodique


Domaine multidimensionnel (espace continu, Fo, E, durées...)
Domaine en évolution



(r)évolution épistémologique (passage du catégoriel au continu)
(r)évolution en termes de données (nombre de langues, réanalyse...)
Modélisation translinguistique de la prosodie





Domaine récent et stimulant
Approches diverses – pas d'état de l'art
Performances significatives sur la parole lue (à mettre en
perspectives avec la typologie)
GROS problèmes pour la parole spontanée

Prise en compte du débit... (conséquences cognitives et typologiques)

Performances / approches phonético-phonotactiques sur mauvais SNR ?
=> modèles pas assez performants pour être compétitifs
(quoique...)
44
Plan

Introduction:


Partie I : l’état des lieux



Des données typologiques à la reconnaissance des langues
Des modèles automatiques à leur interprétation linguistique
Partie II : la prosodie, terrain d’investigation




la rencontre espérée entre la typologie et la modélisation
automatique
Introduction
La dimension rythmique

Typologie & modélisation automatique

Typologie et modélisation automatique
La dimension tonale lexicale
Conclusions
45
Intermede II
retour sur la seance de lundi PM

Test perceptif : facteurs de difficulté

Test mixte
Identification (langue 1 puis langue 2)
ET
 Discrimination (évaluation de la distance)
=> 2 tâches cognitives différentes et potentiellement interférentes





Absence de connaissance du nombre de langues
Absence d'apprentissage
 Protocole très difficile
Application humaine de l'identification des langues ?
Comparaison humain/machine



Performance NIST 2003 : <3% EER pour 10+ langues (extraits 30s)
Notre expérience d'humain (cf. ci-dessus) : tâche difficile
MAIS
Plusieurs dizaines d'heures d'apprentissage pour les machines !!
=> amha performances quasi-parfaites pour humains dans les conditions de la machine

46
Conclusions GENERALES

Typologie automatique : l'âge de pierre

Modèles automatiques "fusionnels" plus que modulaires



Approches linguistiques doivent être confrontées à des corpus
représentatifs


Étude de l'incidence des traits potentiellement saillants (aspiration...)
Convergence possible



Données audio disponibles pour un nombre important de langues
Possibilité de "modulariser" pour interpréter les performances
en termes linguistiques (phonétique, phonotactique, prosodique)
Travail interdisciplinaire important à faire à l'interface
phonético-morphophonologique


Effet "Boîte noire"
Dédiés à la vérification de la langue plus qu'à l'étude des distances
linguistiques
Variabilité phonétique en fonction de la position morphologique...
Prosodie


Une interface linguistique segmental/suprasegmental
Des modèles innovants, rudimentaires, mais pertinents
47
48
Abercrombie, D., (1967), Elements of General Phonetics, Edinburgh University Press, Edinburgh
Adami, A., R. Mihaescu, D. A. Reynolds et J. Godfrey : “Modeling Prosodic Dynamics for Speaker Recognition”, in proc. ICASSP, p. 788–791, Hong Kong, China, 2003
André-Obrecht, R., (1988), A New Statistical Approach for Automatic Speech Segmentation, IEEE Trans. on ASSP, vol. 36, n° 1
Auer, P. (1993). Is a rhythm-based typology possible? A study of the role of prosody in phonological typology. KontRI Working Paper 21, Hamburg: UniversitaÈt Hamburg.
Bagemihl B. (1991). "Syllable structure in Bella Coola". Linguistic Inquiry 22: 589-646.
Bryant, D., Filimon, F. and Gray, R. (2005) Untangling our past: Languages, Trees, Splits and Networks. In: The Evolution of Cultural Diversity: Phylogenetic Approaches. Editors: R. Mace, C.
Holden, S. Shennan. Publisher: UCL Press, pp. 69-85
Cummins, F., Gers, F., and Schmidhuber, J., (1999), Language identification from prosody without explicit features, in Proc. of EUROSPEECH ‘99
Cysouw, M. (2006). Identifying areas from typological surveys. Bielefeld, Germany (28th Jahrestagung DGfS) (pdf slides).
Damashek M.1995, Gauging Similarity with n-Grams: Language Independent Categorization of Text, Science, 10 February 1995, Vol. 267, pp. 843-8
Dauer, R. M., (1983), Stress-timing and syllable-timing reanalyzed, Journal of Phonetics, 11
Dellwo, V. and Wagner, P., 2003. Relations between Language Rhythm and Speech Rate. Proceedings of ICPhS 2003, Barcelona, Spain, 471-474.
Dominey, P. F., & Ramus, F., (2000), Neural Network Processing of Natural Language: I. Sensitivity to Serial, Temporal and Abstract Structure in the Infant, Language and Cognitive Processes,
15(1)
Farinas, J., Rouas, J.L., Pellegrino, F. & André-Obrecht, R., 2005, "Extraction automatique de paramètres prosodiques pour l’identification automatique des langues", Traitement du Signal, 22:2
Fox A. 2000. Prosodic features and Prosodic Structure, Oxford University Press
Galves, A., Garcia J., Duarte D. & Galves C., (2002), “ Sonority as a Basis for Rhythmic Class Discrimination ”, in proc. of the Speech Prosody 2002 conference, 11-13 April 2002
Grabe, E. & Low, E.L., (2002), Durational Variability in Speech and the Rhythm Class Hypothesis, Papers in Laboratory Phonology 7, Mouton.
Gray, R.D. & Atkinson, Q.D. (2003). Language-tree divergence times support the Anatolian theory of Indo-European origin. Nature, 426, 435-439
Hamdi R., Barkat-Defradas M., Ferragne E. & Pellegrino F., (2004), “Speech Timing and Rhythmic structure in Arabic dialects: a comparison of two approaches”, in proc. of INTERSPEECH/ICSLP
2004, October 2004 Jeju, Korea
Haspelmath, M., Matthew S. Dryer, David Gil and Bernard Comrie (Eds). 2005. The World Atlas of Language Structures, Oxford University Press
Hegde R. M. & H. A.Murthy, 2005. ``Automatic Language Identification and Discrimination using The Modified Group Delay Feature'', in Proc. of International Conference on Intelligent Sensing and
Information Processing,Chennai
Hombert, J.M. & Maddieson, I., 1998, "A linguistic approach to automatic language recognition", UCLA Working Papers in Phonetics, 96, pp. 106-118
Hyman L. 1983. "Are there syllables in Gokana?" In J. Kaye et al (eds), Current approaches to African linguistics, vol. 2. Dordrecht: Foris. 171–179.
Hyman L. 2005. “Word-Prosodic Typology”, in UC Berkeley Phonology Lab Annual Report 2005
Itahashi S., K. Kiuchi et M. Yamamoto : “Spoken Language Discrimination Using Speech Fundamental Frequency And Cepstra”, in proc. Eurospeech, Budapest, Hungary, 1999
Ladefoged, P. (1975). A course in phonetics. New York: Harcourt Brace Jovanovich pp.296
Levelt, C., & van de Vijver, R. (1998). Syllable types in cross-linguistic and developmental grammars. Third Biannual Utrecht Phonology Workshop (11-12/06/1998),
Maddieson, I. 1984. Patterns of sounds. Cambridge, MA: Cambridge University Press.
Maddieson, I. and K. Precoda. 1990. Updating UPSID. UCLA Working Papers in Phonetics 74: 104-111.
Martin, A. F. & M. A. Przybocki. (2003). NIST 2003 Language Recognition Evaluation, in proc. of Eurospeech, p.1341-1344, Geneva
Morgan J. L., & K. Demuth, 1996. Signal to Syntax: Bootstrapping from Speech to Grammar in Early Acquisition. Mahwah, NJ: Lawrence Erlbaum Associates.
Nazzi, T. & Ramus, F. (2003). Perception and acquisition of linguistic rhythm by infants. Speech Communication 41(1-2), 233-243.
Nespor, M. (1990). On the rhythm parameter in phonology. In I. M. Roca, Logical issues in language acquisition, (pp. 157±175). Dordrecht: Foris.
Ohala, J. & Marsico, E., 2001, "Differentiating phonetic from phonological events in speech", in De la caractérisation à l'identification des langues. Actes sélectionnés de la 1ère journée d'étude
sur l'identification automatique des langues (19/01/1999, Lyon), Pellegrino, F. (ed), Lyon, Edition en ligne
Pike, K. L. (1945). The intonation of American English, Ann Arbor, MI: University of Michigan Press.
Ramus, F., Nespor, M., & Mehler, J., (1999), Correlates of linguistic rhythm in the speech signal, Cognition, 73(3)
Remijsen B. 2003. “New Perspectives In Word-prosodic Typology”, IIAS Newsletter, #32, p. 29
Ridouane R. 2003. Suites de Consonnes en Berbère Chleuh : Phonétique et Phonologie. Thèse de doctorat, Université Paris 3 / Sorbonne Nouvelle.
Roach, P. (1982). On the distinction between `stress-timed' and `syllable-timed' languages. In D. Crystal, Linguistic controversies, London: Edward Arnold.
Rouas J.-L.. 2005. Caractérisation et identification automatique des langues. Thèse de doctorat, Université Paul Sabatier, Toulouse, mars 2005.
Rouas, J.L., Farinas, J., Pellegrino, F. & André-Obrecht, R., 2005, "Rhythmic Unit Extraction and Modelling for Automatic Language Identification", Speech Communication, 47:4, pp. 436-456
Thymé-Gobbel, A., & Hutchins, S. E., (1999), Prosodic features in automatic language identification reflect language typology, in Proc. of ICPhS’99, San Francisco, CA, USA
MERCI DE VOTRE ATTENTION
49
Miss Probability (%)
DET – NIST LRE 2003
Hindi
English
Vietnamese
False Alarm Probability (%)
D’après A. Martin & M. Przybocki, NIST 2003 LRE Workshop, April 28-29th, 2003
50
Exemple : Dialecte East Yorkshire
Locutrice sit
Locutrice edc
70
70
65
65
60
60
55
55
50
50
45
45
40
40
35
35
Hood
Hudd
Who’d Heard Hared
Hood
Hudd
Who’d Heard Hared
51