Transcript EXMARaLDA

EXMARaLDA
Thomas Schmidt
IDS Mannheim
EXMARaLDA
• Maintenant
–
–
–
–
Arrière-Plan
Principes
Aperçu des outils
Démonstration: Outils
• Après-midi
– atelier de travail de
"première prise en main"
• Transcription
• Administration de corpus
• Recherche et analyse
– Autres outils /
Interopérabilité
– Démonstration: Corpora
08.07.2015
2
Histoire
Développement d’EXMARaLDA
… au Centre de Recherche sur le Multilinguisme, Hambourg
… au Centre de Corpus Linguistiques
2013
2011
2000
2005
2008
2012
… et à l’IDS
Développement de FOLKER à l’institut de la langue
allemande (IDS), Mannheim
ELAN (MPI Nijmegen)
ANVIL (Saarbrücken)
Intégration CLARIN
Objectifs
• Construction, administration, publication et analyse
de corpus oraux
• Bases de données réutilisables
• Domaines d‘utilisation:
–
–
–
–
–
–
–
Communication multilingue (p.ex. interprétation)
Apprentissage des langues (L1 et L2)
Conversation Analysis / Discourse Analysis
Dialectologie
Sociolinguistique
… multimodalité, phonétique, sociologie, …
Annotation de langue écrite (!)
Principes
• Flexibilité: différentes approches théoriques,
questions de recherche, systèmes de transcription
• Interopérabilité: échange avec Praat, ELAN,
Transcriber etc.
• Indépendance de plateforme (Windows,
Macintosh, Linux)
• Durabilité / Persistance: XML, Unicode, etc.
• Multimédia, Hypertexte, Automatisation
EXMARaLDA
• « Extensible Markup Language for Discourse Annotation »
• Formats, concepts, logiciels pour
– la transcription, créer des liens entre la transcription et
l’enregistrement audio ou video  Partitur-Editor, FOLKER
– l’administration d’une collection d’enregistrements et
transcriptions, la description des interaction et des interlocuteurs
 Corpus Manager
– la recherche dans les corpus, la corrélation de données
linguistiques et extralinguistiques, la quantification  EXAKT
Corpus workflow
EXMARaLDA Partitur-Editor
EXMARaLDA Partitur-Editor
•
•
•
•
Transcrire dans une „partition musicale“
Audio et vidéo (formats *.wav, *.avi etc.)
Ajouter des annotations
Exporter la transcription pour la présentation
(formats *.rtf, *.html)
• Interoperabilité avec Praat, ELAN, TEI, …
Exemple: « partition musicale »
FOLKER
11
FOLKER
• FOLK-Editor
• FOLK = Forschungs- und Lehrkorpus Gesprochenes
Deutsch (Corpus de recherche et enseignemen de
l’allemand parlé)
• « Cousin » du Partitur-Editor
• Simplifié (moins de fonctions, plus facile à utiliser)
• Optimisé pour une transcription « minimale »
(orthographique, à partir d’audio) sans annotations
supplémentaires
12
EXMARaLDA Corpus Manager
EXMARaLDA Corpus Manager
• Organiser les enregistrements et les transcription
dans un corpus
• Décrire les locuteurs et les communications par
des métadonnées
• Filtrer le corpus selon les métadonnées (p.e.
« tous les locuteurs avec français comme L1») 
sub-corpus
Exemple: Métadonnées
EXMARaLDA EXAKT
EXMARaLDA EXAKT
• EXAKT = EXMARaLDA Analyse und Konkordanztool
= Outil d‘analyse et de concordance
• Chercher des phénomènes transcrits / annotés
• Corréler les données linguistiques et
extralinguistiques
• Filtrer / catégoriser / quantifier les résultats de
recherche
Corpus workflow
Démo #1: Transcription / Annotation
• Outils:
– EXMARaLDA Partitur-Editor
– FOLKER
• Données:
– Enregistrement vidéo du débat présidentiel Sarkozy
face à Royal
– Transcrit selon les conventions HIAT (Ehlich/Rehbein)
08.07.2015
19
Démo #2: Administration / Analyse
• Outils:
– EXMARaLDA Corpus Manager
– EXAKT
• Données:
–
–
–
–
–
08.07.2015
Hamburg Map Task Corpus
Apprenants avancés de l‘Allemand
Transcrit selon les conventions HIAT (Ehlich/Rehbein)
Annotation manuelle de „Disfluencies“ (hésitations etc.)
Annotation automatique de Part-Of-Speech
20
Interoperabilité
• Importer des transcriptions individuelles:
– Praat, ELAN, Transcriber, CHAT, WinPitch, ANVIL, Phon,
plain text,
• Exporter des transcriptions individuelles:
– Praat, ELAN, CHAT, TEI, …
– HTML, RTF (Word), Imprimer (PDF)
• Transformer / Importer des corpus entiers:
– ELAN, Transcriber, CHAT
08.07.2015
21
Interoperabilité
„Processing chains“, p.ex.
 Transcription de base en FOLKER
 Annotation manuelle en Partitur-Editor
Analyse phonétique en Praat
Analyse multimodale en ELAN
Archivage / Distribution en TEI
Intégration dans une publication en RTF
08.07.2015
22
Corpora
• Quelques corpora de référence:
– Corpora multilingues du SFB Multilinguisme
•
•
•
•
HAMATAC
HABLA (Hamburg Adult Bilingual LAnguage)
DiK (Dolmetschen im Krankenhaus)
… et 20 autres corpus oraux
– METU Corpora of Spoken Turkish (Turkey & Cyprus)
– GeWiss Corpora of Spoken Academic Language (German,
English, Polish, Bulgarian, Italian)
– KidKo (Kiezdeutsch-Korpus)
– Corpus of Contemporary Portuguese
– Forschungs- und Lehrkorpus Gesprochenes Deutsch
– Sprachvariation in Norddeutschland (SiN)
08.07.2015
23
HABLA
• Hamburg Adult Bilingual Language
• Interviews avec des locuteurs adultes bilingues
italien-allemand ou français-allemand
• Intérêt: érosion de langue
• 169 enregistrements / 80 heures / 750,000 mots
transcrits, 127 locuteurs
• transcrits selon les conventions CHAT
• disponible à http://www.corpora.uni-hamburg.de
08.07.2015
24
HABLA
08.07.2015
25
DiK
• Dolmetschen im Krankenhaus (Interpréter à l‘hôpital)
• Interactions multilingues docteur-patient à l‘hôpital,
interprétées par un interprète non-professionel (Personnel
soignant ou membre de famille)
• Allemand-Turc / Allemand-Portugais / Allemand monolingue
(contrôle)
• 92 enregistrements / 23 heures / 170,000 mots transcrits /
189 locuteurs
• transcrits selon les conventions HIAT
• avec traduction, annotation prosodique
• disponible à http://www.corpora.uni-hamburg.de
08.07.2015
26
DiK
08.07.2015
27
FOLK
• Forschungs- und Lehrkorpus Gesprochenes Deutsch
• Corpus de Recherche et Enseignement de l’Allemand Parlé
•
•
•
•
Grand corpus d’interactions spontanées en allemand
Diversifié en termes de types d’interactions
Disponible pour la communauté scientifique
Compatible avec les outils computationnels actuels
• Depuis 2009 à l’Institut de la Langue Allemande (IDS)
• Actuellement: 70h d’enregistrements transcrits, ca. 700.000 mots
FOLK
Communication quotidienne
•
•
•
•
•
•
Lecture à un enfant
Jouer avec les enfants
Conversation à table
Conversation à deux
Conversation entre amis
…
4%
Communication institutionelle
•
•
•
•
•
•
Leçon dans un centre de formation professionnelle
Leçon dans un lycée
Examen à l‘université
Meeting dans une institution sociale
Relève dans un hôpital
…
Jeu de communication
•
•
Maptask
…
2%
1%
20%
5%
8%
2%
33%
4%
2%
Communication publique
•
•
Discussion dans un conseil de consiliation
…
1%
4%
7%
FOLK
Annotations
(fr)
là
vas
tu
maintenant
simplement
au-dessus
le
image
Transcription
da
gehst
de
jetz
einfach
über
dem
bild
Normalisation
da
gehst
du
jetzt
einfach
über
dem
Bild
Lemmatisation
da
gehen du
jetzt
einfach
über
d
Bild
POS
ADV
VFIN
ADV
ADJD
APPR
ART
NN
PPER
• Transcription: orthographie adaptée
• Normalisation: orthographie standard, semi-automatique (taux d‘erreur ca. 20%,
correction manuelle)
• Lemmatisation: automatique (TreeTagger, taux d‘erreur ca. 2%)
• POS-Tagging: automatique (TreeTagger, taux d‘erreur ca. 12%)
FOLK
Publication / Analyse
• Datenbank Gesprochenes Deutsch (DGD2)
• Base de Données de l’Allemand Parlé
• 18 corpus de l’allemand parlé
• Variation régionale (dialectes)
• Corpus de conversation
• Feuilleter / Rechercher dans
• les méta-données
• les enregistrements
• les transcriptions
FOLK
Merci!
http://www.exmaralda.org
http://www.corpora.uni-hamburg.de
http://agd.ids-mannheim.de
http://dgd.ids-mannheim.de
http://hzsk-services.de
08.07.2015
33