Transcript EXMARaLDA
EXMARaLDA Thomas Schmidt IDS Mannheim EXMARaLDA • Maintenant – – – – Arrière-Plan Principes Aperçu des outils Démonstration: Outils • Après-midi – atelier de travail de "première prise en main" • Transcription • Administration de corpus • Recherche et analyse – Autres outils / Interopérabilité – Démonstration: Corpora 08.07.2015 2 Histoire Développement d’EXMARaLDA … au Centre de Recherche sur le Multilinguisme, Hambourg … au Centre de Corpus Linguistiques 2013 2011 2000 2005 2008 2012 … et à l’IDS Développement de FOLKER à l’institut de la langue allemande (IDS), Mannheim ELAN (MPI Nijmegen) ANVIL (Saarbrücken) Intégration CLARIN Objectifs • Construction, administration, publication et analyse de corpus oraux • Bases de données réutilisables • Domaines d‘utilisation: – – – – – – – Communication multilingue (p.ex. interprétation) Apprentissage des langues (L1 et L2) Conversation Analysis / Discourse Analysis Dialectologie Sociolinguistique … multimodalité, phonétique, sociologie, … Annotation de langue écrite (!) Principes • Flexibilité: différentes approches théoriques, questions de recherche, systèmes de transcription • Interopérabilité: échange avec Praat, ELAN, Transcriber etc. • Indépendance de plateforme (Windows, Macintosh, Linux) • Durabilité / Persistance: XML, Unicode, etc. • Multimédia, Hypertexte, Automatisation EXMARaLDA • « Extensible Markup Language for Discourse Annotation » • Formats, concepts, logiciels pour – la transcription, créer des liens entre la transcription et l’enregistrement audio ou video Partitur-Editor, FOLKER – l’administration d’une collection d’enregistrements et transcriptions, la description des interaction et des interlocuteurs Corpus Manager – la recherche dans les corpus, la corrélation de données linguistiques et extralinguistiques, la quantification EXAKT Corpus workflow EXMARaLDA Partitur-Editor EXMARaLDA Partitur-Editor • • • • Transcrire dans une „partition musicale“ Audio et vidéo (formats *.wav, *.avi etc.) Ajouter des annotations Exporter la transcription pour la présentation (formats *.rtf, *.html) • Interoperabilité avec Praat, ELAN, TEI, … Exemple: « partition musicale » FOLKER 11 FOLKER • FOLK-Editor • FOLK = Forschungs- und Lehrkorpus Gesprochenes Deutsch (Corpus de recherche et enseignemen de l’allemand parlé) • « Cousin » du Partitur-Editor • Simplifié (moins de fonctions, plus facile à utiliser) • Optimisé pour une transcription « minimale » (orthographique, à partir d’audio) sans annotations supplémentaires 12 EXMARaLDA Corpus Manager EXMARaLDA Corpus Manager • Organiser les enregistrements et les transcription dans un corpus • Décrire les locuteurs et les communications par des métadonnées • Filtrer le corpus selon les métadonnées (p.e. « tous les locuteurs avec français comme L1») sub-corpus Exemple: Métadonnées EXMARaLDA EXAKT EXMARaLDA EXAKT • EXAKT = EXMARaLDA Analyse und Konkordanztool = Outil d‘analyse et de concordance • Chercher des phénomènes transcrits / annotés • Corréler les données linguistiques et extralinguistiques • Filtrer / catégoriser / quantifier les résultats de recherche Corpus workflow Démo #1: Transcription / Annotation • Outils: – EXMARaLDA Partitur-Editor – FOLKER • Données: – Enregistrement vidéo du débat présidentiel Sarkozy face à Royal – Transcrit selon les conventions HIAT (Ehlich/Rehbein) 08.07.2015 19 Démo #2: Administration / Analyse • Outils: – EXMARaLDA Corpus Manager – EXAKT • Données: – – – – – 08.07.2015 Hamburg Map Task Corpus Apprenants avancés de l‘Allemand Transcrit selon les conventions HIAT (Ehlich/Rehbein) Annotation manuelle de „Disfluencies“ (hésitations etc.) Annotation automatique de Part-Of-Speech 20 Interoperabilité • Importer des transcriptions individuelles: – Praat, ELAN, Transcriber, CHAT, WinPitch, ANVIL, Phon, plain text, • Exporter des transcriptions individuelles: – Praat, ELAN, CHAT, TEI, … – HTML, RTF (Word), Imprimer (PDF) • Transformer / Importer des corpus entiers: – ELAN, Transcriber, CHAT 08.07.2015 21 Interoperabilité „Processing chains“, p.ex. Transcription de base en FOLKER Annotation manuelle en Partitur-Editor Analyse phonétique en Praat Analyse multimodale en ELAN Archivage / Distribution en TEI Intégration dans une publication en RTF 08.07.2015 22 Corpora • Quelques corpora de référence: – Corpora multilingues du SFB Multilinguisme • • • • HAMATAC HABLA (Hamburg Adult Bilingual LAnguage) DiK (Dolmetschen im Krankenhaus) … et 20 autres corpus oraux – METU Corpora of Spoken Turkish (Turkey & Cyprus) – GeWiss Corpora of Spoken Academic Language (German, English, Polish, Bulgarian, Italian) – KidKo (Kiezdeutsch-Korpus) – Corpus of Contemporary Portuguese – Forschungs- und Lehrkorpus Gesprochenes Deutsch – Sprachvariation in Norddeutschland (SiN) 08.07.2015 23 HABLA • Hamburg Adult Bilingual Language • Interviews avec des locuteurs adultes bilingues italien-allemand ou français-allemand • Intérêt: érosion de langue • 169 enregistrements / 80 heures / 750,000 mots transcrits, 127 locuteurs • transcrits selon les conventions CHAT • disponible à http://www.corpora.uni-hamburg.de 08.07.2015 24 HABLA 08.07.2015 25 DiK • Dolmetschen im Krankenhaus (Interpréter à l‘hôpital) • Interactions multilingues docteur-patient à l‘hôpital, interprétées par un interprète non-professionel (Personnel soignant ou membre de famille) • Allemand-Turc / Allemand-Portugais / Allemand monolingue (contrôle) • 92 enregistrements / 23 heures / 170,000 mots transcrits / 189 locuteurs • transcrits selon les conventions HIAT • avec traduction, annotation prosodique • disponible à http://www.corpora.uni-hamburg.de 08.07.2015 26 DiK 08.07.2015 27 FOLK • Forschungs- und Lehrkorpus Gesprochenes Deutsch • Corpus de Recherche et Enseignement de l’Allemand Parlé • • • • Grand corpus d’interactions spontanées en allemand Diversifié en termes de types d’interactions Disponible pour la communauté scientifique Compatible avec les outils computationnels actuels • Depuis 2009 à l’Institut de la Langue Allemande (IDS) • Actuellement: 70h d’enregistrements transcrits, ca. 700.000 mots FOLK Communication quotidienne • • • • • • Lecture à un enfant Jouer avec les enfants Conversation à table Conversation à deux Conversation entre amis … 4% Communication institutionelle • • • • • • Leçon dans un centre de formation professionnelle Leçon dans un lycée Examen à l‘université Meeting dans une institution sociale Relève dans un hôpital … Jeu de communication • • Maptask … 2% 1% 20% 5% 8% 2% 33% 4% 2% Communication publique • • Discussion dans un conseil de consiliation … 1% 4% 7% FOLK Annotations (fr) là vas tu maintenant simplement au-dessus le image Transcription da gehst de jetz einfach über dem bild Normalisation da gehst du jetzt einfach über dem Bild Lemmatisation da gehen du jetzt einfach über d Bild POS ADV VFIN ADV ADJD APPR ART NN PPER • Transcription: orthographie adaptée • Normalisation: orthographie standard, semi-automatique (taux d‘erreur ca. 20%, correction manuelle) • Lemmatisation: automatique (TreeTagger, taux d‘erreur ca. 2%) • POS-Tagging: automatique (TreeTagger, taux d‘erreur ca. 12%) FOLK Publication / Analyse • Datenbank Gesprochenes Deutsch (DGD2) • Base de Données de l’Allemand Parlé • 18 corpus de l’allemand parlé • Variation régionale (dialectes) • Corpus de conversation • Feuilleter / Rechercher dans • les méta-données • les enregistrements • les transcriptions FOLK Merci! http://www.exmaralda.org http://www.corpora.uni-hamburg.de http://agd.ids-mannheim.de http://dgd.ids-mannheim.de http://hzsk-services.de 08.07.2015 33