Technolangue Campagnes d’Evaluation (EVALDA)

Download Report

Transcript Technolangue Campagnes d’Evaluation (EVALDA)

Technolangue
Campagnes d’Evaluation
(EVALDA)
Khalid CHOUKRI
ELRA/ELDA ([email protected])
http://www.technolangue.net
http://www.elda.org/rubrique69.html
EVALDA / Plan
1)
Objectif du projet Evalda
2)
Descriptif des campagnes
3)
Synergie entre campagnes et apports
4)
Conclusion (Panel)

Présentation disponible sur www.technolangue.net
2
EVALDA / Définition
Le consortium propose la constitution
d’une infrastructure d'évaluation des
systèmes d'ingénierie linguistique du
français, pérenne et permanente,
et son exploitation par la
mise en œuvre de plusieurs expérimentations
3
EVALDA / Infrastructure
Proposition d’infrastructure pour l’évaluation en ingénierie linguistique
Comité(s) scientifique(s), comité(s) de supervision
Infrastructure
Recherches
et réflexions
sur les
méthodes...
Réalisation
des protocoles,
métriques,
outils
Ressources
linguistiques
Capitalisation
(des précédentes
recherches,
campagnes...)
Coordination
Partenaires
Experts
Logistique
Partenaires
Campagne 1
Campagne 2
Campagne 3
...
Participants
4
EVALDA / Objectifs (1/3)
 Mise en place de “briques” réutilisables

organisation, logistique, ressources linguistiques, métriques
et outils, … des acteurs (comités scientifiques, experts,
partenaires…).
 Garantir une indépendance et une neutralité
 Optimiser la synergie et la rationalisation .. Planning
ressources réflexions (économie d’échelle)
 garantir la possibilité de capitaliser les résultats des différentes
expérimentations
5
EVALDA / Objectifs (2/3)
L’infrastructure devra comprendre plusieurs pôles :

un pôle recherche et méthodes

un pôle d’élaboration des protocoles, des métriques et des outils d’évaluation

un pôle de production et de validation des ressources linguistiques

un pôle coordination pour la gestion et le suivi des campagnes

un pôle logistique

un pôle de pérennisation pour assurer la capitalisation des connaissances,
des outils et des ressources accumulés.
6
EVALDA / Partenaires
AFCP
ENST
LIDILEM
APIL
EPFL
Lille3-CERSATESTELIP
ATALA
ERSS
LIMSI
U-Maine
ATILF-ILF
Bell Labs
FT R&D
GREYC
Lingway
LLF
U-Mons
U-Neuchâtel
CISMEF-Rouen ICP
LORIA
VALORIA
CRIM
IMS
LPL
VECSYS
CRIS
INRIA
Multitel
XEROX
CRISCO
IRISA
RALI
DELIC
DFKI
DGA
IRIT
iSmart
LATL
Sinequa
Softissimo
STIM-AP/HP
ELAN
LIA
Synapse
ELDA
LIC2M
Systran
7
Tagmatica
EVALDA / Objectifs (3/3)
I. Objectifs en plus de l’état de l’Art
1. Pérenniser les produits
-
Créer une/des plate-forme(s) d’évaluation des technologies linguistiques qui
soit réutilisable au-delà d’EVALDA.
Constituer une base de ressources utiles en-dehors d’EVALDA.
2. Créer des synergies entre les différentes campagnes EVALDA
-
Partager et réutiliser les ressources et les outils développés originellement
pour une campagne dans d’autres campagnes.
Partager les efforts et l’expertise mise en œuvre et générée.
3. Créer des synergies à l’extérieur d’EVALDA e.g. Technovision? FP6
-
Partager des ressources créées dans EVALDA avec d’autres projets.
Réutiliser dans EVALDA des ressources crées dans d’autres projets.
Intégrer les outils créés dans EVALDA dans un cadre de développement plus
large.
8
EVALDA / Les thèmes
l'oral :
-la synthèse vocale,
-les transcriptions d'émissions d'actualité,
-le dialogue (pour des serveurs d'information orales type
renseignements touristiques).
l'écrit :
-les analyseurs syntaxiques,
-la tâche question-réponse en recherche d’information,
-l’alignement de corpus multilingues
-la traduction automatique.
Nécessité de trouver des sous-thèmes transversaux
9
EVALDA / Les campagnes
I. Campagnes d’évaluation EVALDA
1. ARCADE II : Evaluation de systèmes d’alignement de corpus bilingues
2. CESART : Evaluation de systèmes d’extraction de terminologie
3. CESTA : Evaluation de systèmes de traduction automatique
4. EASy : Evaluation de systèmes d’annotation syntaxique
5. EQueR : Evaluation de systèmes de question-réponse
6. ESTER : Evaluation de systèmes de transcription automatique d’émissions
radiodiffusées
7. EVASy : Evaluation de systèmes de synthèse de la parole
8. MEDIA : Evaluation de systèmes de dialogue en contexte et hors-contexte
10
EVALDA / ARCADE II
I.1. Campagne d’évaluation ARCADE II (1/2)
Objectifs :
• identifier les évolutions récentes de l’état de l’art de l’alignement multilingue.
• approfondir l’évaluation sur un large éventail de langues, incluant les langues à écriture non-latine.
Participants : 5 laboratoires publics et 2 industriels
Tâche T1 : Alignement phrastique
• 5 participants
• 2 groupes des langues dont 5 langues à écriture latine (allemand, anglais, espagnol, français, italien)
et 6 langues à écriture non-latine (arabe, chinois, grec, japonais, persan, russe)
• 2 types des corpus parallèles alignés au français (avec ou sans segmentation en phrases)
• 5 millions de mots (1 million pour chaque des langues à écriture latine) ; 550 articles (150x2 arabe-fr
; 50x2 pour les 5 autres langues à écriture non-latine)
Tâche T2 : Traduction d’entités nommées
• 3 participants
• 30x2 articles français annotés en EN (Monde Diplomatique) et les textes parallèles en arabe
• 4000 entités nommées en français à traduire en arabe
11
EVALDA / ARCADE II
I.1. Campagne d’évaluation ARCADE II (2/2)
Innovation – Intérêt :
- Recherche :
- ouverture à de nouvelles langues, notamment à écriture non-latine ;
- nouvelle tâche spécifique qui est traduction d’entités nommées français et
arabe
- Industrie :
- absence de projet concurrent à l’heure actuelle ;
- avancée technologique et méthodologique dans l’évaluation de l’alignement
multilingue
Ressources et Outils issus de la campagne :
- La mise au point de corpus de textes parallèles alignés d’une taille importante
et portant sur un éventail de langues très important, dont diverses langues à de
différentes écritures
- La mise à disposition des participants du logiciel d’alignement Unicode
AligneEd
12
EVALDA / CESART
I.2. Campagne d’évaluation CESART (1/2)
Objectifs :
• élaborer un nouveau protocole pour l'évaluation de systèmes d'acquisition de ressources terminologiques
• produire des ressources réutilisables sous la forme d’un « package » d’évaluation
Participants : 3 laboratoires publics et 2 industriels
Tâche T1 : Extraction de candidats termes
• 4 participants
• 3 domaines spécialisés (médecine, éducation, politique)
• 1 corpus médical (CISMeF) de 9 millions de mots français ; 1 corpus de l’éducation (SPIRAL) de 535.000
mots français ; 1 corpus politique (JOC) 240.000 mots français
Tâche T3 : Extraction de relations
• 1 participant
• 3 corpus de domaines spécialisés
• 3 thésaurus des domaines définis
• 3 listes de termes amorces
13
EVALDA / CESART
I.2. Campagne d’évaluation CESART (2/2)
Innovation – Apport :
- Prise en compte des critères d’évaluation basés sur l’application (utilisateur)
- Évaluation automatique (quantitative) + évaluation humaine (qualitative)
Ressources et Outils issus de la campagne :
- Collection de textes médicaux extraits du site de Santé-Canada
- Collection de textes de l’éducation provenant de la revue scientifique Spirale
- Listes des termes amorces de domaines spécialisés
14
EVALDA / CESTA
I.3. Campagne d’évaluation CESTA (1/2)
Objectifs : - Alimenter l’activité de recherche dans le domaine en fournissant une photographie de
l’état de l’art en France.
- Permettre le développement de cette activité en fournissant des corpus aux
chercheurs
Participants : 5 systèmes industriels et 2 académiques
Deux campagnes : une campagne sur un vocabulaire non restreint, une campagne sur un
domaine spécialisé (évaluation après enrichissement terminologique)
Première campagne : - 2 corpus anglais et arabe de 20.000 mots + 200.000 mots de masquage
- 2 traductions de référence en français
Seconde campagne : - même quantité de données que la première campagne
- enrichissement terminologique à partir d’un corpus de développement
15
EVALDA / CESTA
I.3. Campagne d’évaluation CESTA (2/2)
Innovation – Apports :
- Nouvelles paires de langues anglaisfrançais et arabefrançais
- Expérimentation de nouvelles métriques d’évaluation
- Méta-évaluation de métriques automatiques
- Plates-formes d’évaluation humaine et automatique
Ressources et Outils issus de la campagne :
- Corpus français de 13.000 mots étiqueté fluidité et adéquation
- Corpus anglais-français et arabe-français alignés de 20.000 mots chacun
- Corpus anglais-français et arabe-français alignés de 20.000 mots chacun sur un
domaine spécialisé
- Plate-forme d’évaluation pour des jugements humains
- Plate-forme d’évaluation automatique
- Développement de deux nouvelles métriques automatiques
16
EVALDA / EASy
I.4. Campagne d’évaluation EASy (1/2)
Objectifs : - Création d'une méthodologie d'évaluation des analyseurs syntaxiques
- Développement des outils d’évaluation des résultats
- Création à faible coût d'une ressource linguistique validée
Participants : 2 coordinateurs, 5 fournisseurs de corpus, 13 participants
Corpus : - 1 million de mots
- 6 types de corpus issus de sources hétérogènes :
- médical (105 kmots)
- littéraire (275 kmots)
- méls (120 kmots)
- général (260 kmots)
- transcriptions de l’oral (100 kmots)
- questions (140 kmots)
2 types d’évaluation : - constituants
- relations de dépendances
17
EVALDA / EASy
I.4. Campagne d’évaluation EASY (2/2)
Innovation – Apports :
- De nombreux participants
- Constitution d’un corpus de 1 million de mots annoté en constituants et en relations
syntaxiques.
Ressources et Outils issus de la campagne :
- Collection de textes français étiquetés syntaxiquement couvrant 6 domaines :
médical, littéraire, emails, général, oral et questions 1 million de mots
- Outils et Guide détaillé pour les annotations
- Outils d’évaluation (en constituants et en relations)
- Outil de visualisation des constituants et des relations
18
EVALDA / EQueR
I.5. Campagne d’évaluation EQueR (1/2)
Objectifs : - Alimenter l’activité de recherche dans le domaine en fournissant une photographie de
l’état de l’art en France.
- Permettre le développement de cette activité en fournissant des corpus aux
chercheurs
Participants : 5 laboratoires publics et 3 institutions privées
Deux tâches : une tâche générique (7 participants) et une tâche spécialisée (5 participants)
Tâche générique : - 1,5 Go collection hétérogènes de textes (articles de presses
LM, LMD, SDA, Sénat)
- 500 questions (factuelle, définition, liste, oui/non)
Tâche spécialisée : - 140 Mo collection de textes liés au domaine médical (articles
scientifiques, recommandations de bonnes pratiques médicales
- 200 questions (factuelle, définition, liste, oui/non)
19
EVALDA / EQueR
I.5. Campagne d’évaluation EQueR (2/2)
Innovation – Apports :
- Participants : - De nouveaux participants qui n’avaient jamais fait d’évaluation Q-R auparavant.
- Beaucoup d’équipes françaises en comparaison avec le nombre de participants
européens à CLEF.
- Evaluation : - Tâche « Question-réponse » sur un corpus spécialisé.
- Un nouveau type de questions : oui/non.
Ressources (R) et Outils (O) issus de la campagne :
- Collection de textes français, 1,5 Go (articles de presse). R
- Collection de textes français issus du domaine médical, 140 Mo (articles scientifiques,
recommandations). R
- Corpus « général » de 500 questions en français. R
- Corpus « médical » de 200 questions en français. R
- Logiciel d’aide à l’évaluation des résultats dans le cadre d’une évaluation de systèmes
de question-réponse O
- Logiciel d’évaluation automatique (en cours de développement) O
20
EVALDA / ESTER
I.6. Campagne d’évaluation ESTER (1/2)
Objectifs :
-
promouvoir une dynamique de l'évaluation en France
mettre en place une structure pérenne d'évaluation
production et diffusion des ressources linguistiques importantes
mesurer et faire progresser les performances des systèmes
Participants : -
11 laboratoires publics
2 institutions privées
Trois tâches : -
Transcription orthographique (+ catégorie temps réél)
-
Segmentation (en événements sonores, en locuteurs, suivi de
locuteurs)
-
Extraction d’informations (détection d’entités nommées)
21
EVALDA / ESTER
I.6. Campagne d’évaluation ESTER (2/2)
Innovation – Apports :
- La majorité des participants développaient pour la première fois un système de
transcription automatique
- Participation nombreuse
- Tâche de détection d’entités nommées sur de l’oral
Ressources et Outils issus de la campagne :
- 100 h d’émissions radiophoniques transcrites et annotés en EN (40 h pré existantes)
- 1700 h d’émissions radiophoniques non transcrites
- Guides d’annotations
- Package de scoring
- Ressources dérivées : lexiques, alignement phonétiques, transcription automatique
22
EVALDA / EVASy
I.5. Campagne d’évaluation EVASy (1/2)
Développer et mettre à disposition des outils et méthodes d’évaluation
validés par le consortium
Mettre à jour les faiblesses et atouts des systèmes de synthèse
- ELDA, coordinateur
Objectifs : Participants :
-
LIMSI-CNRS, responsable scientifique
- DELIC (Université de Provence), fournisseur de corpus
- CRISCO (Université de Caen)
- LIA (Université d’Avignon)
- Acapela Group - ELAN
- ICP Grenoble
- LATL: participant externe
- MULTITEL ASLB: participant externe
Trois axes d’évaluation :
-
Evaluation de la conversion graphème-phonème
Evaluation de la prosodie de synthèse
Evaluation globale de la synthèse
23
EVALDA / EVASy
I.7. Campagne d’évaluation EVASy (2/2)
Innovation – Apports :
- Evaluations: Poursuite de la campagne AUPELF (maintenant AUF) 1996-1998:
- « Evaluation conversion grapheme-phoneme »: sur un corpus de noms propres
- « Evaluation de la Prosodie » : nouvelle tâche, innovation méthodologique
- « Evaluation Globale» : nouvelle tâche, innovation méthodologique
Ressources et Outils issus de la campagne :
–
–
–
–
–
–
Création d’un corpus phonétisé d’emails (2.146 emails, soit 114.685 mots)
Création d’un corpus phonétisé de noms propres (4.000 couples prénoms +
noms)
Base de données associée aux noms propres : contexte, nationalité, origine
linguistique
Création de listes de phrases SUS (Semantically Unpredictable Sentences) - ~15
listes de 10 phrases
Nouvelle verbalisation pour les tests MOS (Mean Opinion Score)
Plate-forme d’évaluation pour réaliser les tests subjectifs (jugements humains)
24
EVALDA / MEDIA
I.8. Campagne d’évaluation MEDIA (1/2)
Objectifs :
–
–
–
–
définition d’une méthodologie d’évaluation de la compréhension des
systèmes de dialogues
évaluation des systèmes de compréhension de dialogues
production et diffusion des ressources linguistiques
mesurer et faire progresser les performances des systèmes
Participants :
–
–
–
–
–
–
–
–
FT R&D : France Telecom Recherche et Développement
IMAG : Institut d'Informatique et de Mathématiques Appliquées de
Grenoble
IRIT : Institut de Recherche en Informatique de Toulouse
LIMSI : Laboratoire des Systèmes et Instruments Ile de France
LIUM : Laboratoire d'Informatique de l'Université du Maine
LORIA : Laboratoire Lorrain d'Intelligence Artificielle
LIA : Laboratoire d'Informatique d'Avignon
VALORIA : Laboratoire de Recherche en Informatique et ses
Applications de Vannes et Lorient
25
EVALDA / MEDIA
I.8. Campagne d’évaluation MEDIA (2/2)
Deux axes d’évaluations
– evaluation hors-contexte du dialogue
– evaluation en-contexte du dialogue
Innovation – Apports:
- Définition d’un paradigme d’évaluation hors et en contexte de dialogue
Ressources et Outils issus de la campagne :
– Corpus de 1250 dialogues enregistrés (WoZ) pour la tâche d’informations
touristiques
– Transcriptions orthographiques, annotations en segments sémantiques et métaannotations (actes de dialogues, répetitions, incises, etc)
– Outil d’annotation (semantizer)
– Outil d’évaluation (mediaval)
26
Synergies
EVALDA
Réutilisation des ressources et
outils dans EVALDA et à
l’extérieur
EVALDA / Synergies
I. Objectifs
1. Créer des synergies entre les différentes campagnes EVALDA
2. Créer des synergies à l’extérieur d’EVALDA
28
EVALDA / Synergies
II. Synergies à l’intérieur d’EVALDA (1/3)
II.1. EQUER  CESART
•
Réutilisation du corpus médical de la tâche médical
comme corpus de spécialité (+ parallélisation avec
l’anglais).
II.2. CESART  CESTA
•
Réutilisation du corpus médical bilingue parallèle
anglais//français de CESART pour la 2nde campagne de
CESTA.
II.3. ARCADE-II  CESTA
•
Réutilisation du corpus aligné arabe//français pour la 1ère
campagne de CESTA.
29
EVALDA / Synergies
II. Synergies à l’intérieur d’EVALDA (2/3)
II.4. EVASY  EASY
•
Réutilisation du corpus de 2200 emails anonymisés
(DELIC)
II.5. ESTER  EASY
•
Réutilisation d’une partie des transcriptions d’émissions
de radio
II.6. EQUER  EASY
•
Réutilisation d’un corpus de rapports du Sénat
30
EVALDA / Synergies
II. Synergies à l’intérieur d’EVALDA (3/3)
ARCADE-II
CESART
CESTA
EASY
ARCADE-II
CESART
CESTA
EASY
EQUER
ESTER
EVASY
MEDIA
Réutilisation de ressources produites
31
EQUER
ESTER
EVASY
MEDIA
EVALDA / Synergies
II. Synergies à l’extérieur d’EVALDA (1/2)
TC-STAR
CHIL
Amaryllis
ARCADE-II
CESART
CESTA
EASY
EQUER
ESTER
EVASY
MEDIA
Réutilisation de ressources produites
Emprunt de ressources
Réutilisation d'outils
32
EVALDA / Synergies
II. Synergies à l’extérieur d’EVALDA (2/2)
II.1. Projet européen TC-STAR
•
•
•
Développement de systèmes distribués de traduction oral-oral en temps
réel.
Réutilisation des plate-formes d’évaluation développées dans :
•
CESTA (traduction automatique)
•
EVASY (synthèse vocale)
Réutilisation de corpus alignés produits dans ARCADE-II (espagnolanglais, chinois-français-anglais).
II.2. Projet Amaryllis (terminé)
•
Réutilisation de 3000 questions du corpus sur les notices
bibliographiques dans EASY
33
EVALDA / Produits
III. Pérennisation (1/5)
III.1. Produits d’ARCADE-II
RSC
•
Création de corpus alignés :
•
•
•
Textes allemand, italien, espagnol, anglais alignés au français (5 x 1M
mots)
Arabe/français/anglais (3 x 150 articles)
Grec/français, japonais/français, chinois/français, russe/français,
persan/français (5 x 50 articles)
III.2. Produits de CESTA
RSC
•
RSC
•
LOG
•
LOG
RSC
•
•
Création d’un corpus français de 13.000 mots étiqueté fluidité et
adéquation.
Création de corpus alignés : anglais/français et arabe/français (2 x
20.000 mots)
Création d’une plate-forme d’évaluation (métriques automatiques +
jugements humains) sous forme de services web.
Création d’une plate-forme d’évaluation humaine via Internet
Création de corpus médicaux alignés : anglais/français et arabe/français
34
EVALDA / Produits
III. Pérennisation (2/5)
III.3. Produits de CESART
RSC
•
RSC
•
Création de nouvelles listes de synonymes à ajouter au thésaurus
international MeSH.
Création de 2 corpus spécialisés, domaine médical et domaine de
l’éducation
III.4. Produits d’EVASY
RSC
•
•
RSC
•
RSC
RSC
RSC
LOG
•
•
•
Création d’un corpus phonétisé d’emails (plus de 2000 emails)
Création d’un corpus phonétisé de noms propres (4000 couples
prénoms + noms)
Base de données associée aux noms propres : contexte, nationalité,
origine linguistique
Création de listes de phrases SUS (Semantically Unpredictable
Sentences) (150 phrases)
Nouvelle verbalisation tests MOS (Mean Opinion Score)
Plate-forme d’évaluation pour réaliser des tests subjectifs (jugements
humains)
35
EVALDA / Produits
III. Pérennisation (3/5)
RSC
III.5. Produits d’EQueR
•
Création d’un corpus français d’environ 1,5 Go.
 constitué principalement de textes journalistiques et de textes de lois
provenant de 4 sources différentes : Le Monde, Le Monde Diplomatique,
SDA (équivalent de l’AFP en Suisse), et du site Web du Sénat.
RSC
•
Création d’un corpus « médical » français d’environ 50 Mo.
 constitué principalement d’articles scientifiques et de
recommandations médicales tirés du Web et plus particulièrement des
sites de Santé Canada, Orphanet, CHU Rouen, FNCLCC.
RSC
•
RSC
•
LOG
•
Création d’un corpus « général » de 500 questions en
français.
Création d’un corpus « médical » de 200 questions en
français.
Outil d’aide à l’évaluation de système de question-réponse
36
EVALDA / Produits
III. Pérennisation (4/5)
RSC
RSC
RSC
LOG
RSC
LOG
III.6. Produits d’ESTER
•
Production d’un corpus de 60 h d’émissions radiophoniques
transcrites orthographiquement
•
Annotation en Entités Nommés de 100 h d’émissions
radiophoniques
•
Production d’un corpus de 1700h d’émissions radiophoniques
•
Outils d’évaluation
III.7. Produits d’EASY
•
Corpus étiqueté syntaxiquement de 1 million de mots couvrant
plusieurs styles de textes : langue générale (journaux, rapports…),
questions, emails, transcriptions, littéraire, médical
•
Outils d’évaluation
37
EVALDA / Produits
III. Pérennisation (5/5)
RSC
RSC
LOG
LOG
III.8. Produits de MEDIA
•
Corpus de 1250 dialogues enregistrés, transcrits et annotés
sémantiquement et en actes de dialogue
•
Méta annotations
•
Outil d’annotation sémantique
•
Paradigme et outil d’évaluation
III.9. Intégration
•
Dans le cadre des synergies avec TC-STAR, puis avec CHIL
•
Développement d’une architecture distribuée pour l’évaluation,
intégrant les outils logiciels produits par EVALDA
•
Pour commencer : ESTER, CESTA, EVASY
38
EVALDA / Dissémination
IV. Dissémination
Articles (conférences) : - EVALDA/Technolangue.net , CESTA, ESTER à LREC 2004
- EVALDA, ESTER aux JEP à Fès 2004
- CESTA à COLING 2004
- EVASY à InterSpeech 2005, et TALN 2005
- EQUER et EASY à TALN 2005
- CESTA à MT Summit 2005
Revues : - EVASY soumis à Speech Communication, Computer Speech & Language, TALN
- CESTA dans Multilingual Computing & Technology #68
Posters (conférences) :
- EVALDA/Technolangue.net, MEDIA à LREC 2004
- MEDIA aux JEP à Fès 2004
- MEDIA à InterSpeech 2005
Stands : - EVALDA/Technolangue.net à iEXPO 2004
Sites web : www.technolangue.net
www.elda.org/evasy
www.limsi.fr/Recherche/CORVAL/easy
www.elda.org
www.afcp-parole.org/ester
Workshops : - EQUER, 30 novembre 2004
- MEDIA, 14 novembre 2005
- EVASY, février ou mars 2006
- ESTER, mars 2005
39
EVALDA / Conclusion
Technolangue (EVALDA)
– Un cas unique en Europe
– Un exemple qui inspire plusieurs programmes nationaux
– Une capitalisation importante
– ... étendre a l’Europe ?