CESTA : Campagne d’évaluation des systèmes de traduction automatique Andrei Popescu-Belis
Download
Report
Transcript CESTA : Campagne d’évaluation des systèmes de traduction automatique Andrei Popescu-Belis
CESTA : Campagne d’évaluation
des systèmes
de traduction automatique
Andrei Popescu-Belis
Université de Genève
i-expo, Paris, 14 juin 2007
Pourquoi évaluer des systèmes de
traduction automatique (TA) ?
La qualité des systèmes de TA augmente
ils possèdent déjà de nombreuses applications
Les utilisateurs ont besoin de critères
pour acheter, utiliser, ou remplacer des systèmes
Des méthodes d’évaluation fiables permettent
d’améliorer les systèmes de TA et aident les
utilisateurs dans leurs choix
2
CESTA | i-expo | 14 juin 2007
Pourquoi est-ce difficile d’évaluer
des systèmes de TA ?
Il n’y a pas une seule, mais de nombreuses
traductions correctes d’un texte donné
Il est donc impossible de comparer une traduction
produite par un système à « la traduction correcte »
3
l’ensemble de ces traductions est difficile à cerner
il faut trouver d’autres méthodes pour en estimer la qualité
De plus, la qualité de la traduction n’est pas le seul facteur
qui détermine l’utilité d’un système de TA
CESTA | i-expo | 14 juin 2007
CESTA (2003-2006) : objectifs
Définir un protocole fiable pour l’évaluation de la TA
Évaluer des systèmes de TA
industriels et académiques
traduisant de l’anglais et de l’arabe vers le français
dans plusieurs domaines et conditions d’utilisation
Mettre à disposition de la communauté des
ressources et des outils pour l’évaluation de la TA
CESTA EVALDA Technolangue
4
mesures de qualité nécessitant des juges humains
mesures de qualité automatiques
synergies avec ARCADE2, CESART, EQueR, EVASY
CESTA | i-expo | 14 juin 2007
Organisateurs et comité scientifique
5
Organisateurs
Khalid Choukri, Olivier Hamon, Sylvain Surcin (ELDA)
Widad Mustafa El Hadi, Marianne Dabbadie, Ismaïl Timimi
(Université de Lille 3, IDIST/CERSATES)
Comité scientifique
Christian Boitet (Université de Grenoble)
Stéphane Chaudiron (Ministère de la Recherche)
Anthony Hartley (Université de Leeds/CTS)
Philippe Langlais (Université de Montréal/RALI)
Andrei Popescu-Belis (Université de Genève)
Martin Rajman (EPFL/LIA)
CESTA | i-expo | 14 juin 2007
Plan de la présentation
1. Spécifications et méthodes
mesures de la qualité de la TA
scénarios des deux campagnes réalisées
ressources linguistiques : données de test
2. Exemples de résultats obtenus
scores des systèmes
étude de la fiabilité des métriques
3. Apports et perspectives
6
CESTA | i-expo | 14 juin 2007
Première partie
Spécifications et méthodes de CESTA
Systèmes de TA participant à CESTA
8
Première campagne
Seconde campagne
CIMOS
Comprendium
Comprendium
RALI
RALI
RWTH
SDL
Softissimo
Softissimo
Systran
Systran
UPC
CESTA | i-expo | 14 juin 2007
Mesures de qualité automatiques (1/2)
Principe: mesurer la qualité d’un texte traduit en comparant celuici à une ou plusieurs traductions de référence
Objectif de CESTA: tester la fiabilité de plusieurs de ces
métriques, pour les traductions vers le français
Mesures employées dans CESTA
BLEU : Bilingual Evaluation Understudy (Papineni et al. 2001)
NIST (Doddington, 2002)
variante de BLEU: gain d’information et pénalités selon la taille
WNM : Weighted n-gram metric (Babych & Hartley 2004)
9
moyenne pondérée du nombre de mots en commun, du nombre de
bigrammes en commun, etc. (n-grammes avec n = 1, 2, 3, ou 4)
fiabilité inconnue pour des langues cible à morphologie riche
pondère les comparaisons de n-grammes selon leur fréquence
autorise une certaine variation dans la traduction
CESTA | i-expo | 14 juin 2007
Mesures de qualité automatiques (2/2)
Mesures employées dans CESTA [suite]
X-Score (Rajman & Hartley, 2001)
D-Score (Rajman & Hartley, 2001)
analyse de la préservation du contenu sémantique en comparant la
représentation sémantique vectorielle du texte traduit avec celle d’un
texte de référence
mesure expérimentale implémentée par l’ELDA pour CESTA
Distances d’édition de chaînes de caractères (Leusch et al., 2003)
10
analyse la grammaticalité du texte traduit en comparant la distribution
morpho-syntaxique du texte avec un corpus de référence
mesure expérimentale implémentée par l’ELDA pour CESTA
mWER: Multi-reference Word Error Rate
mPER: Multi-reference Position-independant Word Error Rate
CESTA | i-expo | 14 juin 2007
Mesures d’évaluation fondées
sur des jugements humains
Objectifs de CESTA
l’évaluation humaine des systèmes (référence de la qualité)
la méta-évaluation des métriques automatiques
en comparant leurs scores avec ceux des juges humains
Développement par l’ELDA d’une interface pour
l’évaluation humaine en ligne, via HTTP
Scores d’adéquation (sémantique) et de fluidité
11
échelle de 1 à 5
chaque segment est évalué par deux juges différents
les segments sont présentés aléatoirement
CESTA | i-expo | 14 juin 2007
Interface d’évaluation de l’adéquation
12
CESTA | i-expo | 14 juin 2007
Première et seconde campagnes
Première campagne: domaine « général »
pas de phase d’adaptation au domaine des textes
mise en place du protocole d’évaluation
Seconde campagne: avant et après adaptation à
un domaine spécifique = santé
13
comparaison des résultats des systèmes de TA dans les
deux conditions
perfectionnement et réutilisation du protocole d’évaluation
analyse de la fiabilité des métriques
CESTA | i-expo | 14 juin 2007
Données : anglais français
1ère campagne
test à blanc : 20.000 mots extraits du JOC
test réel : 20.000 mots extraits du JOC + 200.000 mots
extraits de MLCC pour le masquage (répartition aléatoire)
4 trad. de référence (1 officielle + 3 agences) pour l’évaluation
2nde campagne
adaptation : 20.000 mots extraits du site Santé Canada
sous-corpus du corpus CESART français
1 traduction de référence
test réel : 20.000 mots extraits du même site + 200.000 mots
pour le masquage
14
1 traduction de référence
4 trad. de référence (1 officielle + 3 agences) pour l’évaluation
CESTA | i-expo | 14 juin 2007
Données : arabe français [similaires]
1ère campagne
test à blanc : 20.000 mots extraits du Monde Diplomatique
test réel : 20.000 mots extraits du monde Diplomatique (2002)
+ 200.000 mots extraits de Al-Hayat (1998) pour le masquage
4 trad. de référence (1 officielle + 3 agences) pour l’évaluation
2nde campagne
adaptation : 20.000 mots extraits des sites UNICEF, OMS et
Family Health International
1 traduction de référence
test réel : 20.000 mots extraits des mêmes sites + 200.000
mots pour le masquage
15
1 traduction de référence
4 trad. de référence (1 officielle + 3 agences) pour l’évaluation
CESTA | i-expo | 14 juin 2007
Déroulement
Test à blanc : août 2004
données semblables à la campagne d’évaluation
vérifier le format des fichiers et l’échange des données
1ère campagne
2nde campagne
16
1er au 8 février 2005 : phase de test des systèmes
avril à juin 2005 : évaluations humaines
27 septembre au 10 octobre 2005 : phase d’adaptation
11 au 18 octobre 2005 : phase de test
octobre 2005 à février 2006 : évaluations humaines
CESTA | i-expo | 14 juin 2007
Deuxième partie
Exemples de résultats obtenus par CESTA
Le rapport final est disponible à l’adresse :
http://www.technolangue.net/article199.html
Pourcentage d’accord entre les scores
humains en fonction de la distance [2e c.]
Fluidité Arabe & Anglais
Fluidité Anglais
Fluidité Arabe
Adéquation Arabe & Anglais
Adéquation Anglais
Adéquation Arabe
100,00
90,00
80,00
70,00
60,00
50,00
40,00
30,00
20,00
10,00
0,00
0
18
1
2
CESTA | i-expo | 14 juin 2007
3
4
Jugements humains : scores et intervalles de
confiance ; rangs et leurs probabilités
[2nde campagne, après adaptation au domaine]
Système
Fluidité
Adéquation
Score (1-5) Classement Score (1-5) Classement
S8(en,2b)
2.28±.10
5 (p=1)
2.84±.11
5 (p=1)
S9(en,2b)
3.19±.11
3* (p=.51)
3.15±.10
4 (p=1)
S10(en,2b)
3.30±.10
2 (p=.95)
3.44±.11
2 (p=.88)
S11(en,2b)
3.19±.10
3* (p=.51)
3.38±.11
3 (p=.88)
S12(en,2b)
3.57±.09
1 (p=1)
3.78±.09
1 (p=1)
S13(ar,2b)
3.08±.11
1 (p=1)
2.70±.12
1 (p=1)
19
CESTA | i-expo | 14 juin 2007
Jugements humains : scores et intervalles de
confiance ; rangs et leurs probabilités
[2nde campagne, après adaptation au domaine]
Système
Fluidité
Adéquation
Score (1-5) Classement Score (1-5) Classement
S8(en,2b)
2.28±.10
5 (p=1)
2.84±.11
5 (p=1)
S9(en,2b)
3.19±.11
3* (p=.51)
3.15±.10
4 (p=1)
S10(en,2b)
3.30±.10
2 (p=.95)
3.44±.11
2 (p=.88)
S11(en,2b)
3.19±.10
3* (p=.51)
3.38±.11
3 (p=.88)
S12(en,2b)
3.57±.09
1 (p=1)
3.78±.09
1 (p=1)
S13(ar,2b)
3.08±.11
1 (p=1)
2.70±.12
1 (p=1)
20
CESTA | i-expo | 14 juin 2007
Métriques automatiques : scores et intervalles
de confiance ; rangs et probabilités
[2nde campagne, après adaptation]
BLEU
Système
NIST
WNMf
X-score
D-score
%
cl.
v. a.
cl.
%
cl.
v. a.
cl.
v. a.
cl.
S8(en,2b)
33.04±3.00
2
8.35±0.40
5
50.05±0.66
5
35.58
5
41.52
1
S9(en,2b)
38.07±2.70
4
9.13±0.34
2
51.50±0.71
3
36.71
4
44.06
3
S10(en,2b)
36.60±2.40
5
8.97±0.31
3
52.47±0.68
2
38.50
1
44.06
3
S11(en,2b)
35.74±4.60
3
8.77±0.49
4
50.59±0.66
4
38.15
2
46.16
5
S12(en,2b)
40.43±1.00
1
9.27±0.17
1
56.25±0.77
1
37.65
3
42.20
2
S13(ar,2b)
40.82
1
8.95
1
54.15
1
42.04
1
-
-
21
CESTA | i-expo | 14 juin 2007
Métriques automatiques : scores et intervalles
de confiance ; rangs et probabilités
[2nde campagne, après adaptation]
BLEU
Système
NIST
WNMf
X-score
D-score
%
cl.
v. a.
cl.
%
cl.
v. a.
cl.
v. a.
cl.
S8(en,2b)
33.04±3.00
2
8.35±0.40
5
50.05±0.66
5
35.58
5
41.52
1
S9(en,2b)
38.07±2.70
4
9.13±0.34
2
51.50±0.71
3
36.71
4
44.06
3
S10(en,2b)
36.60±2.40
5
8.97±0.31
3
52.47±0.68
2
38.50
1
44.06
3
S11(en,2b)
35.74±4.60
3
8.77±0.49
4
50.59±0.66
4
38.15
2
46.16
5
S12(en,2b)
40.43±1.00
1
9.27±0.17
1
56.25±0.77
1
37.65
3
42.20
2
S13(ar,2b)
40.82
1
8.95
1
54.15
1
42.04
1
-
-
22
CESTA | i-expo | 14 juin 2007
Corrélation de Pearson (échelle -1 à 1)
entre les métriques automatiques
et les juges humains
[2nde campagne, après adaptation, ENFR]
BLEU
NIST
WNMf
X-score
D-score
Fluidité
0.85
0.87
0.86
0.52
0.05
Adéquation
0.94
0.95
0.95
0.39
0.25
23
CESTA | i-expo | 14 juin 2007
Corrélation de Pearson (échelle -1 à 1)
entre les métriques automatiques
et les juges humains
[2nde campagne, après adaptation, ENFR]
BLEU
NIST
WNMf
X-score
D-score
Fluidité
0.85
0.87
0.86
0.52
0.05
Adéquation
0.94
0.95
0.95
0.39
0.25
24
CESTA | i-expo | 14 juin 2007
Comparaison des scores obtenus par les
métriques automatiques avant et après
adaptation [2nde campagne, ENFR]
Sys
BLEU (%)
NIST
WNMf (%)
X-score
avant après avant après avant après avant
D-score
après avant après
S8
32.83 33.04
7.76
8.35
48.09 50.05 34.91 35.58 42.56 41.52
S9
37.96 38.07
9.14
9.13
51.37 51.50 36.68 36.71 44.02 44.06
S10 33.80 36.60
8.58
8.97
50.02 52.47 38.57 38.50 44.13 44.06
S11 35.19 35.74
8.71
8.77
49.79 50.59 37.86 38.15 46.61 46.16
S12 25.61 40.43
7.38
9.27
48.06 56.25 34.60 37.65 40.67 42.20
25
CESTA | i-expo | 14 juin 2007
Comparaison des scores obtenus par les
métriques automatiques avant et après
adaptation [2nde campagne, ENFR]
Sys
BLEU (%)
NIST
WNMf (%)
X-score
avant après avant après avant après avant
D-score
après avant après
S8
32.83 33.04
7.76
8.35
48.09 50.05 34.91 35.58 42.56 41.52
S9
37.96 38.07
9.14
9.13
51.37 51.50 36.68 36.71 44.02 44.06
S10 33.80 36.60
8.58
8.97
50.02 52.47 38.57 38.50 44.13 44.06
S11 35.19 35.74
8.71
8.77
49.79 50.59 37.86 38.15 46.61 46.16
S12 25.61 40.43
7.38
9.27
48.06 56.25 34.60 37.65 40.67 42.20
26
CESTA | i-expo | 14 juin 2007
Troisième partie
Apports et perspectives
Bilan global de CESTA
Production d’une grande quantité de données
corpus parallèles : texte source + 4 traductions de référence
(officielle, agences) + 5 traductions automatiques
anglais/français et arabe/français
Analyse de nombreuses métriques automatiques récentes
Développement et étude de deux métriques expérimentales
Protocole d’évaluation
Site web pour l’évaluation humaine
28
CESTA | i-expo | 14 juin 2007
Apports de la campagne CESTA
Aux chercheurs
nouveaux résultats sur l’applicabilité des métriques automatiques
au français elles sont moins fiables que pour l’anglais
Aux développeurs de systèmes de TA ENFR et ARFR
utiliser le package CESTA pour mesurer leurs progrès
Aux utilisateurs de TA
les intervalles de confiance et les corrélations de CESTA permettent
d’estimer la fiabilité d’autres résultats obtenus
les valeurs obtenues dans CESTA permettent de comparer les systèmes
avec l’état de l’art en 2005-2006
utiliser le package CESTA pour comparer des systèmes de TA
Le meilleur système ou le système le plus adapté ?!
beaucoup de qualités peuvent être utiles en réalité
répertoire FEMTI : http://www.issco.unige.ch/femti
29
CESTA | i-expo | 14 juin 2007
Publications
Hamon O., Popescu-Belis A., Hartley A., Mustafa El Hadi W. & Rajman M. (à paraître) – “CESTA: Campagne
d'Evaluation des Systèmes de Traduction Automatique”. In Chaudiron S. et al., eds., Bilan de l'action
Technolangue (2002-2006), Hermès, Paris, 24 p.
Hamon O., Hartley A., Popescu-Belis A. & Choukri K. (à paraître) – “Assessing Human and Automated Quality
Judgments in the French MT Evaluation Campaign CESTA”. In Proceedings of Machine Translation Summit
XI, Copenhagen, 8 p.
O. Hamon, M. Rajman (2006). “X-Score: Automatic Evaluation of Machine Translation Grammaticality”. In
Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa,
Italy, May 2006, p.155-160
O. Hamon, A. Popescu-Belis., K. Choukri, M. Dabbadie, A. Hartley, W. Mustafa El Hadi, M. Rajman, I. Timimi,
(2006). “CESTA: First Conclusions of the Technolanguage MT Evaluation Campaign”. In Proceedings of the
5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy, May 2006,
p.179-184
Philippe Langlais, Fabrizio Gotti and Alexandre Patry, (2006) " De la Chambre des communes à la chambre
d'isolement: adaptabilité d'un système de traduction basé sur les segments", in Proceedings of 13th TALN,
Leuven, Belgium, April 10-13, pages 217-226 .
S. Surcin, O. Hamon, A. Hartley, M. Rajman, A. Popescu-Belis, W. Mustafa El Hadi, I. Timimi, M. Dabbadie, K.
Choukri, (2005), “Evaluation of Machine Translation with Predictive Metrics beyond BLEU/NIST: CESTA
Evaluation Campaign #1”. In Proceedings of MT Summit X, Phuket, Thailand, September 2005, p. 117-124.
M. Dabbadie, W. Mustafa El Hadi, I. Timimi, (2004), “CESTA, The first European Machine Translation Evaluation
Campaign”. In Multilingual Computing, n° 65 volume 15, issue 5, p. 10-11.
V. Mapelli, M. Nava, S. Surcin, D. Mostefa, K. Choukri. “Technolangue: A Permanent Evaluation and Information
Infrastructure”. In : Proceedings of the 4th international Conference on Language Resources and Evaluation
(LREC 2004), Lisbon, Portugal, May 2004, p.381-384.
W. Mustafa El Hadi, M. Dabbadie, I. Timimi, M. Rajman, P. Langlais, A. Hartley, A. Popescu-Belis (2004), “Work-inProgress project report: CESTA Machine Translation Evaluation Campaign”. In Proceedings of COLING'
2004, Geneva, Switzerland, August 2004.
30
CESTA | i-expo | 14 juin 2007
CESTA remercie chaleureusement tous les
systèmes ayant participé à la campagne !
COMPRENDIUM - Translendium SL, www.translendium.com [ENFR]
MLTS - CIMOS, www.cimos.com [ARFR]
RALI, Université de Montréal [ENFR]
REVERSO - Softissimo, www.softissimo.com, www.reverso.net [ENFR]
Université Technologique de Aachen (RWTH) [ARFR]
SDL Enterprise Translation Server – SDL Int., www.sdl.com [ENFR]
SYSTRAN, www.systran.fr [ARFR et ENFR]
Université Polytechnique de Catalogne [ENFR]
31
CESTA | i-expo | 14 juin 2007