La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt

Download Report

Transcript La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt

La FReeBank :
vers une base libre de corpus annotés
Susanne Salmon-Alt (ATILF – CNRS)
Eckhard Bick (University of Southern Denmark)
Laurent Romary (LORIA – INRIA)
Jean-Marie Pierrel (ATILF – CNRS)
Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc
Survol
•
•
•
•
•
•
Trois constats, un objectif et un rêve
Terminologie
Spécifications architecturales
Amorce et état actuel
Perspectives
Démo
– De l’architecture à l’interface
– Dépôt et visualisation
Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc
Trois constats
• Manque de corpus annotés
– modélisation, apprentissage, évaluation
– retard important par rapport à l’anglais
• Initiatives d’annotation au-delà de la morphologie
–
–
–
–
syntaxe (Abeillé 2003, Vilnat & al. 2003)
sémantique ?
anaphores (Tutin & al. 1999, Popescu-Belis 1999, Salmon-Alt 2002)
majorité de ressources sous droits et/ou non normalisées
• Initiatives de mise en ligne de ressources libres
– tables LADL/IGM, LEFFF, ABU
– Asila, GDR Sémantique, Ananas, Text®, ABU
– mais peu de ressources annotées
– problèmes d’interfaçage et de mise à jour
Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc
Un objectif
• Espace ouvert de dépôt de ressources libres
– pas un simple espace de méta-données (cf. OLAC)
– téléchargement et dépôt de ressources brutes ou annotées
– dépôt d’annotations sur ressources existantes
– méta-annotations
– annotations concurrentes
– corrections, affinages
– annotation d’extraits
– pas de validation à priori des annotations
– documentation
– schémas
– pratiques
Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc
… et un rêve
• Annotations « stand-off »
– séparation entre données primaires et annotations
– souhaitables pour
– annotations concurrentes : comparaison de deux étiqueteurs
– annotations non hiérarchiques : antécédents complexes
• Annotations normalisées
– suivi des recommandations (TEI, ISO TC37/SC4, RNIL)
– indispensables pour
– interfaçage avec outils TAL
– évaluation des ressources
– pérennisation
– partage d’outils de traitement de corpus
– documentation partagée
Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc
Couverture, corpus, ressource
• « Couverture linguistique »
– conditions de production & contenu linéaire
– « Je sais que le langage courant est plein de pièges. »
=> TALN 2004; S. de Beauvoir, 1976; M. Yaguello, 1978
• « Corpus »
– collection de données caractérisée par une même couverture linguistique
– Le Monde 09/1986,
– articles sportif du Monde 09/1986
– corpus contingent vs. intentionnel (Sinclair 1996)
• « Ressource »
– unité physique de dépôt de données relatives à un corpus
– Monde scanné (image)
– Monde Word
– Monde XML POS + arboré (Tiger)
Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc
Niveaux de description
• Ensemble cohérent d’informations explicitées relatif à
un corpus donné
– analyse humaine ou traitement automatique
– instancié par un schéma d’annotation (Ide & Romary, 2001)
– propriétés structurelles & catégories de données
– typologie
– fichier audio, texte brut, texte formaté, texte balisé TEI, texte
segmenté, morpho-syntaxe, syntaxe, référence, discours,
actes de langage
– distinction entre données primaires et secondaires ?
– continuum théorique
– considération pratique : reconstitution de la couverture
linguistique
Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc
Architecture
Couverture
• Locuteur, conditions spatiotemporelles, …
Caractérisations
supplémentaires
• Taille, Genre, …
Corpus
1..1
1..1
est composé de
est composé de
0..n
Ressource
0..n
1..1
1..n
est composé de
• Dépositaire
• Date de dépôt
Niveau de
description
0..n
dépend de
0..1
• Typologie informationnelle
• Source (humaine, logicielle)
• Schéma d’annotation (langage de
codage, DTD, catégories de données)
• Évaluation (campagne, mesures,
résultats)
Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc
Assemblage architectural
• Corpus : Le Père Goriot (chap. I)
texte_brutMadame Vauquer, née De Conflans , est une vieille femme qui, depuis
quarante ans, tient à Paris une pension bourgeoise établie rue NeuveSainte-Geneviève , entre le quartier latin et le faubourg Saint-Marceau .
Cette pension, connue sous le nom de la Maison-Vauquer , admet
également des hommes et des femmes, des jeunes gens et des vieillards,
sans que jamais la médisance ait attaqué les mœurs de ce respectable
établissement. Mais aussi depuis trente ans ne s'y était-il jamais vu de
jeune personne, et pour qu'un jeune homme y demeure, sa famille doit-elle
lui faire une bien maigre pension. Néanmoins, en 1819, époque à laquelle
ce drame commence, il s'y trouvait une pauvre jeune fille. En quelque
discrédit que soit tombé le mot drame par la manière abusive et
Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc
Assemblage architectural
• Corpus : Le Père Goriot (chap. I)
texte_brut <tt>
<ut>
<p>
<seg> <er type="person-oeuvre" id2="p1" id="1"> Madame Vauquer , née
De Conflans </er> , est une vieille femme qui , depuis quarante ans , tient
à <er type="place-ville" id2="pl1" id="2"> Paris </er> <er type="orgoeuvre" id2="or1" id="6"> une pension bourgeoise établie <er
type="place-rue" id2="pl2" id="3"> rue Neuve - Sainte - Geneviève </er>
, entre <er type="place-quartier" id2="pl3" id="4"> le quartier latin </er>
et le <er type="place-rue" id2="pl4" id="5"> faubourg Saint - Marceau
</er> </er> . </seg>
texte_balisé_tei
entités_nommées
référence
Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc
Assemblage architectural
• Corpus : Le Père Goriot (chap. I)
<tt><ut><p><seg>
texte_brut
<rs type="person-oeuvre" id="p1">
<name type="person-oeuvre" key="Mme Vauquer">Madame Vauquer</name>née
<name type="person-oeuvre" key="De Conflans">De Conflans</name>
</rs>, est une vieille femme qui, depuis quarante ans, tient à
texte_balisé_tei
<rs type="place-ville" id="pl1">
entités_nommées
<name type="place-ville" key="Paris">Paris</name>
référence
</rs> …
</seg></p> </ut></tt>
texte_balisé_tei
entités_nommées
référence
Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc
Assemblage architectural
• Corpus : Le Père Goriot (chap. I)
texte_brut
<word id="word_27">Madame</word>
<word id="word_28">Vauquer</word>
<word id="word_29">,</word>
<word id="word_30">née</word>
<word id="word_31">De</word>
<word id="word_32">Conflans</word>
<word id="word_33">,</word>
<word id="word_34">est</word>
<word id="word_35">une</word>
<word id="word_36">vieille</word>
<word id="word_37">femme</word>
<word id="word_38">qui</word>
texte_segmenté
texte_balisé_tei
entités_nommées
référence
texte_balisé_tei
entités_nommées
référence
Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc
Assemblage architectural
• Corpus : Le Père Goriot (chap. I)
texte_brut
morpho-syntaxe
<w span="word_24"
<w span="word_25"
<w span="word_26"
<w span="word_27"
<w span="word_28"
<w span="word_29"
<w span="word_30"
<w span="word_31"
<w span="word_32"
<w span="word_33"
texte_segmenté
texte_balisé_tei
entités_nommées
référence
msd="DTN:m:s"
lemma="un"></w>
msd="SBC:_:s"
lemma="pension"></w>
msd="ADJ:f:s"
lemma="bourgeois"></w>
msd="SBC:_:s"
lemma="madame"></w>
msd="SBP" lemma="vauquer"></w>
msd=" "
lemma=","></w>
msd="ADJ2PAR:f:s"
lemma="naître"></w>
msd="PREP"
lemma="de"></w>
msd="SBP" lemma="conflans"></w>
msd=" "
lemma=","></w>
texte_balisé_tei
entités_nommées
référence
Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc
Assemblage architectural
• Corpus : Le Père Goriot (chap. I)
texte_brut
morpho-syntaxe
<w span="word_24"
<w span="word_25"
<w span="word_26"
<w span="word_27"
<w span="word_28"
<w span="word_29"
<w span="word_30"
<w span="word_31"
<w span="word_32"
<w span="word_33"
<w span="word_34"
texte_segmenté
texte_balisé_tei
entités_nommées
référence
texte_balisé_tei
entités_nommées
référence
msd="DETIFS"
lemma="un"></w>
msd="NCFS"
lemma="pension"></w>
msd="ADJFS"
lemma="bourgeois"></w>
msd="NCFIN"
lemma="madame"></w>
msd="INC" lemma="Vauquer"></w>
msd="PCTFAIB"
lemma=","></w>
msd="VPARPFS"
lemma="naître"></w>
msd="PREP"
lemma="de"></w>
msd="INC" lemma="Conflans"></w>
msd="PCTFAIB"
lemma=","></w>
msd="VINDP3S"
lemma="être"></w>
morpho-syntaxe
Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc
Assemblage architectural
• Corpus : Le Père Goriot (chap. I)
texte_brut
morpho-syntaxe
<root label="UTT"
texte_segmenté
<nt
texte_balisé_tei
</nt>
entités_nommées
<nt
référence
idref="nt_1_6" />
morpho-syntaxe
id="nt_1_0" cat="np">
<edge
label="DN" href="tt.xml#xptr(id(msd_4))"/>
<edge
label="H" href="tt.xml#xptr(id(msd_5))"/>
syntaxe.xml
id="nt_1_1" cat="pp">
<edge
label="H" href="tt.xml#xptr(id(msd_3))"/>
<edge
label="DP" idref="nt_1_0" />
</nt>…
texte_balisé_tei
</root>
entités_nommées
référence
Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc
Amorce
• Corpus libres de droits
–
–
–
–
Asila (corpus de dialogue)
Ananas (corpus annotés en anaphores)
+ GDR Sémantique, L’Arboratoire, Easy, Text®
toute contribution est la bienvenue…
• État actuel
Genre
Taille
TEI
Seg.
Brill
Cord.
TreeT
littérature
100 k




()
()
presse
100 k




()
()
()
()
science
100 k




administratif
70 k




()
()
()
()
oral
100 k

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc
Synt. GN
()
Coref
Annotation syntaxique
• FrAG (French Annotation Grammar, E. Bick)
texte
Lexique:
valence
prototypes
sémantiques
DTT
CG de correction
CG syntaxique
CG dépendence
Contexte (proposition)
– http://sandbox.visl.sdu.dk/visl/fr/
PSG
Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc
Selecteur
d'arbres
Annotation référentielle
• Analyse syntaxique
– étiquetage TreeTagger & constituants + dépendances (VISL)
– structure arborescente
– correction manuelle partielle
• Normalisation
– format Negra-TIGER + stand-off
• Extraction GNs
– TIGER-Search
– XSL
• Annotation référentielle
– filtrage semi-manuel des GN référentiels
– annotation manuelle (double annotation + évaluation accord)
Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc
Granularité, versions, corrections
Niveau de
description
« Jardin à la
française »
« Jardin
botanique »
« Forêt vierge »
structure (TEI)
oui
oui
?
étiquetage
oui
partiellement
non
syntaxe
oui
partiellement
non
référence
oui
partiellement
non
• Nouveau dépôt
–
–
–
–
–
ressource + niveaux de description
méta-données (catégories de données, évaluation, annotateur)
extraction de GN => catégorisation entités nommées
sur-spécification étiquettes morpho-syntaxiques
correction manuelle des dépendances syntaxiques
Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc
Perspectives
• Contenu de la base
– recensement et intégration de corpus bruts ou annotés
– méta-données => OLAC
• Outils & Interface
– outils de restitution visuelle des corpus
– évaluation de l’accord entre plusieurs annotations
– statistiques accès & téléchargement
• Ouverture
– d’autres types de ressources
– lexiques morphologiques, syntaxiques, sémantiques
Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc
Gestion des en-têtes dans la FReeBank
• ???
Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc