RNTL OUTILEX OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006 RNTL OUTILEX Ordre du jour Présentation synthétique des résultats - Eric Laporte - Université de Marne-la-Vallée Démonstrations Plate-forme.
Download
Report
Transcript RNTL OUTILEX OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006 RNTL OUTILEX Ordre du jour Présentation synthétique des résultats - Eric Laporte - Université de Marne-la-Vallée Démonstrations Plate-forme.
RNTL
OUTILEX
OUTILEX
Présentation des résultats
Ministère de l'Industrie
Vendredi 24 novembre 2006
RNTL
OUTILEX
Ordre du jour
Présentation synthétique des résultats - Eric Laporte - Université
de Marne-la-Vallée
Démonstrations
Plate-forme - Matthieu Constant - Université de Marne-la-Vallée
Moteur de recherche interlingue - Romaric Besançon - CEA
Reconnaissance d'expressions multi-mots - Hugues de Mazancourt - Lingway
Moteur de recherche dans des documents XML - Massih Amini - Université Paris 6
Filtrage thématique de messages audio - Bénédicte Goujon - Thales R&T
Extraction d'information pour alimentation d'une base de connaissances - Catherine
Gouttas - Thales Com
Discussion
RNTL
OUTILEX
Objectifs et structure du projet
RNTL
OUTILEX
Plate-forme du RNTL : traitement des langues naturelles
Budget et durée : environ 3,2 M€ / 4 ans
Démarrage : 1er octobre 2002
10 partenaires
Structure
2002-2005 : Spécifications, réalisation et tests de la plate-forme
2005-2006 : Réalisation de démonstrateurs
Répartition
Grands groupes, grands instituts : 35 %
PME : 31 %
Instituts, universités : 34 %
RNTL
Industriels et grands instituts
OUTILEX
PME, start-ups
Thales R&T
LCI
Thales Com
Lingway
CEA
Systran
Instituts de recherche, universités
Université de Marne-la-Vallée (IGM), coordinateur
Université Paris 6 (LIP6)
Inria (Loria)
Université de Rouen (PSY.CO)
RNTL
OUTILEX
Enjeux et objectifs du projet
Normalisation des formats des ressources linguistiques
Mise à la disposition de la communauté d'outils logiciels et
de ressources linguistiques de base
Interopérabilité avec les autres systèmes
Fluidifier le marché des outils logiciels et des ressources
RNTL
OUTILEX
Systèmes existants
GATE (Sheffield)
FSM (AT&T)
NLTK (communauté open-source)
Intex (Univ. Franche-Comté)
Unitex (Univ. Marne-la-Vallée)
RNTL
OUTILEX
La plate-forme
RNTL
Architecture générale
OUTILEX
RNTL
OUTILEX
Ressources linguistiques
dictionnaires morphosyntaxiques
pour le français (109 912 lemmes simples et 86 337 lemmes
composés)
pour l'anglais (166 150 lemmes simples et 13 361 lemmes
composés)
format XML (compatible avec LMF)
jeu d'étiquettes riche et structuré (13 catégories
grammaticales, 18 codes flexionnels, divers traits
syntactico-sémantiques)
niveau de généralité : langues européennes à suffixes
RNTL
OUTILEX
Description du jeu d'étiquettes
<lingdef lang='fr'>
<attrtype name="gender" type='enum'>
<value name='m' alias='masculine'/>
<value name='f' alias='feminine'/>
</attrtype>
<attrtype name='nounsubcat' type='enum'>
<value name='abst' alias='Abst,abstract,abs'/>
<value name='conc' alias='Conc,concret'/>
<value name='hum' alias='Hum,human'/>
[,,,]
<value name='tps' alias='Tps,temporal'/>
</attrtype>
<pos name='noun' cutename='N'>
<attribute name='subcat' type='nounsubcat' shortcut='yes'/>
<attribute name='gender' type='gender' shortcut='yes'/>
[,,,]
<attribute name='proper' type='proper' default='false'/>
</pos>
RNTL
OUTILEX
Ressources linguistiques
dictionnaires terminologiques
dictionnaires bilingues
aéronautique
une sélection des entrées des dictionnaires morphosyntaxiques
format XML
RNTL
OUTILEX
Chaîne de traitement générale
RNTL
OUTILEX
Segmentation
texte brut, HTML, RTF, PDF... en entrée
segmentation en paragraphes, en phrases et en
tokens
pré-étiquetage des tokens (information sur
l'alphabet, la casse, ponctuation ouvrante, etc.)
opération réversible
RNTL
OUTILEX
Segmentation
La police a saisi 164 procès-verbaux jeudi dernier
<document original_format="txt">
<par id="1"><tu id="s0">
<token type="word" id="t1" alph="latin" case="capit">La</token> <token type="word"
id="t2" alph="latin">police</token> <token type="word" id="t3" alph="latin">a</token>
<token type="word" id="t4" alph="latin">saisi</token> <token type="numeric"
id="t5">164</token> <token type="word" id="t6"
alph="latin">procès</token><token type="punctuation" id="t7" subt="Pc"></token><token type="word" id="t8" alph="latin">verbaux</token> <token type="word"
id="t9" alph="latin">jeudi</token> <token type="word" id="t10"
alph="latin">dernier</token><token type="punctuation" id="t11">.</token>
</tu></par>
</document>
RNTL
OUTILEX
Etiquetage morpho-syntaxique
étiquetage lexical par consultation des lexiques
représentation de l'ambiguïté par automate (MAF)
4,7 % de silence suite à l'application des
dictionnaires livrés avec la plate-forme sur un corpus
de dépèches AFP
silence de 0,4 % en déduisant les mots inconnus
commençant par une majuscule
RNTL
OUTILEX
Etiquetage morpho-syntaxique
consultation des lexiques tolérante
redressage orthographique et typographique
texte étiqueté : représentation compatible avec le
modèle MAF
représentation plus compacte
convertisseurs
RNTL
OUTILEX
Etiquetage morpho-syntaxique
RNTL
OUTILEX
Traitements par grammaires
formalisme des RTN pondérés (ou WRTN)
plus puissant que les automates et transducteurs finis
possibilité de sorties (cf. transducteurs)
poids : peuvent être établis grâce à des méthodes statistiques
(démonstrateur Thales RT)
opérations sur les grammaires
conversion de formats XML (graphique ou opérationnel)
émondation, déterminisation, minimisation...
import/export : Unitex, dot
RNTL
OUTILEX
Traitements par grammaires
moteur d'analyse basé sur l'algorithme d'Earley
résultat sous la forme d'une forêt partagée d'arbres
d'analyse pondérés et annotés par les sorties de la
grammaire
forêt fournie en entrée à des modules de traitement
extérieurs durant l'analyse du corpus (phrase par
phrase)
RNTL
OUTILEX
Applications
concordancier
format XML
annotation de textes
reconnaissance et étiquetage d'entités nommées et autres motifs
extraction d'informations
options : sortie texte ou sortie automate (itération possible)
options : les parties reconnues sont conservées ou supprimées
option : seuil sur le poids du chemin dans la grammaire
analyse syntaxique avec unification
RNTL
Exemple de grammaire
OUTILEX
RNTL
OUTILEX
Annotation sur l'automate du texte
RNTL
Autre grammaire
OUTILEX
RNTL
OUTILEX
Gestion des ressources linguistiques
module de flexion
indexation des dictionnaires de formes fléchies
flexion des mots composés
efficace : 63 s pour 1,3 million de formes
transcodage des ressources dans différents formats :
texte (lisible, édition, maintenance)
XML (format d'échange, maintenance)
binaires (traitements)
RNTL
OUTILEX
Interfaces
interface graphique utilisateur
utilisation en ligne de commande
mise au point des ressources linguistiques
mise au point des traitements
API
optimisation
utile pour le traitement de documents nombreux
RNTL
OUTILEX
Normalisation
RNTL
Textes
texte tokenisé
texte étiqueté
référence : MAF
cadre d'annotation morphosyntaxique
OUTILEX
RNTL
Lexiques
référence : LMF
cadre de balisage de lexiques
structuration de lexiques
noms propres
lexiques terminologiques
OUTILEX
RNTL
OUTILEX
Diffusion
RNTL
OUTILEX
Le site web
communication entre partenaires
après la fin du projet : distribution de la plate-forme
et des ressources
cotisation annuelle : 100 euros
paiement sécurisé sur le site
RNTL
Publications
nationales et internationales
formats
applications
présentations générales
OUTILEX
RNTL
OUTILEX
Conclusion
http://www.at-lci.com/outilex
opérations de base sur les textes
utilisation de ressources à large couverture
la plate-forme sera bientôt disponible et ouverte au
développement collaboratif (licence LGPL)
nouvelles fonctionnalités
nouvelles langues