RNTL OUTILEX OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006 RNTL OUTILEX Ordre du jour  Présentation synthétique des résultats - Eric Laporte - Université de Marne-la-Vallée  Démonstrations   Plate-forme.

Download Report

Transcript RNTL OUTILEX OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006 RNTL OUTILEX Ordre du jour  Présentation synthétique des résultats - Eric Laporte - Université de Marne-la-Vallée  Démonstrations   Plate-forme.

RNTL
OUTILEX
OUTILEX
Présentation des résultats
Ministère de l'Industrie
Vendredi 24 novembre 2006
RNTL
OUTILEX
Ordre du jour

Présentation synthétique des résultats - Eric Laporte - Université
de Marne-la-Vallée

Démonstrations


Plate-forme - Matthieu Constant - Université de Marne-la-Vallée

Moteur de recherche interlingue - Romaric Besançon - CEA

Reconnaissance d'expressions multi-mots - Hugues de Mazancourt - Lingway

Moteur de recherche dans des documents XML - Massih Amini - Université Paris 6

Filtrage thématique de messages audio - Bénédicte Goujon - Thales R&T

Extraction d'information pour alimentation d'une base de connaissances - Catherine
Gouttas - Thales Com
Discussion
RNTL
OUTILEX
Objectifs et structure du projet
RNTL
OUTILEX

Plate-forme du RNTL : traitement des langues naturelles

Budget et durée : environ 3,2 M€ / 4 ans

Démarrage : 1er octobre 2002

10 partenaires

Structure


2002-2005 : Spécifications, réalisation et tests de la plate-forme

2005-2006 : Réalisation de démonstrateurs
Répartition

Grands groupes, grands instituts : 35 %

PME : 31 %

Instituts, universités : 34 %
RNTL
Industriels et grands instituts
OUTILEX
PME, start-ups

Thales R&T

LCI

Thales Com

Lingway

CEA

Systran
Instituts de recherche, universités

Université de Marne-la-Vallée (IGM), coordinateur

Université Paris 6 (LIP6)

Inria (Loria)

Université de Rouen (PSY.CO)
RNTL
OUTILEX
Enjeux et objectifs du projet

Normalisation des formats des ressources linguistiques

Mise à la disposition de la communauté d'outils logiciels et
de ressources linguistiques de base

Interopérabilité avec les autres systèmes

Fluidifier le marché des outils logiciels et des ressources
RNTL
OUTILEX
Systèmes existants

GATE (Sheffield)

FSM (AT&T)

NLTK (communauté open-source)

Intex (Univ. Franche-Comté)

Unitex (Univ. Marne-la-Vallée)
RNTL
OUTILEX
La plate-forme
RNTL
Architecture générale
OUTILEX
RNTL
OUTILEX
Ressources linguistiques

dictionnaires morphosyntaxiques

pour le français (109 912 lemmes simples et 86 337 lemmes
composés)

pour l'anglais (166 150 lemmes simples et 13 361 lemmes
composés)

format XML (compatible avec LMF)

jeu d'étiquettes riche et structuré (13 catégories
grammaticales, 18 codes flexionnels, divers traits
syntactico-sémantiques)

niveau de généralité : langues européennes à suffixes
RNTL
OUTILEX
Description du jeu d'étiquettes
<lingdef lang='fr'>
<attrtype name="gender" type='enum'>
<value name='m' alias='masculine'/>
<value name='f' alias='feminine'/>
</attrtype>
<attrtype name='nounsubcat' type='enum'>
<value name='abst' alias='Abst,abstract,abs'/>
<value name='conc' alias='Conc,concret'/>
<value name='hum' alias='Hum,human'/>
[,,,]
<value name='tps' alias='Tps,temporal'/>
</attrtype>
<pos name='noun' cutename='N'>
<attribute name='subcat' type='nounsubcat' shortcut='yes'/>
<attribute name='gender' type='gender' shortcut='yes'/>
[,,,]
<attribute name='proper' type='proper' default='false'/>
</pos>
RNTL
OUTILEX
Ressources linguistiques

dictionnaires terminologiques


dictionnaires bilingues


aéronautique
une sélection des entrées des dictionnaires morphosyntaxiques
format XML
RNTL
OUTILEX
Chaîne de traitement générale
RNTL
OUTILEX
Segmentation

texte brut, HTML, RTF, PDF... en entrée

segmentation en paragraphes, en phrases et en
tokens

pré-étiquetage des tokens (information sur
l'alphabet, la casse, ponctuation ouvrante, etc.)

opération réversible
RNTL
OUTILEX
Segmentation
La police a saisi 164 procès-verbaux jeudi dernier
<document original_format="txt">
<par id="1"><tu id="s0">
<token type="word" id="t1" alph="latin" case="capit">La</token> <token type="word"
id="t2" alph="latin">police</token> <token type="word" id="t3" alph="latin">a</token>
<token type="word" id="t4" alph="latin">saisi</token> <token type="numeric"
id="t5">164</token> <token type="word" id="t6"
alph="latin">proc&#xE8;s</token><token type="punctuation" id="t7" subt="Pc"></token><token type="word" id="t8" alph="latin">verbaux</token> <token type="word"
id="t9" alph="latin">jeudi</token> <token type="word" id="t10"
alph="latin">dernier</token><token type="punctuation" id="t11">.</token>
</tu></par>
</document>
RNTL
OUTILEX
Etiquetage morpho-syntaxique

étiquetage lexical par consultation des lexiques

représentation de l'ambiguïté par automate (MAF)

4,7 % de silence suite à l'application des
dictionnaires livrés avec la plate-forme sur un corpus
de dépèches AFP

silence de 0,4 % en déduisant les mots inconnus
commençant par une majuscule
RNTL
OUTILEX
Etiquetage morpho-syntaxique

consultation des lexiques tolérante

redressage orthographique et typographique

texte étiqueté : représentation compatible avec le
modèle MAF

représentation plus compacte

convertisseurs
RNTL
OUTILEX
Etiquetage morpho-syntaxique
RNTL
OUTILEX
Traitements par grammaires


formalisme des RTN pondérés (ou WRTN)

plus puissant que les automates et transducteurs finis

possibilité de sorties (cf. transducteurs)

poids : peuvent être établis grâce à des méthodes statistiques
(démonstrateur Thales RT)
opérations sur les grammaires

conversion de formats XML (graphique ou opérationnel)

émondation, déterminisation, minimisation...

import/export : Unitex, dot
RNTL
OUTILEX
Traitements par grammaires

moteur d'analyse basé sur l'algorithme d'Earley

résultat sous la forme d'une forêt partagée d'arbres
d'analyse pondérés et annotés par les sorties de la
grammaire

forêt fournie en entrée à des modules de traitement
extérieurs durant l'analyse du corpus (phrase par
phrase)
RNTL
OUTILEX
Applications

concordancier



format XML
annotation de textes

reconnaissance et étiquetage d'entités nommées et autres motifs

extraction d'informations

options : sortie texte ou sortie automate (itération possible)

options : les parties reconnues sont conservées ou supprimées

option : seuil sur le poids du chemin dans la grammaire
analyse syntaxique avec unification
RNTL
Exemple de grammaire
OUTILEX
RNTL
OUTILEX
Annotation sur l'automate du texte
RNTL
Autre grammaire
OUTILEX
RNTL
OUTILEX
Gestion des ressources linguistiques

module de flexion


indexation des dictionnaires de formes fléchies


flexion des mots composés
efficace : 63 s pour 1,3 million de formes
transcodage des ressources dans différents formats :

texte (lisible, édition, maintenance)

XML (format d'échange, maintenance)

binaires (traitements)
RNTL
OUTILEX
Interfaces

interface graphique utilisateur


utilisation en ligne de commande


mise au point des ressources linguistiques
mise au point des traitements
API

optimisation

utile pour le traitement de documents nombreux
RNTL
OUTILEX
Normalisation
RNTL
Textes

texte tokenisé

texte étiqueté

référence : MAF

cadre d'annotation morphosyntaxique
OUTILEX
RNTL
Lexiques

référence : LMF


cadre de balisage de lexiques
structuration de lexiques

noms propres

lexiques terminologiques
OUTILEX
RNTL
OUTILEX
Diffusion
RNTL
OUTILEX
Le site web

communication entre partenaires

après la fin du projet : distribution de la plate-forme
et des ressources

cotisation annuelle : 100 euros

paiement sécurisé sur le site
RNTL
Publications

nationales et internationales

formats

applications

présentations générales
OUTILEX
RNTL
OUTILEX
Conclusion

http://www.at-lci.com/outilex

opérations de base sur les textes

utilisation de ressources à large couverture

la plate-forme sera bientôt disponible et ouverte au
développement collaboratif (licence LGPL)

nouvelles fonctionnalités

nouvelles langues