RNTL OUTILEX OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006 RNTL OUTILEX Ordre du jour Présentation synthétique des résultats - Eric Laporte - Université de Marne-la-Vallée Démonstrations Plate-forme.
Download ReportTranscript RNTL OUTILEX OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006 RNTL OUTILEX Ordre du jour Présentation synthétique des résultats - Eric Laporte - Université de Marne-la-Vallée Démonstrations Plate-forme.
RNTL OUTILEX OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006 RNTL OUTILEX Ordre du jour Présentation synthétique des résultats - Eric Laporte - Université de Marne-la-Vallée Démonstrations Plate-forme - Matthieu Constant - Université de Marne-la-Vallée Moteur de recherche interlingue - Romaric Besançon - CEA Reconnaissance d'expressions multi-mots - Hugues de Mazancourt - Lingway Moteur de recherche dans des documents XML - Massih Amini - Université Paris 6 Filtrage thématique de messages audio - Bénédicte Goujon - Thales R&T Extraction d'information pour alimentation d'une base de connaissances - Catherine Gouttas - Thales Com Discussion RNTL OUTILEX Objectifs et structure du projet RNTL OUTILEX Plate-forme du RNTL : traitement des langues naturelles Budget et durée : environ 3,2 M€ / 4 ans Démarrage : 1er octobre 2002 10 partenaires Structure 2002-2005 : Spécifications, réalisation et tests de la plate-forme 2005-2006 : Réalisation de démonstrateurs Répartition Grands groupes, grands instituts : 35 % PME : 31 % Instituts, universités : 34 % RNTL Industriels et grands instituts OUTILEX PME, start-ups Thales R&T LCI Thales Com Lingway CEA Systran Instituts de recherche, universités Université de Marne-la-Vallée (IGM), coordinateur Université Paris 6 (LIP6) Inria (Loria) Université de Rouen (PSY.CO) RNTL OUTILEX Enjeux et objectifs du projet Normalisation des formats des ressources linguistiques Mise à la disposition de la communauté d'outils logiciels et de ressources linguistiques de base Interopérabilité avec les autres systèmes Fluidifier le marché des outils logiciels et des ressources RNTL OUTILEX Systèmes existants GATE (Sheffield) FSM (AT&T) NLTK (communauté open-source) Intex (Univ. Franche-Comté) Unitex (Univ. Marne-la-Vallée) RNTL OUTILEX La plate-forme RNTL Architecture générale OUTILEX RNTL OUTILEX Ressources linguistiques dictionnaires morphosyntaxiques pour le français (109 912 lemmes simples et 86 337 lemmes composés) pour l'anglais (166 150 lemmes simples et 13 361 lemmes composés) format XML (compatible avec LMF) jeu d'étiquettes riche et structuré (13 catégories grammaticales, 18 codes flexionnels, divers traits syntactico-sémantiques) niveau de généralité : langues européennes à suffixes RNTL OUTILEX Description du jeu d'étiquettes <lingdef lang='fr'> <attrtype name="gender" type='enum'> <value name='m' alias='masculine'/> <value name='f' alias='feminine'/> </attrtype> <attrtype name='nounsubcat' type='enum'> <value name='abst' alias='Abst,abstract,abs'/> <value name='conc' alias='Conc,concret'/> <value name='hum' alias='Hum,human'/> [,,,] <value name='tps' alias='Tps,temporal'/> </attrtype> <pos name='noun' cutename='N'> <attribute name='subcat' type='nounsubcat' shortcut='yes'/> <attribute name='gender' type='gender' shortcut='yes'/> [,,,] <attribute name='proper' type='proper' default='false'/> </pos> RNTL OUTILEX Ressources linguistiques dictionnaires terminologiques dictionnaires bilingues aéronautique une sélection des entrées des dictionnaires morphosyntaxiques format XML RNTL OUTILEX Chaîne de traitement générale RNTL OUTILEX Segmentation texte brut, HTML, RTF, PDF... en entrée segmentation en paragraphes, en phrases et en tokens pré-étiquetage des tokens (information sur l'alphabet, la casse, ponctuation ouvrante, etc.) opération réversible RNTL OUTILEX Segmentation La police a saisi 164 procès-verbaux jeudi dernier <document original_format="txt"> <par id="1"><tu id="s0"> <token type="word" id="t1" alph="latin" case="capit">La</token> <token type="word" id="t2" alph="latin">police</token> <token type="word" id="t3" alph="latin">a</token> <token type="word" id="t4" alph="latin">saisi</token> <token type="numeric" id="t5">164</token> <token type="word" id="t6" alph="latin">procès</token><token type="punctuation" id="t7" subt="Pc"></token><token type="word" id="t8" alph="latin">verbaux</token> <token type="word" id="t9" alph="latin">jeudi</token> <token type="word" id="t10" alph="latin">dernier</token><token type="punctuation" id="t11">.</token> </tu></par> </document> RNTL OUTILEX Etiquetage morpho-syntaxique étiquetage lexical par consultation des lexiques représentation de l'ambiguïté par automate (MAF) 4,7 % de silence suite à l'application des dictionnaires livrés avec la plate-forme sur un corpus de dépèches AFP silence de 0,4 % en déduisant les mots inconnus commençant par une majuscule RNTL OUTILEX Etiquetage morpho-syntaxique consultation des lexiques tolérante redressage orthographique et typographique texte étiqueté : représentation compatible avec le modèle MAF représentation plus compacte convertisseurs RNTL OUTILEX Etiquetage morpho-syntaxique RNTL OUTILEX Traitements par grammaires formalisme des RTN pondérés (ou WRTN) plus puissant que les automates et transducteurs finis possibilité de sorties (cf. transducteurs) poids : peuvent être établis grâce à des méthodes statistiques (démonstrateur Thales RT) opérations sur les grammaires conversion de formats XML (graphique ou opérationnel) émondation, déterminisation, minimisation... import/export : Unitex, dot RNTL OUTILEX Traitements par grammaires moteur d'analyse basé sur l'algorithme d'Earley résultat sous la forme d'une forêt partagée d'arbres d'analyse pondérés et annotés par les sorties de la grammaire forêt fournie en entrée à des modules de traitement extérieurs durant l'analyse du corpus (phrase par phrase) RNTL OUTILEX Applications concordancier format XML annotation de textes reconnaissance et étiquetage d'entités nommées et autres motifs extraction d'informations options : sortie texte ou sortie automate (itération possible) options : les parties reconnues sont conservées ou supprimées option : seuil sur le poids du chemin dans la grammaire analyse syntaxique avec unification RNTL Exemple de grammaire OUTILEX RNTL OUTILEX Annotation sur l'automate du texte RNTL Autre grammaire OUTILEX RNTL OUTILEX Gestion des ressources linguistiques module de flexion indexation des dictionnaires de formes fléchies flexion des mots composés efficace : 63 s pour 1,3 million de formes transcodage des ressources dans différents formats : texte (lisible, édition, maintenance) XML (format d'échange, maintenance) binaires (traitements) RNTL OUTILEX Interfaces interface graphique utilisateur utilisation en ligne de commande mise au point des ressources linguistiques mise au point des traitements API optimisation utile pour le traitement de documents nombreux RNTL OUTILEX Normalisation RNTL Textes texte tokenisé texte étiqueté référence : MAF cadre d'annotation morphosyntaxique OUTILEX RNTL Lexiques référence : LMF cadre de balisage de lexiques structuration de lexiques noms propres lexiques terminologiques OUTILEX RNTL OUTILEX Diffusion RNTL OUTILEX Le site web communication entre partenaires après la fin du projet : distribution de la plate-forme et des ressources cotisation annuelle : 100 euros paiement sécurisé sur le site RNTL Publications nationales et internationales formats applications présentations générales OUTILEX RNTL OUTILEX Conclusion http://www.at-lci.com/outilex opérations de base sur les textes utilisation de ressources à large couverture la plate-forme sera bientôt disponible et ouverte au développement collaboratif (licence LGPL) nouvelles fonctionnalités nouvelles langues