Les technologies de la langue en France et en Europe :

Download Report

Transcript Les technologies de la langue en France et en Europe :

Les technologies de la langue
en France et en Europe :
Quelles perspectives ?
J. Mariani, LIMSI-CNRS
C. Peters, ISTI-CNR
A. Waibel, Univ. Karlsruhe + CMU
Plan
• La situation des programmes en France et en Europe
(J. Mariani)
• CLEF (C. Peters)
• TC-Star, CHIL… (A. Waibel)
• Discussion générale
14 juin 2007
Journée Techno-Langue
2
Courtesy NIST/ Darpa
14 juin 2007
Journée Techno-Langue
3
Recherche Technologique de Base
Technologies
nécessaires pour
les applications
Identification
de verrous
Recherche
Scientifique
Amont
Recherche
Technologique
de Base
(RTB)
Résultats de
recherche
Long terme / haut risque
Fort retour d’investissement
14 juin 2007
Evaluation usages.
Acceptabilité
Evaluation
quantitative
Publications
Développement
d’applications
innovantes
(RRIT)
Technologies
validées
Evolutionaire
Journée Techno-Langue
Marché
4
Structure de Techno-Langue
RNRT
Télécoms
RNTL
Logiciel
RIAM
Audiovisuel
et
Multimédia
VSE
Programme infrastructurel pour soutenir les TL génériques,
les applications innovantes continuant d’être financées
par les RRIT (110 M€ / an)
14 juin 2007
Journée Techno-Langue
5
Action Techno-langue
• Action soutenue par MESR, MinEFI, MCC
– Budget 20 M€ / 7,5 M€ aides
– Durée : 3 ans
• 4 volets:
–
–
–
–
Ressources linguistiques
Evaluation
Standards
Veille technologique
• Mettre en place une infrastructure pérenne pour développer les
technologies de la langue en France et pour le Français
• Attention particulière portée à la diffusion des ressources
linguistiques et des kits d’évaluation
14 juin 2007
Journée Techno-Langue
6
ESTER
• Tâche: transcription et indexation d’émissions de radio
– A permis de produire un corpus de taille nécessaire pour le Français
• 1600 h enregistrées, 100 h transcrites (1 Mmots, 350 locuteurs)
– A permis de mesurer les performances sur différentes tâches
•
•
•
•
13 participants (3 industriels)
Transcription, Segmentation, Identification de locuteurs
Reconnaissance d’Entités Nommées (parole / texte transcrit)
Détection et suivi de thèmes pour l’indexation : reporté
– A permis à chacun de partager ses approches à la lueur des résultats
• Atelier interne final en mars 2005
– A permis de diffuser de manière pérenne les ressources produites
• Distribution du Kit d’évaluation (Données de développement et de test,
logiciel de mesure des performances, résultats) (ELDA)
• Données en partie utilisées dans EASY.
14 juin 2007
Journée Techno-Langue
7
ESTER
– A veillé à établir le lien avec la recherche amont
• Atelier pour les linguistes (mai 2005)
• Présentation des données et outils disponibles, et des résultats
• Identification des verrous nécessitant des recherches fondamentales
– Comporte un lien avec le développement d’applications innovantes
•
•
•
•
Projet RNTL Audiosurf (mai 2006)
Sinequa, Vecsys, LIMSI-CNRS, Radio France
Moteur de recherche dans les émissions de radio
Portail Audiosurf : http://audiosurf.org/
• ESTER 2 en préparation (financement DGA)
–
–
–
–
Indexation automatique : détection et suivi de thèmes
Accents régionaux
Emissions de télévision
Parole spontanée (interviews, débats, plateau télé…)
14 juin 2007
Journée Techno-Langue
8
Suite de Techno-Langue
• Programme Techno-Vision (2004-2007)
– Géré par le MESR, budget 5 M€ / 2,2 M€ (DGA) sur 3 ans
– 10 campagnes d’évaluation en traitement d’images
• Appel 2006 ARA « Masses
Connaissances Ambiantes »
de
données
&
– Géré par l’ANR
– Thème 5: Traitement automatique des langues
• 3 M€ prévus pour les Technologies de la Langue
• 3 projets retenus
• Pas encore d’infrastructure pérenne pour l’évaluation
• Rapport MCC/DGLF2 « La langue au cœur du
numérique » (J. Pierre, Fév. 2006)
14 juin 2007
Journée Techno-Langue
9
TL pour la globalisation
• Communication au niveau national
–
–
–
–
Programme indien sur les technologies de la langue
TDIL : Technology Development for Indian Languages
Une des 10 priorités nationales
Anglais + 18 langues indiennes traitées : Assamese, Bengali, Gujrati,
Hindi, Kannada, Kashmiri, Konkani, Malayalam, Manipuri, Marathi,
Napali, Oriya, Punjabi, Sanskrit, Sindhi, Tamil, Telegu, Urdu.
– Traduction automatique, Synthèse et reconnaissance vocales, moteurs de
recherche, OCR, correcteurs orthographiques, ressources linguistiques…
• Communication au niveau mondial
– Besoins de traduction:
• Toile mondiale (Cf Google: 11 langues, 25 paires de langues (10 Google)))
• Notices techniques…
14 juin 2007
Journée Techno-Langue
10
TL pour une Europe multilingue
• La langue, élément spécifique de la construction européenne
– Enjeu économique, culturel et politique (double) :
• Préserver les cultures des Etats Membres (EM)
– Préférence pour les langues maternelles (Sites Web en Allemand
(75%)...)
– 50% des citoyens Européens ne parlent qu’une langue
– (à peine 3% des japonais parlent une langue étrangère)
• Permettre la communication entre les citoyens des Etats Membres
– UE: 27 pays, 23 langues « officielles » / 506 paires de langues
– 1650 traducteurs à la Commission Européenne (1,4 Mpages traduites
2005)
– 30% du budget du Parlement Européen (300 M€) – 500 traducteurs
– Nécessité du multilinguisme, mais coût très important
– Besoin de l’aide des Technologies de la Langue pour permettre le
multilinguisme en réduisant les coûts
• Investissement trop grand pour la CE seule (# TL x # langues)
• A partager avec les Etats Membres (subsidiarité)
14 juin 2007
Journée Techno-Langue
11
Programme Européen en TL
• Espace Européen de la Recherche (ERA)
–
–
–
–
Coordonner efforts de recherche de la CE (< 15%) et des EM (> 85%)
ERA-Net (6ème PCRD): coordonner programmes nationaux
ERA-Net+ thématiques (7ème PCRD): coordonner + financer projets communs
Article 169 (CE + EM+ industriels)
• Thèmes actuels: Aide aux personnes dépendantes, soutien aux PMEs, Métrologie,
Recherche en mer Baltique…
• TL bien adaptées à l’ERA
– La CE aurait en priorité la responsabilité de veiller à asssurer :
• la coordination: gestion, standards, évaluation technologies, communication.
• Le coût du développement de Technologies de la Langue génériques:
– Reconnaissance, synthèse, compréhension vocales, dialogue oral, étiquetage
morphosyntaxique, analyse et génération de textes, recherche d’informations,
compréhension de documents, traduction automatique...
– Chaque Etat Membre aurait en priorité à assurer une bonne couverture de sa/ses
langue(s):
• Ressources Langagières (essentiel) : corpus (annnotés) (oral / écrit), lexique (avec
prononciations), dictionnaires…
• Développements / adaptations TL aux spécificités de sa/ses langue(s)
14 juin 2007
Journée Techno-Langue
12
Proposition ERA-Net Lang-Net
• Infrastructure pour le développement de technologies de la
langue pour toutes les langues européennes.
– Ressources (données et outils), standards, veille, évaluation
• Coordination des efforts nationaux et communautaires
– 11 pays / régions partenaires : Allemagne, France, Italie, Région du
Trentin, République Tchèque, Danemark, Norvège, Pays-Bas / FlandresBelgique (Dutch Language Union), Espagne, Région Basque, Suède
– Contacts: Europe (Autriche Région Catalane, Finlande, Grèce, Islande,
Portugal, Suisse, GB), Etats-Unis, Japon, Afrique du Sud, Israël,
Canada…
– Extensible à d’autres partenaires: NEM (Slovénie, Chypre, Pologne,
Hongrie, Malte, Pays Baltes Roumanie, Bulgarie…)
• Proposition déposée en mars 2005, non retenue
14 juin 2007
Journée Techno-Langue
13
Situation à la CE
• DG INFSO + Media
– Science & Technology Forum on Multilingualism (Juin 2005, Fév. 2006)
– Visite délégation Française à H. Forster & B. Smith (Septembre 2005)
– Rapport TC-Star : Introduction signée par V. Reding & J. Figel
• Commissaire Education, formation, culture et multilinguisme (J.
Figel)
– « Une nouvelle stratégie cadre pour le multilinguisme» (Nov. 2005)
• Site Web dans 20 langues : http://europa.eu.int/languages/
• La CE mettra en place un Groupe de Haut Niveau sur le Multilinguisme
(Nov. 2006/Sept. 2007)
• La CE organisera une réunion ministérielle sur le Multilinguisme (2008)
• La CE fera d’autres communications devant le Parlement et le Conseil (fin
2008)
• Nouveau Commissaire pour le multilinguisme (01.2007) :
Leonard Orban
14 juin 2007
Journée Techno-Langue
14
Demande Européenne
• Mémorandum pour une Europe numérique
– Soumis par la France à la présidence finlandaise de l’UE (2006)
– «TL pour une Europe Multilingue» comme sujet de recherche spécifique
• Comité des régions
• Utilisation officielle de 3 langues régionales espagnoles en réunion
• Bibliothèque Numérique Européenne
– Dimension multilingue / interlingue, et nécessité d’avoir des outils
• Intelligence Economique (ENISA)
– Plate-forme multilingue d’alerte et d’échange d’informations pour les
Etats Membres…
• Traduction des brevets européens (OEB)…
14 juin 2007
Journée Techno-Langue
15
Place des TL dans le FP7 (2007-2013)
• Evaluation dans les projets FP6
– CLEF (Cross-Language Evaluation Forum), TC-Star, CHIL, AMI…
• Programme Cooperation (TIC)
– Pilier technologique «Simulation, visualisation, interaction, mixed realities»
– Challenge 2: Cognitive systems, Interaction, Robotics
• Objectif 2.1. Cognitive systems, Interaction, Robotics
– Coopération internationale : Priorité pour TL pour la langue arabe !
• ESFRI (Infrastructures de recherche)
– CLARIN : Infrastructure pour les ressources et les outils linguistiques en
appui aux Sciences Humaines et Sociales
• E-Content +
– Réseau Thématique «Ressources linguistiques pour le traitement des
langues» (SHS + TIC) (budget : 1 M€)
14 juin 2007
Journée Techno-Langue
16
Conclusions
– Techno-Langue : Programme national sur les Technologies
de la Langue pour le Français
• Ressources Linguistiques, Standards, Veille et Evaluation
• Difficulté pour la pérennisation
– NIST Français ou Européen ?
– DARPA Française ou Européenne ?
– Forte nécessité de Technologies de la Langue pour permettre
le multilinguisme en Europe (et dans le monde)
– Peut-être le thème le plus adapté à un effort partagé entre la
CE et les Etats-Membres, mais soutenu de manière
insuffisante, parcellaire et non-coordonnée dans le 7ème
PCRD (2007-2013)
14 juin 2007
Journée Techno-Langue
17
Questions (1)
• L’infrastructure d’évaluation est-elle suffisante ?
– Quel est le bilan des campagnes d’évaluation?
– Faisons nous bien les choses ? Que devrions nous faire ?
– Comment financer les campagnes d’évaluation ?
• Commission Européenne ? Etats-Membres ? Régions ?
– Jusqu’à quel degré ces initiatives peuvent-elles s’appuyer sur le
volontariat ?
• Doit-il y avoir une entité permanente pour l’évaluation ? Une infrastructure ?
• Doit-elle être publique ou privée ? Faut-il financer à 100 % ? Comment ?
– Y a-t-il assez, trop ou trop peu d’initiatives sur l’évaluation en Europe
sur les différents aspects des TL (TALN, IR, CHM etc) ?
• Faut-il tendre à plus de synergie?
14 juin 2007
Journée Techno-Langue
18
Questions (2)
• L’infrastructure sur les RL est-elle suffisante ?
– Faisons nous bien les choses ? Que devrions nous faire ?
• Cela répond-il aux besoins de la recherche ? De l’industrie ?
• Coûts ? Qualité ? Catalogue ? IPR ?
– La couverture des langues est-elle suffisante (pour le
Français / pour les langues Européennes) ?
– Y a-t-il assez, trop ou trop peu d’initiatives sur les RL en
Europe pour les différents aspects des TL (TALN, IR, CHM
etc, SHS, TIC, Médical etc) ?
• Faut-il tendre à plus de synergie?
– Les standards sont-ils suffisamment établis ?
14 juin 2007
Journée Techno-Langue
19
Questions (3)
• L’effort de recherche est-il suffisant face à l’enjeu ?
– Est-on suffisamment bien organisé en France ?
• Financements suffisants ? Effort suffisamment continu ?
– Est-on suffisamment bien organisé en Europe ?
• Financements suffisants ? Effort suffisamment continu ?
– Y a-t-il assez, trop ou trop peu de programmes sur les TL en Europe
(régional (Pôles/Clusters d’excellence…), National (ANR, CNRS…),
Européen (FP7 (ideas, coordination, infrastructure, mobility): IPs,
STREPs, NoEs; ERA-Net+, Article 169, eContent+…)) ?
• Faut-il plus de coordination ?
– Comment peut-on réclamer des financements publics importants quand
le marché apparaît relativement limité et incertain ?
– Comment assurer la participation et le soutien des industriels ? PMEs ?
Grands groupes ?
14 juin 2007
Journée Techno-Langue
20
Questions
• Is the infrastructure for LR sufficient ?
– What are we doing wrong ? What should we be doing ?
• Does it respond to the needs of research ? Of industry ?
• Cost ? Quality ? Catalogue ? IPR ?
– Is there a proper language coverage (France / Europe) ?
– Are there not enough or too many language resources
initiatives in Europe on different aspects of HLT (NLP, IR,
HMC etc, HSS, ICT, Medical etc) ?
• Should we be aiming at more synergy?
• Are the standards sufficiently established ?
14 juin 2007
Journée Techno-Langue
21
Questions
• Is the infrastructure for evaluation sufficient ?
– What are the real achievements of our evaluation
campaigns?
• What are we doing wrong ? What should we be doing ?
– How can evaluation campaigns be supported ?
• European Commission ? Countries ? Regions ?
– To what extent can such initiatives rely on voluntary efforts?
• Should there be a permanent evaluation entity ? infrastructure ?
• Should it be public / private ? Should it be funded 100 % ? How ?
– Are there not enough or too many evaluation initiatives in
Europe on different aspects of HLT (NLP, IR, HMC etc) ?
• Should we be aiming at more synergy?
14 juin 2007
Journée Techno-Langue
22
Questions
• Is the research effort sufficient in front of the challenge ?
– Are we sufficiently organized at the French level ?
• Enough funding ? Enough continuity ?
– Are we sufficiently organized at the European level ?
• Enough funding ? Enough continuity ?
– Are there not enough or too many programs in Europe on HLT (Regional
(Poles/Clusters of excellence…), National (ANR, CNRS…), FP7 (ideas,
coordination, infrastructure, mobility): IPs, STREPs, NoEs, ERA-Net+,
Article 169, eContent…) ?
• Should we be aiming at more coordination ?
– How can we claim for big R&D funding when the market looks small
and uncertain ?
– How can we ensure industrial participation and support ? SMEs ? Large
groups ?
14 juin 2007
Journée Techno-Langue
23