Représentation et usage de terminologies et de

Download Report

Transcript Représentation et usage de terminologies et de

P. 1

Représentation et usage de terminologies et de vocabulaires d’indexation

Sabine Barreaux Nourdine Combo Françoise Drouard Isabelle Gomez Dominique Vachez INIST-CNRS 25/11/2014

P. 2 Terminologies à l’Inist : de l’indexation vers de nouveaux services

Françoise Drouard

La terminologie au service des données de la recherche : méthodologie de constitution d’un thésaurus de la biodiversité

Isabelle Gomez & Dominique Vachez

Représentation des terminologies Inist pour le projet Termith

Sabine Barreaux & Nourdine Combo

Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Terminologies à l’Inist

P. 3 Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Au commencement…

P. 4

Documentaliste

Lexiques

Indexation manuelle Création et gestion de lexiques thématiques au fil des indexations Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Production terminologique

Lexiques « papier » PASCAL & FRANCIS Propriétaires - payants P. 5 Ensemble de descripteurs utilisés pour représenter un document - Langue de spécialité SHS/STM - Multilingues Anglais Espagnol Allemand Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Informatisation du poste de l’ingénieur documentaliste

P. 6

Dématérialisation des données Automatisation des process Ouverture des données

Partage de données Indexation automatique Exposition & mutualisation Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Partage des données

P. 7 Base vocabulaire 

Travail collaboratif facilité

Enrichissement sémantique des vocabulaires

Synonymie, termes associés, termes génériques, catégorisation sémantique… 

Uniformisation selon des normes spécifiques

ISO 2788-1986 (thésaurus unilingues) ISO 5964-1985 (thésaurus multilingues) Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Exposition & mutualisation

http://www.termsciences.fr/ P. 8 Portail terminologique développé par l’Inist-CNRS en association avec le LORIA et l’ATILF - valoriser et mutualiser les ressources terminologiques des organismes publics de recherche et d’enseignement supérieur - constituer un référentiel terminologique commun Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Termsciences

P. 9 •

Utilisation de la norme TMF ISO 16 642

(Terminological Mark-up Framework),

standard international pour la représentation des bases de données terminologiques en XML. Terme Concept

Introduction des deux notions :

Interopérabilité des données

Open Data (données ouvertes)

Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

P. 10

Avènement du web sémantique Passage au SKOS

• • • Modèle de représentation standard des systèmes d'organisation du savoir ( thésaurus, classifications ou autre vocabulaire contrôlé et structuré) Recommandation du W3C depuis 2009 Construction sur la base de RDF Contribution à la constitution d'une structure de concepts mis en commun et exploités à l'aide de langages d'ontologies (OWL) • • Il permet : d’ échanger, relier et publier ces systèmes d'organisation de connaissances dans le contexte du web sémantique. de rendre les systèmes d’organisation des connaissances lisibles par un ordinateur Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

P. 11

Exposition & mutualisation Projet collaboratif Temis

Construction et exposition de « Cartouches de connaissance » reposant sur des terminologies Inist-CNRS Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

P. 12

Evolution des technologies révolution des métiers Ingénieur documentaliste

Informatisation Partage des données

Ingénieur de l’information

Web sémantique Réseaux sociaux Big data

Ingénieur de la donnée ?

Accès BIBLIOSHS : http://www.cairn.info.gate3.inist.fr/revue-documentaliste-sciences-de-l information-2013-3.htm

Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

P. 13

La terminologie au service des données de la recherche : méthodologie de constitution d’un thésaurus de la Biodiversité

Inist-CNRS

Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Besoins des chercheurs

P. 14 Des chercheurs du CEFE et du CESAB CEFE ( Centre d’Ecologie Fonctionnelle et Evolutive Univ. Montpellier ) UMR CNRS CESAB (CEntre de Synthèse et d’Analyse sur la Biodiversité / Aix en Provence) programme-phare de la FRB –Fondation pour la Recherche sur la Biodiversité produisent différentes bases de données sur la Biodiversité et souhaitent les rendre interopérables sémantiquement Enrichissement terminologique des métadonnées : meilleure description des données de la recherche en Biodiversité  Découverte, partage et réutilisabilité Utilisation d’un vocabulaire contrôlé  Harmonisation et intégration des données de Biodiversité (BdD CEFE, TRY database) Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Contexte

P. 15 Organisation du projet Création d’un groupe de travail rassemblant : - des écologues, informaticiens du CEFE et du CESAB - d’autres acteurs de la Biodiversité (AnaEE-France, IMBE, INRA) et - des documentalistes (Cellule Terminologie INIST) sous l’égide du rBDD (réseau Bases de Données) – volet «Interopérabilité» (Mission pour l’Interdisciplinarité du CNRS)  Atelier conjoint en juin 2014 (CESAB) : « Vers un thésaurus de la biodiversité » Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Contexte

P. 16 Cadre du projet Des données environnementales interdisciplinaires, hétérogènes, disséminées dans de multiples jeux de données et réparties dans de nombreuses bases ( BBEES-INEE ) Des standards de métadonnées spécifiques à l’Environnement : EML Ecological Metadata Language (GBIF, ILTER, KNB) ISO 19115 pour les données géoréférencées conformes à la Directive européenne INSPIRE Des thésaurus dédiés à l’Environnement utilisant les formats et standards du web sémantique, mais non spécialisés sur la thématique « biodiversité » Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Les thésaurus sur l’Environnement dans le web sémantique

P. 17 Phase préliminaire Inventaire des thésaurus du domaine Environnement sémantiquement interopérables Interdisciplinarité Thésaurus multidisciplinaires ; Initiatives européennes : GEMET et EARTh (compatibles thématiques INSPIRE) interrogeables simultanément avec AGROVOC ( LusTRE ); EnvThes (ILTER) Interopérabilité Conformité avec les standards et formats du web de données (W3C, SKOS, RDF, concept URI) et la norme ISO 25964 ; Disponibilité dans le Linked Open Data (LOD cloud) Alignements Réalisés en skos:exactMatch ou closeMatch et affichés réciproquement ou non pour chaque concept au sein du LOD. Ressources téléchargeables sous licence libre Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Les thésaurus sur l’Environnement dans le web sémantique CC BY NC ND LOD EARTh * (eENVplus) EnvThes * (EnvEurope-Life+) LOD Thésaurus de la Biodiversité LOD INSPIRE exactMatch closeMatch CC BY NC SA exactMatch exactMatch AGROVOC (FAO) exactMatch CC BY GEMET * (EIONET/EEA) LOD INSPIRE Biocomplexity Thesaurus * (USGS) LCSH ILTER LTER-EUROPE exactMatch exactMatch Rameau BNF exactMatch LOD closeMatch exactMatch closeMatch exactMatch exactMatch LOD NALT (USDA) LOD Atelier 4 –I. Gomez, D. Vachez LOD DBpedia LOD LOV EUROVOC (UE) LOD owl: sameAs skos: exactMatch skos: closeMatch skos: relatedMatch SKOS/RDF Carrefour de l’IST 25/11/2014

Etapes de constitution d’un thésaurus de la Biodiversité

P. 19 1.

Comparaison de la richesse et de la cohérence sémantique des thésaurus existants, de leurs équivalences intra (skos:altLabel) et inter-linguistiques (multilinguisme) et de leur interopérabilité : points forts / points faibles 2.

Sélection de thésaurus-pivots pour réaliser des alignements avec nos propres référentiels (skos:exactMatch, propriété d’alignement transitive ) : Agrovoc , GEMET , EARTh 3.

Sélection de termes issus des référentiels terminologiques INIST en Ecologie, Environnement, Agronomie : richesse en synonymes et formes variantes, bilinguisme.

 Hiérarchisation des concepts; conversion en SKOS Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Référentiel terminologique Inist : concept Biodiversité P. 20  agro-biodiversity  bacterial diversity  Biodiversity  biodiversity preservation     agrobiodiversity bio-diversity biodiversity conservation biological diversity  coenotic diversity  Convention on Biological Diversity ANG  diversity of the ectomycorrhiza community  ecodiversity  avifaunal diversity  biodiversities     Biodiversity Convention botanical diversity diversity of rhizobia ecological diversity  ecosystem diversity  functional biodiversity  insect diversity  plant diversity  Shannon index  ecosystemic diversity  fungal diversity  microbial diversity  rhizobial diversity  songbird diversity  fauna diversity  fungi diversity  Nagoya Protocol  Shannon diversity  structural diversity of fungal community  weed diversity ESP  biodiversidad  wild diversity  Diversidad biológica  wildlife diversity  agro-biodiversité  biodiversité animale  Convention sur la   agrobiodiversité biodiversité aquatique   Biodiversité conservation biodiversité diversité biologique  diversité écosystémique  diversité animale FRA  diversité biologique  diversité biosphérique agriculture  diversité des êtres vivants  diversité des animaux  diversité du vivant  Indice de Shannon  protection biodiversité  diversification biologique  diversité écologique  diversité sauvage  préservant biodiversité  richesse biologique    Diversité biologique diversité botanique diversité des plantes  diversité végétale  préservation biodiversité SL  Natura 2000 Atelier 4 –I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

P. 21

Etapes de constitution d’un thésaurus de la Biodiversité

4.

Combinaison de deux approches complémentaires : Approche par le haut (top-down) : termes/concepts génériques à partir desquels débutera la hiérarchie du thésaurus, issus des référentiels INIST et de leurs alignements Approche par le bas (bottom-up) : apport de vocabulaires plus spécialisés (termes pré-coordonnés) et concepts plus spécifiques issus des bases de données de la recherche   Thesauform-Traits : diversité fonctionnelle des plantes Indicateurs de la biodiversité (CBD, EEA, ONB) Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Constitution d’un thésaurus de la Biodiversité

Ressources terminologiques

INIST-CNRS

L u s T R E eENVplus

INSPIRE GEMET

Vocabulaires de

AnaEE France, SOERE, LTER

Vocabulaires des bases de données

INEE-BBEES Thesauform-traits…

Essential Biodiversity Variables (EBV)

GEO BON Thésaurus de la Biodiversité AGROVOC EARTh

Indicateurs de la biodiversité

-CBD 2020 -European biodiversity indicators (European Environment Agency) -Indicateurs de l’ONB (Observatoire National de la Biodiversité) Atelier 4 –I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

P. 23

Perspectives

Recherche simultanée avec plusieurs vocabulaires alignés : passerelle sémantique pour le moissonnage des entrepôts de données et les moteurs de recherche sémantique (LusTRE) Visibilité de ressources terminologiques francophones dans le Web Sémantique et le LOD Evolution des thésaurus vers des ontologies Fouille de texte et de données (text & data mining) avec des formes variantes du langage naturel (skos:hiddenLabel) Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

P. 24

Projet Termith

http://www.atilf.fr/ressources/termith

Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

P. 25

Contexte

Financement : ANR Durée 3 ans (2013 – 2015) Partenaires : Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Objectifs

P. 26 Améliorer l’accès à l’information contenue dans les articles scientifiques en français dans le domaine des sciences humaines Via une indexation automatique des textes intégraux Traitement automatique de la langue : Extraction automatique de candidats termes Filtrage des termes contenus dans les textes Un exemple en sciences du langage : « le sujet de mon article est la syntaxe » « le verbe s’accorde avec le sujet en nombre et en genre » Disciplines traitées dans le projet : Sciences du langage, Archéologie, Psychologie, Sciences de l’information Chimie Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Usage

P. 27 Scénarios d’utilisation des résultats Termith Scénario 1 : Evaluation de la qualité des candidats termes extraits et filtrés pour l’enrichissement des ressources terminologiques Scénario 2 : Evaluation de la pertinence des mots clés pour l’indexation Scénario 3 : Evaluation de la qualité de l’analyse de contenu produite avec différentes indexations (Termith et Inist) Usage des terminologies dans le projet : Pour améliorer l’indexation automatique à partir du texte intégral Mise à jour et structuration de ces ressources Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Terminologies Inist

Quelles ressources terminologiques ?

Vocabulaires d’indexation des disciplines du projet P. 28 Normes de représentation : ISO 16642:2003 : Applications informatiques en terminologie – Terminological Markup Framework (TMF) Modèle abstrait pour représenter des terminologies Utilisé pour passer d’une organisation lexicale à une organisation conceptuelle à l’occasion de la mise en place de TermSciences ISO 30042:2008 : Systèmes de gestion de la terminologie, de la connaissance et du contenu – TermBase eXchange (TBX) Sérialisation XML de TMF (plus précise) pour échanger des données terminologiques Utilisé comme format terminologique pivot dans Termith Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Méta-modèle

P. 29 Collection de données terminologiques Informations globales Entrée terminologique Informations complémentaires Section Langue Section Terme Section Composant de Terme Source : L. Romary Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Principes et avantages

P. 30 Organisation par concept Toutes les informations terminologiques appartenant à un concept, c-à-d tous les termes (qui désignent ce concept) dans toutes les langues et toutes les données descriptives et administratives, sont traitées comme une unité terminologique Autonomie du terme Tous les termes appartenant à un concept sont considérés (dans une entrée terminologique) comme des blocs autonomes (et répétables) de catégories de données ≠ thésaurus Sémantique fine Richesse dans les possibilités de description des termes et des concepts par des catégories de données Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

P. 31

TBX : Principales catégories de données

Obligatoire Fortement recommandé Terme, langue du terme Grammaticales : partie du discours , genre, type de terme Textuelles : définition, contexte, note Catégorisations : domaine, projet, utilisateur Administratives : dates, noms, sources de données Usage : géographique, statut d’usage, localisation Référence à d’autres termes et à des informations externes Graphiques Source : L. Romary Carrefour de l’IST 25/11/2014 Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez

P. 32

Exemple Termith

Exemples d’enrichissements

P. 33 Propositions de nouveaux termes issus des évaluations faites dans le Scénario 1 Propositions d’enrichissements par post-doc Atilf (sur le domaine des Sciences du langage) : Distinction entre les différentes couches lexicales : Terminologie des sciences du langage Lexique scientifique transdisciplinaire (« étude théorique ») Langue générale (« enfant », « adulte », « âge périscolaire ») Introduction de facettes permettant de catégoriser les concepts (en lien avec Scénario 3) : Concept grammatical Concept rhétorique Noms de langues Introduction de définitions Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

P. 34

En conclusion

Choix SKOS/TBX ?

Stratégie optimale : TBX comme format riche SKOS comme format de « livraison » Mapping possible dans les 2 sens : SKOS --> TBX (pour initialiser une base terminologique à partir de ressources SKOS) TBX --> SKOS (avec perte d’informations) Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

P. 35

Mise à disposition des Terminologies INIST

INIST Astronomie SKOS Transfusion sanguine SKOS Nutrition artificielle SKOS Optique SKOS Géographie Amérique du Nord

SKOS

Psychologie de la mémoire

SKOS

Pathologies SKOS Sciences du langage TBX Archéologie

TBX

Sciences de l’information

TBX

Chimie TBX Psychologie TBX http://www.inist.fr/?Ter

minologie EN COURS community.temis.com/fr/m arket-place EN COURS http://www.ortolang.fr/ A VENIR Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

P. 36

Merci de votre attention

Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Notions de base en SKOS

P. 37 Concepts (skos:concept) Identifiés à l’aide d’URI Désignés par des expressions en langue naturelle skos:prefLabel, skos:altLabel, skos:hiddenLabel Documentés par différents types de notes skos:note, skos:definition, skos:example Reliés sémantiquement les uns aux autres par des hiérarchies informelles et des réseaux d’association skos:broader, skos:narrower, skos:related Intégrés à un schéma conceptuel skos:inScheme, skos:hasTopConcept, skos:topConceptOf Reliés à d’autres concepts de thésaurus différents skos:exactMatch, skos:closeMatch Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014