Publication des vocabulaires ScoLOMFR.docx

Download Report

Transcript Publication des vocabulaires ScoLOMFR.docx

CANOPÉ siège social
Téléport 1@4
BP 80158
86961 Futuroscope cedex
T 05 49 49 78 78
http://reseau-canope.fr
Proposition de formalisation des fichiers XML :
d’une approche terminologique à une approche conceptuelle
DÉFINITION
Date
05/02/2014
Etat
rédaction
Version
0.1
Confidentialité
non
RÉDACTION/VALIDATION
DIFFUSION
Rédigée par :

Ludovic Lux

Marie Muller
Destinataires
Validé par [nom(s) + date du visa]
VERSIONS
N°
0.1
LL - MM
Etats
Dates
Auteur
Modifications
Pages
05/02/2014 LL + MM
DIDFP
1
1) Contexte:
La publication des vocabulaires sur le site ScoLOMFR est assurée par l’équipe des terminologues de
CANOPÉ travaillant sur le projet. Cette publication est actuellement proposée en deux versions : une
version HTML et une version XML. La construction de ces fichiers reflète directement l’organisation des
vocabulaires telle qu’elle a été pensée dans ITM (Mondeca) à l’instant t de publication. Or, dans le cadre
de l’implémentation de l’ontologie SKOS, cette organisation est amenée à changer, la logique
terminologique faisant place à une logique conceptuelle. Un changement de logique qui est amené à
impacter la structure des fichiers de sortie des vocabulaires.
Nous proposons ainsi, via le présent document, une nouvelle construction des fichiers de vocabulaires
qui tienne compte des changements induits par l’ontologie SKOS.
2) Structure originale des fichiers:
Dans ITM, les informations de contextualisation (la définition, les notes d’application, l’origine) sont
jusqu’ici portées par le terme. Il en va de même pour l’identifiant.
Ceci se retrouve dans la construction actuelle des fichiers XML.
Prenons comme exemple le vocabulaire 18 :
[...]
LL - MM
DIDFP
2
Dans la logique actuelle figurée ci-dessus, le TERME porte les identifiants (ID), les définitions (DF), les
notes d’application (NA) et l’origine (ORIGINE). Les relations se font également entre termes
(équivalences de type TERME_TE, association de type TA, spécificité de type TS). Cette construction
n’est plus cohérente avec la logique conceptuelle nouvellement adoptée qui permet de regrouper les
différentes expressions d’une idée sous une même entité (représentée par un URI) et de renseigner les
informations contextuelles à ce niveau.
La distinction entre les deux logiques est expliquée par ces deux entrées de tableau, directement tirées
du primer SKOS (http://www.w3.org/TR/skos-primer/):
LL - MM
DIDFP
3
Ainsi, la notion d'ambiguïté qui subsiste dans une logique terminologique (et qui appelait des précisions
sur le terme même, comme dans l’exemple ci-dessus) disparaît dans une logique conceptuelle, le
concept s’attribuant les informations de sens.
L’exemple ci-dessus (crane (bird) vs. crane (lifting equipment)) montre que, dans le cas des termes, la
distinction entre les deux types de “grues” - puisqu’il s’agit de grues - doit être portée sur l’intitulé des
termes (grue (oiseau) et grue (appareil de levage)). Dans le cas du concept, l’information est associée à
un URI neutre linguistiquement. L’intitulé grue se voit donc d’emblée désambiguïsé selon qu’il est associé
à un concept ou à un autre.
Dans cette optique, nous proposons une nouvelle structure des fichiers XML qui appelle plusieurs
changements :
- l’introduction de la balise CONCEPT,
- l'intégration des balises ID, DF, NA, ORDRE (des précisions sur cette balise en page 6 du document) et
ORIGINE au niveau de CONCEPT,
- l’établissement des associations hiérarchiques de type TS et TA entre les CONCEPT
Des modifications mineures sont également à prévoir, comme la disparition de la balise LANGAGE au
profit d’un attribut XML de langue.
3) Nouvelle structure des fichiers:
Le but de cette nouvelle structure est de créer un point d’entrée unique et pérenne dans notre
vocabulaire pour l’idée/le concept afin d’être le plus proche possible du modèle SKOS. Les termes ne
sont traités que comme des intitulés possibles de ce concept.
Nous introduisons donc la balise CONCEPT qui englobe les balises TERME et TERME_TE. Cette balise
prend en charge les informations qui jusqu’ici étaient portées par les termes (ID, DF, NA ORDRE et
ORIGINE).
En reprenant l’exemple du vocabulaire 18, nous proposons la construction suivante:
<CONCEPT>
<ID>http://data.education.fr/voc/scolomfr/scolomfr-voc-018-num-007</ID>
<DF lang=”fr”>Modalité pédagogique</DF>
<ORIGINE>scolomfr-voc-018</ORIGINE>
<TERME>
<INTITULE lang=”fr”>en entreprise</INTITULE>
<ID>scolomfr-voc-018-num-007</ID>
</TERME>
LL - MM
DIDFP
4
<TS>
<CONCEPT>
<ID>http://data.education.fr/voc/scolomfr/scolomfr-voc-018num-008</ID>
<DF lang=”fr”>Modalité pédagogique</DF>
<ORIGINE>scolomfr-voc-018</ORIGINE>
<TERME>
<INTITULE lang=”fr”>visite d'entreprise</INTITULE>
<ID>scolomfr-voc-018-num-008</ID>
</TERME>
</CONCEPT>
</TS>
</CONCEPT>
[...]
<CONCEPT>
<ID>http://data.education.fr/voc/scolomfr/scolomfr-voc-018-num-019</ID>
<DF lang=”fr”>Modalité pédagogique</DF>
<NA lang=”fr”>Renvoie à une finalité essentiellement pédagogique de
l'évènement</NA>
<ORIGINE>scolomfr-voc-018</ORIGINE>
<TERME>
<INTITULE lang=”fr”>sortie pédagogique</INTITULE>
<ID>scolomfr-voc-018-num-019</ID>
</TERME>
<TERME_TE>
<INTITULE lang=”fr”>sortie culturelle</INTITULE>
<ID>scolomfr-voc-018-num-018</ID>
</TERME_TE>
<TERME_TE>
<INTITULE lang=”fr”>spectacle</INTITULE>
<ID>scolomfr-voc-018-num-020</ID>
</TERME_TE>
</CONCEPT>
Certains choix ont été faits pour faciliter la gestion des changements :
- le nom des balises d’origine a été conservé,
- les relations de spécificité sont définies à l’intérieur du concept générique (la balise CONCEPT englobe
la balise TS),
- les notions de terme préférentiel et de terme équivalent sont toujours représentées par les balises
TERME et TERME_TE respectivement,
- la balise INTITULE a été conservée (voir paragraphe suivant pour l’explication),
- la balise ID au niveau du TERME a été conservée (voir paragraphe suivant pour l’explication)
LL - MM
DIDFP
5
► A noter l’introduction dans la nouvelle formalisation des fichiers XML d’une balise de classement des
concepts entre eux, la balise ORDRE. Celle-ci correspond à l’attribut « ordre – classement » utilisé dans
ITM pour ordonner entre eux les concepts d’un ensemble donné.
Cette nouvelle structure n’influence pas la construction du fichier HTML : à l’affichage, le concept adopte
l’intitulé du terme préférentiel, soit la valeur de la balise INTITULE contenue dans TERME, déjà utilisée
actuellement.
4) La correspondance avec SKOS-XL et VDEX :
Les balises INTITULE et ID (contenues dans TERME) ont été conservées dans l’optique de créer une
correspondance avec le SKOS-XL et le VDEX.
Le SKOS-XL permet d’associer un URI a un terme et ainsi de gérer les relations entre termes, ce que le
SKOS classique ne permet pas. Il en va de même pour le VDEX qui associe un identifiant à chaque
terme.
Un terme SKOS-XL est défini par skosxl:Label qui porte l’URI et skosxl:literalForm qui porte la
chaîne de caractères. Une construction similaire est observée en VDEX: l’identifiant se situe sur
vdex:termIdentifier et la chaîne de caractères sur vdex:langstring. La balise ID joue ainsi le
même rôle que skosxl:Label et vdex:termIdentifier. Elle contient jusqu’ici les identifiants de
reprise renseignés dans ITM, mais nous pouvons imaginer qu’elle contiendra à l’avenir un URI propre au
terme qui sera utilisé par plusieurs concepts (la non transitivité des propriétés SKOS le permet). La balise
INTITULE peut, elle, être assimilée à skosxl:literalForm et vdex:langstring.
Ces correspondances ont néanmoins leurs limites, notamment au niveau de la gestion du multilinguisme
ou de l’expression du concept en VDEX.
LL - MM
DIDFP
6