Structure des fichiers VDEX_3

Download Report

Transcript Structure des fichiers VDEX_3

CANOPÉ siège social
Téléport 1@4
BP 80158
86961 Futuroscope cedex
T 05 49 49 78 78
http://reseau-canope.fr
Documentation - structure des fichiers VDEX
DÉFINITION
Date
09/07/2014
Etat
rédaction
Version
0.1
Confidentialité
non
RÉDACTION/VALIDATION
DIFFUSION
Rédigée par :
•
Destinataires
Ludovic Lux
Validé par [nom(s) + date du visa]
VERSIONS
N°
0.1
LL
Etats
Dates
Auteur
Modifications
Pages
09/07/2014 LL
DIDFP
1
Note sur le VDEX :
VDEX (Vocabulary Definition Exchange) est une grammaire XML spécifiquement dédiée à l’encodage de
vocabulaires contrôlés. Elle est développée par IMS Global et publiée dans sa version finale en février
2004. VDEX permet de modéliser simplement une liste de termes présents dans un vocabulaire et de
figurer les relations existant entre ces termes (par exemple telles que définies par les normes ISO 2788
et ISO 5964 [VDEX1]). Le schéma global (représenté ci-dessous) illustre l’organisation générale du
format d’échange VDEX : une liste de termes identifiés et nommés (parfois dans plusieurs langues) d’une
part, les relations typées existant entre ces termes d’autre part.
Figure 1: Schéma du modèle VDEX [VDEXBIND]
LL
DIDFP
2
Le processus de sémantisation des vocabulaires du ScoLOMFR et le passage d’une logique
terminologique à une logique conceptuelle ([SCOLOMFRXML], [INFORMATIONR]) ont eu un impact
significatif sur leur utilisation, modifiant de facto la manière d’envisager la structure des fichiers de sortie
VDEX.
Le présent document a pour objectif de détailler et d’expliquer les choix faits dans la construction de ces
fichiers.
Impact de la logique conceptuelle sur la sortie en VDEX :
La sémantisation évoquée plus haut consiste essentiellement à proposer plusieurs formes lexicales
(plusieurs termes) pour une même notion (un même concept), ceci dans l’optique d’étendre les
possibilités de recherche. L’indexation des ressources ne se fait donc plus à l’aide d’une liste de termes
mais à l’aide de concepts.
La difficulté qu’engendre ce changement de logique réside dans la traduction de cette sémantisation en
VDEX, grammaire conçue pour la représentation de vocabulaires basés sur des termes et non sur des
concepts et qui ne prend donc pas nativement en charge les relations entre ces différents niveaux.
La structure envisagée prend donc en compte plusieurs critères :
-
l’élément de base pour l’indexation doit être le concept (via l’utilisation de son URI),
-
la transition entre l’utilisation des identifiants de termes vers celles des URIs de concepts doit
apparaître dans la structure des fichiers,
-
le processus de modélisation de cette transition doit permettre d’assurer la rétrocompatibilité,
-
le format de sortie doit respecter le schéma XML du VDEX et doit correspondre aux bonnes
pratiques en vigueur
Pour que toutes ces conditions soient respectées, seuls les concepts sont représentés dans les fichiers.
Les relations entre concepts et termes ne sont donc pas exploitables en utilisant le modèle que le présent
document décrit, nous réorientons les utilisateurs vers le format SKOS pour une gestion avancée des
vocabulaires.
Note : un format VDEX plus complexe, exploitant les différentes expressions des concepts, est disponible
à la demande. Il convient d’alerté l’utilisateur potentiel sur le caractère peu orthodoxe de l’architecture
dudit format qui s’éloigne des bonnes pratiques définies par IMS Global et qui risque donc de ne pas être
compatible avec les principales interfaces logicielles. Son usage est donc prioritairement destiné aux
utilisateurs avancés qui souhaitent avoir accès à la pleine potentialité des vocabulaires sans pour autant
effectuer la transition vers les formats sémantiques tel le SKOS.
LL
DIDFP
3
Structure des fichiers :
La structure adoptée est donc la suivante :
-
Pour la définition des vocabulaires :
Cette partie ne s’éloigne pas des pratiques définies par IMS Global, le détail de l’élément <metadata>
sera présenté dans le paragraphe suivant.
Figure 2: Structure des informations relatives au vocabulaire
-
Pour la définition du concept :
Seul l’URI du concept apparaît. Le libellé utilisé est celui du terme préférentiel et est directement associé
au concept via l’élément <caption>. La distinction entre concept publié et déprécié est documentée dans
l’élément <metadata>. A noter que les concepts dépréciés n’ont pas de libellé.
Figure 3: Structure des informations relatives au concept
-
Pour les relations :
Les concepts génériques et spécifiques sont reliés par des relations de type BT/NT. Les concepts publiés
et dépréciés sont reliés par deux relations : une relation d’équivalence de type « exact » et des relations
de type USE/UF pour indiquer que le concept publié doit être utilisé à la place du concept déprécié.
LL
DIDFP
4
Figure 4: Structure des informations relatives aux relations
Peuplement de l’élément <metadata> :
La présence de cet élément sert essentiellement à indiquer le statut du concept et à documenter les
changements opérés dans le vocabulaire. Le schéma utilisé est ADMS (Asset Description Metadata
Schema) [ADMS1].
Schéma ADMS :
Figure 5: Structure de l'élément <metadata> du vocabulaire
LL
DIDFP
5
Figure 6: Structure de l'élément <metadata> du concept
L'élément <cvb :TypeCode> présent dans <cva :AssetStatus> est associé à un vocabulaire contrôlé
maintenu par le programme ISA [ADMSCV]. Les concepts à utiliser sont ceux ayant le statut
« Completed ». Les anciens identifiants sont dépréciés (statut « Deprecated ») en plus d’être dépourvus
de libellés.
Validité des ressources indexées avec les anciens vocabulaires :
La rétrocompatibilité des anciens identifiants de terme étant assurée via les équivalences entre
identifiants dépréciés et URIs publiés, les ressources indexées avec ces identifiants ne nécessitent pas
de processus de réindexation.
Dans le cas où l’indexation des ressources a été faite sur les libellés et non sur les identifiants, il est
nécessaire de procéder à une mise en conformité via une régénération des fiches descriptives avec
injection de l’URI du concept en lieu et place du libellé. Une feuille de style permettant d’automatiser
l’opération sera proposée pour le dernier trimestre 2014.
Références :
[ADMS1] ADMS: Asset Description Metadata Schema – lien vers les différents schémas
URL: https://joinup.ec.europa.eu/asset/adms/asset_release/adms#download-links
[ADMSCV] ADMS Controlled Vocabularies – lien vers les vocabulaires contrôlés en SKOS
URL: https://joinup.ec.europa.eu/svn/adms/ADMS_v1.00/ADMS_SKOS_v1.00.html
[INFORMATIONR] Information Research, 14(4) paper 422 - Advantages of thesaurus
representation using the Simple Knowledge Organization System (SKOS) compared with
proposed alternatives
URL: http://www.informationr.net/ir/14-4/paper422.html
LL
DIDFP
6
[SCOLOMFRXML] Vocabulaires ScoLOMFR - Proposition de formalisation des fichiers XML:
d’une approche terminologique à une approche conceptuelle
URL: http://www.lomfr.fr/scolomfr/fileadmin/user_upload/docs_utiles/formalisation_des_fichiers_XML_du_ScoLOMF
S.pdf
[VDEX1] IMS Vocabulary Definition Exchange – Bonnes pratiques et guide d’implémentation
URL: http://www.imsglobal.org/vdex/vdexv1p0/imsvdex_bestv1p0.html#1520640
[VDEXBIND] IMS Vocabulary Definition Exchange – XML Binding
URL: http://www.imsglobal.org/vdex/vdexv1p0/imsvdex_bindv1p0.html
LL
DIDFP
7