OAI-PMH et métadonnées Dublin Core et quelques autres “Mutualiser les ressources documentaires en utilisant le protocole OAI-PMH”, Fréjus, 14-16 octobre 2009 Catherine Morel-Pair INIST-CNRS, Département.
Download
Report
Transcript OAI-PMH et métadonnées Dublin Core et quelques autres “Mutualiser les ressources documentaires en utilisant le protocole OAI-PMH”, Fréjus, 14-16 octobre 2009 Catherine Morel-Pair INIST-CNRS, Département.
OAI-PMH et métadonnées
Dublin Core et quelques autres
“Mutualiser les ressources documentaires en utilisant le
protocole OAI-PMH”, Fréjus, 14-16 octobre 2009
Catherine Morel-Pair
INIST-CNRS, Département Edition et Publications
Numériques
[email protected]
Protocole OAI-PMH
Fournisseurs
de données
?
?
Fournisseur
de services
Protocole OAI-PMH
et métadonnées
• Un entrepôt OAI-PMH répond en XML aux 6
verbes de requête du protocole
“ListRecords” et ”GetRecord” rendent des “enregistrements”
(records) de métadonnées décrivant les documents de l’archive
•
• Minimum
obligatoire : enregistrement Dublin Core simple,
“oai_dc”
• Autres possibles, en parallèle, selon objectifs
– MARC-XML, MODS
– METS , DIDL
– … tout jeu d’éléments en XML …
• http://gita.grainger.uiuc.edu/registry/ListSchemas.asp
Item = ensemble d’enregistrements décrivant une
ressource
4
Source : http://www.collectionscanada.gc.ca/obj/s37/f2/s37-4016.1-f.pdf, trouvaille du Comité de pilotage FRéDoc
Métadonnées en XML ? …
Types de ressources
Formats
de ressources
Thèses : ETDMS, TEF
Ressources pédagogiques,
géospatiales, linguistiques
…
Image : XMP, MIX
Multimédia : MPEG 7, 21
Documents TEI …
Généraliste, Web, échanges
Containers
Dublin Core
METS
MPEG 21 (DIDL)
OAI-ORE
Métiers
Objectifs
Droits : CC, ODRL
Veille : RSS
Préservation : PREMIS
Bib-doc : *MARC
MODS
BiblioML
Chaîne du livre : ONIX
Archivistique : EAD
…
Métadonnées et XML ?
Un tiercé en 1 heure
• Dublin Core simple – généricité, universalité
– Socle d’interopérabilité de l’OAI-PMH (2400 entrepôts)
– Nombreux autres usages …
• MODS - description bibliographique
– OAI-PMH - 100 entrepôts
– Autres usages …
• METS - “container” , collections
– OAI-PMH - 130 entrepôts
– Autres usages …
… En bonne place aussi dans l’OAI-PMH :
MARC-XML* (580), RFC1807 (308),
… ETDMS (117), DIDL (79) … DC qualifié (60)
1 - Dublin Core
• DCMI, Dublin Core Metadata Initiative,
1995
– “Pallier les insuffisances des
métadonnées HTML […] pour donner
une sémantique au Web” […] et améliorer
la “resource discovery”
– Par un standard généraliste pour le Web
• “description bibliographique simplifiée”
• … pour tout type de ressource
– http://dublincore.org
Dublin Core, des modules
•
DC simple : généricité, universalité
– 15 éléments caractérisés par 10 propriétés
norme ISO 15836-2003
Ex : title, relation
•
DC qualifié : de la précision
– + “qualificatifs” plus spécifiques
– Ex: alternative, hasFormat …
•
DC étendu : des compléments
– + éléments issus d’autres standards (Learning Object Metadata IEEELOM), ex : audience
– + éléments récents : provenance, accroissement de collections …
•
“Encoding schemes” : homogénéiser les valeurs des éléments et
qualificatifs
– Pour homogénéiser les valeurs des éléments
– ex. thésaurus, codes ISO langues et pays …
Dublin Core simple
en une page
•
Les éléments descriptifs du contenu de la ressource
– title, description, subject, coverage, type, language, relation
•
Les éléments “administratifs”
– Des éléments descriptifs des droits
• creator, contributor, publisher, rights, source
– Des éléments techniques
• format, date, identifier
•
Un élément de structure (parfois) : relation
•
Des recommandations pour homogénéiser les contenus des
valeurs
– Utiliser des ressources reconnues : thésaurus, codes langues, pays …
et des modèles de valeur
Dublin Core qualifié
exemple 1
Element
title
Nom donné à la
ressource
description
Description du
contenu de la
ressource
Qualificatif
Qualificatif
alternative :
autre titre
(traduction,
abréviation…)
abstract :
tableOfContent :
résumé
liste des sous-unités
du contenu de la
ressource
Dublin Core qualifié
exemple 2
Relation
Qualificatifs
Référence à une ressource liée ...
Il est recommandé d'utiliser une dénomination
formelle des ressources (URI)
isFormatOf / hasFormat
isVersionOf / hasVersion
isReplacedBy / replaces
isRequiredBy / requires
isPartOf / hasPart
isReferencedBy / references
conformsTo
Dublin Core en XML
• Dublin Core simple
<dc:title>Métadonnées et XML</dc:title>
<dc:relation>Ingénierie des systèmes d’information, 2005,
no 2</dc:relation>
<dc:type>Text</dc:type>
… ex : enregistrement oai_dc
• Dublin Core qualifié
<dcterms:alternative xml:lang=“en”>Metadata and XML
</dcterms:alternative>
<dcterms:isPartOf>Ingénierie des systèmes
d’information, 2005, no 2</dcterms:isPartOf>
Plus professionnel
• Description plus fine
• Attributs xml:lang, xsi:type plus fréquents
• Valeurs contrôlées plus souvent
Moissonneurs et DC,
exemple OAISTER
Dublin Core
intérêt … et limites
•
•
•
•
•
Consensus international et interprofessionnel
Sémantique “commune” interdisciplinaire ; multilinguisme
Simplicité – 2 niveaux d’usage
Flexibilité
Normalisation et évolutivité
largement adopté aujourd’hui
• Description généraliste pour la recherche d’informations
– Pour des ressources plutôt électroniques et “isolées”
• Métadonnées techniques et administratives limitées
• Implémentation peu contraignante
… dans des “profils d’application”
… ou à côté d’autres descriptions
DC : “le pouvoir de la simplicité” …
Archives ouvertes
et protocole OAI-PMH
Z39.50, SRW
OpenURL
Bibliothèques numériques
Annuaires et portails
Thèses Electroniques Fr
“Informations
publiques”
Corpus Recherche
(OLAC …)
EBooks : standard ePUB
XMP et images
Web sémantique
Web 2
Outils logiciels
…
2008 : DCAM
Dublin Core Abstract Model
•
“Web sémantique” : d’un Web de “documents” à un Web de
“données” interopérables
–
–
–
compréhensibles par les machines
Indépendantes du contexte applicatif, interconnectables
… pour créer de nouvelles données / “raisonnement machine”
Standards !
• Ecriture structurée : triplets RDF
• Propriétés et valeurs issues d’espaces de noms et ontologies autant que
possible : connaissances scientifiques, savoir-faire, personnes, objets
(numériques ou non), droits …
DC devient une “ontologie”, pour décrire des objets de l’activité
intellectuelle et artistique
– Via une modélisation abstraite des entités Dublin Core et de leurs
relations, sur le modèle RDF
•
http://purl.org/dc/terms
– Utilisée avec d’autres ontologies
– Voir DBPedia, Libris … Sindice
LIBRIS, catalogue collectif suédois
RDF, DC et autres …
Source : http://blog.libris.kb.se/semweb/?p=7
MODS
Metadata Object Description standard
• Sous-ensemble d’éléments MARC verbalisés, “suffisant
pour créer un enregistrement bibliographique complet”
– Finesse supérieure à Dublin Core, + convivial que *MARC
• Né et stabilisé en 2003, Library of Congress
– http://www.loc.gov/standards/mods/
Descriptions de ressources très diverses
– Textes, images, audio-visuel, partitions, sites Web, bâtiments
… implémentés avec des suites d’outils variés
– France : base de données DAPHNE, http://daphne.cnrs.fr
• 3 partenaires : BAHR, FRANCIS, Frantiq
– 100 entrepôts OAI-PMH
MODS et OAI-PMH
Extrait …
<name type="personal">
<namePart type="family"> Wheatley</namePart>
<namePart type="given"> Phillis</namePart> …
</name>
"
MODS et moissonneurs “généralistes”
Un début …
MODS, pivot de DAPHNE
BiblioML versus MODS ?
(5 blocs, 224 éléments)
http://90plan.ovh.net/~adnx/biblioml/doku.php
MODS, Libr of Congress
3 - METS
Metadata Encoding and Transmission Standard
• Né en 2001, projet MOA “Making of America” II
– Collections numériques sur l’histoire des Etats-Unis
• Créé et maintenu par la Library of Congress,
http://www.loc.gov/standards/mets/
– Pour décrire / créer, et partager / échanger des “objet
numériques complexes”
• “Enveloppe” comprenant tous les types de
métadonnées “bien rangés” dans des sections,
avec liens explicites entre composants …
METS, structure
DC,
MODS
EAD
ONIX …
metsHdr
Creat. Com.
METSRights
PREMIS
MIX..
Administration
Description
contenu
Section
comportements
Section des
fichiers
Juridiques
Techniques
Préservation *
Liens structure
Carte(s) de
structure
METS, fonctions
Transferts de gros paquets de (méta)données
organisés de manière standard et structurée
Utilisation facile / implémentation plus complexe
Pérennisation des collections et métadonnées
Permet l’implémentation des “paquets de soumission”
conformes à la norme OAIS
Pré-organise les diffusions
Prépare les interfaces de navigation dérivées
(sections : carte de structure, comportement, administrative …)
METS aujourd’hui
• Des applications, des outils …
– http://www.loc.gov/standards/mets/mets-registry.html
– FEDORA, Greenstone … DSpace
– 130 entrepôts OAI-PMH
• … en France
– Entrepôts OAI-PMH : Revues.org, Persée, Cairn
– Thèses électroniques françaises
• un seul fichiers METS encapsulant DC, MODS, ETDMS … pour
chaque thèse et toutes ses versions
http://www.abes.fr/abes/documents/tef/exemples.html
– Editions Electroniques de l’Ecole des Chartes (+ TEI)
– BNF : SPAR, archivage pérenne des collections numériques
– Archivage pérenne des archives visuelles du CN2SV
• entrepôt “OAIS”, Data Center
……?
METS, Library of Congress
Conclusion : un exemple, la plateforme du CN2SV
pour les fonds d’archives des sciences
• http:/www.arch.cn2sv.cnrs.fr/
La plateforme du CN2SV : XML et
métadonnées standard à tous les étages
Moteurs
Annuaires
Web
Création fichier EAD
METS
Ajout
Métas IPTC
embarquées
(XMP)
Source :
présentations
de Stéphane
Pouyllau
Data center
Modèle OAIS
Entrepôt OAI-PMH
DC- XML
…