OAI-PMH et métadonnées Dublin Core et quelques autres “Mutualiser les ressources documentaires en utilisant le protocole OAI-PMH”, Fréjus, 14-16 octobre 2009 Catherine Morel-Pair INIST-CNRS, Département.
Download ReportTranscript OAI-PMH et métadonnées Dublin Core et quelques autres “Mutualiser les ressources documentaires en utilisant le protocole OAI-PMH”, Fréjus, 14-16 octobre 2009 Catherine Morel-Pair INIST-CNRS, Département.
OAI-PMH et métadonnées Dublin Core et quelques autres “Mutualiser les ressources documentaires en utilisant le protocole OAI-PMH”, Fréjus, 14-16 octobre 2009 Catherine Morel-Pair INIST-CNRS, Département Edition et Publications Numériques [email protected] Protocole OAI-PMH Fournisseurs de données ? ? Fournisseur de services Protocole OAI-PMH et métadonnées • Un entrepôt OAI-PMH répond en XML aux 6 verbes de requête du protocole “ListRecords” et ”GetRecord” rendent des “enregistrements” (records) de métadonnées décrivant les documents de l’archive • • Minimum obligatoire : enregistrement Dublin Core simple, “oai_dc” • Autres possibles, en parallèle, selon objectifs – MARC-XML, MODS – METS , DIDL – … tout jeu d’éléments en XML … • http://gita.grainger.uiuc.edu/registry/ListSchemas.asp Item = ensemble d’enregistrements décrivant une ressource 4 Source : http://www.collectionscanada.gc.ca/obj/s37/f2/s37-4016.1-f.pdf, trouvaille du Comité de pilotage FRéDoc Métadonnées en XML ? … Types de ressources Formats de ressources Thèses : ETDMS, TEF Ressources pédagogiques, géospatiales, linguistiques … Image : XMP, MIX Multimédia : MPEG 7, 21 Documents TEI … Généraliste, Web, échanges Containers Dublin Core METS MPEG 21 (DIDL) OAI-ORE Métiers Objectifs Droits : CC, ODRL Veille : RSS Préservation : PREMIS Bib-doc : *MARC MODS BiblioML Chaîne du livre : ONIX Archivistique : EAD … Métadonnées et XML ? Un tiercé en 1 heure • Dublin Core simple – généricité, universalité – Socle d’interopérabilité de l’OAI-PMH (2400 entrepôts) – Nombreux autres usages … • MODS - description bibliographique – OAI-PMH - 100 entrepôts – Autres usages … • METS - “container” , collections – OAI-PMH - 130 entrepôts – Autres usages … … En bonne place aussi dans l’OAI-PMH : MARC-XML* (580), RFC1807 (308), … ETDMS (117), DIDL (79) … DC qualifié (60) 1 - Dublin Core • DCMI, Dublin Core Metadata Initiative, 1995 – “Pallier les insuffisances des métadonnées HTML […] pour donner une sémantique au Web” […] et améliorer la “resource discovery” – Par un standard généraliste pour le Web • “description bibliographique simplifiée” • … pour tout type de ressource – http://dublincore.org Dublin Core, des modules • DC simple : généricité, universalité – 15 éléments caractérisés par 10 propriétés norme ISO 15836-2003 Ex : title, relation • DC qualifié : de la précision – + “qualificatifs” plus spécifiques – Ex: alternative, hasFormat … • DC étendu : des compléments – + éléments issus d’autres standards (Learning Object Metadata IEEELOM), ex : audience – + éléments récents : provenance, accroissement de collections … • “Encoding schemes” : homogénéiser les valeurs des éléments et qualificatifs – Pour homogénéiser les valeurs des éléments – ex. thésaurus, codes ISO langues et pays … Dublin Core simple en une page • Les éléments descriptifs du contenu de la ressource – title, description, subject, coverage, type, language, relation • Les éléments “administratifs” – Des éléments descriptifs des droits • creator, contributor, publisher, rights, source – Des éléments techniques • format, date, identifier • Un élément de structure (parfois) : relation • Des recommandations pour homogénéiser les contenus des valeurs – Utiliser des ressources reconnues : thésaurus, codes langues, pays … et des modèles de valeur Dublin Core qualifié exemple 1 Element title Nom donné à la ressource description Description du contenu de la ressource Qualificatif Qualificatif alternative : autre titre (traduction, abréviation…) abstract : tableOfContent : résumé liste des sous-unités du contenu de la ressource Dublin Core qualifié exemple 2 Relation Qualificatifs Référence à une ressource liée ... Il est recommandé d'utiliser une dénomination formelle des ressources (URI) isFormatOf / hasFormat isVersionOf / hasVersion isReplacedBy / replaces isRequiredBy / requires isPartOf / hasPart isReferencedBy / references conformsTo Dublin Core en XML • Dublin Core simple <dc:title>Métadonnées et XML</dc:title> <dc:relation>Ingénierie des systèmes d’information, 2005, no 2</dc:relation> <dc:type>Text</dc:type> … ex : enregistrement oai_dc • Dublin Core qualifié <dcterms:alternative xml:lang=“en”>Metadata and XML </dcterms:alternative> <dcterms:isPartOf>Ingénierie des systèmes d’information, 2005, no 2</dcterms:isPartOf> Plus professionnel • Description plus fine • Attributs xml:lang, xsi:type plus fréquents • Valeurs contrôlées plus souvent Moissonneurs et DC, exemple OAISTER Dublin Core intérêt … et limites • • • • • Consensus international et interprofessionnel Sémantique “commune” interdisciplinaire ; multilinguisme Simplicité – 2 niveaux d’usage Flexibilité Normalisation et évolutivité largement adopté aujourd’hui • Description généraliste pour la recherche d’informations – Pour des ressources plutôt électroniques et “isolées” • Métadonnées techniques et administratives limitées • Implémentation peu contraignante … dans des “profils d’application” … ou à côté d’autres descriptions DC : “le pouvoir de la simplicité” … Archives ouvertes et protocole OAI-PMH Z39.50, SRW OpenURL Bibliothèques numériques Annuaires et portails Thèses Electroniques Fr “Informations publiques” Corpus Recherche (OLAC …) EBooks : standard ePUB XMP et images Web sémantique Web 2 Outils logiciels … 2008 : DCAM Dublin Core Abstract Model • “Web sémantique” : d’un Web de “documents” à un Web de “données” interopérables – – – compréhensibles par les machines Indépendantes du contexte applicatif, interconnectables … pour créer de nouvelles données / “raisonnement machine” Standards ! • Ecriture structurée : triplets RDF • Propriétés et valeurs issues d’espaces de noms et ontologies autant que possible : connaissances scientifiques, savoir-faire, personnes, objets (numériques ou non), droits … DC devient une “ontologie”, pour décrire des objets de l’activité intellectuelle et artistique – Via une modélisation abstraite des entités Dublin Core et de leurs relations, sur le modèle RDF • http://purl.org/dc/terms – Utilisée avec d’autres ontologies – Voir DBPedia, Libris … Sindice LIBRIS, catalogue collectif suédois RDF, DC et autres … Source : http://blog.libris.kb.se/semweb/?p=7 MODS Metadata Object Description standard • Sous-ensemble d’éléments MARC verbalisés, “suffisant pour créer un enregistrement bibliographique complet” – Finesse supérieure à Dublin Core, + convivial que *MARC • Né et stabilisé en 2003, Library of Congress – http://www.loc.gov/standards/mods/ Descriptions de ressources très diverses – Textes, images, audio-visuel, partitions, sites Web, bâtiments … implémentés avec des suites d’outils variés – France : base de données DAPHNE, http://daphne.cnrs.fr • 3 partenaires : BAHR, FRANCIS, Frantiq – 100 entrepôts OAI-PMH MODS et OAI-PMH Extrait … <name type="personal"> <namePart type="family"> Wheatley</namePart> <namePart type="given"> Phillis</namePart> … </name> " MODS et moissonneurs “généralistes” Un début … MODS, pivot de DAPHNE BiblioML versus MODS ? (5 blocs, 224 éléments) http://90plan.ovh.net/~adnx/biblioml/doku.php MODS, Libr of Congress 3 - METS Metadata Encoding and Transmission Standard • Né en 2001, projet MOA “Making of America” II – Collections numériques sur l’histoire des Etats-Unis • Créé et maintenu par la Library of Congress, http://www.loc.gov/standards/mets/ – Pour décrire / créer, et partager / échanger des “objet numériques complexes” • “Enveloppe” comprenant tous les types de métadonnées “bien rangés” dans des sections, avec liens explicites entre composants … METS, structure DC, MODS EAD ONIX … metsHdr Creat. Com. METSRights PREMIS MIX.. Administration Description contenu Section comportements Section des fichiers Juridiques Techniques Préservation * Liens structure Carte(s) de structure METS, fonctions Transferts de gros paquets de (méta)données organisés de manière standard et structurée Utilisation facile / implémentation plus complexe Pérennisation des collections et métadonnées Permet l’implémentation des “paquets de soumission” conformes à la norme OAIS Pré-organise les diffusions Prépare les interfaces de navigation dérivées (sections : carte de structure, comportement, administrative …) METS aujourd’hui • Des applications, des outils … – http://www.loc.gov/standards/mets/mets-registry.html – FEDORA, Greenstone … DSpace – 130 entrepôts OAI-PMH • … en France – Entrepôts OAI-PMH : Revues.org, Persée, Cairn – Thèses électroniques françaises • un seul fichiers METS encapsulant DC, MODS, ETDMS … pour chaque thèse et toutes ses versions http://www.abes.fr/abes/documents/tef/exemples.html – Editions Electroniques de l’Ecole des Chartes (+ TEI) – BNF : SPAR, archivage pérenne des collections numériques – Archivage pérenne des archives visuelles du CN2SV • entrepôt “OAIS”, Data Center ……? METS, Library of Congress Conclusion : un exemple, la plateforme du CN2SV pour les fonds d’archives des sciences • http:/www.arch.cn2sv.cnrs.fr/ La plateforme du CN2SV : XML et métadonnées standard à tous les étages Moteurs Annuaires Web Création fichier EAD METS Ajout Métas IPTC embarquées (XMP) Source : présentations de Stéphane Pouyllau Data center Modèle OAIS Entrepôt OAI-PMH DC- XML …