Transcript Document

Récupération de notices et interopérabilité des catalogues
Les étapes techniques
d’une récupération de notices
*
[email protected]
Contexte et enjeux
La coopération entre les bibliothèques : une vieille histoire.
L’interopérabilité des catalogues vise d’abord l’échange de données.
- facilite la production des informations
- facilite l’échange d’informations
- facilite la circulation des documents eux-mêmes
Motivées par des nécessités économiques (baisse des coûts
de production). Les nombreux efforts de normalisation en
sont la conséquence.
On discerne déjà la nécessité de pratiques harmonisées entre les
bibliothèques avec l’utilisation de
- normes
- formats
- protocoles
Tous très richement documentés !
Normes en vigueur dans les bibliothèques pour la description bibliographique :
Z 44-050
Catalogage des monographies - texte imprimé
Z 44-063
Z 44-074
Z 44-065
Z 44-066
Z 44-067
Z 44-069
Z 44-077
Z 44-078
Z 44-082
Z 44-073
Z 44-059
Z 44-060
Catalogage des ressources continues
Catalogage des monographies anciennes
Catalogage des vidéogrammes
Catalogage des enregistrements sonores
Catalogage des documents cartographique
Catalogage de la musique imprimée
Catalogage des images fixes
Catalogage des parties composantes
Catalogage des ressources électroniques
Catalogage des monographies - texte imprimé (description allégée )
Catalogage - Choix des accès à la description bibliographique
Catalogage d’auteurs et d’anonymes : forme et structure des
vedettes de collectivités auteurs
Z 44-061
Z 44-079
Z 44-081
Z 44-070
Z 44-005
Catalogage d’auteurs et d’anonymes : Forme et structure des
vedettes noms de personne, des vedettes titres, des rubriques de classement et des titres
forgés
Catalogage - Forme et structure des vedettes titres musicaux Z 44-081
Catalogage - Forme et structure des vedettes : Noms géographiques
Documentation - Indexation analytique par matières
Documentation - Références bibliographiques : contenu, forme et structure
Formats utilisés en bibliothèque :
MARC (MARC 21, UNIMARC)
Mais aussi DublinCore (format normalisé!), XML
Protocoles utilisés en bibliothèque :
Par exemple pour l’échange de données : Z39-50, SRU/SRW ;
WAIS(Wide area information service), FTP (File transfert protocol)
L’interopérabilité, qu’est-ce que c’est ?
« L’ interopérabilité est la capacité que possède un produit ou un
système, dont les interfaces sont intégralement connues, à
fonctionner avec d'autres produits ou systèmes existants ou futurs
et ce sans restriction d'accès ou de mise en œuvre . »
(AFUL)
vs
compatibilité
interopérabilité
Cela nécessite une grande transparence sur
les mécanismes ou les formats employés…
L’intéropérabilité en trois mouvements
Elle met en jeu trois niveaux techniques complémentaires(1) :
1. Une description des ressources avec une
sémantique commune
2. Un contexte générique d’implémentation des
descriptions dans des langages structurés
standardisés, interprétables par des machines
3. Des protocoles informatiques d’échange de ces
données normalisées
(1)Abderrazak Mkadmi, Imad Saleh, Bibliothèque numérique et recherche d’informations
<Cadre générique
d’implémentation>
ISO 2709
XML
URL
RDF (Resource Description and
Framework)
<Jeu de métadonnées>
MARC (< Z44-050)
DublinCore, MarcXML,
MODS
EAD
LOM (Learning Object Metadata)
SCORM
Standards traditionnels
Standards plus récents
<Protocoles>
WAIS, FTP, Z39.50
http
OAI-PMH
SRU/SRW
Schéma global d’un SID
moissonnage
« ingest »
Autres
catalogues de
bibliothèques
SRU
Z 39.50
Fournisseurs de
notices MARC
BnF, ABES, Electre,
Zebris, …
Entrepôt OAI-PMH
import
SIGB
Sources
« hétérogènes »
connecteurs
OPAC
API
La fourniture de notices :
le paysage en France
Nom
Type de document
Nombre de notices
Conditions de fourniture
Autres formats proposés
Marc21, formats tabulés,XML
ABES
Tous supports + autorités
9 millions, 2 millions
Membres du réseau SUDOC
ADAV
Images animées.
70.000
Clients de la société sur la base
d'une commande de produits
BnF
Tous supports + autorités
10 millions, 2 millions
Inscription nécessaire
CD Mail
CD audio
800.000
Fourniture comprise dans le
cadre de la vente de CD
COLACO
DVD, CD-ROMS, VHS
40.000
Fourniture comprise dans le
cadre de la vente de CD
CVS
CD audio, MP3, DVD, CD-ROM,
DVD-ROM + RE
357.000
Fourniture comprise dans le
cadre de la vente de produits
USMARC, XML
DAWSON France
Livres, e-books, CD audio et
DVD
9.6 millions de titres
Fourniture comprise dans le
cadre de la vente de produits
Marc21
DECITRE
Livres
650.000
Clients
ELECTRE
Livres, CD audio, CD-ROM,
Périodiques (monographies)
1.2 millions
Dans le cadre d’un abonnement
GAM
Documents sonores
246.700
Fourniture comprise dans le
cadre de la vente de produits
INDEXPRESSE
Articles de périodiques
Dépouillement de 198 titres
Abonnement « à la carte »
ISSN
Publications en série
1.5 millions
Abonnement annuel
Marc21, ISSN-MARC
MOCCAM
Tous supports + autorités
BnF + Amazon (isbn)
Gratuite sans condition
A la demande + tabulé
OCLC BV
Tous supports
175 millions
Payant
Marc21, MAB, DC, Onix, XML
Sciences Po Paris
Articles de périodiques
220.000
Gratuit sur la base d’une
coopération
XML
TITE-LIVE
Livres – musique
700.000
Gratuite mais licence
d’utilisation
TXT, XML, Onix
VHS
Images animées
100.000
Fourniture accompagnant la
vente
ZEBRIS
Livres
Bnf (<1990) + Decitre
Abonnement annuel
Marc21, Onix, XML, CSV,
DBase III
Sélection sur les réservoirs de notices en ligne (en France):
BnF [http://catalogue.bnf.fr]
Gratuit
Paquets de 500 notices maximum
format UNIMARC : oui + InterMARC
modalités : récupération par FTP, immédiate ou en différé (24 h)
Origine des notices : Bibliothèque nationale de France
----MoCCAM en ligne [http://www.moccam-en-ligne.fr/]
Gratuit
format UNIMARC : oui
modalités : récupération immédiate
Origine des notices : BnF et Amazon pour les références qui ne figureraient pas encore dans BN-OPALEPLUS
----ZEBRIS [http://www.zebris.fr]
Payant : de 1250 à 3100 € HT en fonction de la taille du client (infos : 2008)
format UNIMARC : oui
modalités : récupération d'un panier
Origine des notices : Indexpresse
----ELECTRE [http://www.electre.com]
Payant : abonnement annuel (calcul du tarif selon le nombre de licences)
format UNIMARC : oui
modalités : récupération immédiate
Origine des notices : electre.com
----Attention : les mentions légales relatives à l'utilisation de ces notices sont particulières à chaque institution
ou entreprise ! Pour plus d'information, voir le site de l'ADBDP et le site du CfU
Constitution de lots de notices :
2 exemples
Catalogue de la BnF
electre.com
La récupération de données par
fichier(s) de notice(s)
Appareil normatif (1)
ISO 2709:2008 (indice de classement Z 47-300)
Format d’échange pour l’information
Révision de 2008 avec l’intégration des caractères codés sur plusieurs octets
Références normatives
ISO/IEC 6429:1992
Technologies de l'information. Fonctions de commande pour les jeux de caractères codés
ISO/CEI 646 ~ ASCII
Jeu de caractères latins suffisants pour l’anglais moderne (7bits-128 caractères)
ISO/CEI 10646
UTF-n : UCS (Universal Character Set) Transformation Format. Jeu de caractères
codés sur plusieurs octets
Cf UNICODE vise à donner à tout caractère de n’importe quel système d’écriture un
nom et un identifiant numérique de manière unifiée, quelle que soit la plateforme
informatique utilisée.
Appareil normatif (2)
NF ISO 25577:2009 (Z47-302) « MarcXchange »
Format généralisé d’échange de notices bibliographiques
(et autres types de métadonnées) fondé sur XML
Références normatives
ISO/CEI 646 ~ ASCII
Jeu de caractères latins suffisants pour l’anglais moderne (7bits-128 caractères)
ISO/CEI 10646
UTF-n : UCS (Universal Character Set) Transformation Format. Jeu de caractères
codés sur plusieurs octets
ISO 2709:2008 (Z 47-300)
MarcXchange est étroitement lié à ISO 2709 :
En 2001, la LOC élabore un cadre pour traiter les données MARC dans un
environnement XML : MARCXML, qui « permet une conversion réversible et sans
perte d’une notice MARC21 » en XML.
MarcXchange est une version généralisée de MARCXML pour représenter tout
format existant sur ISO 2709.
Protocoles en vigueur dans les bibliothèques pour l’interopérabilité
ANSI/NISO Z 39.50 (ISO 23950:1998)
Protocole d’échange pour une utilisation bibliographique
qui régit le « dialogue » entre clients et serveurs, décrit et
utilisé aux États-unis à partir de 1984.
La norme date de 1988, provient du « New York Item » ;
maintenue par la Bibliothèque du Congrès avec la « Z39.50
Maintenance Agency ».
ANS1 : Abstract Notation Syntax 1 (ISO 8824)
Un langage de description de données indépendant des
matériels et logiciels permettant de codes des messages
entre clients et serveurs
BER : Basic Encoding Rules (ISO 8825)
Des règles de conversion de syntaxes abstraites en une
syntaxe spécifique de transfert de données
SRU Search/Retrieve via URL
Créé et maintenu par la Bibliothèque du Congrès,
permet d’interroger via le protocole http des bases de
données de bibliothèques « invisibles »,ou
« prisonnières » des OPAC et des systèmes
d’information.
L’échange de données en iso2709
Une notice enregistrée au format ISO 2709 présente le schéma suivant :
Voir aussi :
Exemple de notice : de l’isbd à iso2709
XML par la pratique [Texte imprimé] : bases indispensables, concepts et cas pratiques / [Sébastien
Lecomte]. - Nantes : Éd. ENI, cop. 2005. - 1 vol. (353 p.) : ill., couv. ill. ; 21 cm. - (Ressources
informatiques, ISSN 1627-8224).
Index
ISBN 2-7460-2906-5 (br.) : 27,14 EUR. - EAN 9782746029064
Label
01510nam1 22003612i 450
0010011000000050017000110100038000281000041000661010008001071020007001151050180012220
0009300140205001200233210002200245211001300267215005500280225004000335330029800375333
0017006733450018006904100052007086060030007606100084007906760014008746760013008887000
041009018010033009429010083009759020017010589030028010759030035011039470010011382008401207-20081010000000.0a978-2-7460-4644-3bBr.d27.14
EUR- a20081010d2008 m |0fre|01 ||||ba-0 afre- aFR- aa 0||y|-1 aXML par la pratiqueebases
indispensables, concepts et cas pratiquesfSÂebastien Lecomte- a2e Âed.- aNantescENI
d2008- a20081208- a353 p.cillustrations en noir et blancd22 x 18 cm-2 aRessources
informatiquesx1627-8224- aPrÂesentation des concepts fondamentaux de XML au travers de
cas pratiques Áa implÂementer. Aborde notamment la syntaxe du langage XML, montre
comment concevoir des documents et des grammaires XML simples, comment lier des
documents XML entre eux, et comment mettre en forme des documents XML.- aTous
niveaux- b9782746046443- 034237610000tRessources informatiquesx1627-8224- aXML
(langage de balisage)-0 aInternetalangage de programmationastructure de donnÂees
adocument multimÂedia- a005.3v99- a004v99a- 132003090210aLecomtebSÂebastien
4070- 3aFRbElectrec20081010gAFNOR- 39800003724aExtendible markup language
39800003724aExtensible markup language- aTous niveaux- aTechniques InformatiqueaLivres pratiques Autoformation- c27.14-
Répertoire
Zones
Séparateur de notices (invisible)
le LABEL (taille fixe : 24 octets)
nombre d’octets!
Si on décompose le label de la notice de la façon indiquée, on a 8 "groupes"
d'information.
01510nam1·22003612i·450·
Ce qui nous donne :
1
2
3
4
5
6
7
8
01510
nam
am1-
2
2
00361
2i·
450·
le répertoire (taille variable)
Le répertoire comprend les éléments suivants :
a/ une étiquette (=3 octets)
b/ une longueur de zone qui correspond à la position 20 du label (=4 octets)
c/ la position du premier caractère qui correspond à la position 21 du label (=5 octets)
d/ longueur de la partie relative à l'application qui correspond à la position 22 du label
(=0 octet)
b+c+d= « 450 » du label UNIMARC
Si on lit le répertoire de notre notice en suivant la fréquence de 3/4/5/0 octets :
0010011000000050017000110100038000281000041000661010008001071020007001151050
1800122200009300140205001200233210002200245211001300267215005500280225004000
3353300298003753330017006733450018006904100052007086060030007606100084007906
7600140087467600130088870000410090180100330094290100830097590200170105890300
2801075903003501103947001001138
001 0011 00000
005 0017 00011
010 0038 00028
100 0041 00066
101 0008 00107
102 0007 00115
105 0018 00122
200 0093 00140
210 0022 00245
211 0013 00267
215 0055 00280
225 0040 00335
330 0298 00375
333 0017 00673
345 0018 00690
410 0052 00708
606 0030 00760
610 0084 00790
676 0014 00874
676 0013 00888
700 0041 00901
801 0033 00942
901 0083 00975
902 0017 01058
903 0028 01075
903 0035 01103
947 0010 01138
… on obtient :
XML par la pratique [Texte imprimé] : bases
indispensables, concepts et cas pratiques / [Sébastien
Lecomte]. - Nantes : Éd. ENI, cop. 2005. - 1 vol. (353 p.) :
ill., couv. ill. ; 21 cm. - (Ressources informatiques, ISSN
1627-8224).
Index
ISBN 2-7460-2906-5 (br.) : 27,14 EUR. - EAN
9782746029064
01510nam1 22003612i 450
0010011000000050017000110100038000281000041000661010008001071020007001151050
1800122200009300140205001200233210002200245211001300267215005500280225004000
3353300298003753330017006733450018006904100052007086060030007606100084007906
7600140087467600130088870000410090180100330094290100830097590200170105890300
2801075903003501103947001001138-2008401207-20081010000000.0a978-2-7460-4644-3bBr.d27.14
EUR- a20081010d2008 m |0fre|01 ||||ba-0 afre- aFR- aa 0||y|-1 aXML par la pratiqueebases
indispensables, concepts et cas pratiquesfSÂebastien Lecomte- a2e Âed.- aNantescENI
d2008- a20081208- a353 p.cillustrations en noir et blancd22 x 18 cm-2 aRessources
informatiquesx1627-8224- aPrÂesentation des concepts fondamentaux de XML au travers de
cas pratiques Áa implÂementer. Aborde notamment la syntaxe du langage XML, montre
comment concevoir des documents et des grammaires XML simples, comment lier des
documents XML entre eux, et comment mettre en forme des documents XML.- aTous
niveaux- b9782746046443- 034237610000tRessources informatiquesx1627-8224- aXML
(langage de balisage)-0 aInternetalangage de programmationastructure de donnÂees
adocument multimÂedia- a005.3v99- a004v99a- 132003090210aLecomtebSÂebastien
4070- 3aFRbElectrec20081010gAFNOR- 39800003724aExtendible markup language
39800003724aExtensible markup language- aTous niveaux- aTechniques InformatiqueaLivres pratiques Autoformation- c27.14-
01510nam1 22003612i 450
0010011000000050017000110100038000281000041000661010008001071020007001151050
1800122200009300140205001200233210002200245211001300267215005500280225004000
3353300298003753330017006733450018006904100052007086060030007606100084007906
7600140087467600130088870000410090180100330094290100830097590200170105890300
2801075903003501103947001001138-2008401207-20081010000000.0a978-2-7460-4644-3bBr.d27.14
EUR- a20081010d2008 m |0fre|01 ||||ba-0 afre- aFR- aa 0||y|-1 aXML par la pratiqueebases
indispensables, concepts et cas pratiquesfSÂebastien Lecomte- a2e Âed.- aNantescENI
d2008- a20081208- a353 p.cillustrations en noir et blancd22 x 18 cm-2 aRessources
informatiquesx1627-8224- aPrÂesentation des concepts fondamentaux de XML au travers de
cas pratiques Áa implÂementer. Aborde notamment la syntaxe du langage XML, montre
comment concevoir des documents et des grammaires XML simples, comment lier des
documents XML entre eux, et comment mettre en forme des documents XML.- aTous
niveaux- b9782746046443- 034237610000tRessources informatiquesx1627-8224- aXML
(langage de balisage)-0 aInternetalangage de programmationastructure de donnÂees
adocument multimÂedia- a005.3v99- a004v99a- 132003090210aLecomtebSÂebastien
4070- 3aFRbElectrec20081010gAFNOR- 39800003724aExtendible markup language
39800003724aExtensible markup language- aTous niveaux- aTechniques InformatiqueaLivres pratiques Autoformation- c27.14-
Etiquette 200
|-1 aXML par la pratiqueebases
La zone comporte (00)93 octets
indispensables, concepts et cas pratiquesElle commence à la position (00)140
fSÂebastien Lecomte200 0093 00140
MarcXchange : exemple
<?xml version "1.0" encoding="UTF-8" ?>
<collection xmlns="info:lc/xmlns/marcxchange-v-1"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"[…]>
<record format="UNIMARC" type="Bibliographic">
<leader>01510nam1 22003612i 450</leader>
[…]
<datafield tag="200" ind1="1" ind2=" ">
<subfield code="a">XML par la pratique</subfield>
<subfield code="e">bases indispensables, concepts et cas
pratiques</subfield>
<subfield code="f">SÂebastien Lecomte</subfield>
</datafield>
[…]
</record>
</collection>
Le label des notices est traité comme un simple chaîne
Le précédent contrôle appliqué par le répertoire ISO 2709 n’existe
pas avec MarcXchange (absent du format), il faut le créer via
l’applicatif, et le recalculer à chaque conversion vers ISO 2709…
MarcXchange : structure du schéma
attribut obligatoire
Élément de plus haut niveau
attribut facultatif
collection
id
Élément racine : début de la notice
record
id, format, type
leader
controlfield
Déclaration des zones
datafield
id
id, ind1,… ind8
tag
tag
id
Label de la notice
de l’ISO 2709 (24 octets)
subfield
Elément de contrôle
Zone de l’identifiant
De l’ISO 2709
id
Déclaration des
Sous-zones
Structure hiérarchique
code
MarcXchange
Cadre d’élaboration général pour des schémas « locaux »
MARC 21 et UNIMARC sont reconnus comme des schémas locaux, mais nécessitent
tout de même des adaptations locales pour la mise en œuvre de MarcXchange.
Assure la compatibilité de schémas locaux simples, sans perte
d’informations (ou un minimum de pertes qui peuvent être répertoriées).
Schéma conçu de façon à contenir des données MARC
Peut servir à l’échange de notices MARC ou de « moyen de
transport » pour faire migrer des notices au format natif MARC vers
DublinCore.
MarcXchange
Usages majeurs
• Représenter une notice MARC en XML
• Décrire une ressource en XML
• Échanger des notices MARC en XML
• Transférer des notices MARC via des services en ligne (par
exemple SRU)
• Transmettre des données à un éditeur
• Utiliser un format temporaire qui permet toute forme de
transformation : conversion, publication, édition, validation
Par exemple, une notice peut entrer dans un « Workflow » (cycle de vie
du document) au format XML, dans une application de gestion, puis être
« verrouillée » et stockée à nouveau dans un format MARC.
Outils disponibles pour les administrateurs
Il existe un ensemble d’outils, le plus souvent libres d’utilisation, disponibles sur
le site de la Bibliothèque du Congrès.
Ils sont orientés pour la gestion de notices MARC21, mais certains peuvent être
utilisés pour UNIMARC.
http://www.loc.gov/marc/marcservice.html
AGent™
Arabic Translitrator - Free / Open Source
Athenaeum MARC Utility
Aurora ZMarc Collector
BIBLIObase
BookWhere
Cataloging Calculator - Free
CyberTools for Libraries
DK's INDscripteR - Indic Script Converter
eZcat/eZcat Pro
FRBR Display Tool -Free
InfoWorks Link Checker
InfoWorks Spelling Checker for Database Maintenance
MARC Magician
MARC Report
MARC RTP - Free
MARC Toolkit for Libraries (formerly MARC Template Library) - Free
MARCBreaker - Free
MarcEdit - Free
MARConvert™.
MarciveWeb SELECT
MARCMaker - Free
MARC/Perl - Free
MARCView™
MicroLIF Conversion Tool - Free
NOTEbookS
OCLC, Online Computer Library Center, Inc.
Surpass Copycat
USEMARCON Plus - The Universal MARC Record Convertor - Free
Visual MARC Editor
Web & XML Tools
MARC4J - Free
MarcEdit - Free
MARC to XML / XML to MARC Conversion Utilities - Free
MARCXGen - Free
MARCXML - Free
MarcXml Converter - Free
XMARC - Free
ZMARCO - Free
Exemples d’utilitaires
MarcView
Utilitaire qui permet de lire des fichiers ISO 2709 et de voir les
notices MARC contenues
MarcEdit :
Utilitaire qui permet de lire des fichiers et bien plus :
- d'extraire une notice à partir d'un fichier de notices
- de joindre des fichiers MARC
- d'ajouter un champ
- d'éclater un format MARC dans un schéma DC ou XML
- d'effacer un champ
- de fabriquer un fichier MARC
Un prestataire de plate-forme de gestion de bibliothèque doit livrer un
utilitaire ou un moyen de conversion pour permettre d’effectuer des
vérifications après un import de notices
Questions liées à l’environnement
En cas de problème lors d’une récupération, il faut d’abord dresser une
cartographie des outils mis en œuvre et de l’environnement informatique
• OS : UNIX/Windows ? Le caractère de contrôle CR n’est pas
traité de la même façon (apparition de ^M en fin de ligne)
• Encodage du fichier source :
• ASCII
• Latin étendu (iso8859-1 /8859-15/ 8859-2)
• ISO 5426
• UTF-8
• ANSI
• Windows 1252
• Little/Big Endian ?
• Encodage du système cible : divers encodages proposés
• Version de la base de données du système cible :
• Oracle 9i, 9.2.0, 10g, 11g, …
• MySQL 4.1.11, 5.0
Le processus d’import doit prendre en compte ces
variétés d’encodages et de versions
Tableau de gestion du format ISO-5426
Liste des caractères gérés par ISO 8859-1
0123456789!"#$%&'(
)*+,-./:;<=>?@ABCD
E 70 F G H I J K L M N O 80 P
Q R S T U V W X Y 90 Z [ \ ] ^ _
`abcdefghijklmnopqr
stuvwxyz{|}~ € ‚ƒ„…†
‡ˆ‰Š‹ŒŽ‘'“”•–—˜™š
›œ žŸ ¡¢£¤¥¦§¨©ª«¬
®¯°±²³´µ¶·¸¹º»¼½¾¿
ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏ
ÐÑÒÓÔÕÖ×ØÙÚÛÜÝ
Þßàáâãäåæçèéêëìíîï
ð ñ ò ó ô õ ö ÷ ø ù úûüýþÿ
Encodage encore très utilisé
256 caractères hexadécimaux (0 1 2 3 4 5
6 7 8 9 A B C D E F)
Pour convertir un octet, on le partage en
2 groupes de 4 bits, qui correspondent
chacun à un chiffre hexadécimal
Un import pas à pas
Un processus d’import peut se déclencher manuellement, mais sur les systèmes plus volumineux, il est lancé de
façon programmée par un « cron », qui charge un script.
Décodage du fichier ISO 27.09, selon la séquence label-répertoire-zones-séparateur
L’outil d’import prépare la possibilité :
- d’insérer la notice décodée [INSERT];
- de « recouvrir la notice décodée[UPDATE]
- de protéger éventuellement des zones en
fonction de règles inscrites dans les outils de
paramétrage de l’import [no_update] ;
- de rejeter la notice décodée.
Le décodage du fichier iso 2709 ne suffit pas dans certains cas (c’est le cas pour les imports SUDOC). La plupart
du temps, le décodeur iso 2709 est étendu à l’aide d’un handler, qui permet un traitement à partir d’une analyse
des données.
La première étape consiste à créer des notices au format XML pour les fournir à l’outil d’import qui va se charger
du traitement des données.
Assigne des attributs
modèle
Lit le fichier iso 2709 et prépare
les élements XML
insert
XML
Fichier(s)
Outil d’import
Décodeur
BDD
update
crée un fichier d’import
Analyseur
Interroge successivement la base et applique
des traitements prévus par les handlers
recherche
Le modèle est un fichier ayant une structure d’éléments identiques à la source XML à importer, mais chaque
élément est assorti d’attributs qui précisent comment gérer les champs
<?xml version="1.0" encoding="UTF-8"?>
<UNIMARC tagtype="marc"
where="FR_BN='${FR_BN}' or
SORT='${SORT.sql}'"
update="merge"
update.merge.keep=« BLOB,MARC,610">
<GESTION1 def_value="1"/>
<GESTION2 def_value="2"/>
<GESTION3 def_value="3"/>
<UNIMARC_FIELDS>
<_200>
<_200a NFZ="1"/>
<_200c NFZ="1"/>
<_200d NFZ="1"/>
<_200e NFZ="1"/>
<_200i NFZ="1"/>
</_200>
[…]
</UNIMARC_FIELDS>
Il peut ajouter par exemple des champs de gestion en
fonction du décodage du label pour traiter :
-le type de document
-le type de support
-le scénario à adopter en fonction du type de document
-Le filtrage des zones : - 210 Autorité éditeur
- 4XX autorité collection
- 6XX autorité matière
- 7XX autorité auteur (…)
Un modèle existe pour les tables suivantes :
AUTEUR
COLLECTION
COLLECTIVITE
EDITEUR
FOURNISSEUR
MATIERE
TITRE_UNIFORME
UNIMARC
Par exemple le modèle UNIMARC peut
convoquer d’autres modèles à l’intérieur de son
schéma pour traiter des zones particulières qui
vont devenir des liens avec d’autres tables
<_210>
<_2105 include="EDITEUR.mdl"/>
</_210>
…
<_606>
<_606a include="MATIERE_light.mdl"/>
<_606x include="MATIERE_light.mdl"/>
<_606y include="MATIERE_light.mdl"/>
<_606z include="MATIERE_light.mdl"/>
</_606>
L’analyseur va fournir des éléments déduits à
partir de l’observation précise de séquences du
label
# Paramètres de decodeDocumentType
documenttype.label.pos67.aa=monographie
documenttype.label.pos67.ac=monographie
documenttype.label.pos67.am=monographie
documenttype.label.pos67.as=periodique
documenttype.label.pos67.bm=monographie
documenttype.label.pos67.cm=monographie
documenttype.label.pos67.cs=periodique
documenttype.label.pos67.dm=monographie
documenttype.label.pos67.em=monographie
documenttype.label.pos67.es=periodique
documenttype.label.pos67.fm=monographie
documenttype.label.pos67.ga=audiovisuel
documenttype.label.pos67.gc=audiovisuel
documenttype.label.pos67.gm=audiovisuel
documenttype.label.pos67.gs=audiovisuel
documenttype.label.pos67.im=monographie
documenttype.label.pos67.is=monographie
documenttype.label.pos67.jm=monographie
documenttype.label.pos67.js=periodique
documenttype.label.pos67.km=monographie
documenttype.label.pos67.lm=document_electronique
documenttype.label.pos67.ls=document_electronique
documenttype.label.pos67.mc=monographie
documenttype.label.pos67.mm=monographie
documenttype.label.pos67.ms=monographie
documenttype.label.pos67.rm=monographie
Ex. type de document
Aller-retour permanent entre la base de données
locale et le fichier d’import qui permet par
exemple la confrontation avec une liste de
supports interne à l’application
Attribution d’un nouvel identifiant (clé primaire) si
la notice n’existe pas déjà dans la base
Validation du schéma MARC pour effectuer soit
un INSERT, un UPDATE ou un REJET
Méthode de dédoublonnage possible
Concaténation d’éléments puisés dans les balises XML pour créer un « identifiant » qui va servir au
dédoublonnage :
<concat param1="200a,92/700a,25,/205a,10,/210c,25,/210d,5,/010a,17,/200b,6,/200e,25,/200i,20,/200v,5,/200h,10,"/>
ALBERT CAMUSGRENIER , ROGER , 1919-..GALLIMARD19872-07-070866-7SOLEIL ET OMBRE
Réindexation des notices importées pour les positionner au même niveau que les notices existantes.
Gestion des traces des opérations effectuées dans un fichier de logs
20.07.2009 10:12:53
20.07.2009 10:12:53
20.07.2009 10:12:53
20.07.2009 10:12:53
20.07.2009 10:12:53
20.07.2009 10:12:53
20.07.2009 10:12:53
20.07.2009 10:12:53
20.07.2009 10:12:53
20.07.2009 10:12:53
20.07.2009 10:12:53
20.07.2009 10:12:53
23 notices insérées dans la table 'MATIERE' (source 'default')
12 notices insérées dans la table 'COLLECTION' (source 'default')
36 notices insérées dans la table 'UNIMARC' (source 'default')
26 notices insérées dans la table 'AUTEUR' (source 'default')
2 notices insérées dans la table 'EDITEUR' (source 'default')
9 notices insérées dans la table 'COLLECTIVITE' (source 'default')
16 notices mises à jour dans la table 'UNIMARC' (source 'default')
265 notices autorités trouvées dans la table 'MATIERE' (source 'default')
17 notices autorités trouvées dans la table 'COLLECTION' (source 'default')
30 notices autorités trouvées dans la table 'AUTEUR' (source 'default')
69 notices autorités trouvées dans la table 'EDITEUR' (source 'default')
25 notices autorités trouvées dans la table 'COLLECTIVITE' (source 'default')
Les opérations au niveau de l’import lui-même sont transparentes pour l’utilisateur. Seuls doivent être paramétrés
(éventuellement) le modèle et le décodeur. Il appartient à l’administrateur de pouvoir comparer un fichier source et
une notice importée dans sa plateforme.
Les opérations d’insertion, d’update, de réindexation renvoient à la gestion de l’applicatif, ce qui dépasse de loin
le processus d’import
Un autre dispositif asynchrone : OAI-PMH
OAI-PMH
Définition :
OAI
- PMH
Open Archive Initiative
Protocol for Metadata Harvesting
Mvt 1 de
l’interopérabiblité :
aspect « normatif » :
empilement structuré
des données
Mvt 3 de l’interopérabilité : le
protocole d’échange
Mvt 2 de
l’interopérabiblité : XML
DublinCore
Un peu de vocabulaire…
Ressource (‘resource’) : c’est le document qui est décrit par un appareil bibliographique (la
réalité à laquelle la description renvoie, une monographie imprimée, un document
électronique…)
Item : c’est la notice informatique qui contient la description. Cette notice se voit attribuer un
identifiant unique supplémentaire, totalement indépendant de celui du système hérité.
Enregistrement (‘record’): ce sont une partie des métadonnées de l’item qui sont choisies et
« poussées » dans un fichier XML qui deviennent un enregistrement. OAI-PMH ne travaille pas
avec la totalité des données, mais un jeu allégé.
Lot (‘set’) : c’est un possibilité d’OAI-PMH pour constituer des ensembles thématiques ou
autres (par exemple ; les thèses d’un établissent dans un format donné et pour une période
donnée).
Métadonnées sur la ressource
001 092151655
010 ##$a2-7460-2906-5$bBr.$d27,14 €
073 #1$a9782746029064
200 1#$a@XML par la pratique$bTexte imprimé$ebases indispensables,
concepts et cas pratiques$f[Sébastien Lecomte]
210 ##$aNantes$cÉd. ENI$dcop. 2005
215 ##$a1 vol. (353 p.)$cill., couv. ill. en coul.$d22 cm
225 0#$a@Ressources informatiques$fJoe͏̈ lle Musset$x1627-8224
320 ##$aIndex
410 ##$aRessources informatiques (Nantes), ISSN 1627-8224
606 ##$aXML (langage de balisage)$2 rameau
606 ##$aEchange électronique d'information$2rameau
676 ##$a006.74$v22$zeng
700 #1$aLecomte, Sébastien (19..-.... ; informaticien)$4070
<record>
<identifier>oai:1380</identifier>
<dc:title> Xml par la pratique : bases indispensables,
concepts et cas pratiques</dc:title>
<dc:creator>Sébastien Lecomte</dc:creator>
<dc:type>Monographie imprimée</dc:type>
…
</record>
Principe général
Base 1
(spécificités
internes)
Création
d’enregistreme
nts en DC
Base 2
(spécificités
internes)
Base 3
(spécificités
internes)
Base 4
(spécificités
internes)
Création
d’enregistreme
nts en DC
Création
d’enregistreme
nts en DC
Création
d’enregistreme
nts en DC
Spécificité commune
Entrepôt commun
?
Pour l’usager : formulation d’une requête unique
Conclusion
La stratégie de catalogage qui repose sur la récupération de notices représente une
économie d'échelle, un gain, mais impose des contraintes techniques importantes.
Elle nécessite une technicité importante : une ou plusieurs ressource(s)
humaine(s) à l'aise dans la manipulation de données informatiques...
... mais aussi une expertise métier plus importante, des catalogueurs plus qualifiés
dans des opérations particulières :
- dédoublonnage, “nettoyage” de la base
- paramétrage (métier) des outils d'import,
- vérification de la cohérence de la base (si les réservoirs sont disparates, il faut
harmoniser),
- connaissance des formats à bas niveau (ex. décodage du label),
- traitement des autorités,
- connaissance du fonctionnement des index.
Récupération de notices et interopérabilité des catalogues
Merci de votre attention !
*
[email protected]
* [email protected]