MARC y XML - Universidad de Sevilla

Download Report

Transcript MARC y XML - Universidad de Sevilla

Tema 5;
XML en la descripción de recursos
Ricardo Eíto Brun
Sevilla, 23-25 de octubre 2002
Introduction



Los formatos de marcas se han
presentado como una
alternativa/complemento a los sistemas de
codificación de datos utilizados
tradicionalmente por la comunidad
bibliotecaria en la descripción de recursos
Desde mediados de los años 90 se han
planteado distintas iniciativas en esta línea
El origen de estas iniciativas están
distintas bibliotecas. Las iniciativas más
importantes han sido lideradas por la
Library of Congress
MARC y XML

Podemos señalar distintas líneas de trabajo:
• Diseño de modelos alternativos para la
descripción de recursos (Dublin Core)
• Adaptación de los modelos “tradicionales” –
MARC -, a los nuevos formatos Internet (xml)

El formato XML se ha presentado como una
alternativa para representar y transferir registros
MARC a través de Internet y facilitar su
tratamiento automatizado
MARC y XML

Las ventajas de XML son:
• XML ofrece un sistema de codificación más
simple y fácil de procesar que el utilizado
actualmente para registros MARC (2709)
• XML se presenta como un formato “universal”,
utilizado en cualquier tipo de aplicación, frente
al sistema de codificación actual de MARC
• XML elimina complejidad innecesaria para los
desarrolladores
• Se pretende evitar la “segregación” de MARC
frente a otros formatos de metadatos Internet
utilizados en los proyectos de “biblioteca
electrónica”
MARC y XML

Al mismo tiempo, MARC presenta ventajas frente
a los formatos de metadatos que se han
propuesto para el “mundo Internet”, como Dublin
Core:
• Mayor capacidad expresiva
• Soporte de más de 30 años por parte de la
comunidad bibliotecaria y de la industria
software especializado
• Una semántica claramente definida, aceptada y
adaptada a las distintas realidades nacionales
• Cobertura a un amplio número de “formatos” y
“tipos de información” (autoridades, datos
bibliográficos, holdings, etc.)
MARC y XML

Resumiendo:
• MARC es un formato que permite codificar y
transmitir un gran número de datos de una
forma estandarizada y fácilmente procesable
• El resto de alternativas que se an propuesto
para la descripción de recursos adaptadas a
“Internet” no ofrecen la expresividad o el nivel
de detalle necesario
• Estas alternativas se encuentran en fase de
desarrollo, y no podemos garantizar su
permanencia en un futuro
MARC y XML

Resumiendo:
• MARC no sólo es un estándar para facilitar el
intercambio de información bibliográfica,
• También se ha convertido en la base de los
sistemas integrados de gestión bibliotecaria
actuales
MARC y XML

Sin embargo, hay quien señala que MARC no es
un formato “óptimo” para las necesidades
actuales en lo referente a la descripción de
recursos:
• MARC es sumamente complejo, la descripción
es costosa y lenta para el gran número de
recursos que tenemos que describir
• El creciente número de recursos a describir nos
obliga a plantear sistemas de indización
“descentralizados”, que no requieran una
formación tan compleja como la requerida para
trabajar con MARC, ni mecanismos de entrada
de datos tan complejos
MARC y XML

Los partidarios de “alternativas a MARC”:
• se basan más en la rapidez con que se podría
describir los recursos, y
• sacrifican la calidad y el detalle de la
descripción de los recursos...
Adaptar MARC a Internet: primeras iniciativas




Las primera iniciativa de la LOC se remonta a 1992 con la
inclusión del campo 856 (electronic location and access) en
MARC
Este campo permitiría crear un enlace entre un registro
bibliográfico y un recurso remoto disponible en formato
electrónico
Proyectos como el OCLC Internet Cataloging (1994-1996)
utilizaron este campo para codificar 5000 registros de
recursos Internet
El proyecto CATRIONA (CATaloguing and Retrieval of
Information Over Network Applications) también utilizó el
856
Adaptar MARC a Internet: primeras iniciativas



El campo 856 “contiene la información necesaria para
localizar y acceder a un recurso electrónico [...] puede
utilizarse en un registro bibliográfico de un recurso cuando
éste o una parte del mismo esté disponible
electrónicamente...”
El primer indicador “define el método de acceso al recurso
electrónico. Si el recurso es accesible por más de un
método, éste repite”
El segundo indicador “indica la relación entre el recurso
electrónico identificado en el campo 856 y el documento
descrito en el registro como un todo”
Adaptar MARC a Internet: primeras iniciativas

Los valores posibles para el primer indicador son:
• # - no se proporciona información
• 0 – correo electrónico
• 1 – FTP
• 2 – Telnet
• 3 – Llamada telefónica
• 4 – HTTP
• 7 – Un método distinto al anterior, que se
habrá indicado en el subcampo $2.
Adaptar MARC a Internet: primeras iniciativas

Los valores posibles para el segundo indicador
son:
• # - No se proporciona información
• 0 – Recurso. La localización electrónica hace referencia
al mismo recurso descrito en el registro como un todo.
Es decir, el ítem representado por el registro
bibliográfico es un recurso electrónico
• 1 – versión del recurso. La localización electrónica hace
referencia a la versión electrónica del recurso descrito en
el registro. Es decir, el documento descrito mediante el
registro no es electrónico, pero existe una versión en
formato electrónico
• 2 – Recurso relacionado
• 8 – “no hay una visualización asociada”
Adaptar MARC a Internet: primeras iniciativas
245 10$aProceedings of the Seminar…
856 40$uhtp://www.loc.gov/seminar.html
245 00$aAnalyzing qualitative date$c/edited by…
856 40$uhtp://www.loc.gov/analyzing.html
245 00$aAmerican quarterly
856 41$uhtp://www.muse.edu/journals/amquarterly.htm
245 00$aDocumentos de D. Pedro Valverde…
856 42$3Indice$uhtp://www.bne.es/pedroValverde.pdf
Adaptar MARC a Internet: primeras iniciativas












SUBCAMPOS
$a – nombre del host de la localización electrónica
$b – número de acceso (dirección IP)
$c – información sobre la compresión
$d – ruta física
$f – nombre electrónico del fichero
$k – contraseña necesaria para acceder al recurso
$m – contacto para facilitar el acceso
$p – puerto
$u – URI o URL
$y – texto del enlace
$3 – Especificación de materiales
Adaptar MARC a Internet: primeras iniciativas





Una segunda iniciativa de la LOC consistió en
adaptar MARC a SGML, iniciada en 1995
El objetivo era crear una DTD que permitiese la
conversión de registros MARC a SGML – y
viceversa -, sin pérdida de información
Se diseñaron 2 DTDs, para datos bibliográficos /
fondos y para autoridades / clasificación y una
aplicación PERL para la conversión de MARC 2709
a MARC SGML y viceversa
Las DTD se publicaron en mayo 1996. La utilidad
de conversión se inició en julio 1997. En enerp
1998 se hizo pública.
Posteriormente, estas DTDs se migraron a XML
para adaptarlas al “nuevo escenario tecnológico”
Adaptar MARC a Internet: primeras iniciativas


El programa de conversión de MARC a SGML/XML
utiliza PERL y nsgmls
Estas utilidades de libre distribución se pueden
descargar de:
• http://www.perl.com
• http://www.jclark.com/sp

En el diseño de las DTD y utilidades de
conversión participaron las empresasa Mulberry
Technologies y ATLIS Consulting Group
Adaptar MARC a Internet: primeras iniciativas






Las DTD para XML y SGML contenían un elemento XML para
cada campo y subcampo de MARC
Por ejemplo, para el elemento 245 MARC, en la DTD se
incluía un elemento mrcb245, un mrcb245-b, mrcb245-c,
etc.
Estos campos se agrupaban en otros elementos, como por
ejemplo mrcb-title-and-title-related, mrcb-subject-access,
etc.
Los campos de control variables – 008 – contaban con un
elemento para cada “posición” o “ítem” del que contienen
información, etc...
Esto hacía que la DTD y los registros fuesen muy largos
PRACTICA: Abrir con XML Spy el archivo mrcbxmlfile
Adaptar MARC a Internet: estado actual



El 5 de junio 2002, la LOC Network Development
and MARC Standards Office publicó un esquema
XML para codificar registros MARC21
Este esquema, resultado del trabajo de la LOC,
OCLC, RLG - y revisado por la NLM y la National
Library of Canada – sustituía a la iniciativa
anterior derivada de la DTD SGML
Este esquema está previsto que sirva para
codificar cualquier tipo de registro MARC
(bibliográfico, autoridades, etc.)
Adaptar MARC a Internet: estado actual

El nuevo esquema pretende ir más allá de un
mero mecanismo de conversión, y así facilitar:
• La representación de registros MARC existentes en
formato XML
• La representación de metadatos para facilitar el
harvesting del proyecto OAI (Open Archives Initiative)
• La descripción inicial de recursos utilizando MARC
• La codificación de metadatos MARC que puedan ser
“incluidos” como parte o junto a recursos de información
disponibles en formato electrónico
Adaptar MARC a Internet: estado actual


El elemento raíz es collection, que tendrá un elemento
record para cada registro
El elemento record contendrá:
• un elemento no vacío leader para la cabecera,
• Elementos no vacíos controlfield para cada campo de control
y
• Elementos no vacíos datafield para cada campo de datos



La cabecera se indica en un elemento leader
Los campos de control se indican con elementos
controlfield.
Cada campo de control tendrá un atributo tag que recogerá
su código (éste se indica mediante 3 dígitos). Entre sus
etiquetas de inicio y de fin se escribirá su valor
Adaptar MARC a Internet: estado actual






Los campos se representan mediante elementos datafield
La etiqueta (nombre del campo) y los indicadores se
escriben como valores de los atributos tag, ind1 y ind2 del
elemento datafield
Los subcampos se tratan como elementos hijos – subfield
- del elemento datafield correspondiente al campo.
El código del subcampo se escriben como valor del
atributos code
El valor del subcampo se escribe entre las etiquetas de
inicio y fin del elemento subfield
PRACTICA: Abrir el documento de ejemplo
sandburg.xml para ver un ejemplo
Adaptar MARC a Internet: estado actual



La información que encontramos en MARC 2709
sobre longitud de campos y las posiciones de
inicio del campo (el directorio) no se utilizan en el
esquema xml
Las posiciones de la cabecera del registro que no
son necesarias se mantienen, pero se dejan en
blanco
Se trata de un esquema más fácilmente
procesable y comprensible que la DTD anterior
Adaptar MARC a Internet: estado actual

El esquema XML forma parte de una iniciativa
mayor – framework -, que incluye el desarrollo
de distintas “aplicaciones”, utilidades e interfaces
para permitir:
• Transformaciones entre MARC (2709), MARC (xml)
Dublin Core y MODS (Metadata Object Description
Schema) forman parte de la iniciativa
• Hojas de estilo para la presentación de la información
XML como HTML
Adaptar MARC a Internet: estado actual


En el modelo propuesto se habla del esquema xml como
“piedra angular” para representar los datos de una forma
que sea fácilmente procesable por distintas aplicaciones
“consumidoras” – xml consumers
Los XML consumers procesan los documentos xml
codificados con el esquema anterior. Los “consumidores”
incluyen distintos tipos de utilidades:
• Transformación de MARC xml a otros formatos de
metadatos
• Presentación de registros MARC xml en un formato
fácilmente legible (html, pdf, etc.)
• Validación de documentos, extracción de datos, etc.
Adaptar MARC a Internet: estado actual
Adaptar MARC a Internet: estado actual

Entre las utilidades que se han diseñado a partir del
esquema anterior, contamos con las siguientes:
• MARC4J – conversión de MARC 2709 a xml
• Hojas de estilo XSLT para convertir de MARC XML a
MODS, Dublin Core y OAI MARC (Open Archives
Initiative)
• Hojas de estilo XSLT para presentar datos MARC en
HTML
MARCXML – Prácticas codificación

Utilizando el esquema MARCXMLSlim.xsd y XML Spy, codifica el
siguiente registro MARC:
MARCXML – Prácticas codificación

Utilizando el esquema MARCXMLSlim.xsd y XML Spy, codifica el
siguiente registro MARC:
MARCXML – Prácticas codificación

Utilizando las utilidades de conversión, crea el registro
COLLECTION.xml a formato MODS, y a las presentaciones HTML
con etiquetas numéricas y con textos en inglés.
XMLMARC – Stanford University






XMLMARC es una iniciativa dirigida por Lane Medical Library
en la Universidad de Stanford, en el ámbito de las
bibliotecas digitales
La motivación: analizar la viabilidad de adaptar MARC a
XML para facilitar la integración de distintas fuentes de
información y descripciones de recursos
En diciembre 1999 publicaron una utilidad Java que
convertía registros MARC 2709 a formato XML, de libre
utilización.
El proyecto diseñó una DTD para codificar datos
bibliográficos y de autoridades
Como parte del proyecto se convirtieron 250.000 registros
MARC a XML
http://xmlmarc.stanford.edu
XMLMARC – Stanford University



El proyecto XMLMARC de Stanford sigue vivo
Próximamente se presentará XOBIS v1.0a (XML Organic
Bibliographic Information Schema ) , un esquema XML para
codificar datos bibliográficos que reemplazará al XMLMARC
anteriormente usado en este proyecto
Se puede obtener información detallada de este formato
en: http://xobis.stanford.edu . Un ejemplo de documento
XML codificado según este esquema se encuentra en el
archivo lanerecords.xml
XMLMARC – Stanford University




La estructura de un registro
XOBIS sigue el siguiente
modelo:
ControlData – metadatos
acerca del registro
propiamente dicho: fecha
creación, tipo, etc.
Principal elements o Work
element
Relationships
BiblioML



Este es otro proyecto que muestra el interés despertado
por el lenguaje XML como mecanismo para codificar
información bibliográfica y de autoridades UNIMARC
El proyecto subvencionado por el Ministère de la culture
et de la communication, France, aparentemente está
detenido
http://www.culture.fr/BiblioML/en/index.html
MODS (Metadata Object Description Schema)






Se trata de un proyecto reciente, liderado por la LOC
americana
Consiste en un esquema para codificar metadatos e
información bibliográfica utilizando XML
Se utilizan etiquetas alfanuméricas en lugar de numéricas,
y en ciertos casos se agrupan elementos de MARC en un
mismo elemento
De su mantenimiento se encarga la LOC NDMSO
Última versión disponible: 14 junio de 2002 – v1.2. Estable
por un periodo de 6 meses
http://www.loc.gov/standards/mods
MODS (Metadata Object Description Schema)


MODS no nos indica cómo transferir registros MARC
utilizando XML, sino que ofrece un mecanismo que permite
describir recursos con XML utilizando un esquema que se
sitúa a medio camino entre MARC y Dublin Core
Aparentemente, MODS es la opción que debería imponerse
como sistema para la descripción de recursos en Internet
• Es más sofisticado que DC
• No es tan complejo como MARC
• Es más compatible con MARC que otros esquemas (la
pérdida de información en las transformaciones en
menor)
MODS (Metadata Object Description Schema)






MODS define un conjunto de elementos que son un
subconjunto del MARC21 Format for Bibliographic Data
En total se definen 20 elementos (cada uno de ellos con
unos elementos hijos que matizan su semántica)
Todos los elementos, excepto dos, y atributos son
opcionales
La LOC ha establecido un “mapeo” entre los elementos
MODS y los campos y subcampos de MARC
Práctica: abrir el archivo mods99042030Book.xml y ver su
estructura.
La conversión entre MARC 2709 y MODS siempre se hará
mediante MARC XML; nunca directamente.
MODS (Metadata Object Description Schema)

Los principales elementos en MODS son:
• titleInfo – es obligatorio. Contiene al menos un
elemento hijo llamado title
• name – correspondería al “encabezamiento”. Puede ser
de persona, organización o conferencia.
El tipo de encabezamiento se indica mediante un
atributo type que aceptará los valores personal,
corporate o conference
name puede incluir los elementos hijos: namePart,
role, affiliation y displayForm
• typeOfResource – tipo del recurso
MODS (Metadata Object Description Schema)
• genre – género. No tiene elementos hijos. Sólo tiene un
atributo authority que tomará el valor marc. Su valor
se tomará de la lista disponible en la URL:
http://www.loc.gov/marc/sourcecode/genre/
• publicationInfo – agrupa los datos sobre el “editor”,
mediante los elementos hijos placeCode, place,
publisher, dateIssued, dateCreated, edition, etc.
• language – idioma del recurso
• physicalDescription – descripción física del recurso.
Incluye los elementos hijos: form, extent, digitalOrigin,
etc.
• abstract – resumen; puede apuntar a un recurso
remoto
MODS (Metadata Object Description Schema)
• tableOfContents – incluirá una URL que apunta a un
recurso remoto con esta información
• targetAudience – audiencia a la que va dirigida el
contenido
• note – para codificar notas. Puede apuntar a una nota
disponible como un recurso externo mediante un
hipervínculo
• cartographics – para información cartográfica,
contiene los elementos hijos coordenadas, escala y
proyección
• subject – temas de los que trata el recurso. Incluye los
elementos hijos topic, geographic y temporal.
MODS (Metadata Object Description Schema)
• Classification – código de clasificación según un
esquema de clasificación que se indicará en el atributo
authority de este elemento
• relatedItem – permite relacionar elementos
• Identifier – ID del recurso. Puede ser un isbn, issn, etc.
Su tipo se indicará mediante un atributo type
• Location –
• accessConditions –
• Extension
• recordInfo – contiene los siguientes elementos hijos:
recordCreationDate, recordChangeDate, recordIdentifier,
etc.
Conclusiones
• En los últimos 10 años se han lanzado distintas
iniciativas para complementar / sustituir MARC
con XML
• El último modelo propuesto por la LOC parece más
fiable, y probablemente tenga una mayor
aceptación que la iniciativa de 1995
• MODS ofrece un esquema más completo que DC y
más próximo a MARC
• El hecho de estar promovido por la LOC puede ser
un punto importante, aunque la experiencia de
MARC SGML puede repetirse
• Actualmente, falta una documentación detallada
sobre cómo usar este nuevo esquema, para que
pueda considerarse una alternativa real a DC