JBD - GIDRID

Download Report

Transcript JBD - GIDRID

METADATOS EN LA BIBLIOTECA
DIGITAL
Julián Cellini
Claudia González
Yanina González Terán
Gustavo
Archuby
Karina
Presta
18 de Junio 2004
Mónica
Pené
Adrián
Mastronardi
JBD - GIDRID
1
Temas
• Introducción
• Descripción de un recurso
• Implementación para la Interoperabilidad
18 de Junio 2004
JBD - GIDRID
2
Introducción
• Desde el modelo tradicional

Nuevo contexto
• Nuevas tecnologías de Información
• Metadatos en 3 niveles de acción
18 de Junio 2004
JBD - GIDRID
3
Modelo tradicional
SISTEMA DE INFORMACION DOCUMENTAL
DOCUMENTOS
Libros
Revistas
Legislación
Tesis
Videos
Música
Estadísticas
Mapas
18 de Junio 2004
… etc.
JBD - GIDRID
4
Modelo Tradicional
SISTEMA DE INFORMACION DOCUMENTAL
USUARIOS
DOCUMENTOS
Libros
Revistas
Legislación
Tesis
Conocidos
Videos
Música
Estadísticas
Mapas
18 de Junio 2004
… etc.
JBD - GIDRID
5
Modelo Tradicional
SISTEMA DE INFORMACION DOCUMENTAL
DOCUMENTOS
Libros
USUARIOS
SRI
Revistas
Borges
Autor
El Aleph
Titulo
Legislación
Bs. As.
Lugar
Sud.
Editorial
Tesis
1965
Fecha
ISBD
Conocidos
ACR
Videos
Representación
Música
MARC
CDU
TES
Estadísticas
EM
Mapas
18 de Junio 2004
… etc.
JBD - GIDRID
6
Nuevo Contexto
WEB
OID
E-Libros
Revistas E
BD Bibl.
Imágenes
Audio/Video
Software
Sitios Web
Obj. Apren.
18 de Junio 2004
JBD - GIDRID
7
Nuevo Contexto
WEB
USUARIOS
OID
E-Libros
Revistas E
BD Bibl.
Imágenes
Multilingüismo
Audio/Video
Software
Sitios Web
Obj. Apren.
18 de Junio 2004
JBD - GIDRID
8
Nuevo Contexto
WEB
USUARIOS
OID
SRI
E-Libros
Revistas E
OPACs
BD Bibl.
Imágenes
Bca.
Dig.
Orig.
DR
Multilingüismo
Audio/Video
Software
DC
W3C
Estadísticas
Obj. Apren.
18 de Junio 2004
JBD - GIDRID
9
Evolución de las TI
• HTML
• XML
• RDF
18 de Junio 2004



METAETIQUETAS
ESQUEMAS
PERFILES DE APLICACIÓN
JBD - GIDRID
10
HTML - Metaetiquetas
• META
<HTML>
<HEAD>
<META NAME = "DC.title" CONTENT="Hänsel und Gretel">
<META NAME = "DC.creator" CONTENT="Grimm Brothers">
<META NAME = "DC.language" CONTENT="de">
<META NAME = "DC.subject" CONTENT = "fairy tale, Grimm Brothers, child protagonist,
brother and sister, woodcutter, stepmother, forest, poverty, child neglect, witch,
cannibalism">
<META NAME = "DC.format" CONTENT="text/html; images/gif; audio/ra">
<META NAME = "DC.identifier"
CONTENT="http://www.vcu.edu/hasweb/for/grimm/haensel.html">
<META NAME = "DC.source" CONTENT="1857 edition of Haus- und Kindermärchen der
Brüder Grimm">
<META NAME = "DC.relation" CONTENT="Grimm fairy tale number 15">
<META NAME = "DC.rights" CONTENT="Free use for educational purposes">
...
• LINK
<LINK rel="Index" href="../index.html">
<LINK rel="Next" href="Chapter3.html">
18 de Junio 2004
JBD - GIDRID
11
XML
<?xml version="1.0" encoding="ISO-8859-1" ?>
<CATALOG>
<CD>
<TITLE>Empire Burlesque</TITLE>
<ARTIST>Bob Dylan</ARTIST>
<COUNTRY>USA</COUNTRY>
<COMPANY>Columbia</COMPANY>
<PRICE>10.90</PRICE>
<YEAR>1985</YEAR>
</CD>
<CD>
....
18 de Junio 2004
JBD - GIDRID
12
XML - Esquemas
<?xml version="1.0" encoding="UTF-8"?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema"
xmlns="http://purl.org/dc/elements/1.1/"
targetNamespace="http://purl.org/dc/elements/1.1/"
elementFormDefault="qualified"
attributeFormDefault="unqualified">
...
<xs:element name="any" type="SimpleLiteral" abstract="true"/>
<xs:element name="title" substitutionGroup="any"/>
<xs:element name="creator" substitutionGroup="any"/>
<xs:element name="subject" substitutionGroup="any"/>
....
18 de Junio 2004
JBD - GIDRID
13
RDF
<?xml version="1.0"?>
<rdf:RDF
xmlns:rdf=“http://www.w3.org/1999/02/22-rdf-syntax-ns#”
xmlns:dc=“http://purl.org/dc/elements/1.1/”>
<rdf:Description rdf:about=“El Aleph”>
<dc:creator>J. L. Borges</dc:creator>
</rdf:Description>
</rdf:RDF>
18 de Junio 2004
JBD - GIDRID
14
Niveles de Acción
• Instanciación
• Estructuración
• Interoperabilidad
18 de Junio 2004
JBD - GIDRID
15
Descripción de un recurso
18 de Junio 2004
JBD - GIDRID
16
Descripción de un recurso
• El objeto de información
• Su forma
• Su identificación
• Su descripción
18 de Junio 2004
JBD - GIDRID
17
Descripción de un recurso
• Diversidad de Estándares
• El estándar único
• El contexto del SID
• La semántica
18 de Junio 2004
JBD - GIDRID
18
Descripción de un recurso
• La descripción
• Estándares de metadatos
• CDWA Standard
• Dublin Core
• Control de vocabulario y autoridades
• AAT / ULAN / ICONCLASS / TGN
18 de Junio 2004
JBD - GIDRID
19
Página Catedral
18 de Junio 2004
JBD - GIDRID
20
Descripción de un recurso
• Dublin Core
• Creator: Alí Mustafa
• Title: La Catedral de La Plata
•
•
•
•
•
•
Publisher: Organización de Estados Iberoamericanos. Oficina Regional en Bogotá. CO
Date: 1999 06
Description: Artículo sobre el reconocimiento que hiciera el Vaticano a la Catedral de La Plata
como una de las más importantes del mundo.
Subject: catedrales, construcciones religiosas, neogótico
Coverge: La Plata, Argentina
Identifier: http://www.oei.org.co/sii/entrega17/art02.htm
•
•
•
•
Object/Work_Type: catedral
Creation_Creator_Identity: Pedro Benoit
Creation_Creator_Role: arquitecto
Titles or Names Text: Catedral de La Plata
• CDWA
•
•
•
•
Creation-Date: 1884
Current Location - Geographic Location: La Plata, Argentina
Subject Matter: 11Q711
Styles/Periods/Groups/Movements - Description: De las obras neogóticas en América, es una de
las más importantes.
18 de Junio 2004
JBD - GIDRID
21
RDF
• Resource Description Farmework
18 de Junio 2004
JBD - GIDRID
22
RDF
• Resource Description Farmework (RDF)
• Lenguaje para representar información acerca
de recursos
• Pensado para el procesamiento automático
• Representa recursos que pueden identificarse
en la web
18 de Junio 2004
JBD - GIDRID
23
Conceptos
• Metadatos para RDF
• “El Aleph tiene como autor a J. L. Borges”
El Aleph Sujeto
autor Predicado
J. L. Borges Objeto
18 de Junio 2004
JBD - GIDRID
24
Problemas
• Lenguaje natural
• Ambiguo
• No entendible por una máquina
18 de Junio 2004
JBD - GIDRID
25
Ambigüedad
• Cómo compartir información
•
•
•
•
¿Qué es "El Aleph"?
¿Qué significa “autor”?
¿"J. L. Borges" o "Borges"?
¿Qué pasa si hay dos "J. L. Borges"?
18 de Junio 2004
JBD - GIDRID
26
Procesamiento
• No entendible por una máquina
• No tiene una sintaxis y semántica bien definida
• Se debe usar un lenguaje común (intercambio)
18 de Junio 2004
JBD - GIDRID
27
Soluciones
• RDF resuelve estos problemas
• Ambigüedad  Referencias URI
• Procesamiento automático  XML
18 de Junio 2004
JBD - GIDRID
28
URL
• URL (Uniform Resource Locator)
• Identifica un recurso Web mediante la
representación del mecanismo de acceso
• Utiliza la ubicación en la red
• Ejemplos
• http://www.gidrid.com.ar/index.html
• ftp://ftp.mozilla.org
18 de Junio 2004
JBD - GIDRID
29
URI
• URI (Uniform Resource Identifier)
• No están limitados a recursos web
• Pueden identificar personas, conceptos, etc.
• Todas las URL son URI
• Ejemplos:
• todas las URL anteriores
• mailto:[email protected]
• urn:isbn: 950-04-0163-0
18 de Junio 2004
JBD - GIDRID
30
Referencias URI
• RDF utiliza Referencias URI
• URI + "#" + identificador de fragmento.
• Permiten identificar una parte de un recurso
• Ejemplo
• http://www.gidrid.com.ar/index.html#staff
18 de Junio 2004
JBD - GIDRID
31
Ejemplo
“El Aleph tiene como autor a J. L. Borges”
El Aleph
autor
http://www.biblio.org.ar/libros/el_aleph.html
urn:isbn:950-04-0163-0
http://purl.org/dc/elements/1.1/creator
J. L. Borges http://www.biblio.org.ar/personas/borgesjl.html
18 de Junio 2004
JBD - GIDRID
32
XML
• El XML nos provee
• Namespaces
• Nos permite usar varios esquemas en un mismo XML
• XSLT
• Nos permite transformar un XML en otro
• Bibliotecas de funciones
• Lengua común
18 de Junio 2004
JBD - GIDRID
33
Ejemplo
<?xml version="1.0"?>
<rdf:RDF
xmlns:rdf=“http://www.w3.org/1999/02/22-rdf-syntax-ns#”
xmlns:dc=“http://purl.org/dc/elements/1.1/”>
<rdf:Description rdf:about="urn:isbn:950-04-0163-0”>
<dc:creator rdf:resource=
"http://www.biblio.org.ar/personas/borgesjl.html”/>
</rdf:Description>
</rdf:RDF>
18 de Junio 2004
JBD - GIDRID
34
Ejemplo
<?xml version="1.0"?>
<rdf:RDF
xmlns:rdf=“http://www.w3.org/1999/02/22-rdf-syntax-ns#”
xmlns:dc=“http://purl.org/dc/elements/1.1/”>
<rdf:Description rdf:about="urn:isbn:950-04-0163-0”>
<dc:creator rdf:resource=
"http://www.biblio.org.ar/personas/borgesjl.html”/>
</rdf:Description>
</rdf:RDF>
18 de Junio 2004
JBD - GIDRID
35
Ejemplo
<?xml version="1.0"?>
<rdf:RDF
xmlns:rdf=“http://www.w3.org/1999/02/22-rdf-syntax-ns#”
xmlns:dc=“http://purl.org/dc/elements/1.1/”>
<rdf:Description rdf:about="urn:isbn:950-04-0163-0”>
<dc:creator rdf:resource=
"http://www.biblio.org.ar/personas/borgesjl.html”/>
</rdf:Description>
</rdf:RDF>
18 de Junio 2004
JBD - GIDRID
36
Ejemplo
<?xml version="1.0"?>
<rdf:RDF
xmlns:rdf=“http://www.w3.org/1999/02/22-rdf-syntax-ns#”
xmlns:dc=“http://purl.org/dc/elements/1.1/”>
<rdf:Description rdf:about="urn:isbn:950-04-0163-0”>
<dc:creator rdf:resource=
"http://www.biblio.org.ar/personas/borgesjl.html”/>
</rdf:Description>
</rdf:RDF>
18 de Junio 2004
JBD - GIDRID
37
Ejemplo
<?xml version="1.0"?>
<rdf:RDF
xmlns:rdf=“http://www.w3.org/1999/02/22-rdf-syntax-ns#”
xmlns:dc=“http://purl.org/dc/elements/1.1/”>
<rdf:Description rdf:about="urn:isbn:950-04-0163-0”>
<dc:creator>J. L. Borges</dc:creator>
</rdf:Description>
</rdf:RDF>
18 de Junio 2004
JBD - GIDRID
38
OAI-PMH
• Open Archives Initiative
• Protocol for Metadata Harvesting
18 de Junio 2004
JBD - GIDRID
39
OAI-PMH
• Open Archives Initiative
• The Digital Library Federation (DLF)
• Coalition for Networked Information (CNI)
• National Science Foundation (NSF)
• Protocol for Metadata Harvesting
• HTTP
• XML
• Dublin Core
18 de Junio 2004
JBD - GIDRID
40
Estrategias
• Búsqueda distribuida
• Recolección y centralización
18 de Junio 2004
JBD - GIDRID
41
Búsqueda distribuida
• Diferencias entre leguajes de búsqueda
• Dificultad en procesar los resultados
• No escala bien
Server 1
Resultado 1
Exp
Exp
Usuario
Resultados
1+2+3
(Ordenados)
18 de Junio 2004
Exp
Interfaz de
búsqueda
Server 2
Resultado 2
Exp
Resultado 3
JBD - GIDRID
Server 3
42
Recolección y centralización
•
•
•
•
Un solo lenguaje de búsqueda
Una sola fuente de datos en la búsqueda
Actualización en lotes
Server 1
Escala mejor
Actualización
Proveedor de servicio
Exp
Usuario
Interfaz de
búsqueda
Resultados
(Ordenados)
18 de Junio 2004
Server
Local
Server 2
Actualización
Actualización
JBD - GIDRID
Server 3
43
Definiciones
• Recolector
• Cliente del Repositorio
• Concentrador
• Repositorio
• Servidor de datos
• Proveedor
GET/POST
Recolector
HTTP
Repositorio
XML
18 de Junio 2004
JBD - GIDRID
44
Definiciones
•
•
•
•
•
Recurso
Ítem
Identificador
Registro
Conjunto
Ítem
Ítem
Ítem
Ítem
Ítem
Metadatos
de
la
obra
Ítem
Metadatos
de
la
obra
Metadatos
de
la
obra
Metadatos
de
la
Metadatos
de
la
obra
Metadatos de laobra
obra
18 de Junio 2004
Recurso
Identificador
MIRO723
Ítem
Metadatos de la obra
Conjunto
Pinturas
JBD - GIDRID
Registro
DC
Registro
Formato Propio
45
Protocolo
•
•
•
•
•
Basado en fecha de alta/baja/modificación
Pide las novedades desde la última “visita”
Requiere un identificador de registro
Fácil de implementar
Esquemas de metadatos
• DC no calificado (requerido)
• Otros pueden ser pedidos/provistos
18 de Junio 2004
JBD - GIDRID
46
Preguntas?
18 de Junio 2004
JBD - GIDRID
47