BASE DE DATOS UNIFICADA (BDU)

Download Report

Transcript BASE DE DATOS UNIFICADA (BDU)

Metadatos
Una Introducción
Ministerio de Educación de la Nación
Secretaría de Educación Superior
Programa SIU
Facultad de Ciencias Económicas UBA.
II Jornadas sobre la Biblioteca Digital Universitaria
METADATOS - definiciones
• “Los metadatos o datos
representacionales son definidos como
el dato sobre los datos,es un conjunto
de elementos que poseen una
semántica comúnmente aceptada, o
sea tratan de representar la información
electrónica tan dispersa y representan a
la descripción bibliográfica de recursos
electrónicos” Rosa San Segundo Manuel
METADATOS - definiciones
• Los metadatos son datos altamente
estructurados que describen
información, describen el contenido, la
calidad, la condición y otras
características de los datos.
• Es un conjunto de atributos de
catalogación de los documentos que
permiten su identificación sin tener que
ejecutarlos (Ana Pavani)
METADATOS
• ¿Quiénes son los responsables de
colocar los metadatos de la información
de la Red? A partir de fijar criterios
normalizados a través de los sistemas
de metadatos Dublin Core se intenta
que sean los autores o editores quienes
coloquen las cabeceras.
METADATOS - Convenciones
¿Donde se usan y cuales?
• CDWA y CIMI- Para museos y archivos. Info
artística y herencia cultural.
• DC - Nacido como un punto intermedio entre MARC
y TEI. Recursos Electrónicos. Ambito Educativo.
RSS, Ebooks, y otros
• EAD - Archivística
• GILS - USA relacionada con la ubicación de la info
producida por ag.gubernamentales.
• LDAP-DIF - Para intercambio de info entre LDAP’s
• TEI - Material textual. Originalmente usado por
investigadores, adoptado por bibliotecarios.
• Music-Brainz - Música. Basado en XML/RDF
METADATOS - Convenciones
¿Donde se usan y cuales? (II)
• FGDC - Para intercambiar información geográfica.
• LOM - (learning Objects Metadata) - Para la
descripción de objetos individuales aplicables a
educacion a distancia (9 categ 47 elem).
• NBII - Para información biológica. Complejo.
Administración de la clasificación taxonómica.
• Matematicas y Física son representados por una
serie de metadatos con mucha profusión de
estándares en Europa.
• Y muchos otros...Hasta un conjunto SGML para
metadatear hasta armas nucleares (!?)
(http://www.osti.gov/inforum98/mason.html)
Dublin Core en detalle
• El DC nace para proporcionar
metadatos
para
los
materiales
accesibles en la red.
• Nace bajo el patrocinio de OCLC y es
de
procedencia
anglosajona.
Bibliotecarios de EE.UU., Inglaterra,
Canadá y Australia fijaron los criterios
sometidos a discusión y consideración
posterior.
• A través de reuniones iniciadas en la
sede de OCLC, en Dublin, Ohio, en el
año 1995, se avanzó en la definición de
este conjunto.
• Características del Dublin Core:
Simplicidad - Interoperabilidad semántica Consenso internacional - Extensión Modularidad (RDF)
• Los Elementos del DC
http://es.dublincore.org/documents/dces/
CONTENIDO
Título
Materia
Resumen
Fuente
Idioma
Relación
Cobertura
PROPIEDAD
INTELECTUAL
Autor
Editor
Contribución
Derechos
OTROS
Fecha
Tipo
Formato
Identificador
· Nombre del elemento: Title (Título)
- Etiqueta:
Title
- Definición:
Nombre dado al recurso
- Comentario: Normalmente, el título será el
nombre por el que se conoce formalmente el
recurso.
 Nombre del elemento: Creator (Creador)
- Etiqueta:
Creator
- Definición: Entidad principal responsable de crear
el contenido del recurso.
- Comentario: Ejemplo de Creador de un recurso
pueden ser, una persona, una organización, o un
servicio. Normalmente el nombre de un creador debe
usarse para indicar la entidad.
• Nombre del elemento: Subject (Materia)
- Etiqueta:
Subject y Keywords
- Definición:
Tema del contenido del recurso.
- Comentario:
Normalmente, la materia se
expresará como palabras clave, frases clave o
códigos de clasificación que describan un
tema/asunto del recurso. La mejor práctica
[best practice] recomendada es seleccionar un
valor de un vocabulario controlado o de un
esquema [scheme] de clasificación formal.
• Nombre del elemento: Description
(Descripción)
- Etiqueta:
Description
- Definición: Explicación del contenido del
recurso.
- Comentario: Ejemplos de descripción son,
aunque no están limitados a: un resumen, tabla
de contenidos, referencia a una representación
gráfica del contenido o una explicación en texto
libre sobre el contenido.
• Nombre del elemento: Publisher (Editor)
– Etiqueta: publisher
– Definición: Entidad responsable de que el
recurso esté disponible.
– Comentario: ejemplos de editor son: una
persona, una organización, o un servicio.
Normalmente el nombre de un editor debe
utilizarse para indicar la entidad.
• Nombre del elemento: Contributor
(Colaborador)
– Etiqueta: Contributor
– Definición: entidad responsable de realizar
contribuciones al contenido de un recurso.
– Comentario: Ejemplos de colaborador pueden
ser: una persona, una organización o un
servicio. Normalmente el nombre de un
colaborador debe utilizarse para indicar una
entidad.
• Nombre del elemento: Date (Fecha)
– Etiqueta. Date
– Definición: Fecha de una circunstancia relativa
al ciclo de vida de un recurso.
– Comentario: Normalmente, la fecha se asociará
con la creación o la disponibilidad (availability,
publicación en Red) de un recurso. La mejor
práctica recomendada para codificar el valor de
la fecha se define en el perfil ISO 8601
(W3CDTF) e incluye (entre otros) fechas en la
forma AAA-MM-DD.
• Nombre del elemento: Type (tipo de
recurso)
– Etiqueta: Resource Type
– Definición: naturaleza o género del contenido
del recurso.
– Comentario: El tipo se refiere a términos que describen
categorías generales, funciones, géneros o niveles de
agregación del contenido. La práctica recomendada en
este sentido, es seleccionar un valor de un vocabulario
controlado (por ejemplo, del Vocabulario de Tipos de la
DCMI). Para describir la manifestación física o digital
de un recurso se usa el elemento FORMAT.
• Nombre del elemento: Format (Formato)
– Etiqueta: Format
– Definición. Manifestación física o digital de un
recurso.
– Comentario: Normalmente, el formato puede
incluir tipos de medios o dimensiones de un
recurso. El formato puede usarse para
identificar el software, hardware, u otros
equipamientos necesarios para
visualizar/presentar u operar el recurso.
Ejemplos: lista de Tipos de Medios en Internet
• Nombre del elemento: Identifier
(Identificador)
– Etiqueta: Resource Identifier
– Definición: Referencia inequívoca a un recurso
dentro de un contexto dado.
– Comentario: La mejor práctica recomendada es
identificar el recruso por medio de un string (serie
de caracteres manipulados como un grupo) o un
número adaptado a un sistema formal de
identificación. (URI, URL,DOI, ISBN)
• Nombre del elemento: Source (Fuente)
– Etiqueta: Source
– Definición: Referencia a un recurso del cual
deriva el recurso actual (que se está
describiendo)
– Comentario: el recurso actual puede derivar de
un recurso Fuente en todo o en parte. La
práctica mejor recomendada en este caso es
identificar el recurso referenciado por medio de
un string o número conforme con un sistema de
identificación formal.
• Nombre del elemento: Language (idioma)
– Etiqueta: Language
– Definición: Idioma del contenido intelectual de
un recruso.
– Comentario: la mejor práctica recomendada es
usar la RFC 3066 que, junto a ISO639 define
dos y tres etiquetas de idioma principal con
subetiquetas opcionales.
• Nombre del elemento: Relation
(Relación)
– Etiqueta: Relation
– Definición: Referencia a un recurso
relacionado.
– Comentario: la práctica recomendada es
identificar los recursos referenciados mediante
un string (conjunto de caracteres manipulados
como un grupo) o un número conforme aun
sistema de identificación formal.
• Nombre del elemento: Coverage
(Cobertura)
– Etiqueta: Coverage
– Definición: La magnitud o el alcance del
contenido de un recurso.
– Comentario: Normalmente, la cobertura incluirá la
localización espacial (un nombre de un lugar o
unas coordenadas geográficas), período temporal
(una expresión que identifica un período, fecha o
rango de fecha) o jurisdicción (por ejemplo una
denominación de una entidad administrativa).
(TGN)
• Nombre del elemento: Rights (Derechos)
– Etiqueta. Rights management
– Definición: Información sobre los derechos legales que
afectan al uso del recurso.
– Comentario: Normalmente, los derechos contendrán una
declaración de gestión de derechos para el recurso, o
referenciarán un servicio que proporcione dicha
información . La información sobre los derechos
normalmente abarca los derechos de Propieddad Intelectual
(IPR), copyright y varios derechos relacionados con la
propiedad.
XML
• eXtensible Mark-up
Language.
• SGML - HTML XML.
• Bien formado y válido.
• Validez comprobable a
través de DTD o
schemas.
• Namespaces.
• Apropiado como
formato neutro para
almacenamiento e
intercambio.
<item>
<title>Earth Invaded</title>
<link>
http://news.example.com/2004/12/17/invasion
</link>
<description>
The earth was attacked by an invasion fleet
from halfway across the galaxy; luckily, a fatal
miscalculation of scale resulted in the entire
armada being eaten by a small
dog.
</description>
</item>
XML (II). FAQ.
• Porqué muchas de las normativas de metadatos usan XML?
• Hay metadatos que no se representan usando XML? Marc, tag meta de html,
PDF’s
• Para usar XML es obligatorio trabajar desde el lenguaje de marcado
escribiendo?
RDF
• Recomendación del consorcio w3c. El Modelo RDF sirve para describir
Entidades y las Relaciones entre ellas. Usa Namespaces de XML. Permite
,entre otras cosas, decribir relaciones de valor estructurado:
“...El autor del recurso http://www.microsoft.com es Bill Gates y su mail es
[email protected]...”
• Ha sido usado para crear el Dublin Core Extendido, muchísimo mas
descriptivo que el DC (http://es.dublincore.org/documents/2002/04/14/dcq-rdf-xml/index.shtml)
Iniciativa Open Archives. Conceptos.
• Es un protocolo que permite el intercambio -por ahora- de información
referencial acercade recursos de información libremente disponibles a través de
la web.
Búsqueda
Mi servidor
Server 1
Server 2
Server 3
Datos & admision protocolo
Harvesting (cosechar)
No hay búsqueda completa
• Funciona por encima del protocolo http y devuelve resultados en XML.
• Puede devolver las referencias en los distintos tipos de metadato admitidos
por el servidor
Causas y orígenes de OAI
Búsqueda Distribuída vs. Búsqueda centralizada
Server 1
Server 2
Mi servidor
Server 3
Modelo Z39.50 (Búsqueda distribuida)
Harvesting (cosechar)
Server 1
Server 2
Server 3
Búsqueda local
Causas y orígenes de OAI (II)
Búsqueda Distribuída vs. Búsqueda centralizada
The Rise and Fall of Distributed Searching
wholesale distributed searching, popular in early
digital libraries, is attractive in theory but
troublesome in practice
–Davis & Lagoze, JASIS 51(3), pp. 273-80
–Powell & French, Proc 5thACM DL, pp. 264-265
Distributed searching is still viable, but only for small
•Convención Sta.Fe
numbers
ofOld
nodes
(NUniversity
<= 20)
Michel Nelson.
Dominion
USA 10/1999
•OAI-PMH 1.0
•OAI-PMH 2.0
Iniciativa Open Archives. Conceptos (II).
Como se organizan los Repositorios OAI
Harvesting jerarquico
Repo
Set
Result
Harvesting normal
Tipos de Acciones admitidas por los servidores (Verbos)
• Identify: Obtiene una descripción del Repo. Friends. Puede tener dc o no.
• ListMetadataFormat: Obtiene los metadatos aceptados por el servidor.
• ListSets: Devuelve los conjuntos incluídos en un Repo.
• ListIdentifiers:Devuelve los Id de identificación de los “reg” del Repo.
• ListRecords: Devuelve los conjuntos en sí de “registros”, entre fechas y/o
por Set.No busca.
• GetRecord: Devuelve un “registro” en particular.
Pero...Para que sirve OAI???
Ejemplo de “registro” OAI
<?xml version="1.0" encoding="UTF-8"?>
<OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/
http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd">
<responseDate>2004-06-17T17:38:49Z</responseDate>
<request verb="ListRecords" from="2004-06-16"
metadataPrefix="oai_dc">http://arXiv.org/oai2</request>
<ListRecords>
<record>
<header>
<identifier>oai:arXiv.org:astro-ph/0101488</identifier>
<datestamp>2004-06-16</datestamp>
<setSpec>physics:astro-ph</setSpec>
</header>
<metadata>
<oai_dc:dc
xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oa
i_dc/ http://www.openarchives.org/OAI/2.0/oai_dc.xsd">
Header
especifica donde
se halla el
schema para
validar el XML
el Set que esta
devolviendo
y los namespace
y schema para
validar el tipo
de metadato
recibido
Pero...Para que sirve OAI???(II)
Ejemplo de “registro” OAI
<dc:title>Limits on the cosmological abundance of supermassive compact objects
from a millilensing search in gamma-ray burst data</dc:title>
<dc:creator>Nemiroff, Robert J.</dc:creator>
<dc:creator>Marani, Gabriela F.</dc:creator>
<dc:creator>Norris, Jay P.</dc:creator>
<dc:creator>Bonnell, Jerry T.</dc:creator>
<dc:description> A new search for the gravitational lens effects of a significant
cosmological
density of supermassive compact objects (SCOs) on gamma-ray bursts has yielded...
</dc:description>
<dc:description>Comment: 14 pages including 3 figures, appeared 2001 January
22</dc:description>
<dc:date>2001-01-26</dc:date>
<dc:type>text</dc:type>
Datos para consulta
<dc:identifier>http://arXiv.org/abs/astroph/0101488</dc:identifier>
<dc:identifier>Phys.Rev.Lett. 86 (2001) 580</dc:identifier>
</oai_dc:dc>
</metadata>
Datos para acceder al recurso digital
Se puede probar con la URL:
http://arxiv.org/oai2?verb=ListRecords&from=2004-06-16&metadataPrefix=oai_dc
Pero...Para que sirve OAI???(III)
Service Provider & Data Provider
Server 1
Server 2
Mi servidor
Service Provider
Usuarios
Realiza harvesting sobre un
conjunto de institciones con un
conjunto de reglas. Harvesting
enfocado. Oferta los resultados
para consulta por parte de sus
usuarios.
Mercado creciente
Server 1
Data Provider
Es la institución que pone a disponibilidad
de la comunidad internacional uno o mas
Repositorios OAI.
La relación de Data Provider:Service Provider es 5:1
oportunidad
Directorios OAI-PMH
•De dónde es posible obtener un listado con los Data/Service Providers
disponibles?
Data Providers: http://www.openarchives.org/Register/BrowseSites.pl
Service Providers: http://www.openarchives.org/service/listproviders.html
•Existe un listado unificado y central de los Repositorios OAI existentes?
OAI-PMH 2.0 Registration75 repositories registered???
Unregistered repositories unregistered because:
Registración es
•testing / development
buena
•not for public harvesting
pero no requerida.
•public, but “low-profile”
Michel Nelson. Old Dominion University
NUNCA habra un
directorio central de
OAI
Michael Nelson (Old Dominion University). Valparaíso. Chile. Noviembre 2003
A quien le sirve OAI-PMH?
• Usuarios en general. Particularmente
Investigadores
• Funcionalidad doble:
•Oferta de información (Service
Provider)
•Difusión de la información propia
(Data Provider)
Referencias a
• Instituciones y Editores.
• Posibilidad de disponibilizar e
intercambiar información. Grandes
cambios en las modalidades de intecambio
de información científica.
•OAI-PMH será el estandar para la
integración de recursos y servicios.
Que se puede obtener usando OAI?
• Tesis de Instituciones individuales o Redes (como NDLTD)
• Artículos de las disciplinas mas variadas (Exactas,
Humanidades, Medicina, Veterinaria, Economía, Derecho..etc)
• Imágenes, Fotografías, Mapas, posters
• Música
Tendencias en OAI
• Service Provider especializados. Análisis de los comportamientos de
usuarios para realizar un harvesting “dirigido” o jerárquico a través de
los Sets temáticos para abarcar las áreas de interés mas especializadas.
Concordante con Bibliotecas Digitales Especializadas (Tamaño,
actualizacion, etc).
• Estabilización de los repositorios en el protocolo.
• Compresión de las fuentes de almacenamiento (XML tar)
• mod_oai. Módulo de Apache para admitir directamente OAI
• Static Repo.Software para Data provider de Repo estaticos.
• Objetos Digitales complejos. Admisión no solo de la referencia sino
del Objeto digital en sí (LANL).
Michael Nelson (Old Dominion University). Valparaíso. Chile. Noviembre 2003
Algunos sitios de Interés
• Sitio oficial de Open Archives.
Listado incompleto de Data Providers y Service Providers. Especificación
del protocolo.
http://www.openarchives.org
• OAIster. Universidad de Michigan.
Service Provider que realiza harvesting sobre múltiples destinos y reúne
mas 3.000.000 de referencias a Open Archives
http://oaister.umdl.umich.edu/o/oaister/
• Se.Di.C.I.
Servicio de Difusión de la Creación Intelectual de la U.N.L.P.
Service y Data Provider. 700.000 referencias de variadas disciplinas.
http://sedici.unlp.edu.ar
El Programa SIU y OAI
Acciones en curso
• Habilitar el sitio http://bdigital.siu.edu.ar
• Allí alojar los recursos documentales públicos del SIU a texto completo usando
alguna herramienta para CMS. Actualmente experimentando con Zope/Plone.
• Instalar el software OSS ARC, el cual es un “aggregator” de OAI para realizar
harvesting de todas las Tesis de los sitios ETD nacionales.
Portal nacional de Tesis
Políticas Generales
• Colaborar con las iniciativas tendientes a montar repositorios OAI, por
ejemplo en los sitios académicos que publican material en formato PDF sin o
con motores de búsqueda. Promocionar herramientas OSS para construcción
de estos repositorios (Data Provider)
• Propender a la difusión y generación de nuevos emprendimientos
académicos orientados a servicios de información gratuitos. (Service Provider)
Redes Internacionales
Michael Nelson (Old Dominion University). Valparaíso. Chile. Noviembre 2003
Muchas Gracias por su
atención.
Isabel Piñeiro. Coordinadora Módulo Bibliotecas. Programa SIU.
[email protected]
Emiliano Marmonti. Responsable Informático. Módulo Bibliotecas. Programa SIU.
[email protected]
Ministerio de Educación de la Nación
Secretaría de Educación Superior
Programa SIU