Como trabajar los textos para ingresarlos en la Biblioteca

Download Report

Transcript Como trabajar los textos para ingresarlos en la Biblioteca

Sala de Lectura de la Red de
Bibliotecas Virtuales
Red de Bibliotecas Virtuales de América
Latina y El Caribe de la Red de Centros
Miembros de CLACSO
septiembre 2007 - http://sala.clacso.org.ar/biblioteca
Como se arma la Sala de Lectura

Cómo se presenta la Sala de Lectura


Como se visualizan los textos en la biblioteca
virtual con Greenstone




Tipos de búsqueda
Estructura interna de las colecciones
Archivo de configuración de las colecciones


Diferentes maneras de modificar el especto general
de Greenstone
Elementos que lo componen
Ejecución de Greenstone en línea de comandos
Greenstone en local
¿Porqué Greenstone? - Sala de Lectura 2004


Buscar una plataforma en la que se puedan realizar
búsquedas por metadatos y en el texto completo
Investigación exhaustiva de posibilidades



No innovar en plataformas si ya existen
La actualización de programas propios tiene un costo muy alto de
actualización y mantenimiento
Elegimos Greenstone



Es de código abierto: software abierto
Tiene incorporado Protocolos de Intercambio de Información - OAI
(Open Archives Iniciatives)
Trabajo Cooperativo con los Centros Miembros
¿Qué es Greenstone?






Es una aplicación para
bibliotecas digitales
Principalmente trabaja con
documentos de contenido
textual (pdf, doc, rtf, txt)
También indexa bases de
datos (ISIS y MARC),
imágenes, videos, sonidos
Los documentos se
organizan en colecciones
Cada colección se puede
armar con una estructura
propia
Es multilingüe
¿Qué hay que saber para trabajar con
Greenstone?






Conocimientos básicos de manejo de una
computadora
Etiquetas básicas de html
Uso de hojas de estilos
DOS elemental
Manejo básico de programas de edición de
imágenes
Trabajo en Isis en forma remota
Personalizando el sitio de Greenstone (I)




Dentro de la carpeta
/macros
Archivos .dm deben
estar en formato
UTF-8
Código
especialmente
diseñado para
Greenstone
Definen los aspectos
generales del sitio
Personalizando el sitio de Greenstone (II)



Los comentarios se hacen iniciando la línea con #
Protocolo _pagetitle_ incluye un título a la página de inicio y
se usa el título de los documentos como título de la página
que se abre
Protocolo _content_ permite incluir contenido en htm
Personalizando el sitio de Greenstone (III)


Archivos de
imágenes para
el sitio
Greenstone
Archivos de
estilos (css)
para todo el sitio
de Greenstone
Tipos de Búsquedas

Búsquedas en:




Texto completo
Título
Autor
Tema


Indización automática
Indización manual
¿Qué utilizamos?

Tres archivos: html, xml y jpg

Se trabaja en PI05 para el ingreso de información



General el html, xml y jpg para la entrada.
Se trabaja en bloc de notas. Wordpad o editor
html para configurar la colección
Existen opciones de armado automático
como el Colector y la interfaz del bibliotecario

Trabaja en Java – Java Machine, programa muy
pesado y cerrado.
Dentro de las colecciones - Estructura
Carpetas de la colección
 archives – los archivos maestros
de la colección
 building – índice de la colección
 etc – collect.cfg
 Images – las imágenes de la
colección
 import – documentos de entrada.
(HTML, XML, imagen) - PI05
 index – el índice público
 macros – definición específica de
la visualización de la colección
dentro del entorno Greenstone
Archivos de entrada vistos por dentro

Definir los
Metadatos a
utilizar: Dublin
Core + propios

PI05 tiene juegos
de metadatos que
configura el
administrador de
Greenstone
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01
Transitional//"ES"http://www.w3.org/TR/html4/loose.dtd">
<html><head>
<title>Peru Hoy, no. 1</title>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
</head>
<body>
<br>
<!-<Section>
<Description>
<Metadata name="Title">Peru Hoy, no. 1</Metadata>
<Metadata name="Date">2002</Metadata>
<Metadata name="Month">Julio</Metadata>
<Metadata name="Publisher">DESCO, Centro de Estudios y Promocion del
Desarrollo, Lima, Peru</Metadata>
<Metadata name="Periodo">Semestral</Metadata>
<Metadata name="Pais">Peru</Metadata>
<Metadata name="Description">Coleccion Peru Hoy</Metadata>
</Description>
-->
<br>
<a href="http://www.desco.org.pe/publicaciones/PERUHOY/peruhoy.asp">ver índice de la
publicación</a><br>
<a href="http://www.desco.org.pe/index.asp>ir al centro miembro editor</a><br>
<a href="mailto:[email protected]">[email protected]</a>
León de la Fuente 110 - Lima 17 - Perú<br>
Teléf.: (51-1) 6138300 Fax: (51-1) 6138308<br>
<br>
<br>
Perú Hoy es una publicación semestral (julio y diciembre) que da cuenta de diversos
sucesos sociales, económicos y políticos del país.<br>
Es nuestra forma de contribuir a una reflexión crítica sobre la situación del país así como
de alentar la generación de alternativas en beneficio de las mayorías
nacionales.<br>
Símbolos del Sistema
elementos
Archivo de Configuración - collect.cfg
(parte I)


El archivo collect.cfg es en donde
configuraremos cada colección
Dentro de cada colección
 Groupsize: el número máximo
de colecciones a buscar al
mismo tiempo
 Supercollection: definimos si
queremos que el buscador
recupere información de esa
colección sola o de varias
 indexes: Índices que tiene que
recuperar cuando procesa la
información
 plugin: Los plugins que se van
a utilizar para procesar los
archivos con lo que
alimentamos esa colección
creator
[email protected]
maintainer [email protected]
public
true
groupsize
200
Supercollection busca secret asdi grup
indexes section:text section:Subject section:Autor
section:Title
defaultindex section:text
plugin
ZIPPlug
plugin
GAPlug
plugin
TEXTPlug
plugin
HTMLPlug -description_tags -cover_image nolinks
plugin
EMAILPlug
plugin
PDFPlug
plugin
RTFPlug
plugin
WordPlug
plugin
PSPlug
plugin
ArcPlug
plugin
RecPlug -use_metadata_files -show_progress
Archivo de Configuración - collect.cfg
(parte II)



Definimos clasificadores: sirven para
armar diferentes listados. Por ejemplo
armar un listado con los títulos de la
colección ordenados alfabéticamente
Nosotros armamos diferentes listados
en cada colección
Los listados admiten código html
escapeado



En las colecciones de la Sala de
Lectura: listado de títulos, listado de
autores
format SearchVList: define de qué
manera se presentarán los datos en el
resultado de una búsqueda
format Vlist: configura todos los
listados verticales que utiliza
Greenstone para la colección

Format CLNVList: Si se quieren definir
listados de manera diferente al general se
le agrega un número, que es secuencial
con el clasificador que arma el listado.
Por ejemplos: el CL1VList corresponde al
listado de títulos, el CL2VList,
corresponde al listado de Autores
classify AZCompactList -metadata Title -buttonname Title
classify AZCompactList -metadata Autor -buttonname
Creator
format SearchVList "<td valign=top>[link][icon][/link]</td>
<td>{If}{[parent(All\':\'):Title],
[parent(All\':\'):Title]:<b>[Autor]</b>}
[Creator][link][Title][/link]{If}{[dls.Date],<br>Fecha:[Date]}
{If}{[dls.Coverage],<br>ISBN:[Coverage]}{If}{[dls.Descrip
tion],<br>[Description]}</td>"
format VList "<td valign=top>[link][icon][/link]</td><td
valign=top>[highlight]{Or}{[Title],Untitled}{If}{[Creator],.
<i>[Creator]</i>,}[/highlight]<i><small>{If}{[Date],<br>_te
xtdate_[Date]}{If}{[NumPages],<br>_textnumpages_[Nu
mPages]}{If}{[Source],<br>_textsource_[Source]}</small
></i></td>"
format CL1VList "<td valign=top>[link][icon][/link]</td>
<td valign=top>[link]{Or}{[Title],Untitled}[/link]<small>{If}
{[Creator],<BR> [Creator]}{If}{[Mounth], <br>Fecha:
[Mounth]}{If}{[Date],<br>[Date],}{If}{[Coverage],<br>ISBN
:[Coverage]}</small></td>"
format CL2VList "<td valign=top>[link][icon][/link]</td>
<td
valign=top>{If}{[numleafdocs],<b>[Title]</b>,<b>[Autor]</
b> [link][Title][/link] <br><small>[Mounth]
[Date]</small>}</td>"
Archivo de Configuración - collect.cfg
(parte III)

Format DocumentText: define la
presentación del texto y cómo
configurar información adicional.

Enlace al documento original
de manera automática

Se puede utilizar código html
escapeado

Mostrar resumen y palabras
claves

Mostrar el texto que usa
Greenstone en su búsqueda
 Resalta los términos de los
resultados de búsqueda
 Accesibilidad: todos los
usuarios pueden acceder al
documentos primario –
único requisito para
visualizarlo es el navegador

Cita bibliográfica

format DocumentText "<table
width=\"700px\"><tr><td><div align=\"left\">{If}{[Web],<a
href=\"[Web]\">ver texto en su formato original
(pdf)</a><br/>,}</div></td><td><div align=\"right\"><a
href=\"#ircita\">C&oacute;mo citar este
documento</a></p><a name=\"subir\"
id=\"subir\"></a></div></td></tr></table><div
align=\"left\" style=\"background:#F5F5F5\"><font
color=\"#000000\">{If}{[Abstract], <u>Resumen</u>:
[Abstract]<br/>,} {If}{[Abstract_1], <u>Abstract</u>:
[Abstract_1]<br/>,}{If}{[Subject], <u>Palabras
Claves</u>: [Subject]<br/>,}</font></div>[Text]<table
width=\"750px\" border=1><caption align=\"top\"><font
color=\"#B22222\"><a name=\"ircita\"
id=\"ircita\"></a><u>C&oacute;mo citar este
documento:</u></font></caption><tr
bgcolor=\"#F5F5F5\"><td>Formato de cita
electr&oacute;nica</font> <cite>(ISO 6902)</cite><br/>{If}{[Autor],
[Autor].,}<b>[Title]</b>{If}{[Title_2],. <i>En
publicaci&oacute;n: [Title_2]</i>,} {If}{[Publisher],.
[Publisher],}: [Pais].{If}{[Month], [Month],}[Date]. <script
type=\"text/javascript\"
src=\"../images/fecha.js\"></script><script
language=\"javascript\">document.write(GetDate());</scr
ipt>{If}{[Web], Disponible en: <a
href=\"[Web]\">[Web]</a>,}{If} {[Coverage], ISSN:
[Coverage].,}</td></tr><hr/><p align=\"right\"><a
href=\"#subir\">subir</a></p>"
Archivo de Configuración - collect.cfg
(parte IV)



format DocumentImages
true|false: indica si se muestra la
imágen de presentación de los
documentos o no
Format DocumentButtons: define
la opción de activar un menú con
las siguientes opciones

Expand Text: Ver todo el texto
completo en una misma página
de navegador

Expand Contents: Ver el índice
completo

Detach: Separa el texto
nuevamente en las diferentes
partes del documento.

Highlight: resaltar o no los
términos del resultado de
búsqueda
Hlist: es el formateo de las listas
horizontales (AZCompactlist)

Permite código html escapeado
format DocumentImages true
format DocumentButtons "Expand Text|Expand
Contents|Detach|Highlight"
format HList
"[link][highlight]{Or}{[dls.Title],[dc.Title],[Title],Untitled}[/hi
ghtlight][/link]{If}{[Autor],<b>[Autor]</b>}{If}{[Descrip
tion],<b>[Description]}"
Archivo de Configuración - collect.cfg
(parte V)

Collectionmeta: metadatos a nivel
de la colección. Hay diversos tipos
de collectionmeta y todos admiten
código html escapeado.



collectionname: Es el título de la
colección
iconcollection: si en vez de una
frase queremos insertar un logo
en cada colección, irá la siguiente
sentencia con el nombre del
gráfico, y el gráfico lo pondremos
en la carpeta IMAGES dentro de
cada colección
.section:N: muestra las opciones
de búsqueda que definimos para
esa colección y el orden que se
presentan





Búsqueda en texto completo
Autor
Tema
Título
collectionextra: podemos escribir
un párrafo, insertar imágenes
crear tablas, colocar links,
describir la colección, etc. Es el
texto general que se muestra
cuando entramos a la colección
collectionmeta collectionname "Colecci&oacute;n
Revista Andamios, M&eacute;xico"
collectionmeta iconcollection
"_httpprefix_/collect/busca/images/busca.jpg"
collectionmeta .section:Subject [l=es] "Temas"
collectionmeta .section:Autor [l=es] "Autores"
collectionmeta .section:Title [l=es] "T&iacutetulos"
collectionmeta .section:text [l=es] "B&uacute;squeda
en Texto Completo"
# -- Spanish text ------------------------------collectionmeta collectionextra [l=es] "<p>Andamios.
Revista de Investigaci&oacute;n Social aparece
citada en los siguientes</p> <p> Contactos:
Direcci&oacute;n electr&oacute;nica: <a
href=\"mailto:[email protected]\">revist
[email protected]</a><br> P&aacute;gina
web: <a
href=\"http://www.uacm.edu.mx/andamios/index.html
\">http://www.uacm.edu.mx/andamios/index.html</a
></p> <hr/>"
PI05 - Juegos de Metadatos (parte I)

Se definen para PI05 todos los
metadatos que hay que utilizar






<name>: nombre que se usa
en Greenstone
<fantasia>: nombre que se usa
en PI05
<default>: se puede ingresar la
información del campo por
defecto
<repetible>: define si se usa de
nuevo o no
<general>: define la ubicación
en PI05
<obligatorio>: se indica si el
campo es de entrada
obligatoria o no
PI05 - Juegos de Metadatos (parte II)



Los juegos de
metadatos se van a
mostrar al inicio de la
creación del proyecto
de PI05
El nombre de cada
juego es el mismo que
el nombre del archivo
El archivo es un xml
estándar
Ejecutar Greenstone versión local
Greenstone utiliza un archivo ejecutable que articula el
navegador con los cambios en el programa
Información precisa a pedido del
usuario
¡Esperamos que haya
resultado útil!
Red de Bibliotecas Virtuales de la red CLACSO
septiembre 2007 - http://sala.clacso.org.ar/biblioteca