ANÁLISIS DOCUMENTAL DE INFORMACIÓN TEXTUAL Tema 8 Documentación Informativa

Download Report

Transcript ANÁLISIS DOCUMENTAL DE INFORMACIÓN TEXTUAL Tema 8 Documentación Informativa

2º Periodismo
ANÁLISIS DOCUMENTAL DE
INFORMACIÓN TEXTUAL
Tema 8
Documentación Informativa
Licenciatura en Periodismo
Universidad Carlos III de Madrid
Curso 2004/2005
Documentación Informativa
David Rodríguez Mateos - 2004
2º Periodismo
Índice
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
Introducción
Problemas del lenguaje natural para la recuperación de
información
Efectos de los problemas del lenguaje natural
Representación de los documentos: el análisis
documental
Análisis documental: tipos
Análisis formal
Análisis de contenido: clasificación
Análisis de contenido: indización
Descriptores: ventajas e inconvenientes
Tipos de descriptores
Indización de textos periodísticos
Proceso de indización
Resumen
Documentación Informativa
David Rodríguez Mateos - 2004
8.1.2.3.4.5.6.7.8.9.10.11.12.13
2º Periodismo
1. Introducción
• Documentos textuales periodísticos:
creados mediante un lenguaje natural
• Centro de documentación: contiene gran
cantidad de documentos representados
mediante lenguaje natural
• ¿Cómo recuperar en el futuro solo los
documentos que necesitamos como
respuesta a una petición de información?
Documentación Informativa
David Rodríguez Mateos - 2004
8.1.2.3.4.5.6.7.8.9.10.11.12 .13
2º Periodismo
2. Problemas del lenguaje natural
para la recuperación de información
• Equivalencias de enunciados:
– Los accionistas dan el sí al nuevo BBVA
– Los accionistas aprueban la fusión del
BBV y Argentaria
• Dificultad para generalizar
– Ejemplo: buscar documentos relacionados
con Andalucía
• ¿Cómo recuperar documentos relacionados
con Sevilla, Córdoba o Palma del Río en los
que no aparece el término Andalucía?
Documentación Informativa
David Rodríguez Mateos - 2004
8.1.2.3.4.5.6.7.8.9.10.11.12 .13
2º Periodismo
2. Problemas del lenguaje natural
para la recuperación de información
• Dificultad de predicción en la coincidencia de los
términos usados
– Para la redacción de una información
– Para su búsqueda posterior
• Causada por el empleo de figuras lingüísticas (I):
– Flexiones y variantes gramaticales: singular, plural,
formas verbales, etc.
– Variantes ortográficas del mismo término
• Yushenko / Yushchenko / Yuschenko
• Disquete / diskette.
– Variantes idiomáticas:
• Lérida / Lleida
Documentación Informativa
David Rodríguez Mateos - 2004
2º Periodismo
8.1.2.3.4.5.6.7.8.9.10.11.12 .13
2. Problemas del lenguaje natural
para la recuperación de información
• Causada por el empleo de figuras lingüísticas (II):
– Sinonimia: palabras con el mismo significado
• Muy utilizada en el español y especialmente en prensa.
• impuesto / tributo / contribución
– Polisemia: diversidad de significaciones de una palabra.
• planta (anatómica) / planta (industrial) / planta (botánica)
– Homografía: palabras que siendo iguales por su forma
tienen distinto origen y significado
• banco (mobiliario urbano) / banco (entidad financiera)
Documentación Informativa
David Rodríguez Mateos - 2004
2º Periodismo
8.1.2.3.4.5.6.7.8.9.10.11.12.13
3. Efectos de los problemas del
lenguaje natural
• Ruido:
– Documentos que se recuperan
– Pero no son relevantes (no interesan) para la
búsqueda que realiza un usuario
• Silencio:
– Documentos que existen en la base de datos
– Son relevantes (interesarían al usuario que
busca información)
– Sin embargo, no se recuperan
• No ha habido coincidencia entre los términos que utilizó
el periodista y los que luego utiliza el usuario que busca
información
Documentación Informativa
David Rodríguez Mateos - 2004
2º Periodismo
8.1.2.3.4.5.6.7.8.9.10.11.12.13
3. Efectos de los problemas del
lenguaje natural
Problema
• Equivalencias de enunciados
Efecto
Silencio / Ruido
• Dificultad para generalizar
• Dificultad para usar los mismos
términos en la redacción y en la
recuperación de información
• Figuras lingüísticas:
 Flexiones y variantes
gramaticales
Silencio
 Variantes ortográficas del
mismo término
 Variantes idiomáticas
 Sinonimia
 Polisemia
Ruido
 Homonimia
Documentación Informativa
David Rodríguez Mateos - 2004
8.1.2.3.4.5.6.7.8.9.10.11.12.13
2º Periodismo
4. Representación de los
documentos: el análisis documental
• ¿Cómo representar un documento para
aumentar las posibilidades de que sea
recuperado cuando corresponde?
• Análisis documental
– Lectura, síntesis y representación de un texto
– Descripción mediante términos
– Conjunto de términos usados para describir textos
en un centro documental = lenguaje documental
– Tipos de términos creados
• Lenguaje libre: palabras clave
• Lenguaje controlado: descriptores
Documentación Informativa
David Rodríguez Mateos - 2004
2º Periodismo
8.1.2.3.4.5.6.7.8.9.10.11.12.13
5. Análisis documental: tipos
• Dos tipos de análisis documental
– Análisis formal
• Sobre aspectos formales del documento
• Control e identificación de los documentos que forman
parte de una colección
• Permite localizar físicamente un documento
• Fases: catalogación y descripción documental
– Análisis de contenido
• Sobre aspectos de contenido del documento
• Fases: clasificación, indización y resumen
Documentación Informativa
David Rodríguez Mateos - 2004
2º Periodismo
8.1.2.3.4.5.6.7.8.9.10.11.12.13
6. Análisis formal
• Descripción documental
– Datos de localización física de cada documento
• Autor, título, medio, página, fecha de publicación,
tamaño...
• Existencia de normas internacionales (ISBD)
– Facilitan el intercambio de descripciones entre centros
documentales
• Centros de documentación periodísticos: suelen tener
normas propias
• Catalogación
– Creación de un catálogo
• Lista de los documentos que componen una colección
• Definición de los puntos de acceso
– Qué tipo de datos del documento pueden servir para
localizarlo
Documentación Informativa
David Rodríguez Mateos - 2004
2º Periodismo
8.1.2.3.4.5.6.7.8.9.10.11.12.13
6. Análisis formal
• Productos de la catalogación:
– Fichas principales
• Contiene los datos necesarios para la localización de
una obra descrita.
– Fichas secundarias:
• Acceso por coautores, materias, etc.
– Fichas de referencia: analíticas, etc.
– CATÁLOGOS
• De autores, materias, títulos, diccionario, sistemático,
topográfico, de adquisiciones, etc.
• Normas comunes: ISBD
– Permiten intercambio de productos
– Ahorran esfuerzos al catalogar
Documentación Informativa
David Rodríguez Mateos - 2004
8.1.2.3.4.5.6.7.8.9.10.11.12.13
2º Periodismo
7. Análisis de contenido: clasificación
• Expresión general del contenido de un
documento
– Descripción básica de las materias
• Mediante términos extraídos de un lenguaje documental
(lenguaje de clasificación)
• El lenguaje es
– De estructura jerárquica
– Sistemático
– Consta de clases cerradas (que pueden tener subclases)
 Expresadas mediante números y/o letras/palabras
– Usos habituales:
 Agrupar rápidamente los contenidos por materias
 Organizar físicamente los contenidos en un centro de
documentación
– Ej.: CDU (Clasificación Decimal Universal)
Documentación Informativa
David Rodríguez Mateos - 2004
2º Periodismo
8.1.2.3.4.5.6.7.8.9.10.11.12.13
8. Análisis de contenido: indización
• Extracción de los términos que pueden
expresar, describir o indicar los temas de los
que trata un documento
– Mediante un lenguaje de indización que
• Tiene estructura combinatoria
– Emplea diversos términos
– Los términos pueden tener distintas relaciones entre sí (no
solo de jerarquía).
– Los términos del lenguaje de indización pueden:
• Estar formado por términos libremente elegidos por los
indizadores: palabras clave
• Formar parte de un lenguaje controlado, previamente
definido.
– Los términos de ese lenguaje controlado se denominan
descriptores
Documentación Informativa
David Rodríguez Mateos - 2004
2º Periodismo
8.1.2.3.4.5.6.7.8.9.10.11.12.13
8. Análisis de contenido: indización
• Tipos de lenguajes de indización:
– Listados alfabéticos
• De materias
• De unitérminos (descriptor de una sola palabra)
• De descriptores (pueden tener más de una palabra)
– Tesauros
• Abarcan un área temática concreta
• Incluyen distintas relaciones entre términos
– Jerárquicas
 TG Documentación  TE Documentación Informativa
– Asociativas
 Profesor  TR Alumno
– Preferenciales
 Estudiante  USE Alumno
 Alumno  UP Estudiante
– Notas aclaratorias
 Trabajos
NA Incluidos en la parte teórica de la asignatura
Documentación Informativa
David Rodríguez Mateos - 2004
2º Periodismo
8.1.2.3.4.5.6.7.8.9.10.11.12.13
9. Descriptores: ventajas e
inconvenientes
• Ventajas
– Reducen los niveles de ruido y silencio
– Permiten ampliar y especificar las búsquedas
• Pasar a términos más específicos o relacionados
• Inconvenientes
– Coste alto en la creación y mantenimiento de los
lenguajes
– Dificultad de los usuarios para conocer el lenguaje
documental y su uso
Documentación Informativa
David Rodríguez Mateos - 2004
2º Periodismo
8.1.2.3.4.5.6.7.8.9.10.11.12.13
10. Tipos de descriptores
• Descriptor unitérmino o simple
– Representa un concepto mediante una sola
palabra
• CINE, OCIO, HIERRO, AUTOMOVIL
• Descriptor sintagmático o compuesto
– Representa un concepto utilizando más de una
palabra (un sintagma nominal o preposicional)
• COMUNICACION SOCIAL, PARTIDOS POLITICOS,
MEDIOS DE TRANSPORTE, EMPRESA PRIVADA.
Documentación Informativa
David Rodríguez Mateos - 2004
2º Periodismo
8.1.2.3.4.5.6.7.8.9.10.11.12.13
10. Tipos de descriptores
• Descriptor primario
– Término o conjunto de términos que representan
un concepto de manera unívoca.
– Es significativo, relevante y no hay posibilidad de
ambigüedad en su sentido, pudiendo aparecer
aislado sin necesidad de aclaración.
• Descriptor secundario:
– Necesita ir acompañado de otros descriptores
para expresar un significado preciso
• Ej: análisis, evaluación, concepto, teoría...
Documentación Informativa
David Rodríguez Mateos - 2004
8.1.2.3.4.5.6.7.8.9.10.11.12.13
2º Periodismo
10. Tipos de descriptores
• Descriptor temático
– Representa cualquier contenido disciplinar.
• Descriptor geográfico
– Representa todo tipo de conceptos vinculados con
lugares y sitios.
• Descriptor onomástico
– Representa un nombre de persona o de
institución.
• Descriptor cronológico
– Representa períodos de tiempo o fechas.
Documentación Informativa
David Rodríguez Mateos - 2004
2º Periodismo
8.1.2.3.4.5.6.7.8.9.10.11.12.13
11. Indización de textos periodísticos
• En el caso de los textos periodísticos,
aplicar las W’s
– ¿Quién?
– ¿Qué?
– ¿Cuándo?
– ¿Dónde?
– ¿Por qué?
– ¿Cómo?
Documentación Informativa
David Rodríguez Mateos - 2004
8.1.2.3.4.5.6.7.8.9.10.11.12.13
2º Periodismo
12. Proceso de indización
1.
Planteamiento de objetivos
–
2.
3.
¿Cuál es el contexto de trabajo?
Conocimiento del contenido del documento.
Elección de conceptos a representar:
–
–
Selectividad: Retener aquellos conceptos sobre los cuales
el documento aporta información susceptible de utilizar al
usuario)
Exhaustividad: Todos los conceptos útiles deben ser
extraidos). El criterio principal de selección es el valor
potencial del concepto escogido como elemento de
expresión del tema del documento de cara a su
recuperación.
Documentación Informativa
David Rodríguez Mateos - 2004
8.1.2.3.4.5.6.7.8.9.10.11.12.13
2º Periodismo
12. Proceso de indización
4. Verificación de la pertinencia (exactitud y utilidad)
de los conceptos extraidos.
5. Traducción de los conceptos escogidos al lenguaje
documental del sistema.
–
–
Los conceptos deberán traducirse por entradas del mismo nivel
de especificidad o superior.
Si el concepto es compuesto y existe la opción deberá traducirse
por una entrada compuesta.
6. Verificación de la pertinencia de los términos
obtenidos
–
planteándolos como términos posibles de interrogación y
valorando si el documento es pertinente
7. Formalización de la descripción si el sistema prevé
algún tipo de regla
Documentación Informativa
David Rodríguez Mateos - 2004
2º Periodismo
8.1.2.3.4.5.6.7.8.9.10.11.12.13
13. Resumen
• Representación abreviada y precisa del
contenido de un documento
– Sin interpretación ni crítica
– Sin mención expresa del autor del resumen
• Tipos (I)
– Resumen informativo:
• Relación lógica y lineal de los temas tratados
• Extensión de unas 100 a 300 palabras
• A veces, puede ser sustituto del documento resumido
– Resumen indicativo:
• Breve y exacta representación del contenido de un
documento
• Indica de forma superficial los temas abordados
• Extensión es de unas 50 palabra
• Rara vez sustituye al documento resumido
Documentación Informativa
David Rodríguez Mateos - 2004
2º Periodismo
8.1.2.3.4.5.6.7.8.9.10.11.12.13
13. Resumen
• Tipos (II)
– Resumen informativo-indicativo
• Las partes principales están escritas con un estilo
informativo
• Aquellos aspectos de menor trascendencia son tratados
de forma indicativa.
– Resumen analítico
• Indica la profundidad y extensión del trabajo
– Evalúa la experimentación, la metodología, la importancia
de la contribución al desarrollo del conocimiento, etc.
– Es más un comentario que un resumen. Hay que dejar
claro que incluimos nuestra opinión.
– El título
• Puede ser considerado un resumen, si refleja
verdaderamente la esencia del contenido
– Ocurre a veces en artículos de revistas científicas
Documentación Informativa
David Rodríguez Mateos - 2004
2º Periodismo
Bibliografía
•
•
•
•
•
FUENTES I PUJOL, Mª Eulàlia. Manual de documentación
periodística. Madrid: Síntesis, 1995.
GARCÍA GUTIÉRREZ, Antonio. Análisis documental: textos
periodísticos escritos. En: En: García Gutiérrez, Antonio (Editor).
Introducción a la documentación informativa y periodística. Sevilla:
Editorial MAD, 1999
HERNÁNDEZ, Tony: Tema 5: Análisis documental de la información
impresa. 2001, http://rayuela.uc3m.es/~tony/pdmo/pdmotema5.htm
[Acceso: 10/12/2004]
LANCASTER, Frederick W. El control de vocabulario en la
recuperación de información. Valencia: Universitat de Valencia, 1995.
286 p.
VALLE GASTAMINZA, Félix del: Análisis y lenguajes documentales.
2004, http://www.ucm.es/info/multidoc/prof/fvalle/temaad.htm [Acceso:
1/12/2004]
– -- Resumen analítico.
http://www.ucm.es/info/multidoc/prof/fvalle/temaresumen.htm, 2004
[Acceso: 7/12/2004]
Documentación Informativa
David Rodríguez Mateos - 2004