Información Semiestructurada

Download Report

Transcript Información Semiestructurada

Información
Semiestructurada
MC Beatriz Beltrán Martínez
Primavera 2014
Primavera 2014
FCC - BUAP
• Lo que sea entre estructurado y no estructurado
• Variables pobremente tipadas (x=1 es válido y
x=”hola” también es válido)
• Un registro no necesariamente tiene que tener
todos sus atributos definidos. Mientras por
ejemplo en una base de datos relacional un
campo debe establecerse como NULL cuando no
se tiene, en un ambiente de datos
semiestructurados basta con omitir dicho
atributo.
MC Beatriz Beltrán Martíez
Definición
68
Primavera 2014
FCC - BUAP
• Un atributo de un registro puede ser otro
registro.
• No existe necesariamente una diferencia entre
un identificador de un campo y el valor mismo
de este.
• Ejemplos: documentos SGML y XML
MC Beatriz Beltrán Martíez
Definición
69
• Árboles:
Primavera 2014
Representación
FCC - BUAP
Empleados
Cumple
Mes
Juan
Sueldo
Año
5000
MC Beatriz Beltrán Martíez
Carlos
Cumple
Día
Mes
Año
70
Agosto
1980
24
Febrero
1979
Primavera 2014
Representación
• Texto indentado:
Cumpleaños
Agosto
1980
Sueldo
5000
Juan
MC Beatriz Beltrán Martíez
FCC - BUAP
Carlos
Cumpleaños
24
Febrero
1979
71
Primavera 2014
FCC - BUAP
• Lenguaje
de
marcado:
<compania>
<empleado id = 3>
<nombre> Carlos </nombre>
<cumpleanos>
<mes> Agosto </mes>
<anio> 1980 </anio>
</cumpleanos>
<sueldo> 5000 </sueldo>
</empleado>
<empleado id = 4>
<nombre> Juan </nombre>
<cumpleanos>
<dia> 24 </dia>
<mes> Febrero </mes>
<anio> 1979 </anio>
</cumpleanos>
</empleado>
</compania>
MC Beatriz Beltrán Martíez
Representación
72
Primavera 2014
FCC - BUAP
• La reciente proliferación de documentos XML
para almacenar y organizar información textual
ha originado una creciente demanda de
recuperación de información efectiva sobre este
tipo de documentos y que además utilice tanto
la estructura como la información contenida en
dicha estructura para devolver documentos o
partes de los mismos como respuesta a una
consulta.
MC Beatriz Beltrán Martíez
XML
73
Primavera 2014
FCC - BUAP
• En cuanto a los resultados, tradicionalmente las
búsquedas de texto devuelven una lista de
documentos con cierta información acerca de
ellos y ordenados según algún criterio de
relevancia.
• En el contexto de la recuperación de información
se pone el énfasis principalmente en las
búsquedas de texto, la manipulación de
conjuntos de resultados, las relaciones de
inclusión, las distancias y la ordenación por
relevancia de los documentos obtenidos.
MC Beatriz Beltrán Martínez
XML
74
Primavera 2014
FCC - BUAP
• La estructura de los documentos se utiliza para
facilitar una focalización de las respuestas del
sistema a unidades de documento más
adecuadas.
• Esta mayor adecuación está relacionada con la
noción de especificidad del componente de
documento en la consulta.
MC Beatriz Beltrán Martíez
XML
75
Primavera 2014
FCC - BUAP
• Además el problema de las estrategias de
indexación de información estructurada es
crítico para el diseño de tales estrategias de
recuperación.
• Sin embargo, si se basan en el uso explícito de la
estructura lógica o en la recuperación de
pasajes, los modelos de recuperación que
manejan documentos estructurados siguen
siendo experimentales y hay una falta de
experimentación extensiva en colecciones
grandes.
MC Beatriz Beltrán Martíez
XML
76
Primavera 2014
FCC - BUAP
• Hablar de recuperación en XML es para muchos
asociar un documento con sus respectivos
metadatos.
• De manera que únicamente se mantienen
algunos de los datos representativos del
documento (ejemplo: la ficha bibliográfica) en
alguno de los tipos de bases de datos
mencionados anteriormente y el documento es
almacenado en algún tipo de dispositivo de
almacenamiento.
MC Beatriz Beltrán Martíez
Procesamiento
77
Primavera 2014
Procesamiento
Base de
Datos
MC Beatriz Beltrán Martíez
metadatos
FCC - BUAP
consulta
Id Documento
Documento
Sistema de
Archivos
78
Primavera 2014
FCC - BUAP
• Para atender las necesidades de esta comunidad,
un lenguaje de consulta para XML debería
poseer las cualidades comunes de los lenguajes
de consulta de datos semiestructurados, tanto
las puramente relacionales, como aquellas
similares a las de los lenguajes de consulta de
bases de datos orientados a objeto, tales como
la navegación y el anidamiento.
• A continuación se explican con mayor detalle las
principales particularidades deseables para la
consulta de datos:
MC Beatriz Beltrán Martínez
Características
79
• Patrón: equipara elementos anidados en el
documento de entrada y les asocia variables.
• Filtro: testea que las variables asociadas cumplan
las condiciones establecidas.
• Constructor: especifica el resultado en términos
de las variables asociadas, es decir qué formato ha
de tener la respuesta.
Primavera 2014
FCC - BUAP
• Operación de selección: elige un documento o
elemento basándose en el contenido, estructura
o atributos que satisfagan una condición
específica. Estas consultas constan generalmente
de 3 partes o cláusulas:
MC Beatriz Beltrán Martínez
Características
80
Primavera 2014
FCC - BUAP
• Operación de filtrado: extrae determinados
elementos de los documentos conservando la
jerarquía y secuencia.
• Operación de reducción: proyecta como salida la
poda de los elementos especificados en la
selección que satisfacen las condiciones, en vez
de devolver un subárbol con todos los elementos
y atributos.
• Acción de reestructuración: como por ejemplo
la agrupación de datos relacionados y la
ordenación.
MC Beatriz Beltrán Martínez
Características
81
Primavera 2014
FCC - BUAP
• Operación de combinación de datos de
diferentes
porciones
de
documentos
(correspondiente al “join” relacional) o
combinación de diferentes partes del mismo
documento (“semi-join”).
• Uso de funciones de agregación.
• Utilización de la cuantificación existencial y
universal.
• Operaciones
de
inserción,
borrado
y
modificación.
MC Beatriz Beltrán Martínez
Características
82
Primavera 2014
FCC - BUAP
• Variables etiqueta o expresiones de camino para
permitir peticiones sin conocimiento preciso de
la estructura del documento y acceso a datos
anidados de forma arbitraria. El lenguaje de
consulta debe poder usarse aun cuando no se
conozca un esquema (dtd o xml schema) a priori.
• Operadores de navegación que simplifiquen el
manejo de datos con referencias [atributos id,
idref(s)].
• Manejo de tipos de datos, en particular los del
XML schema
MC Beatriz Beltrán Martínez
Características
83
Primavera 2014
FCC - BUAP
• La idea de recuperar partes de documentos no
es nueva.
• La recuperación de partes de documentos,
llamadas pasajes, es la propuesta más antigua y
estudiada.
• El principio, es bastante simple: dentro de los
documentos de texto, los pasajes son secuencias
textuales de palabras consecutivas que
presentan cierta homogeneidad en su temática y
que, por lo tanto, pueden ser relevantes para el
usuario.
MC Beatriz Beltrán Martínez
Recuperación de pasajes
84
Primavera 2014
FCC - BUAP
• Por “palabras consecutivas” entendemos una
secuencia de palabras según el “orden de
lectura” del documento.
• Debido a que a priori se ignora la estructura
lógica oculta de los documentos, el problema
principal
es
encontrar
una
“buena”
segmentación de los documentos.
• Un método clásico para localizar pasajes consiste
en analizar la distribución de las palabras dentro
de una ventana de tamaño fijo que se va
desplazando.
MC Beatriz Beltrán Martínez
Recuperación de pasajes
85
Primavera 2014
FCC - BUAP
• Los límites de los pasajes se encuentran cuando
se observa un cambio significativo en la
distribución del vocabulario local al compararlo
con distribución previa.
• También se han realizado propuestas basadas en
pasajes más cercanas a la noción de estructura
lógica, pero este tipo de propuestas no pueden
aprovechar al máximo de la estructura lógica de
los documentos.
MC Beatriz Beltrán Martínez
Recuperación de pasajes
86
Primavera 2014
FCC - BUAP
• Esta propuesta de Burkowski se basa en la
división de cada documento en regiones de texto
disjuntas pero que recubren todo el documento
(índices densos), produciendo una lista.
• El proceso se realiza para los distintos tipos de
regiones que aparecen en el documento,
produciéndose múltiples listas: lista de capítulos,
lista de párrafos, etc., de manera que no existe
solapamiento entre regiones de una misma lista
y si se puede producir entre regiones de listas
diferentes.
MC Beatriz Beltrán Martíez
Modelo de listas no solapadas
87
Sección
Subsección
Subsubsección
MC Beatriz Beltrán Martíez
FCC - BUAP
Capítulo
Primavera 2014
Modelo de listas no solapadas
88