Managing Documents with Bayesian Belief Networks: A Brief

Download Report

Transcript Managing Documents with Bayesian Belief Networks: A Brief

Recuperación de
información estructurada y
redes bayesianas
Juan Manuel Fernández Luna
Miércoles, 15 de enero de 2003
E.T.S.I. Informática, Granada
En este seminario...
1. Introducción a la recuperación de
2.
3.
4.
5.
información estructurada.
XML
MPEG-7
Modelos basados en redes bayesianas.
Un sistema integrado para la gestión de
vídeos MPEG-7.
17/07/2015
R.I. estructurada y redes bayesianas
2
Introducción a la R.I. estructurada
Objetivo:
Desarrollar técnicas que permitan al usuario recuperar
partes de documentos, en lugar del documento completo,
evitando así perder tiempo buscando la información
relevante dentro del mismo.
¿Cómo?
Sacando partido de la estructura lógica del mismo.
17/07/2015
R.I. estructurada y redes bayesianas
3
Introducción a la R.I. estructurada
D1
C1
S1
S2
C2
S3
S4
SSi
Pj
17/07/2015
Pj+1
SSi+1
Pj+2
C3
S5
SSi+2
S6
S7
SSi+3
Pj+3
R.I. estructurada y redes bayesianas
4
Introducción a la R.I. estructurada
El sistema de recuperación de información
estructurado puede ofrecer diferentes
niveles de granularidad:
D1
C1
S1
S2
C2
S3
S4
S5
C3
S6
S7
SSi SSi+1 SSi+2 SSi+3
Pj Pj+1 Pj+2 Pj+3
17/07/2015
R.I. estructurada y redes bayesianas
5
Introducción a la R.I. estructurada
Cálculo de la relevancia de cada unidad
 Unidad de indexación:
Calcular su relevancia
 Unidad estructural:
Combinar la relevancia de
cada uno de sus componentes
(se puede integrar cualquier
otro tipo de información)
17/07/2015
R.I. estructurada y redes bayesianas
6
Introducción a la R.I. estructurada
Tipos de salidas del S.R.I.:
1.
Dado un nivel de granularidad, la ordenación de
todos los elementos que lo componen.
2.
Una ordenación de todos los elementos.
3.
Best Entry Points: los mejores “contenedores”
de la información requerida.
17/07/2015
R.I. estructurada y redes bayesianas
7
Introducción a la R.I. estructurada
Primeras aproximaciones:
Explotación de la estructura básica
Se utilizaban campos como:
•título,
•autores,
•resumen,
•texto completo,
•etc.
17/07/2015
R.I. estructurada y redes bayesianas
8
Introducción a la R.I. estructurada
Primeras aproximaciones:
Recuperación de pasajes
Secuencias consecutivas de texto que
presentan un contenido homogéneo.
Una vez identificados, pasan a ser
documentos separados e indexados y
recuperados basadas en técnicas clásicas
Problema: identificación.
17/07/2015
R.I. estructurada y redes bayesianas
9
Introducción a la R.I. estructurada
Pero... la investigación en R.I. Estructurada se facilita
claramente con la llegada de los lenguajes de marcas:
SGML
(Standard Generalized Markup Language)
XML
(eXtensible Markup Language)
17/07/2015
R.I. estructurada y redes bayesianas
10
Introducción a la R.I. estrucutrada
SGML
Estándar internacional para definir descripciones de
estructuras de diferentes tipos de documentos electrónicos.
Amplio, poderoso y complejo.
17/07/2015
R.I. estructurada y redes bayesianas
11
Introducción a la R.I. estrucutrada
XML
Subconjunto para facilitar el uso de SGML en la web: la
creación de tipos de documentos y su gestión, así como la
transmisión e intercambio de los mismos en la Red.
Es un “dialecto” muy simple de SGML: mantiene la
suficiente funcionalidad para hacerlo útil, eliminando las
características que hacen a SGML complejo para trabajar en
Internet.
17/07/2015
R.I. estructurada y redes bayesianas
12
XML
•Metalenguaje para definir lenguajes.
•Compatible con SGML.
•Sólo permite expresar contenidos y no aspecto.
•Documentos = Jerarquía de elementos.
•Documentos bien formados.
•Documentos válidos.
•Document Type Definition: definición de los elementos que puede
haber en un documento (Alternativa: Schema).
•Elemento: nombre, identificador, atributos, etiquetas.
17/07/2015
R.I. estructurada y redes bayesianas
13
XML
Prólogo
Declaración
de tipo de
documento
Elemento
17/07/2015
<?xml version=“1.0”?>
DTD
<!DOCTYPE MENSAJE SYSTEM “mensaje.dtd”>
<mensaje>
Elemento raíz
<tipo clase=“urgente”/>
<remitente>
<nombre> Juanma</nombre>
Atributos
<email> [email protected] </email>
</remitente>
<destinatario>
Etiquetas
<nombre>Grupo</nombre>
<email>[email protected]>
Datos
</destinatario>
<asunto> Seminario el próximo día 15 de enero </asunto>
<texto>
<parrafo> Hola a todos. Os recuerdo que...</parrafo>
</texto>
</mensaje>
R.I. estructurada y redes bayesianas
14
Estándar MPEG-7
Multimedia:
Texto, imágenes fijas y en movimiento (vídeo), audio y voz (speech).
Documento multimedia:
Compuesto por un número de estos tipos de medios formando una
estructura lógica.
Metadatos:
Información sobre cómo procesar información digital, facilitando dicho
procesamiento.
MPEG = Moving Experts Group
Organismo responsable de desarrollar estándares para la codificación de
información audio-visual.
17/07/2015
R.I. estructurada y redes bayesianas
15
Estándar MPEG-7
Multimedia Content Descripcion Interface
Estándar para describir contenido multimedia utilizando metadatos.
Intenta ofrecer una manera uniforme de encapsular datos sobre contenidos
multimedia de tal forma que la información se pueda utilizar de manera
eficiente y compartir a través de aplicaciones.
Incluye mecanismos para describir:
• el contenido de un fichero multimedia, por ejemplo, conceptos,
objetos en movimiento, etc.
• aspectos de la gestión del contenido, p.e., estructura, formato y
tamaño del fichero, número de marcos por escena,etc.
17/07/2015
R.I. estructurada y redes bayesianas
16
Estándar MPEG-7
Herramientas
Descriptores (D = Descriptors):
Elementos, representaciones de características de los datos.
Ejemplos:
 Tiempo para representar una duración.
 Histograma para representar un color.
 Cadena de caracteres para representar un título.
17/07/2015
R.I. estructurada y redes bayesianas
17
Estándar MPEG-7
Esquemas (S = Schemes):
Estructuras y semántica de las relaciones entre los
elementos.
Ejemplo:
una película dividida en escenas y shots, incluyendo
descripciones textuales en el nivel de escena y descriptores
de color, movimiento y amplitud del audio en el nivel de
shot.
17/07/2015
R.I. estructurada y redes bayesianas
18
Estándar MPEG-7
Lenguaje de Definición de Descripciones (DDL):
Lenguaje para extender y modificar el conjunto
predeterminado de herramientas.
Es una variedad de XML Schema.
Los ficheros de “descripciones” están escritos en XML
17/07/2015
R.I. estructurada y redes bayesianas
19
Estándar MPEG-7
<?xml version="1.0" encoding="UTF-8"?>
<VideoSegment id="shot1_2">
<Mpeg7>
<MediaTime>
<Description xsi:type="ContentEntityType">
<MediaTimePoint>T00:00:03:22112F30000</MediaTimePoint>
<MultimediaContent xsi:type="VideoType">
<MediaDuration>PT9S18288N30000F</MediaDuration>
<Video id="1">
</MediaTime>
<MediaTime>
<TextAnnotation confidence="0.500000">
<MediaTimePoint>T00:00:00:0F30000</MediaTimePoint>
<FreeTextAnnotation>
<MediaDuration>PT16M33S11772N30000F</MediaDuration>
Llega la funeraria y se forra
</MediaTime>
</FreeTextAnnotation>
<TemporalDecomposition gap="false" overlap="false">
</TextAnnotation>
<VideoSegment id="shot1_1">
</VideoSegment>
<MediaTime>
</TemporalDecomposition>
<MediaTimePoint>T00:00:00:0F30000</MediaTimePoint>
</Video>
<MediaDuration>PT3S22112N30000F</MediaDuration>
</MultimediaContent>
</MediaTime>
</Description>
<TextAnnotation confidence="0.500000">
</Mpeg7>
<FreeTextAnnotation> Tiroteo en una calle de Chicago. Tres
personas situadas detrás de dos coches disparan a otra
resguardada en una ventana </FreeTextAnnotation>
</TextAnnotation>
</VideoSegment>
17/07/2015
R.I. estructurada y redes bayesianas
20
Estándar MPEG-7
Estructura de un vídeo MPEG-7 interesante desde el punto
de vista de RI textual:
Vídeo
Scene 1
Shot 1
Shot 2
Scene 2
Shot 3
Shot 4
Scene 3
Shot 5
Shot 6
Frame
17/07/2015
R.I. estructurada y redes bayesianas
21
Sistema de Recuperación de Información
para Documentos Estructurados
basado en Redes Bayesianas
Red simple
Subred de términos
T1
T2
D1
T3
D2
T4
T5
D3
T6
D4
Subred de documentos
17/07/2015
R.I. estructurada y redes bayesianas
22
RB
SRide
T1
P1
- Topología
T2
P2
S1
P3
S2
C1
P4
S3
C2
D1
17/07/2015
T3
T4
P5
P6
S4
T5
P7
S5
C3
P8
T6
T7
T8
P9 P10 P11 P12
S6
C4
D2
R.I. estructurada y redes bayesianas
S7
S8
C5
S9
C6
D3
23
RB
SRide T1
P1
T2
P2
S1
P3
S2
C1
17/07/2015
T3
P4
S3
C2
D1
Topología
T4
P5
P6
S4
T5
P7
S5
C3
P8
T6
T7
T8
P9 P10 P11 P12
S6
C4
D2
R.I. estructurada y redes bayesianas
S7
S8
C5
S9
C6
D3
24
RB
SRide
– Estimación Dist. Prob.
Estimación de distribuciones de probabilidad:
•Prob. a priori en los nodos término: p(ti)=1/M.
•Distribuciones de prob. en el resto de nodos: P(U | pa(U)).
Problema: Gran número de padres.
Solución: Funciones de probabilidad.
17/07/2015
R.I. estructurada y redes bayesianas
25
RB
SRide
– Propagación
1. Instanciación de los términos de la consulta.
2. Ejecución de un algoritmo de propagación: p(u | Q),U.
3. Generar una ordenación.
Problema:
•
Número muy alto de nodos en el grafo.
•
Topología compleja.
Solución:
Evaluación de funciones de probabilidad en cada capa.
17/07/2015
R.I. estructurada y redes bayesianas
26
RB
SRide
– Propagación
En las unidades de indexación:
p( p j | Q) 
w
Ti Pj Q
ij
w

Ti Pj / Q
ij
p (ti | Q)
En las unidades estructurales:
p (u j | Q ) 
v
U i U j
ij
p (ui | Q )
Cumpliendo los pesos vij y wij: vij  1 y  vij  1
i
Propagación exacta
17/07/2015
R.I. estructurada y redes bayesianas
27
RB
SRide
– Toma de decisiones
Una vez que cada unidad tiene asignado una probabilidad de
relevancia dada la consulta:
¿Qué elementos se ofrecen al usuario?
Los que ofrezcan un contexto suficientemente amplio y
preciso como solución a la consulta.
¿Cómo?
Transformando la red bayesiana en un diagrama de
influencia.
17/07/2015
R.I. estructurada y redes bayesianas
28
RB
SRide
– Toma de decisiones
S4
S5
S6
D2
D1
U3
U4
U5
C3
D3
D4
C4
D5
U5
17/07/2015
D2
R.I. estructurada y redes bayesianas
U6
29
RB
SRide
– Trabajo en curso
Actualmente:
•Desarrollando el modelo de red bayesiana mediante
Lemur.
•Diseñando el modelo de toma de decisiones.
Experimentación:
•Colección Shakespeare.
•Colección MPEG-7.
•Colección INEX.
17/07/2015
R.I. estructurada y redes bayesianas
30
RB
SRide
– Mejoras
•Relaciones entre términos.
•Ampliar los elementos de indexación a los elementos
estructurales.
•Introducir otros elementos.
•Consultas estructuradas.
• ...
17/07/2015
R.I. estructurada y redes bayesianas
31
Otros modelos basados en R.B.
Modelo de Lalmas y Graves para recuperación de vídeos
MPEG-7:
V
S1
Sh1
S2
Sh2
Sh3
S3
Sh4
Sh5
Sh6
MediaInformationDS
CreationInformationDS
MediaProfileDS
MediaFormatDS
MediaQualityDS
C1 C2 C3 C4 C5 C7 C8 C9 C10 C11 C12
17/07/2015
R.I. estructurada y redes bayesianas
32
Otros modelos basados en R.B.
Modelo de Lalmas y Graves:
V
S1
Sh1
S2
Sh2
Sh3
S3
Sh4
Sh5
Sh6
MediaInformationDS
CreationInformationDS
MediaProfileDS
MediaQualityDS
MediaFormatDS
bbc
C2 C3 C4 C5 C7 C8 C9 C10 C11
foca
Creation
bbc
foca
and
17/07/2015
R.I. estructurada y redes bayesianas
33
Otros modelos basados en R.B.
Modelo de Sung Hyon Myaeng, Dong-Hyun Jang, MunSeok Kim y Zong-Cheol Zhoo [En adelante los coreanos. ;-) ]
SGML
“Retrieval elements”
D1
C1
T1
C2
S3
S2
T5
S4
S6
“Path elements”
S7 “Leaf elements”
and
q
17/07/2015
R.I. estructurada y redes bayesianas
34
Otros modelos basados en R.B.
Modelo de los coreanos:
•
Recuperación:
1.
Identificar todos los elementos de recuperación, elementos
estructurales y sus elementos hojas con términos en común con la
consulta.
2.
Calcular la creencia con que cada elemento de recuperación apoya el
nodo hoja vía sus elementos estructurales.
3.
Calcular la creencia con que un término de la consulta es apoyado por
un conjunto de nodos hoja conectados a él.
4.
Calcular la creencia con que la consulta es apoyada por cada elemento
de recuperación combinando la evidencia de cada uno de los términos
de la consulta basándose en su operador.
17/07/2015
R.I. estructurada y redes bayesianas
35
Otros modelos basados en R.B.
Modelo de Piwowarski y col.
Journal Col.1
Journal Col. 2
Book 1
Journal Col. 3
Book 2
Journal 1
Journal 2
Article 1
Article 2
Title
fm
17/07/2015
Corpus
body
bm
R.I. estructurada y redes bayesianas
36
Otros modelos basados en R.B.
Modelo de Piwowarski y col.
•Las variables aleatorias toman estos posibles valores:
I.
Relevante (R), no relevante (I).
II.
Relevante (R), demasiado genérico (G), no relevante (I).
III.
Relevante (R), demasiado genérico (G), demasiado específico (S), no
relevante (I).
•Distribuciones de probabilidad: P(e  a | p  b, q) 
1
F
1  e e ,a ,b ( q )
donde, Fe, a, b(q) se obtiene calculando la relevancia del
elemento e más dos medidas adicionales.
17/07/2015
R.I. estructurada y redes bayesianas
37
Otros modelos basados en R.B.
Modelo de Piwowarski y col.
• Recuperación mediante contenido:
P(ei  R | q) 
N
  p (e
ek , k i j 1
j
| padres(e j ), q)
• Recuperación mediante contenido y estructura:
Se crea una subred por cada una de las unidades de la
consulta.
17/07/2015
R.I. estructurada y redes bayesianas
38
Sistema integrado MPEG-7
•Adquisición de vídeo desde la televisión.
•Anotaciones automáticas a partir de subtítulos.
•Herramienta de anotación basada en ontologías.
•Consulta y obtención de las mejores elementos
estructurales y de indexación (ontología + colección).
•Generación automática de vídeo con los resultados.
17/07/2015
R.I. estructurada y redes bayesianas
39
Fin...
Muchas gracias