L12_Redes_Bayesianas..
Download
Report
Transcript L12_Redes_Bayesianas..
Inteligencia
Artificial (30223)
Lección 12. Probabilidad y
Redes Bayesianas
Curso 2012-2013
Juan Domingo Tardós
Dpto. Informática e Ingeniería de Sistemas.
Índice
Probabilidad. Conceptos básicos
Regla de Bayes
Independencia .vs. Independencia Condicional
Redes Bayesianas
D-Separación
Basado en las transparencias de Sebastian Thrun y Peter Norwig,
CS221: Artificial Intelligence, Stanford University, 2011
2
El Problema de Monty Hall
Concurso de la tele (“Let’s make a deal”)
Hay tres puertas cerradas, tras una hay un coche y tras las otras,
sendas cabras
El concursante elige una puerta, por ejemplo la 1
El presentador (Monty Hall) abre una de las otras dos puertas
Él sabe dónde está el coche y nunca lo muestra
Da al concursante la opción de mantener su elección o cambiar
¿Cual es la decisión más racional?
¿Mantener la elección?
¿Cambiar de puerta?
¿Da igual?
Los creadores de “1,2,3 responda otra
vez” ¿sabían cálculo de probabilidades?
3
Objetivo de este Tema
Representación estructurada de la incertidumbre
batería
vieja
batería no
se recarga
batería
muerta
indicador
de la batería
luces
correa
alternador
rota
alternador
roto
batería
sin carga
sin
aceite
luz del
aceite
indicador de
la gasolina
sin
gasolina
el coche
no arranca
manguito
gasolina
obstruído
motor de
arranque
averiado
varilla del
aceite
4
Probabilidad
Representa la incertidumbre
Grado de creencia de un agente en una afirmación
Tiene fundamento matemático sólido
Aparece en todos los campos de la Inteligencia Artificial
Aprendizaje
Recuperación de información
Visión por Computador
Robótica
Ejemplo: vamos al dentista
?
dolor_de_muelas caries
? caries problema_encías flemón ....
dolor_de_muelas
? dolor_de_muelas
caries
P( dolor_de_muelas | caries ) = 0.8
5
Recordatorio
X: variable aleatoria
x: un valor específico
Distribución discreta
x
Probabilidad condicional:
P(x | y)
Tma Probabilidad Total:
P ( x)
P ( x, y )
P( y)
P ( x , y ) P ( x | y )P ( y )
y
Regla de Bayes:
P ( x) 1
P ( x) P ( X x) 0
P ( y | x)
y
P(x | y)P( y)
P ( x)
P(x | y)P( y)
P(x | y')P( y')
y'
X e Y son independientes si: x , y : P ( x , y ) P ( x ) P ( y )
X Y
P ( x | y) P ( x)
P ( y | x) P ( y)
6
Probabilidad
Probabilidad incondicional o a priori:
P ( Moneda cara ) P ( cara ) 0 . 5
P ( cruz ) 0 . 5
P ( caries ) 0 . 2
P ( caries ) 0 . 8
P (Tiempo sol ) 0 . 6
P (Tiempo lluvia ) 0 . 1
P ( x) 1
x
P (Tiempo nubes ) 0 . 29
P (Tiempo nieve ) 0 . 01
Probabilidad condicional o a posteriori (dada una cierta
evidencia):
P ( caries | d olor_de_mu elas ) 0 . 6
P ( caries | d olor_de_mu elas ) 0 . 4
P(x | y) 1
x
7
Probabilidad Conjunta
Eventos múltiples: cancer, resultado de un test
P ( Cancer, Test Positivo )
Tiene Cancer?
Test Positivo?
P(C,TP)
si
si
0.018
si
no
0.002
no
si
0.196
no
no
0.784
P ( x, y ) 1
x,y
Problema: para N variables binarias, hacen falta 2N-1
valores para especificar la distribución conjunta
8
Probabilidades Marginales
Pueden obtenerse a partir de la conjunta
Marginalizar:
P ( x)
P ( x, y )
y
Tiene Cancer?
Test Positivo?
P(C,TP)
si
si
0.018
si
no
0.002
no
si
0.196
no
no
0.784
C
P(C)
si
0.02
no
0.98
TP
P(TP)
si
0.214
no
0.786
9
Probabilidad Condicional
Características del test:
Probabilidad a priori:
P ( tp | c ) 0 . 9
P ( tp | c ) 0 . 1
P ( tp | c ) 0 . 2
P ( tp | c ) 0 . 8
P ( c ) 0 . 02
P ( c ) 0 . 98
Podemos calcular la distribución conjunta:
P ( x, y ) P ( x | y ) P ( y )
Tiene Cancer?
Test Positivo?
P(C,TP)
si
si
0.018
si
no
0.002
no
si
0.196
no
no
0.784
10
Probabilidad Condicional
Pregunta de diagnóstico: ¿Como de probable es que
tenga cancer si ha dado test positivo?
Tiene Cancer?
Test Positivo?
P(C,TP)
si
si
0.018
si
no
0.002
no
si
0.196
no
no
0.784
P ( c | tp )
P ( c, tp )
P ( tp )
0 . 018
0 . 018 0 . 196
0 . 084
Siendo un test relativamente bueno, porque sale tan baja?
Porque la probabilidad a priori era muy baja:
P ( c ) 0 . 02
11
Regla de Bayes
P ( y | x)
P(x | y)P( y)
P ( x)
P(x | y)P( y)
P(x | y')P( y')
y'
Ejemplo:
TP
P ( c | tp )
P ( c ) 0 . 02
P ( c ) 0 . 98
P ( tp | c ) 0 . 9
P ( tp | c ) 0 . 1
P ( tp | c ) 0 . 2
P ( tp | c ) 0 . 8
C
P ( tp | c ) P ( c )
P ( tp )
P ( tp | c ) P ( c )
P ( tp | c ' ) P ( c ' )
P ( tp | c ) P ( c )
P ( tp | c ) P ( c ) P ( tp | c ) P ( c )
c'
P ( c | tp )
0 . 9 0 . 02
0 . 9 0 . 02 0 . 2 0 . 98
P ( tp | c ) P ( c )
P ( tp )
0 . 018
0 . 018 0 . 196
P ( tp | c ) P ( c )
P ( tp | c ) P ( c ) P ( tp | c ) P ( c )
0 . 084
0 . 916
P(x | y) 1
x
12
Red Bayesiana (Bayes Network)
Nuestra primera red Bayesiana:
Cance
r
P(Cancer) y P(Test positivo | Cancer)
constituyen el “modelo”
A calcular P(Test positivo) se le llama
“predicción”
Test
positivo
A calcular P(Cancer | Test positivo) se
le llama “razonamiendo diagnóstico”
La flecha indica que existe dependencia entre la v.a. Test_positivo y
la v.a. Cancer
13
Red Bayesiana
Que significan estas dos redes Bayesianas?:
Cance
r
Cance
r
versus
Test
positivo
P ( C,TP ) P (TP|C ) P ( C )
El resultado del test depende
del valor de la v.a. cancer
Test
positivo
P ( C,TP ) P (TP ) P ( C )
P ( C|TP ) P ( C )
Son v.a. Independientes:
el test no aporta ninguna
información sobre el cancer !!
14
Bayes con Normalización Retrasada
P ( y | x)
P(x | y)P( y)
P ( x)
P ( y | x )
P ( x | y ) P ( y )
P ( x)
P(x | y)P( y)
P ( x | y ) P ( y ) P ( x | y ) P ( y )
P ( x | y ) P ( y )
P ( x | y ) P ( y ) P ( x | y ) P ( y )
P(x | y)P( y)
P ( x | y ) P ( y )
Podemos hacer el cálculo sin normalizar:
P '( y | x) P ( x | y)P ( y)
NO son probabilidades
P ' ( y | x ) P ( x | y ) P ( y )
P '( y | x) 1
y
Y después normalizar:
P ' ( y | x ) P ' ( y | x )
P ( y | x) P '( x | y)
1
P ( y | x) 1
y
P ( y | x ) P ' ( x | y )
15
Ejemplo: Cancer con dos tests
C
T1
T2
P ( c ) 0 . 02
P ( c ) 0 . 98
P ( | c ) 0 .9
P ( | c ) 0 .1
P ( | c ) 0 .2
P ( | c ) 0 .8
Cálculo normalizando al final:
P(C)
P(T1+|C)
P’(C|+)
P(T2+|C) P’(C|++)
P(C|++)
c
0.02
0.9
0.018
0.9
0.0162
0.2924
-c
0.98
0.2
0.196
0.2
0.0392
0.7076
0.0554
1.0000
16
Independencia
Dos variables aleatorias X e Y son independientes si:
x, y : P ( x, y ) P ( x) P ( y )
P ( x | y) P ( x)
P ( y | x) P ( y)
Son condiciones
equivalentes
Su distrubución conjunta se puede factorizar como el producto de
dos distribuciones más simples
X no da información sobre Y, ni Y sobre X
Se denota mediante :
X Y
La independencia suele ser una suposición simplificadora del
modelado
Las distribuciones conjuntas empíricas en el mejor de los casos son
“cercanas” a ser independientes
17
Ejemplo: Independencia
N lanzamientos independientes de monedas:
c
0.5
c
0.5
c
0.5
x
0.5
x
0.5
x
0.5
18
Ejemplo: ¿Independencia?
Marginalizar
P ( x)
P(T,W)
W
warm
sun
warm
T
P
P ( x, y )
y
T
P(T)
warm
0.5
cold
0.5
P
Si fueran independientes:
P(T,W) = P(T) P(W)
T
W
0.4
warm
sun
0.3
rain
0.1
warm
rain
0.2
cold
sun
0.2
cold
sun
0.3
cold
rain
0.3
cold
rain
0.2
P(W)
W
P( y)
P ( x, y )
P
P
sun
0.6
rain
0.4
x
19
Independencia Condicional
P(Dolor, Caries, Infección)
Si tengo caries, la sonda del dentista puede infectarme la muela
Si tengo caries, es probable que tenga dolor de muelas
Luego dolor e infección no son independientes, si tengo dolor
de muelas, es más probable que se infecte
P(Infección | Dolor) ≠ P(Infección)
Pero: si tengo una caries, la probabilidad de que la sonda
infecte no depende de si tengo o no dolor de muelas:
P(Infección | Dolor, Caries) = P(Infección | Caries)
Infección y Dolor son Condicionalmente Independientes dado
Caries
20
Independencia Condicional
Condiciones equivalentes:
x, y, z : P ( x, y | z ) P ( x | z ) P ( y | z )
P ( x | y, z) P ( x | z)
P ( y | x, z ) P ( y | z )
Lo denotamos mediante:
Conocido Z, Y no da información
adicional sobre X, ni X sobre Y
X Y |Z
Atención:
X Y |Z X Y
ej: Dolor e Infeción son C.I. pero
no son Independientes
X Y |Z X Y
Luego veremos un ejemplo
21
Representación con Red Bayesiana
P(Dolor, Caries, Infección) requeriría 23-1 = 7 parámetros
Caries
P(Caries)
p(+c)
1 parámetro
P(Infección | Caries)
P(+i|+c)
2 parámetros
P(+i|-c)
Infección
P(Dolor | Caries)
P(+d|+c)
2 parámetros
P(+d|-c)
Dolor
Basta con 5 parámetros
I D |C
I D
P ( D , I , C ) P ( D | I , C ) P ( I | C ) P (C )
P ( D | C ) P ( I | C ) P (C )
22
Notación del Grafo
Nodos: variables (con sus
dominios)
Tiempo
Pueden ser observadas o no
Arcos: interacciones
Indican “influencia directa”
entre variables
Formalmente: codifican la
independencia condicional
Podemos pensar que
representan relación causal
(aunque no es necesario)
Caries
Infecció
n
Dolor
T C ; T I ; T D ; I D |C
P (T , C , I , D ) P (T ) P ( C ) P ( I | C ) P ( D | C )
23
Ejemplos
N lanzamientos de moneda independientes
X1
X2
Xn
No hay interacción entre las variables: independencia absoluta
La lluvia y el tráfico
Modelo 1: independencia
Modelo 2: la lluvia causa tráfico
LL
T
LL
T
Un agente que use el modelo 2 se comportará mejor
24
Ejemplo: Sol o Ascenso?
S: Sol, A: Ascenso, C: Contento
P ( s ) 0 .7
P ( a ) 0 . 01
S A P ( a | s ) P ( a | s ) P ( a ) 0 . 01
S
A
C
P (c | s, a ) 1
P ( c | s , a ) 0 .9
P ( c | s , a ) 0 .7
P ( c | s , a ) 0 .1
Razonamiento predictivo:
P ( c | a ) P ( c | a , s ) P ( s ) P ( c | a , s ) P ( s ) 0 . 97
P (c ) P (c | s , a ) P ( s , a ) P (c | s , a ) P ( s , a ) P (c | s , a ) P ( s , a ) P (c | s , a ) P ( s , a )
P (c | s , a ) P ( s ) P ( a ) P (c | s , a ) P ( s ) P ( a ) P (c | s , a ) P ( s ) P ( a ) P (c | s , a ) P ( s ) P ( a )
0 . 5254
25
Independencia pero no Ind.Condic.
S: Sol, A: Ascenso, C: Contento
P ( s ) 0 .7
S A
P ( a ) 0 . 01
S
P (c | s, a ) 1
A
P ( c | s , a ) 0 .9
P ( c | s , a ) 0 .7
C
Razonamiento diagnóstico:
P (a | c)
P (c | a ) P (a )
P ( c | s , a ) 0 .1
0 . 0185
P (c )
P (a | c, s)
P (c | a , s ) P (a | s )
P (c | s )
P ( a | c , s )
P (c | a , s ) P (a )
P (c | a , s ) P (a ) P (c | a , s ) P ( a )
P (c | a , s ) P ( a | s )
P (c | s )
1 0 . 01
1 0 . 01 0 . 7 0 . 99
P (c | a , s ) P ( a )
P (c | a , s ) P ( a ) P (c | a , s ) P ( a )
0 . 0142
0 . 9 0 . 01
0 . 9 0 . 01 0 . 1 0 . 99
P (a | c)
0 . 0185
P (a | c, s)
0 . 0142
Si viene contento y no sabemos qué tiempo hace
Si hace sol, eso puede explicar la alegría
P ( a | c , s )
0 . 0833
Si no hace sol, es más probable que sea por el ascenso
0 . 0833
P( A | C, S ) P( A | C ) S A | C
26
Semántica de las Redes Bayesianas
Un conjunto de nodos, uno por cada
variable X
Un grafo dirigido acíclico (DAG)
A1
An
Una distribución condicional por cada nodo
Una colección de distribuciones sobre X, una por
cada combinación de los valores de los nodos padre
X
CPT: tabla de probabilidades condicionales
Representación de un proceso “causal” con ruido
Red Bayesiana = Topología (grafo) + Prob. Condicionales Locales
27
Probabilidades en Redes Bayesianas
Una red Bayesiana representa implícitamente las distribuciones
conjuntas
Como un producto de distribuciones condicionales locales
As a product of local conditional distributions
Para calcular la probabilidad de una asignación concreta, se multiplican
todas la condiciones relevantes:
n
P ( x1 , x 2 , x n )
P(x
i
| padres ( X i )
Caries
i 1
Ejemplo:
P ( c , i, d ) P ( c ) P ( i | c ) P ( d | c )
Infecció
n
Dolor
Permite reconstruir cualquier entrada de la tabla de
probabilidades conjunta
No todas las RB pueden representar todas las distribuciones
conjuntas
La topología define qué condiciones de independencia se cumplen
28
Ejemplo: Lanzamiento de monedas
X1
X2
Xn
h
0.5
h
0.5
h
0.5
t
0.5
t
0.5
t
0.5
Solo las distribuciones cuyas variables son absolutamente independientes
pueden modelarse mediante una red Bayesiana sin arcos.
29
Ejemplo: Tráfico
P(LL)
LL
+ll
1/4
ll
3/4
P(T | LL)
+ll
T
ll
+t
3/4
t
1/4
+t
1/2
t
1/2
LL
T
P(LL,T)
+ll
+t
3/16
+ll
-t
1/16
-ll
+t
3/8
-ll
-t
3/8
30
Ejemplo: Alarma Antirrobo
Variables
L: Ha entrado un Ladrón
A: La Alarma se dispara
M: María llama a avisar
J: Juan llama a avisar
Terremoto
Ladrón
T: Terremoto!
Alarma
Juan
llam
a
María
llama
31
Ejemplo: Alarma Antirrobo
1
Terremot
o
Ladrón
Alarma
Juan
llama
2
¿Número de parámetros?
1
4
María
llama
2
10
En lugar de 25-1 = 31
32
Ejemplo: Alarma Antirrobo
L
P(L)
+l
0.001
l
0.999
Terremot
o
Ladrón
T
P(T)
+t
0.002
t
0.998
L
T
A
P(A|L,T)
+b
+e
+a
0.95
+b
+e
a
0.05
+b
e
+a
0.94
Alarma
Juan
llama
María
llama
A
J
P(J|A)
A
M
P(M|A)
+b
e
a
0.06
+a
+j
0.9
+a
+m
0.7
b
+e
+a
0.29
+a
j
0.1
+a
m
0.3
b
+e
a
0.71
a
+j
0.05
a
+m
0.01
b
e
+a
0.001
a
j
0.95
a
m
0.99
b
e
a
0.999
33
Ejemplo: Alarma Antirrobo
P(L)
Terremoto
Ladrón
Alarma
P ( J | A)
Juan
llam
a
P (T )
P ( A | L,T )
María
llama
P (M | A)
n
P ( L , T , A, J , M )
P(X
i
| padres ( X i ) )
i 1
P ( L ) P (T ) P ( A | L , T ) P ( J | A ) P ( M | A )
34
Red Bayesiana
Un RB es una codificación
eficiente de un modelo
probabilístico de un dominio
Preguntas que podemos hacer:
Inferencia: dada una RB, ¿cual es P(X | e)?
Representación: dado el grafo de una RB, ¿qué tipos de distribuciones
puede codificar?
Modelado: ¿qué RB es más apropiada para representar un cierto dominio?
BN is most appropriate for a given domain?
35
Red Bayesiana del seguro del coche
36
Ejemplo: El coche que no arranca
batería
vieja
batería no
se recarga
batería
muerta
indicador
de la batería
luces
correa
alternador
rota
alternador
roto
batería
sin carga
sin
aceite
luz del
aceite
indicador de
la gasolina
manguito
gasolina
obstruído
sin
gasolina
el coche
no arranca
motor de
arranque
averiado
varilla del
aceite
Representación ingénua: 216-1 = 65535 parámetros
Representación estructurada con RB: 47 parámetros
Ejercicio: Calcúlalo
37
D-separación
Objetivo: Encontrar (In)Dependencias Condicionales en
una red Bayesiana
Pregunta general: ¿son dos variables independientes dada una
cierta evidencia?
Solución: analizar el grafo
Concepto de “d-separación”
Cualquier ejemplo complejo se puede analizar usando
tres casos básicos:
Cadena causal
Causa común
Efecto común
38
Cadena Causal
Esta configuración es una “cadena causal”
X
Y
Z
X: Bajas Presiones
Y: Lluvia
Z: Tráfico
¿Es X independiente de Z dado Y?
¡si!
La evidencia en una cadena “bloquea” la influencia
39
Causa Común
Dos efectos de la misma causa
Y
¿Son X y Z independientes?
¡no!
X
¿Son X y Z independientes dado Y?
Z
Y: Alarma
X: Juan llama
¡si!
Z: María Llama
Observar la causa bloquea la influencia entre los
efectos
40
Efecto Común
Dos causas de un mismo efecto
(estructura en v)
¿Son X y Z independentes?
¡si!
el partido de futbol y la lluvia causan tráfico,
pero futbol y lluvia no están relacionados
¿Son X y Z independientes dado Y?
¡no!
si hay tráfico, la lluvia y el fútbol entran en
competencia como explicación
X
Z
Y
X: Lluvia
Z: Fútbol
Y: Tráfico
Al revés que en los casos anteriores:
Observar un efecto activa la influencia entre
las posibles causas
41
Alcanzabilidad (D-Separación)
Pregunta: ¿cuándo son X e Y
condicionalmente
independentes dadas las
variables de evidencia {Z}?
Sombreamos las
variables de evidencia
Tripletes Activos
Tripletes Inactivos
Cuando X e Y están d-separados por Z
Cuando no hay ningún camino activo
de X a Y
Un camino es activo si todos sus
tripletes son activos:
Cadena causal A B C donde B no
es observada (en ambas direcciones)
Causa común A B C donde B no es
observada
Efecto común (estructura en v)
A B C donde B o uno de sus
descendientes es observado
Un solo triplete inactivo bloquea
un camino
42
Ejemplos
¿Cuales de estas propiedades se cumplen?
si
R
B
no
no
T
T’
43
Ejemplo
¿Cuales de estas propiedades se cumplen?
L
si
R
si
B
no
no
D
T
si
T’
44
Ejemplo
Variables:
R: Raining
T: Traffic
D: Roof drips
R
S: I’m sad
¿Cuales se cumplen?
T
D
no
si
S
no
45
¿Causalidad?
Cuando una Red Bayesiana refleja la causalidad real del
dominio:
Suele ser más simple (los nodos tienen menos padres)
Suele ser más fácil razonar con ella
Suele ser más fácil de obtener a partir de expertos
Pero las Redes Bayesianas no necesitan ser causales
A veces no existe una red causal para el dominio
La red acaba teniendo flechas que reflejan correlación, no
relación causal
Entonces, ¿qué significan exactamente las flechas?
La topología puede que represente la estructura causal
La topología siempre representa la independencia
condicional
46
Resumen
Red Bayesiana:
Captura las dependencias dispersas entre variables
No todas dependen de todas, sólo suele haber unas pocas
relaciones
Representación eficiente de distribuciones conjuntas
Reduce el número de parámetros de exponencial a lineal (en
muchos casos)
Próximo tema: Inferencia en redes Bayesianas
47
Inteligencia
Artificial
(30223) Grado en Ingeniería Informática
Lección 12. Probabilidad y Redes Bayesianas
AIMA-3ed 13.1 a 13.5 (AIMA-2ed 13.1 a 13.6)
Tema 3 de www.ai-class.com