L12_Redes_Bayesianas..

Download Report

Transcript L12_Redes_Bayesianas..

Inteligencia
Artificial (30223)
Lección 12. Probabilidad y
Redes Bayesianas
Curso 2012-2013
Juan Domingo Tardós
Dpto. Informática e Ingeniería de Sistemas.
Índice
 Probabilidad. Conceptos básicos
 Regla de Bayes
 Independencia .vs. Independencia Condicional
 Redes Bayesianas
 D-Separación
 Basado en las transparencias de Sebastian Thrun y Peter Norwig,
CS221: Artificial Intelligence, Stanford University, 2011
2
El Problema de Monty Hall
 Concurso de la tele (“Let’s make a deal”)
 Hay tres puertas cerradas, tras una hay un coche y tras las otras,
sendas cabras
 El concursante elige una puerta, por ejemplo la 1
 El presentador (Monty Hall) abre una de las otras dos puertas
 Él sabe dónde está el coche y nunca lo muestra
 Da al concursante la opción de mantener su elección o cambiar
 ¿Cual es la decisión más racional?
 ¿Mantener la elección?
 ¿Cambiar de puerta?
 ¿Da igual?
Los creadores de “1,2,3 responda otra
vez” ¿sabían cálculo de probabilidades?
3
Objetivo de este Tema
 Representación estructurada de la incertidumbre
batería
vieja
batería no
se recarga
batería
muerta
indicador
de la batería
luces
correa
alternador
rota
alternador
roto
batería
sin carga
sin
aceite
luz del
aceite
indicador de
la gasolina
sin
gasolina
el coche
no arranca
manguito
gasolina
obstruído
motor de
arranque
averiado
varilla del
aceite
4
Probabilidad
 Representa la incertidumbre
 Grado de creencia de un agente en una afirmación
 Tiene fundamento matemático sólido
 Aparece en todos los campos de la Inteligencia Artificial
 Aprendizaje
 Recuperación de información
 Visión por Computador
 Robótica
 Ejemplo: vamos al dentista
?
dolor_de_muelas  caries
? caries  problema_encías  flemón  ....
dolor_de_muelas 
? dolor_de_muelas
caries 
P( dolor_de_muelas | caries ) = 0.8
5
Recordatorio
 X: variable aleatoria
 x: un valor específico
Distribución discreta
x
 Probabilidad condicional:
P(x | y) 
 Tma Probabilidad Total:
P ( x) 
P ( x, y )
P( y)
 P ( x , y )   P ( x | y )P ( y )
y
 Regla de Bayes:
 P ( x)  1
P ( x)  P ( X  x)  0
P ( y | x) 
y
P(x | y)P( y)
P ( x)

P(x | y)P( y)
 P(x | y')P( y')
y'
 X e Y son independientes si:  x , y : P ( x , y )  P ( x ) P ( y )
X Y
P ( x | y)  P ( x)
P ( y | x)  P ( y)
6
Probabilidad
 Probabilidad incondicional o a priori:
P ( Moneda  cara )  P ( cara )  0 . 5
 P ( cruz )  0 . 5
P ( caries )  0 . 2
 P (  caries )  0 . 8
P (Tiempo  sol )  0 . 6
P (Tiempo  lluvia )  0 . 1
 P ( x)  1
x
P (Tiempo  nubes )  0 . 29
P (Tiempo  nieve )  0 . 01
 Probabilidad condicional o a posteriori (dada una cierta
evidencia):
P ( caries | d olor_de_mu elas )  0 . 6
P (  caries | d olor_de_mu elas )  0 . 4
 P(x | y)  1
x
7
Probabilidad Conjunta
 Eventos múltiples: cancer, resultado de un test
P ( Cancer, Test Positivo )
Tiene Cancer?
Test Positivo?
P(C,TP)
si
si
0.018
si
no
0.002
no
si
0.196
no
no
0.784
 P ( x, y )  1
x,y
 Problema: para N variables binarias, hacen falta 2N-1
valores para especificar la distribución conjunta
8
Probabilidades Marginales
 Pueden obtenerse a partir de la conjunta
 Marginalizar:
P ( x) 
 P ( x, y )
y
Tiene Cancer?
Test Positivo?
P(C,TP)
si
si
0.018
si
no
0.002
no
si
0.196
no
no
0.784
C
P(C)
si
0.02
no
0.98
TP
P(TP)
si
0.214
no
0.786
9
Probabilidad Condicional
 Características del test:
 Probabilidad a priori:
P ( tp | c )  0 . 9
 P (  tp | c )  0 . 1
P ( tp |  c )  0 . 2
 P (  tp |  c )  0 . 8
P ( c )  0 . 02
 P (  c )  0 . 98
 Podemos calcular la distribución conjunta:
P ( x, y )  P ( x | y ) P ( y )
Tiene Cancer?
Test Positivo?
P(C,TP)
si
si
0.018
si
no
0.002
no
si
0.196
no
no
0.784
10
Probabilidad Condicional
 Pregunta de diagnóstico: ¿Como de probable es que
tenga cancer si ha dado test positivo?
Tiene Cancer?
Test Positivo?
P(C,TP)
si
si
0.018
si
no
0.002
no
si
0.196
no
no
0.784
P ( c | tp ) 
P ( c, tp )
P ( tp )

0 . 018
0 . 018  0 . 196
 0 . 084
 Siendo un test relativamente bueno, porque sale tan baja?
 Porque la probabilidad a priori era muy baja:
P ( c )  0 . 02
11
Regla de Bayes
P ( y | x) 
P(x | y)P( y)

P ( x)
P(x | y)P( y)
 P(x | y')P( y')
y'
 Ejemplo:
TP
P ( c | tp ) 
P ( c )  0 . 02
 P (  c )  0 . 98
P ( tp | c )  0 . 9
 P (  tp | c )  0 . 1
P ( tp |  c )  0 . 2
 P (  tp |  c )  0 . 8
C
P ( tp | c ) P ( c )
P ( tp )

P ( tp | c ) P ( c )
 P ( tp | c ' ) P ( c ' )

P ( tp | c ) P ( c )
P ( tp | c ) P ( c )  P ( tp |  c ) P (  c )
c'

P (  c | tp ) 
0 . 9  0 . 02
0 . 9  0 . 02  0 . 2  0 . 98
P ( tp |  c ) P (  c )
P ( tp )


0 . 018
0 . 018  0 . 196
P ( tp |  c ) P (  c )
P ( tp | c ) P ( c )  P ( tp |  c ) P (  c )
 0 . 084
 0 . 916
 P(x | y)  1
x
12
Red Bayesiana (Bayes Network)
 Nuestra primera red Bayesiana:
Cance
r
P(Cancer) y P(Test positivo | Cancer)
constituyen el “modelo”
A calcular P(Test positivo) se le llama
“predicción”
Test
positivo
A calcular P(Cancer | Test positivo) se
le llama “razonamiendo diagnóstico”
 La flecha indica que existe dependencia entre la v.a. Test_positivo y
la v.a. Cancer
13
Red Bayesiana
 Que significan estas dos redes Bayesianas?:
Cance
r
Cance
r
versus
Test
positivo
P ( C,TP )  P (TP|C ) P ( C )
El resultado del test depende
del valor de la v.a. cancer
Test
positivo
P ( C,TP )  P (TP )  P ( C )
P ( C|TP )  P ( C )
Son v.a. Independientes:
el test no aporta ninguna
información sobre el cancer !!
14
Bayes con Normalización Retrasada
P ( y | x) 
P(x | y)P( y)

P ( x)
P ( y | x ) 
P ( x |  y ) P ( y )
P ( x)

P(x | y)P( y)
P ( x | y ) P ( y )  P ( x |  y ) P ( y )
P ( x |  y ) P ( y )
P ( x | y ) P ( y )  P ( x |  y ) P ( y )
 P(x | y)P( y)
  P ( x |  y ) P ( y )
 Podemos hacer el cálculo sin normalizar:
P '( y | x)  P ( x | y)P ( y)
NO son probabilidades
P ' ( y | x )  P ( x |  y ) P ( y )
 P '( y | x)  1
y
 Y después normalizar:
  P ' ( y | x )  P ' ( y | x ) 
P ( y | x)  P '( x | y)
1
 P ( y | x)  1
y
P ( y | x )   P ' ( x |  y )
15
Ejemplo: Cancer con dos tests
C
T1
T2
P ( c )  0 . 02
 P (  c )  0 . 98
P (  | c )  0 .9
 P (  | c )  0 .1
P (  |  c )  0 .2
 P (  |  c )  0 .8
 Cálculo normalizando al final:
P(C)
P(T1+|C)
P’(C|+)
P(T2+|C) P’(C|++)
P(C|++)
c
0.02
0.9
0.018
0.9
0.0162
0.2924
-c
0.98
0.2
0.196
0.2
0.0392
0.7076
0.0554
1.0000
16
Independencia
 Dos variables aleatorias X e Y son independientes si:
x, y : P ( x, y )  P ( x) P ( y )
P ( x | y)  P ( x)
P ( y | x)  P ( y)
Son condiciones
equivalentes
 Su distrubución conjunta se puede factorizar como el producto de
dos distribuciones más simples
 X no da información sobre Y, ni Y sobre X
 Se denota mediante :
X Y
 La independencia suele ser una suposición simplificadora del
modelado
 Las distribuciones conjuntas empíricas en el mejor de los casos son
“cercanas” a ser independientes
17
Ejemplo: Independencia
 N lanzamientos independientes de monedas:
c
0.5
c
0.5
c
0.5
x
0.5
x
0.5
x
0.5
18
Ejemplo: ¿Independencia?
Marginalizar
P ( x) 

P(T,W)
W
warm
sun
warm
T
P
P ( x, y )
y
T
P(T)
warm
0.5
cold
0.5
P
Si fueran independientes:
P(T,W) = P(T) P(W)
T
W
0.4
warm
sun
0.3
rain
0.1
warm
rain
0.2
cold
sun
0.2
cold
sun
0.3
cold
rain
0.3
cold
rain
0.2
P(W)
W
P( y) 
 P ( x, y )
P
P
sun
0.6
rain
0.4
x
19
Independencia Condicional
 P(Dolor, Caries, Infección)
 Si tengo caries, la sonda del dentista puede infectarme la muela
 Si tengo caries, es probable que tenga dolor de muelas
 Luego dolor e infección no son independientes, si tengo dolor
de muelas, es más probable que se infecte
P(Infección | Dolor) ≠ P(Infección)
 Pero: si tengo una caries, la probabilidad de que la sonda
infecte no depende de si tengo o no dolor de muelas:
P(Infección | Dolor, Caries) = P(Infección | Caries)
 Infección y Dolor son Condicionalmente Independientes dado
Caries
20
Independencia Condicional
 Condiciones equivalentes:
 x, y, z : P ( x, y | z )  P ( x | z ) P ( y | z )
P ( x | y, z)  P ( x | z)
P ( y | x, z )  P ( y | z )
 Lo denotamos mediante:
Conocido Z, Y no da información
adicional sobre X, ni X sobre Y
X Y |Z
 Atención:
X Y |Z  X Y
ej: Dolor e Infeción son C.I. pero
no son Independientes
X Y |Z  X Y
Luego veremos un ejemplo
21
Representación con Red Bayesiana
 P(Dolor, Caries, Infección) requeriría 23-1 = 7 parámetros
Caries
P(Caries)
p(+c)
1 parámetro
P(Infección | Caries)
P(+i|+c)
2 parámetros
P(+i|-c)
Infección
P(Dolor | Caries)
P(+d|+c)
2 parámetros
P(+d|-c)
Dolor
Basta con 5 parámetros
I  D |C 
I  D
P ( D , I , C )  P ( D | I , C ) P ( I | C ) P (C )
 P ( D | C ) P ( I | C ) P (C )
22
Notación del Grafo
 Nodos: variables (con sus
dominios)
Tiempo
 Pueden ser observadas o no
 Arcos: interacciones
 Indican “influencia directa”
entre variables
 Formalmente: codifican la
independencia condicional
 Podemos pensar que
representan relación causal
(aunque no es necesario)
Caries
Infecció
n
Dolor
T  C ; T  I ; T  D ; I  D |C
P (T , C , I , D )  P (T ) P ( C ) P ( I | C ) P ( D | C )
23
Ejemplos
 N lanzamientos de moneda independientes
X1
X2
Xn
 No hay interacción entre las variables: independencia absoluta
 La lluvia y el tráfico
 Modelo 1: independencia
 Modelo 2: la lluvia causa tráfico
LL
T
LL
T
 Un agente que use el modelo 2 se comportará mejor
24
Ejemplo: Sol o Ascenso?
 S: Sol, A: Ascenso, C: Contento
P ( s )  0 .7
P ( a )  0 . 01
S  A  P ( a | s )  P ( a |  s )  P ( a )  0 . 01
S
A
C
P (c | s, a )  1
P ( c |  s , a )  0 .9
P ( c | s ,  a )  0 .7
P ( c |  s ,  a )  0 .1
Razonamiento predictivo:
P ( c | a )  P ( c | a , s ) P ( s )  P ( c | a ,  s ) P (  s )  0 . 97
P (c )  P (c | s , a ) P ( s , a )  P (c |  s , a ) P (  s , a )  P (c | s , a ) P ( s , a )  P (c |  s , a ) P (  s , a )
 P (c | s , a ) P ( s ) P ( a )  P (c |  s , a ) P (  s ) P ( a )  P (c | s , a ) P ( s ) P (  a )  P (c |  s , a ) P (  s ) P (  a )
 0 . 5254
25
Independencia pero no Ind.Condic.
 S: Sol, A: Ascenso, C: Contento
P ( s )  0 .7
S  A
P ( a )  0 . 01
S
P (c | s, a )  1
A
P ( c |  s , a )  0 .9
P ( c | s ,  a )  0 .7
C
Razonamiento diagnóstico:
P (a | c) 
P (c | a ) P (a )
P ( c |  s ,  a )  0 .1
 0 . 0185
P (c )
P (a | c, s) 
P (c | a , s ) P (a | s )
P (c | s )
P ( a | c , s ) 

P (c | a , s ) P (a )
P (c | a , s ) P (a )  P (c |  a , s ) P (  a )
P (c | a , s ) P ( a |  s )
P (c |  s )


1  0 . 01
1  0 . 01  0 . 7  0 . 99
P (c | a , s ) P ( a )
P (c | a , s ) P ( a )  P (c |  a , s ) P (  a )

 0 . 0142
0 . 9  0 . 01
0 . 9  0 . 01  0 . 1  0 . 99
P (a | c)

0 . 0185
P (a | c, s)

0 . 0142
Si viene contento y no sabemos qué tiempo hace
Si hace sol, eso puede explicar la alegría
P ( a | c , s )

0 . 0833
Si no hace sol, es más probable que sea por el ascenso
 0 . 0833
P( A | C, S )  P( A | C )  S  A | C
26
Semántica de las Redes Bayesianas
 Un conjunto de nodos, uno por cada
variable X
 Un grafo dirigido acíclico (DAG)
A1
An
 Una distribución condicional por cada nodo
 Una colección de distribuciones sobre X, una por
cada combinación de los valores de los nodos padre
X
 CPT: tabla de probabilidades condicionales
 Representación de un proceso “causal” con ruido
Red Bayesiana = Topología (grafo) + Prob. Condicionales Locales
27
Probabilidades en Redes Bayesianas
 Una red Bayesiana representa implícitamente las distribuciones
conjuntas
 Como un producto de distribuciones condicionales locales
 As a product of local conditional distributions
 Para calcular la probabilidad de una asignación concreta, se multiplican
todas la condiciones relevantes:
n
P ( x1 , x 2 ,  x n ) 
 P(x
i
| padres ( X i )
Caries
i 1
 Ejemplo:
P (  c , i, d )  P (  c ) P (  i |  c ) P (  d |  c )
Infecció
n
Dolor
 Permite reconstruir cualquier entrada de la tabla de
probabilidades conjunta
 No todas las RB pueden representar todas las distribuciones
conjuntas
 La topología define qué condiciones de independencia se cumplen
28
Ejemplo: Lanzamiento de monedas
X1
X2
Xn
h
0.5
h
0.5
h
0.5
t
0.5
t
0.5
t
0.5
Solo las distribuciones cuyas variables son absolutamente independientes
pueden modelarse mediante una red Bayesiana sin arcos.
29
Ejemplo: Tráfico
P(LL)
LL
+ll
1/4
ll
3/4
P(T | LL)
+ll
T
ll
+t
3/4
t
1/4
+t
1/2
t
1/2
LL
T
P(LL,T)
+ll
+t
3/16
+ll
-t
1/16
-ll
+t
3/8
-ll
-t
3/8
30
Ejemplo: Alarma Antirrobo
 Variables
 L: Ha entrado un Ladrón
 A: La Alarma se dispara
 M: María llama a avisar
 J: Juan llama a avisar
Terremoto
Ladrón
 T: Terremoto!
Alarma
Juan
llam
a
María
llama
31
Ejemplo: Alarma Antirrobo
1
Terremot
o
Ladrón
Alarma
Juan
llama
2
¿Número de parámetros?
1
4
María
llama
2
10
En lugar de 25-1 = 31
32
Ejemplo: Alarma Antirrobo
L
P(L)
+l
0.001
l
0.999
Terremot
o
Ladrón
T
P(T)
+t
0.002
t
0.998
L
T
A
P(A|L,T)
+b
+e
+a
0.95
+b
+e
a
0.05
+b
e
+a
0.94
Alarma
Juan
llama
María
llama
A
J
P(J|A)
A
M
P(M|A)
+b
e
a
0.06
+a
+j
0.9
+a
+m
0.7
b
+e
+a
0.29
+a
j
0.1
+a
m
0.3
b
+e
a
0.71
a
+j
0.05
a
+m
0.01
b
e
+a
0.001
a
j
0.95
a
m
0.99
b
e
a
0.999
33
Ejemplo: Alarma Antirrobo
P(L)
Terremoto
Ladrón
Alarma
P ( J | A)
Juan
llam
a
P (T )
P ( A | L,T )
María
llama
P (M | A)
n
P ( L , T , A, J , M ) 
 P(X
i
| padres ( X i ) )
i 1
 P ( L ) P (T ) P ( A | L , T ) P ( J | A ) P ( M | A )
34
Red Bayesiana
 Un RB es una codificación
eficiente de un modelo
probabilístico de un dominio
 Preguntas que podemos hacer:
 Inferencia: dada una RB, ¿cual es P(X | e)?
 Representación: dado el grafo de una RB, ¿qué tipos de distribuciones
puede codificar?
 Modelado: ¿qué RB es más apropiada para representar un cierto dominio?
BN is most appropriate for a given domain?
35
Red Bayesiana del seguro del coche
36
Ejemplo: El coche que no arranca
batería
vieja
batería no
se recarga
batería
muerta
indicador
de la batería
luces
correa
alternador
rota
alternador
roto
batería
sin carga
sin
aceite
luz del
aceite
indicador de
la gasolina
manguito
gasolina
obstruído
sin
gasolina
el coche
no arranca
motor de
arranque
averiado
varilla del
aceite
 Representación ingénua: 216-1 = 65535 parámetros
 Representación estructurada con RB: 47 parámetros
Ejercicio: Calcúlalo
37
D-separación
 Objetivo: Encontrar (In)Dependencias Condicionales en
una red Bayesiana
 Pregunta general: ¿son dos variables independientes dada una
cierta evidencia?
 Solución: analizar el grafo
 Concepto de “d-separación”
 Cualquier ejemplo complejo se puede analizar usando
tres casos básicos:
 Cadena causal
 Causa común
 Efecto común
38
Cadena Causal
 Esta configuración es una “cadena causal”
X
Y
Z
X: Bajas Presiones
Y: Lluvia
Z: Tráfico
 ¿Es X independiente de Z dado Y?
¡si!
 La evidencia en una cadena “bloquea” la influencia
39
Causa Común
 Dos efectos de la misma causa
Y
 ¿Son X y Z independientes?
¡no!
X
 ¿Son X y Z independientes dado Y?
Z
Y: Alarma
X: Juan llama
¡si!
Z: María Llama
 Observar la causa bloquea la influencia entre los
efectos
40
Efecto Común
 Dos causas de un mismo efecto
(estructura en v)
 ¿Son X y Z independentes?
¡si!
 el partido de futbol y la lluvia causan tráfico,
pero futbol y lluvia no están relacionados
 ¿Son X y Z independientes dado Y?
¡no!
 si hay tráfico, la lluvia y el fútbol entran en
competencia como explicación
X
Z
Y
X: Lluvia
Z: Fútbol
Y: Tráfico
 Al revés que en los casos anteriores:
 Observar un efecto activa la influencia entre
las posibles causas
41
Alcanzabilidad (D-Separación)
 Pregunta: ¿cuándo son X e Y
condicionalmente
independentes dadas las
variables de evidencia {Z}?
Sombreamos las
variables de evidencia
Tripletes Activos
Tripletes Inactivos
 Cuando X e Y están d-separados por Z
 Cuando no hay ningún camino activo
de X a Y
 Un camino es activo si todos sus
tripletes son activos:
 Cadena causal A  B  C donde B no
es observada (en ambas direcciones)
 Causa común A  B  C donde B no es
observada
 Efecto común (estructura en v)
A  B  C donde B o uno de sus
descendientes es observado
 Un solo triplete inactivo bloquea
un camino
42
Ejemplos
 ¿Cuales de estas propiedades se cumplen?
si
R
B
no
no
T
T’
43
Ejemplo
 ¿Cuales de estas propiedades se cumplen?
L
si
R
si
B
no
no
D
T
si
T’
44
Ejemplo
 Variables:
 R: Raining
 T: Traffic
 D: Roof drips
R
 S: I’m sad
 ¿Cuales se cumplen?
T
D
no
si
S
no
45
¿Causalidad?
 Cuando una Red Bayesiana refleja la causalidad real del
dominio:
 Suele ser más simple (los nodos tienen menos padres)
 Suele ser más fácil razonar con ella
 Suele ser más fácil de obtener a partir de expertos
 Pero las Redes Bayesianas no necesitan ser causales
 A veces no existe una red causal para el dominio
 La red acaba teniendo flechas que reflejan correlación, no
relación causal
 Entonces, ¿qué significan exactamente las flechas?
 La topología puede que represente la estructura causal
 La topología siempre representa la independencia
condicional
46
Resumen
 Red Bayesiana:
 Captura las dependencias dispersas entre variables
 No todas dependen de todas, sólo suele haber unas pocas
relaciones
 Representación eficiente de distribuciones conjuntas
 Reduce el número de parámetros de exponencial a lineal (en
muchos casos)
 Próximo tema: Inferencia en redes Bayesianas
47
Inteligencia
Artificial
(30223) Grado en Ingeniería Informática
Lección 12. Probabilidad y Redes Bayesianas
AIMA-3ed 13.1 a 13.5 (AIMA-2ed 13.1 a 13.6)
Tema 3 de www.ai-class.com