P(A | J, M) = P(A)

Download Report

Transcript P(A | J, M) = P(A)

Réseaux bayésiens
Chap. 14
Sections 1 – 3
Plan
• Syntaxe
• Semantique
• Distribution paramétrisée
Réseaux bayésiens
• Une notation graphique simple pour des affirmations
d’indépendance conditionnelle, et donc une spécification
compacte de distributions conjointes complètes
• Syntaxe:
– Un ensemble de nœuds, un par variable
– Un graphe dirigé, non cyclique (lien ≈ "influences directes")
– Une distribution conditionnelle pour chaque nœud, sachant ses
parents:
P (Xi | Parents (Xi))
• Dans le cas le plus simple, une distribution
conditionnelle est représentée par une table de
probabilité conditionnelle (CPT), qui donne la distribution
sur Xi pour chaque combinaison des valeurs des
parents.
Exemple
• La topologie du réseau représente les affirmations
d’indépendance conditionnelle:
• Weather est indépendante des autres variables
• Toothache (mal aux dents) et Catch (accroché) sont
indépendantes conditionnellement sachant Cavity (carie)
Exemple
•
Je suis au travail. Le voisin John appelle pour me signaler que mon alarme
à la maison sonne, mais ma voisine Mary ne m’appelle pas. Quelques fois,
l’alarme est déclenchée par un petit tremblement de terre. Quelques fois,
les voisins entendent mal. Et-ce qu’il y a un vol (burglar)?
•
Variables: Burglary, Earthquake, Alarm, JohnCalls, MaryCalls
•
La topologie du réseau reflète les connaissances « causales »:
–
–
–
–
Un cambriolage peut déclencher l’alarme
Un tremblement de terre peut déclencher l’alarme
L’alarme peut causer l’appel de Mary
L’alarme peut causer l’appel de John
• Comparaison:
– Si l’alarme, alors un cambriolage
– Si Mary appelle, alors l’alarme
Topologie du réseau
Compacticité
•
Une CPT (table de prob. conditionnelle) pour une variable booléenne Xi
avec k parents booléens a 2k lignes pour des combinaisons des valeurs des
parents
•
Chaque ligne requiert une valeur p pour Xi = true
(la valeur pour Xi = false est juste 1-p)
•
Si chaque variable n’a pas plus de k parents, the réseau requiert O(n · 2k)
valeurs
•
I.e., la taille augmente linéairement avec n, vs. O(2n) pour la distribution
conjointe complète (cf. règle de chaîne)
•
Pour l’exemple de vol, le nombre de valeurs = 1 + 1 + 4 + 2 + 2 = 10 (vs. 251 = 31 pour une distribution conjoint complète)
–
–
–
P(B): 1
P(E): 1
P(A|B,E): 4, …
Semantique
La distribution conjointe complète est définie par le produit des
distributions conditionnelles locales:
P(X1,..., Xn ) = Õ P(Xi | Parents(Xi ))
n
i=1
e.g., P(j  m  a  b  e)
= P (j | a) P (m | a) P (a | b, e) P (b) P (e)
= 0.9 * 0.7 * 0.001 * 0.999 * 0.998
≈ 0.00063
Sémantique
locale
L ocal sem ant ics
• Sémantique
locale:
nœud
est conditionnellement
Local
semantics: each
node ischaque
conditionally
independent
indépendant
sesitsnon-descendants
sachant ses
of its
nondescendantsde
given
parents
parents
U1
Um
...
X
Z 1j
Z nj
Y1
...
Yn
Theorem:
Local semantics
⇔ global
semantics
• Théorème:
Sémantique
gobale
= Sémantique locale
Couverture Markov
Mconditionnellement
ar kov blanket indépendant de
• Chaque nœud est
tous
autres nœuds
sachant
couverture
Each
nodeles
is conditionally
independent
of all sa
others
given its Markov:
parents
+ enfants
parents
des enfants
Markov
blanket:
parents + +
children
+ children’s
parents
U1
Um
...
X
Z 1j
Z nj
Y1
...
Yn
Construire un réseau bayésien
1. Choisir un ordre des variables X1, … ,Xn
2. Pour i = 1 à n
– Ajouter Xi dans le réseau
–
– Sélectionner les parents parmi X1, … ,Xi-1 tels que
P (Xi | Parents(Xi)) = P (Xi | X1, ... Xi-1)
Ce choix de parents garantie:
P(X1,..., Xn ) = Õ P(Xi | X1,..., Xi-1 )
n
(règle de chaîne)
i=1
= Õ P(Xi | Parents(Xi)) (par construction)
i=1
n
Exemple
• Supposons que nous choisissons l’ordre M, J, A, B, E
•
P(J | M) = P(J)?
Exemple
• Supposons que nous choisissons l’ordre M, J, A, B, E
•
P(J | M) = P(J)?
Non
P(A | J, M) = P(A | J)? P(A | J, M) = P(A)?
Exemple
• Supposons que nous choisissons l’ordre M, J, A, B, E
•
P(J | M) = P(J)?
Non
P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? Non
P(B | A, J, M) = P(B | A)?
P(B | A, J, M) = P(B)?
Exemple
• Supposons que nous choisissons l’ordre M, J, A, B, E
•
P(J | M) = P(J)?
Non
P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? Non
P(B | A, J, M) = P(B | A)? Oui
P(B | A, J, M) = P(B)? Non
P(E | B, A ,J, M) = P(E | A)?
P(E | B, A, J, M) = P(E | A, B)?
Exemple
• Supposons que nous choisissons l’ordre M, J, A, B, E
•
P(J | M) = P(J)?
Non
P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? Non
P(B | A, J, M) = P(B | A)? Oui
P(B | A, J, M) = P(B)? Non
P(E | B, A ,J, M) = P(E | A)? Non
P(E | B, A, J, M) = P(E | A, B)? Oui
Exemple
• Décider des indépendnces conditionnelles est difficile dans une
direction non-causale
• (Les modèles causaux et les indépendances conditionnelles
causales semblent bien ancrés chez les humains!)
•
• Le réseau qui utilise des liens non-causaux est moins compact: 1 +
2 + 4 + 2 + 4 = 13 valeurs requises
•
Exemple
MaryCalls
ls
JohnCalls
JohnCalls
Earthquake
Alarm
y
Burglary
Alarm
Earthquake
(a)
L’ordre est important!
(b)
ILES: figures/burglary-mess.eps (Tue Nov 3 16:22:29 2009). Network structure
of introduction. In each network, we have introduced nodes in top-to-bottom order.
Exemple: diagnostic de voiture
• Évidence initiale: La
pas
Exvoiture
am ple:neCdémarre
ar diagnosis
• Variables testables (vert), variables causes (pannes) (orange)
Initial evidence: car won’t start
• Variables
(gris)“ broken,
assure
éparse (sparse)
Testablecachées
variables (green),
soune
fix it”structure
variables (orange)
permettant
de réduire
les paramètres
Hidden variables
(gray) ensure
sparse structure, reduce parameters
battery age
battery
dead
battery
meter
lights
fanbelt
broken
alternator
broken
no charging
battery
flat
oil light
no oil
gas gauge
no gas
car won’t
start
fuel line
blocked
starter
broken
dipstick
Chapt er 14.1–3
19
am ple: C ar insur ance
Exemple:ExAssurance
de voiture
SocioEcon
Age
GoodStudent
ExtraCar
Mileage
RiskAversion
VehicleYear
SeniorTrain
MakeModel
DrivingSkill
DrivingHist
Antilock
DrivQuality
Airbag
Ruggedness
CarValue HomeBase
AntiTheft
Accident
Theft
OwnDamage
Cushioning
MedicalCost
OtherCost
LiabilityCost
OwnCost
PropertyCost
Chapt er 14.1–3
20
Distributions conditionnelles compactes
• CPT augmente exponentiellement avec le nombre de
parents
Com
pactavec
condit
ional
dist
ibut
i ons
Compact
condit
dist
ions
• CPT devient
infinie
desional
parents
ourribut
enfants
de
valeur
continue
CPT
grows
exponentiallywith
withnumber
numberofofparents
parents
CPT grows exponentially
• Solution:
distributions
canoniques qui
sontorordéfinies
de
CPT becomes
becomes
infinitewith
withcontinuous-valued
continuous-valued
parent
child
CPT
infinite
parent
child
façon compacte
Solution: canonical distributions that are defined compactly
Solution:
canonical distributions
arecas
defined
compactly
• Nœuds déterministes
sontthat
des
simples:
Deterministic X
nodes
are the simplest
case:
– Valeur de nodes
déterminée
par celles
Deterministic
are the simplest
case:de ses parents
X = f (Par ents(X )) for some function f
= f (Par ents(X
forcertaine
some function
f f
X =X
f(Parents(X))
pour ))
une
fonction
Boolean
functions
–E.g.,
E.g.
Fonctions
booléennes
E.g.,
Boolean
functions
N or thAmer i can ⇔ Canadi an ∨ US ∨ M exi can
N or thAmer ican ⇔ Canadian ∨ US ∨ M exi can
numerical
relationships
among
continuous
variables
–E.g.,
E.g.
Relations
numériques
entre
les variables
continues
E.g., numerical relationships among continuous variables
∂L evel
∂Level = inflow + precipitation - outflow - evaporation
∂t = inflow + precipitation - outflow - evaporation
Distributions conditionnelles compactes
• OU-bruité (Noisy-OR): modèle de distributions pour des causes
C om
pact condit ional dist r ibut i ons cont d.
multiples
non-interactives
– Parents U1…Uk sont toutes les causes possibles (éventuellement
Noisy-OR
model
noninteracting
ajouterdistributions
un nœud de
fuite multiple
– leak node
– pour les causes
causes restantes)
Parents U1la. .probabilité
. Uk include
all causes
(can add leak
node)chaque cause
– 1)
Supposons
d’échec
indépendante
qi pour
2)seule
Independent failure probability qi for each cause alone
⇒ P(X |U1 . . . Uj , ¬Uj + 1 . . . ¬Uk ) = 1 −
Cold
F
F
F
F
T
T
T
T
F lu
F
F
T
T
F
F
T
T
M alar i a
F
T
F
T
F
T
F
T
P(F ever )
0.0
0.9
0.8
0.98
0.4
0.94
0.88
0.988
Πji = 1qi
P(¬F ever )
1.0
0.1
0.2
0.02 = 0.2 × 0.1
0.6
0.06 = 0.6 × 0.1
0.12 = 0.6 × 0.2
0.012 = 0.6 × 0.2 × 0.1
– Nombre
de paramètres
par rapport
au nombre de parents
Number
of parameters
linearlinéaire
in number
of parents
Réseaux
(var.
+k scontinues)
H y brhybrids
id ( discr et e+
cont idiscrètes
nuous) net wor
• Discrètes
Etcontinuous
Buy?);(Hcontinues
(Harvest et
Discrete (Subsi(Subsidy?
dy? and B uys?);
ar vest and Cost)
Cost)
Subsidy?
Harvest
Cost
Buys?
• Option
1: discrétisation – erreurs larges possibles,
Option 1: discretization—possibly large errors, large CPTs
grande
CPT parameterized canonical families
Option 2: finitely
• Option
2: familles
de modèles
canoniques
1) Continuous
variable, discrete+
continuous parents
(e.g., Cost) paramétrisés
2) Discrete variable, continuous parents (e.g., B uys?)
finis
– Variable continues, parents discrets + continus (e.g. Cost)
– Variable discrète, parents continus (e.g. Buys?)
Chapt er 14.1–3
23
Variables enfants
continues
C ont inuous child var iables
• NécessiteNeed
une one
fonction
de densité
conditionnelle
variable
conditional
density
function for pour
child lavariable
given contin
enfant, sachant
continus,
pour chaque
assignation
parents,les
forparents
each possible
assignment
to discrete
parents de
valeur possible pour des parents discrets
Most common
is the
lineargaussien.
Gaussian model,
• Le plus souvent:
modèle
linéaire
E.g.: e.g.,:
P(Cost = c|H ar vest = h, Subsi dy?= tr ue)
= N (at h + bt , σt )(c)
1
1 c − (at h + bt ) 2
= √ exp −
2
σt
σt 2π
• Une formulation similaire pour Subsidy? = false
Mean
with H avec
ar vest,
variance
fixed
• La moyenne
deCost
Costvaries
varielinearly
linéairement
Harvest,
la is
variance
est fixée.
Linear variation is unreasonable over the full range
• Variance linéaire
est non-raisonnable
toute
valeur,
but works
OK if the likely sur
range
of Hlaarportée
vest isde
narrow
mais OK si la portée espérée de Harvest est étroite
Variables enfants continues
P(c | h, subsidy)
0.4
0.3
0.2
0.1
0
0 2 4
6 8 10
Cost c
(a)
P(c | h, Øsubsidy)
0.4
0.3
0.2
0.1
12
10
0
68
0 2 4
4
6 8 10
0 2Harvest h
Cost c
(b)
1012
8
6
4
0 2Harvest h
P(c | h)
0.4
0.3
0.2
0.1
0
0 2 4
6 8 10
Cost c
1012
8
6
4
0 2Harvest h
(c)
14.6
FILES:
Theet
graphs
(a) and (b) show the probability
distribution a
overla
Cost as a
•c) = Figure
moyenne
de . a)
b)in(supposons
que chacun
function of Harvest size, with Subsidy true and false, respectively. Graph (c) shows the distribution
prob.P 0.5)
(Cost | Harvest ), obtained by summing over the two subsidy cases.
•Réseau composé de variables continues avec
gaussiennes linéaires:
– Distribution conjointe complète est une gaussienne multivariée
Variable
discrète
avec
parents
continus
Deiscr
e varw
iable
w/inuous
cont inuous
D i scr et
varetiable
/ cont
par entpar
s ent s
1
1
0.8
0.8
P(Buys?=false|Cost=c)
P(Buys?=false|Cost=c)
• Prob.
Buy?
Cost
doit
être
seuil
« soft »:
Probability
ofgiven
Bsachant
uys?
given
Costbe
should
be threshold:
aun
“ soft”
threshold:
Probability
ofde
B uys?
Cost
should
a “ soft”
0.6
0.4
0.6
0.4
0.2
0.2
0
0
2
0
0
4
2
6
4
Cost c
8
6 10
Cost c
8 12
10
12
• Distribution
Probit
utilise
l’intégral
de gaussienne:
Probit
distribution
uses
integral
ofintegral
Gaussian:
Probit distribution
uses
of Gaussian:
x
x
Φ(x) = −Φ(x)
(0, −1)(x)dx
∞ N=
∞ N (0, 1)(x)dx
P (B uys?=
ue | Cost
= |c)Cost
= Φ((−
µ)/ σ)c + µ)/ σ)
P(Btruys?=
tr ue
= c)c=+ Φ((−
Enfants
D iscr et ediscrets
var iable cont d.
iscr et e var
d. utilisé dans les
• DistributionDSigmoïde
(ouiable
logit) cont
est aussi
Sigmoidde
(or neurones
logit) distribution also used in neural networks:
réseaux
Sigmoid (or logit) distribution also used in neural networks:
1
P(B uys?= tr ue | Cost = c) =1
− c+ µ
1
+
exp(−
2
σ )
P(B uys?= tr ue | Cost = c) =
− c+ µ
1 + exp(− 2 σ )
Sigmoid
has
similar shape
to probitmais
but much
longer
tails:
• Une
forme
similaire
à
Probit,
avec
des
queux plus
1
Sigmoid has similar shape to probit but much longer tails:
1
0.9
0.9
0.8
P(Buys?=false|Cost=c)
longues
P(Buys?=false|Cost=c)
0.8
0.7
0.6
0.5
0.4
0.3
0.7
0.6
0.5
0.4
0.3
0.2
0.2
0.1
0.1
0
0
0
0
2
2
4
6
Cost c
4
8
6
Cost 10
c
8
10
12
12
Sommaire
• Réseaux bayésiens = une représentation naturelle
d’indépendance conditionnelle (déduit de causalité)
• Topologie + CPTs = une représentation compacte de
distribution conjointe
• Sa construction est faite par des experts du domaine
(selon la compréhension des liens de causalité)
• Couverture Markov
• Distribution canonique (e.g. Noisy-OR)
• Variables continues et discrètes: distribution
paramétrisée (e.g. gaussienne linéaire)