Transcript CoursDM05

La classification
Plan






Définition et Objectifs
Analyse discriminante
Régression logistique
Arbres de décision
Réseaux bayésiens
Exemple
Définition et Objectifs
Prévoir l’appartenance à une « classe »
non observée à partir de variables observées


Rappel sur la terminologie (Stat/Marketing)
Applications typiques

Scoring de risque


Connaissant les caractéristiques individuelles d’un emprunteur,
quel est le risque qu’il ne rembourse pas son crédit ?
Scoring marketing

A qui envoyer le mailing de lancement d’un nouveau produit ?
Caractérisation


Un problème supervisé (par opposition à la
segmentation ou à l’association)
Deux utilisations :



Utilisation descriptive


Descriptive : Déterminer les “règles” de séparation
Décisionnelle : Attribuer un nouvelle individu à une classe.
Problème de type géométrique
Utilisation décisionnelle

Problème de type probabiliste. La nature fondamentale du
problème est un calcul de probabilité conditionnelle :


P(Incident|Caractéristiques)
P(RéponseMailing|…)
Caractérisation (suite)




Les variables observées peuvent être Qualitatives ou
quantitatives
La variable à prévoir est binaire (Oui/Non) ou discrète
Le modèle est mis au point sur un ensemble de données
où toutes les variables sont observées (y compris la
classe)
Exemple : Score de crédit



Données : Historique de dossiers de crédit
Variables explicatives : CSP, Age, Revenus, Situation Familiale,
etc.
Variable à prévoir : Incident de remboursement
Techniques disponibles





Analyse factorielle discriminante
Modèle logit/probit
Arbres de décision
Réseaux bayésiens
Réseaux neuronaux
Analyse factorielle
discriminante
Analyse discriminante



Méthode géométrique (descriptive)
Basée uniquement sur une notion de
distance
Maximisation du rapport Inertie
Interclasse / Inertie totale
Principe de l’analyse discriminante
Axe 2
Chercher le meilleur
axe de séparation
Axe 1
Axe Optimal
Régression logistique
Cadre théorique


On suppose que la classe détermine la distribution
conditionnelle des variables observées
fj(x) est la densité de probabilité de x pour les individus
du groupe j.
Classe
x1


x2
xn
Observant un point de coordonnées (x1, x2, …, xp) la
probabilité d’appartenir à un groupe j est pj.fj(x)/pj.fj(x)
On affecte le point au groupe de probabilité a posteriori
maximale, i.e. à celui pour lequel pj.fj(x) est maximal
Méthodes de résolution

Méthodes paramétriques



On choisit une famille paramétrée de lois de
probabilité pour fj(x)
Les observations permettent d’estimer les
paramètres
Méthodes non paramétriques

Variantes de la méthode du noyau
Cas simple

Hypothèses



On considère deux classes, et f1(x) et f2(x) suivent
une loi normale
Les matrices de variance/covariance sont identiques
pour les deux classes
Résultat


On peut calculer un score s(x) fonction linéaire des
variables x.
La probabilité d’appartenance au groupe 1 est alors
p=1/(1+exp(-s(x)))
La régression logistique




On part de la forme obtenue précédemment
p=1/(1+exp(-s(x)))
Qui se transforme en :
s(x)=ln(p/1-p)
s(x) est une combinaison linéaire des xi
s(x)=0+ 1.x1+ 1.x2+…+ 1.xn
Ses coefficients i sont estimés par le MV
L=∏iC1f1(xi) ∏iC2f2(xi)
Arbres de décision
Arbres de décision

Une méthode de régression




Basée sur la théorie de l’information
Fonctionnant pour des variables continues ou
discrètes
Recherche itérative de variables
discriminantes
Produisant des modèles faciles à interpréter
(sous forme de règles SI … ALORS … SINON)
Principe


Un arbre de décision
est construit
récursivement
En recherchant à
chaque fois le critère
qui fait gagner le plus
d’ « ordre »
Utilisation d’un arbre de décision
SI RA ALORS
R<a?
SINON
La boule est bleue
SI M b ALORS
SINON
La boule est rouge
La boule est bleue
Feuille
Oui
Ranger la boule dans la
classe « bleue »
Oui
Rayon < a ?
Non
Masse < b ?
Non
Noeud
Ranger la boule dans
la classe « rouge »
Ranger la boule dans
la classe « bleue »
Construction d’un arbre de décision

Théorie de l’information (Shannon, 1948)
A
…AAAAAAAA…
p(A)=1
p(B)=0
??
…AABABABBA…
p(A)=0.5
p(B)=0.5
Entropie


S = -å pi .log( pi )
Entropie = mesure du désordre
Cas de deux événements
(
)
S = - p1 .log( p1 ) + p2 .log( p2 )
i
S
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
10
20
30
40
50
60
70
80
90
100
P1
Algorithme C4.5
C4.5
Si E ne contient que des éléments de la même classe
Terminer
Sinon
Trouver le test T qui fasse gagner le plus d’entropie
T sépare E en E1 et E2 : Appliquer C4.5 à E1 et E2
Exemple d’arbre obtenu
Si Ancienneté Bancaire = 0
Risque Elevé
Sinon (Ancienneté Bancaire > 0)
Si Revenus <=4
Si Allocations <=2
Si DateEmbaucheConjoint = 0
Si DateEmbauche <= 3
Risque Elevé
Sinon (DateEmbauche > 3)
Risque Faible
Sinon (DateEmbaucheConjoint > 0)
Risque Faible
Si Allocations >2
Risque Elevé
Sinon (Revenus > 4)
Risque Faible
Réseaux bayésiens
Les réseaux bayésiens
 Introduction
 L’inférence ou le calcul de P(X|e)
 L’apprentissage ou le calcul de P
 Applications des réseaux bayésiens
 Conclusion
Une représentation graphique de la causalité
AB
A
B
A
B
V
V
F
V
F
F
S’il existe une relation causale de A vers B, toute information sur A peut modifier la
connaissance que j’ai de B, et, réciproquement, toute information sur B peut
modifier la connaissance que j’ai de A.

L’information ne circule pas seulement dans le sens des flèches
Sherlock Holmes & Thomas Bayes
Ce matin-là, alors que le temps est clair et sec, M.
Holmes sort de sa maison. Il s’aperçoit que la
pelouse de son jardin est humide. Il se demande alors
s’il a plu pendant la nuit, ou s’il a simplement oublié
de débrancher son arroseur automatique. Il jette
alors un coup d’œil à la pelouse de son voisin,
M. Watson, et s’aperçoit qu’elle est également
humide. Il en déduit alors qu’il a probablement plu, et
il décide de partir au travail sans vérifier son arroseur
automatique
Modèle de causalité
A
P
J
V
AAA
PPP
JJJ
A
P
J
V
J’ai oublié de débrancher mon arroseur automatique
Il a plu pendant cette nuit
L’herbe de mon jardin est humide
L’herbe du jardin de mon voisin est humide
S’il S’il
Si
a plu
j’ai
a plu
pendant
oublié
pendant
deladébrancher
nuit,
la nuit,
l’herbe
l’herbe
mon
de mon
du
arroseur
jardin
jardinautomatique,
de
est
mon
humide.
voisin est
l’herbe de mon
également
humide
jardin est humide
VVV
Utilisation du modèle

A
P
J
A
V

P
J
La connaissance de J renforce la
croyance en l’une des deux causes
A ou P
V
La connaissance de V augmente la
croyance en la cause P. Par
rapport à l’état précédent, la
cause A devient moins plausible
Le cas général
X
Z
Y
X
Z
Y
X
Z
Y
Connexion convergente
X et Y causent Z
Connexion en série
X cause Z, Z cause Y
Connexion divergente
X
Z
Y
Z cause X et Y.
Circulation de l’information (1)
X
Z
X
Z0
Y
X
?
Y
Y
L’information ne peut
circuler de X à Y que si Z
est connu.
X = tremblement de terre
Y = cambriolage
Z = alarme
Circulation de l’information (2)
X
Z
X
?
Y
X
Z0
Y
Y
L’information ne peut
circuler de X à Y que si Z
n’est pas connu.
X = ensoleillement
Y = prix du blé
Z = récolte
Circulation de l’information (3)
X
Z
X
?
Y
X
Z0
Y
Y
L’information ne peut
circuler de X à Y que si Z
n’est pas connu.
X = la pelouse de mon jardin
est humide
Y = la pelouse de mon voisin
est humide
Z = il a plu cette nuit.
d-séparation (blocage)
On dira que X et Y sont d-séparés par Z si pour tous les
chemins entre X et Y, l’une au moins des deux conditions
suivantes est vérifiée :
 Le chemin converge en un nœud W, tel que WZ, et W
n’est pas une cause directe de Z.
 Le chemin passe par Z, et est soit divergent, soit en série
au nœud Z.
On notera X|Z|Y
d-séparation : exemple
A|B|D :
Le chemin A-B-D est en série en B ( B ).
B
A
E
G
Le chemin A-C-D est convergent en C ( C ).
A|D|E :
D
Tous les chemins de A à E passent par D.
C
F
Le chemin A-B-D-E est en série en D (B  D E).
Le chemin A-C-D-E est divergent en D (C  D  E).
Une représentation probabiliste associée
•
•
•
•
Un nœud = une variable aléatoire
Si A n’a aucune cause directe, nous devrons définir p(A), c’està-dire les deux nombres p(A=Vrai) et p(A=Faux).
Si B a une seule cause directe A, nous devrons définir p(B|A),
c’est-à-dire les quatre nombres p(B=V|A=V), , etc.
Si C a deux causes directes A et B nous devrons définir
p(C|A,B), c’est-à-dire les huit nombres p(C=V|A=V, B=V) , etc.
Retour à l’exemple (1)
A
P
J
V
Probabilités inconditionnelles
Evénement
A =V
A= F
P =V
P= F
Probabilité
0.4
0.6
0.4
0.6
Commentaire
M. Holmes oublie assez souvent de
débrancher son arroseur automatique
La région est relativement pluvieuse
Retour à l’exemple (2)
A
Probabilités conditionnelles
P
J
A =V
V
P =V
J =V
J =F
1
0
A=F
P=F
1
0
P =V
1
0
P =V
V =V
V =F
1
0
P=F
0
1
P=F
0
1
Retour à l’exemple (3)
Ce matin-là, alors que le temps est clair et sec,
M. Holmes sort de sa maison. Il s’aperçoit que
la pelouse de son jardin est humide.
 Il se demande alors s’il a plu pendant la nuit,
ou s’il a simplement oublié de débrancher son
arroseur automatique. Il jette alors un coup
d’œil à la pelouse de son voisin, M. Watson, et
s’aperçoit qu’elle est également humide.
Il en déduit alors  qu’il a probablement plu, et
il décide de partir au travail sans vérifier son
arroseur automatique.
Comparer
p(A=V|J=V)
et
p(P=V|J=V)
0.625
0.625
Comparer
p(A=V|J=V, V=V)
et
p(P=V|J=V, V=V)
0.4
1
Retour à l’exemple (4)


A et P sont d-séparés
Si J est connu,
l’information peut circuler
de A à P (AJP est une
connexion convergente)
A
P
J
V





A et P sont indépendants
P(A=F et P=F|J=V) = 0
P(A=F|J=V) = 0.375
P(P=F|J=V) = 0.375
A et P ne sont pas
indépendants
conditionnellement à J
Résumé




La transposition d’un graphe causal en espace probabilisé
conduit à des résultats conformes au raisonnement intuitif
que l’on peut mener directement sur ce graphe
Ces résultats sont quantitatifs
Les calculs mis en œuvre, même sur des cas très simples,
sont lourds
Les propriétés graphiques (d-séparation) peuvent être
mises en correspondance avec les propriétés
d’indépendance de l’espace probabilisé associé.
Réseaux bayésiens : définition

Un réseau bayésien est défini par



un graphe acyclique orienté G = (V,E) , où V est l’ensemble des
nœuds de G, et E l’ensemble des arcs de G
un espace probabilisé fini (W, Z,P)
un ensemble de variables aléatoires correspondant aux
nœuds du graphe, telles que
p(V1,V2 ,...,Vn ) =

i =1,n
p(Vi C(Vi ))
Théorème fondamental



Soit B=(G,P) un réseau bayésien
Si X, Y, Z sont des ensembles de nœuds
tels que X et Y sont d-séparés dans G
par Z, alors
X et Y sont indépendants
conditionnellement à Z
Inférence dans les réseaux bayésiens



Inférence = Révision des probabilités
Calculer P(X|e)
La complexité dépend de la complexité du
réseau
Inférence : approche intuitive

A
B
C

déf RB
déf Cond
Cas d’une chaîne
Calculer P(C|A=Vrai) ?
p( A, B, C) = p(C B). p( B A). p( A)
p( A, B, C) = p(C A, B). p( B A). p( A)
p(C A, B) = p(C B)
Th. Bayes
p(C A) =
å p( C
B
p(C A) =
A, B). p( B A)
å p( C
B
B). p( B A)
Inférence : approche intuitive (suite)
A B
BC
C
A
B
E
D

B  D
E = XOR( C , D )
Calculer P(E|A=Faux) ?
Inférence : conditionnement
C
p( E = V A = F ) ?
A=F
B
E
D
B=V
B=F
C
A=F
A=F
E
B=V
C
E
B=F
D
p( E = V A = F , B = V ) * p( B = V A = F )
D
p( E = V A = F , B = F ) * p( B = F A = F )
+
Inférence : aspects théoriques




Problème NP-complet dans le cas général
Méthodes simples (réseaux sans boucles)
Méthodes « graphiques » (réseaux avec
boucles)
Méthodes approchées (réseaux de grande
taille)
Inférence dans les réseaux sans boucle
Chaîne
Arbre
Polyarbre
Principe
X
X
(
)
P X e  Amont ( X ). Aval( X )
Inférence dans les réseaux avec boucle
Transformation du
réseau bayésien
Propagation dans
l’arbre de regroupement
P(X|e)
Inférence dans le
réseau bayésien
A quoi sert un réseau bayésien ?


Inférence = raisonnement à partir de
données partielles
Exemple d’application = diagnostic


Médical
Autre : évaluation de risque, scoring, etc.
Questions
1. D’où viennent les probabilités ?
2. D’où vient le graphe
Réponses
1. Apprentissage de paramètres


La structure étant supposée connue,
Utiliser une base de cas pour déterminer
les tables de probabilités
2. Apprentissage de structure

Utiliser une base de cas pour déterminer
les arcs du réseau
Approches

Trois possibilités

Demander aux experts du domaine:


Approche statistique


Surtout valable pour le graphe
Calcul du maximum de vraisemblance
Approche bayésienne

Distribution des paramètres ou de la structure
postérieurement à l’observation des données
Exemple
Pile
Face
Comment estimer la probabilité q ?
Fréquence
p
q=
p+ f
Bayes
p(q X ( p, f )) = k. p( X ( p, f ) q ). p(q )
p(q X ( p, f )) = k .q p (1 - q ) f . p(q )
Apprentissage de paramètres

La structure est
donnée
X
Y
q1,1,1 = p( X = V )
q1,2,1 = p( X = F )
Z
q 2,1,1 = p( Y = V )
q 2,2,1 = p( Y = F )
(
)
q 3,1,2 = p( Z = V ( X = V ) ( Y = F ) )
q 3,1,3 = p( Z = V ( X = F ) ( Y = V ) )
q 3,1,4 = p( Z = V ( X = F ) ( Y = F ) )
q 3,2,1 = p( Z = F ( X = V ) ( Y = V ) )
q 3,2,2 = p( Z = F ( X = V ) ( Y = F ) )
q 3,2,3 = p( Z = F ( X = F ) ( Y = V ) )
q 3,2,4 = p( Z = F ( X = F ) ( Y = F ) )
q 3,1,1 = p Z = V ( X = V ) ( Y = V )

Le jeu de
paramètres à
estimer s’en déduit
Apprentissage statistique de paramètres


Approche
Maximum de vraisemblance
n q r
 D () = - å å å N i , j ,k . lo g(qi , j ,k )
i
i
i =1 j =1 k =1
( )
i, j
iMV
, j = arg max  D
i , j

Résultat : fréquences
qi , j , k =
MV
Ni , j ,k
Ni , j
Apprentissage bayésien de paramètres

Formule générale
(
) (
)
P  D  P D  .P()
A Posteriori = Vraisemblance. A Priori

Résultat


dépend de la probabilité a priori
Ni , j , k + i , j , k
cas de Dirichlet
MAP
qi , j , k =
Ni , j + i , j
Apprentissage statistique de structure



Contraindre la structure
Cas général : ?
Cas de l’arbre


Théorème de Chow et Liu
Arbre couvrant de poids maximal
(
)
W Xi , X j =
å
ki ,k j
 ki k j 
N  xi , x j  .log
 ki k j 
N  xi , x j 
N
( )
k
xi i
 k j 
. N x j 
Apprentissage bayésien de structure

Même principe général
M MAP = argmax P( M D)

Problème



M
Distribution des structures
Calcul de P(M|D)
Recherche (4.1018 structures possibles pour
dix variables)
Algorithme K2
L’apprentissage vu comme inférence
cas 1
modèle
cas 2
cas n
Conclusions

Avantages





Formalisme unifié
Apprentissage et apprentissage incrémental
Données incomplètes
Requêtes d’inférence multiples
Limites



Complexité : inférence et apprentissage sont NPcomplets !
Lisibilité
Probabilités ?
Exemple
Questionnaire adaptatif (Crédit en ligne)

Vendre sur Internet


Vente de crédit



Risque de déconnexion
Accélérer le processus de vente
Risque d’impayé 
Obtenir des informations sur le client
Compromis à trouver
Variable-clé = longueur du questionnaire
Démarche
âge
revenu
sitfam
sithab
ancban
nbenf

Utiliser un réseau bayésien pour :


Créer un modèle de score
Guider le questionnaire


Poser les questions les plus utiles
En fonction des réponses obtenues
score
Questionnaire adaptatif

Principe



Un score d'acceptation (proba MP) définitif est fixé (S1), par
exemple 0.06
Un score de rejet définitif est fixé (S2), par exemple 0.20
Le questionnaire adaptatif fonctionne comme suit :
TantQue la proba MP est comprise entre S1 et S2, Faire
Parmi les questions non encore posées, déterminer
celle apportant le plus d'information
Poser la question
Calculer la nouvelle proba MP
Fin TantQue
Résultats




Nombre moyen de questions posées : 9
Questionnaires complets = 35%
Nombre moyen de questions (incomplets)
=7
Erreurs = 4%


Erreur BP = 4%
Erreur MP = 4%