Transcript CoursDM05
La classification Plan Définition et Objectifs Analyse discriminante Régression logistique Arbres de décision Réseaux bayésiens Exemple Définition et Objectifs Prévoir l’appartenance à une « classe » non observée à partir de variables observées Rappel sur la terminologie (Stat/Marketing) Applications typiques Scoring de risque Connaissant les caractéristiques individuelles d’un emprunteur, quel est le risque qu’il ne rembourse pas son crédit ? Scoring marketing A qui envoyer le mailing de lancement d’un nouveau produit ? Caractérisation Un problème supervisé (par opposition à la segmentation ou à l’association) Deux utilisations : Utilisation descriptive Descriptive : Déterminer les “règles” de séparation Décisionnelle : Attribuer un nouvelle individu à une classe. Problème de type géométrique Utilisation décisionnelle Problème de type probabiliste. La nature fondamentale du problème est un calcul de probabilité conditionnelle : P(Incident|Caractéristiques) P(RéponseMailing|…) Caractérisation (suite) Les variables observées peuvent être Qualitatives ou quantitatives La variable à prévoir est binaire (Oui/Non) ou discrète Le modèle est mis au point sur un ensemble de données où toutes les variables sont observées (y compris la classe) Exemple : Score de crédit Données : Historique de dossiers de crédit Variables explicatives : CSP, Age, Revenus, Situation Familiale, etc. Variable à prévoir : Incident de remboursement Techniques disponibles Analyse factorielle discriminante Modèle logit/probit Arbres de décision Réseaux bayésiens Réseaux neuronaux Analyse factorielle discriminante Analyse discriminante Méthode géométrique (descriptive) Basée uniquement sur une notion de distance Maximisation du rapport Inertie Interclasse / Inertie totale Principe de l’analyse discriminante Axe 2 Chercher le meilleur axe de séparation Axe 1 Axe Optimal Régression logistique Cadre théorique On suppose que la classe détermine la distribution conditionnelle des variables observées fj(x) est la densité de probabilité de x pour les individus du groupe j. Classe x1 x2 xn Observant un point de coordonnées (x1, x2, …, xp) la probabilité d’appartenir à un groupe j est pj.fj(x)/pj.fj(x) On affecte le point au groupe de probabilité a posteriori maximale, i.e. à celui pour lequel pj.fj(x) est maximal Méthodes de résolution Méthodes paramétriques On choisit une famille paramétrée de lois de probabilité pour fj(x) Les observations permettent d’estimer les paramètres Méthodes non paramétriques Variantes de la méthode du noyau Cas simple Hypothèses On considère deux classes, et f1(x) et f2(x) suivent une loi normale Les matrices de variance/covariance sont identiques pour les deux classes Résultat On peut calculer un score s(x) fonction linéaire des variables x. La probabilité d’appartenance au groupe 1 est alors p=1/(1+exp(-s(x))) La régression logistique On part de la forme obtenue précédemment p=1/(1+exp(-s(x))) Qui se transforme en : s(x)=ln(p/1-p) s(x) est une combinaison linéaire des xi s(x)=0+ 1.x1+ 1.x2+…+ 1.xn Ses coefficients i sont estimés par le MV L=∏iC1f1(xi) ∏iC2f2(xi) Arbres de décision Arbres de décision Une méthode de régression Basée sur la théorie de l’information Fonctionnant pour des variables continues ou discrètes Recherche itérative de variables discriminantes Produisant des modèles faciles à interpréter (sous forme de règles SI … ALORS … SINON) Principe Un arbre de décision est construit récursivement En recherchant à chaque fois le critère qui fait gagner le plus d’ « ordre » Utilisation d’un arbre de décision SI RA ALORS R<a? SINON La boule est bleue SI M b ALORS SINON La boule est rouge La boule est bleue Feuille Oui Ranger la boule dans la classe « bleue » Oui Rayon < a ? Non Masse < b ? Non Noeud Ranger la boule dans la classe « rouge » Ranger la boule dans la classe « bleue » Construction d’un arbre de décision Théorie de l’information (Shannon, 1948) A …AAAAAAAA… p(A)=1 p(B)=0 ?? …AABABABBA… p(A)=0.5 p(B)=0.5 Entropie S = -å pi .log( pi ) Entropie = mesure du désordre Cas de deux événements ( ) S = - p1 .log( p1 ) + p2 .log( p2 ) i S 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 10 20 30 40 50 60 70 80 90 100 P1 Algorithme C4.5 C4.5 Si E ne contient que des éléments de la même classe Terminer Sinon Trouver le test T qui fasse gagner le plus d’entropie T sépare E en E1 et E2 : Appliquer C4.5 à E1 et E2 Exemple d’arbre obtenu Si Ancienneté Bancaire = 0 Risque Elevé Sinon (Ancienneté Bancaire > 0) Si Revenus <=4 Si Allocations <=2 Si DateEmbaucheConjoint = 0 Si DateEmbauche <= 3 Risque Elevé Sinon (DateEmbauche > 3) Risque Faible Sinon (DateEmbaucheConjoint > 0) Risque Faible Si Allocations >2 Risque Elevé Sinon (Revenus > 4) Risque Faible Réseaux bayésiens Les réseaux bayésiens Introduction L’inférence ou le calcul de P(X|e) L’apprentissage ou le calcul de P Applications des réseaux bayésiens Conclusion Une représentation graphique de la causalité AB A B A B V V F V F F S’il existe une relation causale de A vers B, toute information sur A peut modifier la connaissance que j’ai de B, et, réciproquement, toute information sur B peut modifier la connaissance que j’ai de A. L’information ne circule pas seulement dans le sens des flèches Sherlock Holmes & Thomas Bayes Ce matin-là, alors que le temps est clair et sec, M. Holmes sort de sa maison. Il s’aperçoit que la pelouse de son jardin est humide. Il se demande alors s’il a plu pendant la nuit, ou s’il a simplement oublié de débrancher son arroseur automatique. Il jette alors un coup d’œil à la pelouse de son voisin, M. Watson, et s’aperçoit qu’elle est également humide. Il en déduit alors qu’il a probablement plu, et il décide de partir au travail sans vérifier son arroseur automatique Modèle de causalité A P J V AAA PPP JJJ A P J V J’ai oublié de débrancher mon arroseur automatique Il a plu pendant cette nuit L’herbe de mon jardin est humide L’herbe du jardin de mon voisin est humide S’il S’il Si a plu j’ai a plu pendant oublié pendant deladébrancher nuit, la nuit, l’herbe l’herbe mon de mon du arroseur jardin jardinautomatique, de est mon humide. voisin est l’herbe de mon également humide jardin est humide VVV Utilisation du modèle A P J A V P J La connaissance de J renforce la croyance en l’une des deux causes A ou P V La connaissance de V augmente la croyance en la cause P. Par rapport à l’état précédent, la cause A devient moins plausible Le cas général X Z Y X Z Y X Z Y Connexion convergente X et Y causent Z Connexion en série X cause Z, Z cause Y Connexion divergente X Z Y Z cause X et Y. Circulation de l’information (1) X Z X Z0 Y X ? Y Y L’information ne peut circuler de X à Y que si Z est connu. X = tremblement de terre Y = cambriolage Z = alarme Circulation de l’information (2) X Z X ? Y X Z0 Y Y L’information ne peut circuler de X à Y que si Z n’est pas connu. X = ensoleillement Y = prix du blé Z = récolte Circulation de l’information (3) X Z X ? Y X Z0 Y Y L’information ne peut circuler de X à Y que si Z n’est pas connu. X = la pelouse de mon jardin est humide Y = la pelouse de mon voisin est humide Z = il a plu cette nuit. d-séparation (blocage) On dira que X et Y sont d-séparés par Z si pour tous les chemins entre X et Y, l’une au moins des deux conditions suivantes est vérifiée : Le chemin converge en un nœud W, tel que WZ, et W n’est pas une cause directe de Z. Le chemin passe par Z, et est soit divergent, soit en série au nœud Z. On notera X|Z|Y d-séparation : exemple A|B|D : Le chemin A-B-D est en série en B ( B ). B A E G Le chemin A-C-D est convergent en C ( C ). A|D|E : D Tous les chemins de A à E passent par D. C F Le chemin A-B-D-E est en série en D (B D E). Le chemin A-C-D-E est divergent en D (C D E). Une représentation probabiliste associée • • • • Un nœud = une variable aléatoire Si A n’a aucune cause directe, nous devrons définir p(A), c’està-dire les deux nombres p(A=Vrai) et p(A=Faux). Si B a une seule cause directe A, nous devrons définir p(B|A), c’est-à-dire les quatre nombres p(B=V|A=V), , etc. Si C a deux causes directes A et B nous devrons définir p(C|A,B), c’est-à-dire les huit nombres p(C=V|A=V, B=V) , etc. Retour à l’exemple (1) A P J V Probabilités inconditionnelles Evénement A =V A= F P =V P= F Probabilité 0.4 0.6 0.4 0.6 Commentaire M. Holmes oublie assez souvent de débrancher son arroseur automatique La région est relativement pluvieuse Retour à l’exemple (2) A Probabilités conditionnelles P J A =V V P =V J =V J =F 1 0 A=F P=F 1 0 P =V 1 0 P =V V =V V =F 1 0 P=F 0 1 P=F 0 1 Retour à l’exemple (3) Ce matin-là, alors que le temps est clair et sec, M. Holmes sort de sa maison. Il s’aperçoit que la pelouse de son jardin est humide. Il se demande alors s’il a plu pendant la nuit, ou s’il a simplement oublié de débrancher son arroseur automatique. Il jette alors un coup d’œil à la pelouse de son voisin, M. Watson, et s’aperçoit qu’elle est également humide. Il en déduit alors qu’il a probablement plu, et il décide de partir au travail sans vérifier son arroseur automatique. Comparer p(A=V|J=V) et p(P=V|J=V) 0.625 0.625 Comparer p(A=V|J=V, V=V) et p(P=V|J=V, V=V) 0.4 1 Retour à l’exemple (4) A et P sont d-séparés Si J est connu, l’information peut circuler de A à P (AJP est une connexion convergente) A P J V A et P sont indépendants P(A=F et P=F|J=V) = 0 P(A=F|J=V) = 0.375 P(P=F|J=V) = 0.375 A et P ne sont pas indépendants conditionnellement à J Résumé La transposition d’un graphe causal en espace probabilisé conduit à des résultats conformes au raisonnement intuitif que l’on peut mener directement sur ce graphe Ces résultats sont quantitatifs Les calculs mis en œuvre, même sur des cas très simples, sont lourds Les propriétés graphiques (d-séparation) peuvent être mises en correspondance avec les propriétés d’indépendance de l’espace probabilisé associé. Réseaux bayésiens : définition Un réseau bayésien est défini par un graphe acyclique orienté G = (V,E) , où V est l’ensemble des nœuds de G, et E l’ensemble des arcs de G un espace probabilisé fini (W, Z,P) un ensemble de variables aléatoires correspondant aux nœuds du graphe, telles que p(V1,V2 ,...,Vn ) = i =1,n p(Vi C(Vi )) Théorème fondamental Soit B=(G,P) un réseau bayésien Si X, Y, Z sont des ensembles de nœuds tels que X et Y sont d-séparés dans G par Z, alors X et Y sont indépendants conditionnellement à Z Inférence dans les réseaux bayésiens Inférence = Révision des probabilités Calculer P(X|e) La complexité dépend de la complexité du réseau Inférence : approche intuitive A B C déf RB déf Cond Cas d’une chaîne Calculer P(C|A=Vrai) ? p( A, B, C) = p(C B). p( B A). p( A) p( A, B, C) = p(C A, B). p( B A). p( A) p(C A, B) = p(C B) Th. Bayes p(C A) = å p( C B p(C A) = A, B). p( B A) å p( C B B). p( B A) Inférence : approche intuitive (suite) A B BC C A B E D B D E = XOR( C , D ) Calculer P(E|A=Faux) ? Inférence : conditionnement C p( E = V A = F ) ? A=F B E D B=V B=F C A=F A=F E B=V C E B=F D p( E = V A = F , B = V ) * p( B = V A = F ) D p( E = V A = F , B = F ) * p( B = F A = F ) + Inférence : aspects théoriques Problème NP-complet dans le cas général Méthodes simples (réseaux sans boucles) Méthodes « graphiques » (réseaux avec boucles) Méthodes approchées (réseaux de grande taille) Inférence dans les réseaux sans boucle Chaîne Arbre Polyarbre Principe X X ( ) P X e Amont ( X ). Aval( X ) Inférence dans les réseaux avec boucle Transformation du réseau bayésien Propagation dans l’arbre de regroupement P(X|e) Inférence dans le réseau bayésien A quoi sert un réseau bayésien ? Inférence = raisonnement à partir de données partielles Exemple d’application = diagnostic Médical Autre : évaluation de risque, scoring, etc. Questions 1. D’où viennent les probabilités ? 2. D’où vient le graphe Réponses 1. Apprentissage de paramètres La structure étant supposée connue, Utiliser une base de cas pour déterminer les tables de probabilités 2. Apprentissage de structure Utiliser une base de cas pour déterminer les arcs du réseau Approches Trois possibilités Demander aux experts du domaine: Approche statistique Surtout valable pour le graphe Calcul du maximum de vraisemblance Approche bayésienne Distribution des paramètres ou de la structure postérieurement à l’observation des données Exemple Pile Face Comment estimer la probabilité q ? Fréquence p q= p+ f Bayes p(q X ( p, f )) = k. p( X ( p, f ) q ). p(q ) p(q X ( p, f )) = k .q p (1 - q ) f . p(q ) Apprentissage de paramètres La structure est donnée X Y q1,1,1 = p( X = V ) q1,2,1 = p( X = F ) Z q 2,1,1 = p( Y = V ) q 2,2,1 = p( Y = F ) ( ) q 3,1,2 = p( Z = V ( X = V ) ( Y = F ) ) q 3,1,3 = p( Z = V ( X = F ) ( Y = V ) ) q 3,1,4 = p( Z = V ( X = F ) ( Y = F ) ) q 3,2,1 = p( Z = F ( X = V ) ( Y = V ) ) q 3,2,2 = p( Z = F ( X = V ) ( Y = F ) ) q 3,2,3 = p( Z = F ( X = F ) ( Y = V ) ) q 3,2,4 = p( Z = F ( X = F ) ( Y = F ) ) q 3,1,1 = p Z = V ( X = V ) ( Y = V ) Le jeu de paramètres à estimer s’en déduit Apprentissage statistique de paramètres Approche Maximum de vraisemblance n q r D () = - å å å N i , j ,k . lo g(qi , j ,k ) i i i =1 j =1 k =1 ( ) i, j iMV , j = arg max D i , j Résultat : fréquences qi , j , k = MV Ni , j ,k Ni , j Apprentissage bayésien de paramètres Formule générale ( ) ( ) P D P D .P() A Posteriori = Vraisemblance. A Priori Résultat dépend de la probabilité a priori Ni , j , k + i , j , k cas de Dirichlet MAP qi , j , k = Ni , j + i , j Apprentissage statistique de structure Contraindre la structure Cas général : ? Cas de l’arbre Théorème de Chow et Liu Arbre couvrant de poids maximal ( ) W Xi , X j = å ki ,k j ki k j N xi , x j .log ki k j N xi , x j N ( ) k xi i k j . N x j Apprentissage bayésien de structure Même principe général M MAP = argmax P( M D) Problème M Distribution des structures Calcul de P(M|D) Recherche (4.1018 structures possibles pour dix variables) Algorithme K2 L’apprentissage vu comme inférence cas 1 modèle cas 2 cas n Conclusions Avantages Formalisme unifié Apprentissage et apprentissage incrémental Données incomplètes Requêtes d’inférence multiples Limites Complexité : inférence et apprentissage sont NPcomplets ! Lisibilité Probabilités ? Exemple Questionnaire adaptatif (Crédit en ligne) Vendre sur Internet Vente de crédit Risque de déconnexion Accélérer le processus de vente Risque d’impayé Obtenir des informations sur le client Compromis à trouver Variable-clé = longueur du questionnaire Démarche âge revenu sitfam sithab ancban nbenf Utiliser un réseau bayésien pour : Créer un modèle de score Guider le questionnaire Poser les questions les plus utiles En fonction des réponses obtenues score Questionnaire adaptatif Principe Un score d'acceptation (proba MP) définitif est fixé (S1), par exemple 0.06 Un score de rejet définitif est fixé (S2), par exemple 0.20 Le questionnaire adaptatif fonctionne comme suit : TantQue la proba MP est comprise entre S1 et S2, Faire Parmi les questions non encore posées, déterminer celle apportant le plus d'information Poser la question Calculer la nouvelle proba MP Fin TantQue Résultats Nombre moyen de questions posées : 9 Questionnaires complets = 35% Nombre moyen de questions (incomplets) =7 Erreurs = 4% Erreur BP = 4% Erreur MP = 4%