Courbe de performance

Download Report

Transcript Courbe de performance

Scoring
Séance II
Rappel de la modélisation sur un exemple
- Y : variable dichotomique Bon/Mauvais avec un
horizon à 24 mois
- X : variables explicatives (âge, revenu,…)
- Population d’estimation: crédits accordés de
2001 à 2004
- Modélisation Logistique
Plan
1- Travail sur les variables : X et Y
2- Mesure de la qualité d’un score
a-Courbe de performance et courbe de sélection
b- Propriétés
c- Comparaison de courbes de performance
d- Courbe de discrimination
3- Performance pour un établissement de crédit
1- Travail sur les variables explicatives
a- Découpages des variables quantitatives
Objectif:
- délinéariser
Moyens:
- Transformation des variables quantitatives en variables
dichotomiques
- Découpage selon des critères de risques (critère de
variance, Belson, Qui-Deux)
1- Travail sur les variables explicatives
a- Découpages des variables quantitatives
1- Travail sur les variables explicatives
b- Regroupement des modalités des var. qualitatives
Objectif:
- Réduire le nombre de modalités des variables qualitatives
afin de rendre l’estimation plus robuste
Moyens:
- Selon une logique subjective: instituteur avec professeur
- Selon un taux de risque: si l’intervalle de confiance des
taux de risques est faible
- Selon le profil selon toutes les autres variables
1- Travail sur les variables explicatives
c- Sélection des variables à mettre dans le modèle
Objectif:
- Mettre un minimum de variables dans le modèle afin de simplifier et de rendre
le modèle plus robuste
Moyens:
- Sélection Backward:
- Etape 1: estimation d’un modèle avec toutes les variables disponibles.
- Etape 2: calcul de la significativité de chaque variable.
- Etape 3: suppression des variables disponibles de la moins significative.
Retour à l’étape 1 si un seuil de significativité n’est pas attend (5%, 1%,…)
-
Sélection Foreward
- Etape 1: on estime tous les modèles à une variable en plus des variables imposées
- Etape 2: on calcul la performance de tous les modèles
- Etape 3: on impose en plus la variable qui donne le meilleure modèle
Retour à l’étape 1 si un seuil de gain de performance est atteint (5%, 1%)
1- Travail sur les variables explicatives
d- Sélection des croisements de variables
Objectif:
- Trouver des liens non additifs
- Décorréler le modèle
Moyens:
- Sélection subjective:
- Exemple: (Revenu-Charges) / (Nb de personnes dans le foyer)
- Exemple: Situation familiale et âge et nb d’enfants
-
Recherche automatique
- Analyse du gain marginal de performance de chaque croisement par
rapport au modèle avec les variables seules
- Analyse de la matrice de corrélation des variables explicatives entre elles.
2- Mesure de la qualité d’un score
Rappel des objectifs:
- Classer les individus
- Discriminer les bons des mauvais
- Définir un seuil d’acceptation
- Arbitrer entre risques et volume
2- Mesure de la qualité d’un score
a- Courbe de performance et courbe de sélection
Courbe de performance:
La courbe de performance du score S est définie par l’équation
paramétrique:
- x(s)=P(S ≥ s)
- y(s)=P(Y=0/S ≥ s)/P(Y=0)
On note y=p(x) l’équation implicite.
y(s) représente la proportion relative de défaillants sélectionnés
Courbe de sélection
- x(s)=P(S ≥ s)
- y(s)=P(S ≥ s/Y=0)
On note y=s(x) l’équation implicite
y(s) représente la proportion conditionnelle de défaillants sélectionnés
Rque: s(x)=P(S ≥ s/Y=0)=P(Y=0/S ≥ s)P(S ≥ s)/P(Y=0)=x p(x)
La courbe de sélection est souvent préférée car plus interprétable.
2- Mesure de la qualité d’un score
b- Propriétés
Propriété 1: La courbe de sélection (resp. performance) est indépendante
de la représentation retenue pour le score (ex: Xß, 1/(1+exp(Xß))) :
Dém: soit h strictement croissante et S*=h(S). Alors la courbe de performance associée à
S* a pour équation paramétrique:
- x*(s)=P(S* ≥ s)=x(h-1(s))=x(s*)
- y*(s)=y(h-1(s))=P(Y=0/S ≥h-1(s))P(Y=0)=y(s*)
La courbe de sélection (resp. de performance) regarde la qualité du
classement, elle est invariante par transformation bijective
Autres propriétés de la courbe de sélection:
- La courbe est dans le carré [0,1] x [0,1]
- La courbe est croissante: plus bas est le seuil moins accepte de mauvais
- La courbe passe par (0,0): si on n’accepte personne, on n’accepte pas de
mauvais
- La courbe passe par (1,1): si on accepte tout le monde, on accepte tous les
mauvais
2- Mesure de la qualité d’un score
b- Exemple
Courbe de sélection
1
Taux de mauvais accepté
0,9
0,8
0,7
0,6
Hasard
0,5
Courbe 1
0,4
0,3
0,2
0,1
0
0
0,2
0,4
0,6
Taux d'acceptation
0,8
1-P(Y=0)
1
2- Mesure de la qualité d’un score
c- Comparaison des Courbes de sélection
Remarque: Les courbes de sélection dépendent à la fois du score S
considéré, de la population sur laquelle on l’évalue et du critère Y.
-
Application d’un score sur des populations différentes:
-
-
Application de différents scores:
-
-
Population de test et de construction
Par génération de production
Ancien et nouveau scores
Selon le seuil de sélection des variables
Selon les variables utilisées
Application sur différents critères Y:
-
Critère 3 incidents de paiements ou Critère contentieux (Cf. partie 3)
Comparaison: Le score S* est plus performant sur la population Pop* que le
score S^ sur la population Pop^ ssi la courbe de sélection de (S*,Pop*) est
en dessous de (S^, Pop^).
Remarque: Cette comparaison est une relation d’ordre partiel. Si les scores
sont non comparables, il faut faire intervenir le seuil d’acceptation.
2- Mesure de la qualité d’un score
c- Comparaison des Courbes de sélection
Scores non comparables
1
1
0,9
0,9
0,8
0,8
0,7
0,6
Hasard
0,5
Courbe 1
0,4
Courbe 2
0,3
0,2
Taux de mauvais accepté
Taux de mauvais accepté
Scores comparables
0,7
0,6
Hasard
0,5
Courbe 1
0,4
Courbe 2
0,3
0,2
0,1
0,1
0
0
0
0,2
0,4
0,6
Taux d'acceptation
0,8
1
0
0,2
0,4
0,6
Taux d'acceptation
0,8
1
2- Mesure de la qualité d’un score
d- Mesure synthétique de la performance
Indice de Gini:
C’est le rapport entre la qualité du score S mesurée comme la surface sous la
bissectrice et la performance du score idéal.
Gini= Surf1 / Surf2
Courbe de sélection
1
Taux de mauvais accepté
0,9
0,8
0,7
0,6
Hasard
0,5
Courbe 1
0,4
0,3
0,2
0,1
0
0
0,2
0,4
0,6
Taux d'acceptation
0,8 1-P(Y=0)
1
2- Mesure de la qualité d’un score
d- Mesure synthétique de la performance
Adéquation à la loi logistique:
On calcule sur des intervalles de X ß:
x= moyenne sur l’intervalle de (X ß)
y= ln (P1 / (1-P1) ) avec P1=moyenne sur l’intervalle de P (Y=1/ X ß)
Pour mémoire, on a posé: P(Y=1/ X ß) = 1/( 1+exp(-X ß) )
La courbe doit se rapprocher d’une droite.
2- Mesure de la qualité d’un score
e- Courbes de Discrimination
On regarde les lois conditionnelles des scores sachant les valeurs de Y:
- f0(s) densité de S sachant Y=0
- G0(s) fonction de répartition de S sachant Y=0
- f1(s) densité de S sachant Y=1
- G1(s) fonction de répartition de S sachant Y=1
Courbe de discrimination:
- x(s)= G1(s) pourcentage de bon refusé
- y(s)= G0(s) pourcentage de mauvais refusé
Un autre indice synthétique de performance:
La statistique de Kolmogorov-Smirnov : KS=Max sur s de (G0(s) – G1(s))
Comparaison: un score (S*,Pop*) est plus discriminant qu’un score (S^, Pop^)
ssi il se trouve au dessus. C’est une relation d’ordre partielle.
Remarque: un score qui est plus discriminant qu’un autre est également plus
performant.
2- Mesure de la qualité d’un score
e- Courbes de Discrimination
Courbe de Discrimination
1
Taux de mauvais refusés
0,9
0,8
0,7
0,6
Hasard
0,5
Courbe 1
0,4
0,3
0,2
0,1
0
0
0,2
0,4
0,6
Taux de bon refusés
0,8
1
3- Performance pour un établissement de Crédit
En variant les critères de risque
Nombre
Latence
d’observation
Pertinence
Incidents légers
1 mois de retard
++++
++++
+
Incidents lourds
3 mois de retard
+++
+++
++
++
++
+++
+
+
++++
Contentieux
Perte
 On estime sur les incidents lourds mais on vérifie la performance sur les
contentieux et les pertes.
 L’estimation et la mesure de performance se font sur des critères différents car il
faut un nb minimum de réalisations observées supérieure pour l’estimation.
3- Performance pour un établissement de Crédit
En variant les critères marketing
Nombre
Pertinence
Demande de
Documentation
++
+
Prise de produit
+
++
 On estime sur les demandes de documentations mais on mesure la performance
sur la prise de produit
3- Performance pour un établissement de Crédit
En variant les horizons d’observation
Question: est ce que mon score est performant pour prévoir les risques proches et
lointains?
 Mesure de performance sur des taux de mauvais à 1 an, 2 an, 3 an, 4 an,…
En variant les générations
Question: est ce que mon score est performant pour toutes les générations de production?
Crédit produit en 2000, 2001, … 2005
 Mesure de performance par génération de production
 Détection des effets produits, temporels, commerciaux
3- Performance pour un établissement de Crédit
En variant les variables
Question: est ce que je peux garder la même performance mais avec des variables plsu
stables/robustes? Exemple: âge versus CSP.
 Mesure de performance en variant les variables explicatives