Courbe de performance
Download
Report
Transcript Courbe de performance
Scoring
Séance II
Rappel de la modélisation sur un exemple
- Y : variable dichotomique Bon/Mauvais avec un
horizon à 24 mois
- X : variables explicatives (âge, revenu,…)
- Population d’estimation: crédits accordés de
2001 à 2004
- Modélisation Logistique
Plan
1- Travail sur les variables : X et Y
2- Mesure de la qualité d’un score
a-Courbe de performance et courbe de sélection
b- Propriétés
c- Comparaison de courbes de performance
d- Courbe de discrimination
3- Performance pour un établissement de crédit
1- Travail sur les variables explicatives
a- Découpages des variables quantitatives
Objectif:
- délinéariser
Moyens:
- Transformation des variables quantitatives en variables
dichotomiques
- Découpage selon des critères de risques (critère de
variance, Belson, Qui-Deux)
1- Travail sur les variables explicatives
a- Découpages des variables quantitatives
1- Travail sur les variables explicatives
b- Regroupement des modalités des var. qualitatives
Objectif:
- Réduire le nombre de modalités des variables qualitatives
afin de rendre l’estimation plus robuste
Moyens:
- Selon une logique subjective: instituteur avec professeur
- Selon un taux de risque: si l’intervalle de confiance des
taux de risques est faible
- Selon le profil selon toutes les autres variables
1- Travail sur les variables explicatives
c- Sélection des variables à mettre dans le modèle
Objectif:
- Mettre un minimum de variables dans le modèle afin de simplifier et de rendre
le modèle plus robuste
Moyens:
- Sélection Backward:
- Etape 1: estimation d’un modèle avec toutes les variables disponibles.
- Etape 2: calcul de la significativité de chaque variable.
- Etape 3: suppression des variables disponibles de la moins significative.
Retour à l’étape 1 si un seuil de significativité n’est pas attend (5%, 1%,…)
-
Sélection Foreward
- Etape 1: on estime tous les modèles à une variable en plus des variables imposées
- Etape 2: on calcul la performance de tous les modèles
- Etape 3: on impose en plus la variable qui donne le meilleure modèle
Retour à l’étape 1 si un seuil de gain de performance est atteint (5%, 1%)
1- Travail sur les variables explicatives
d- Sélection des croisements de variables
Objectif:
- Trouver des liens non additifs
- Décorréler le modèle
Moyens:
- Sélection subjective:
- Exemple: (Revenu-Charges) / (Nb de personnes dans le foyer)
- Exemple: Situation familiale et âge et nb d’enfants
-
Recherche automatique
- Analyse du gain marginal de performance de chaque croisement par
rapport au modèle avec les variables seules
- Analyse de la matrice de corrélation des variables explicatives entre elles.
2- Mesure de la qualité d’un score
Rappel des objectifs:
- Classer les individus
- Discriminer les bons des mauvais
- Définir un seuil d’acceptation
- Arbitrer entre risques et volume
2- Mesure de la qualité d’un score
a- Courbe de performance et courbe de sélection
Courbe de performance:
La courbe de performance du score S est définie par l’équation
paramétrique:
- x(s)=P(S ≥ s)
- y(s)=P(Y=0/S ≥ s)/P(Y=0)
On note y=p(x) l’équation implicite.
y(s) représente la proportion relative de défaillants sélectionnés
Courbe de sélection
- x(s)=P(S ≥ s)
- y(s)=P(S ≥ s/Y=0)
On note y=s(x) l’équation implicite
y(s) représente la proportion conditionnelle de défaillants sélectionnés
Rque: s(x)=P(S ≥ s/Y=0)=P(Y=0/S ≥ s)P(S ≥ s)/P(Y=0)=x p(x)
La courbe de sélection est souvent préférée car plus interprétable.
2- Mesure de la qualité d’un score
b- Propriétés
Propriété 1: La courbe de sélection (resp. performance) est indépendante
de la représentation retenue pour le score (ex: Xß, 1/(1+exp(Xß))) :
Dém: soit h strictement croissante et S*=h(S). Alors la courbe de performance associée à
S* a pour équation paramétrique:
- x*(s)=P(S* ≥ s)=x(h-1(s))=x(s*)
- y*(s)=y(h-1(s))=P(Y=0/S ≥h-1(s))P(Y=0)=y(s*)
La courbe de sélection (resp. de performance) regarde la qualité du
classement, elle est invariante par transformation bijective
Autres propriétés de la courbe de sélection:
- La courbe est dans le carré [0,1] x [0,1]
- La courbe est croissante: plus bas est le seuil moins accepte de mauvais
- La courbe passe par (0,0): si on n’accepte personne, on n’accepte pas de
mauvais
- La courbe passe par (1,1): si on accepte tout le monde, on accepte tous les
mauvais
2- Mesure de la qualité d’un score
b- Exemple
Courbe de sélection
1
Taux de mauvais accepté
0,9
0,8
0,7
0,6
Hasard
0,5
Courbe 1
0,4
0,3
0,2
0,1
0
0
0,2
0,4
0,6
Taux d'acceptation
0,8
1-P(Y=0)
1
2- Mesure de la qualité d’un score
c- Comparaison des Courbes de sélection
Remarque: Les courbes de sélection dépendent à la fois du score S
considéré, de la population sur laquelle on l’évalue et du critère Y.
-
Application d’un score sur des populations différentes:
-
-
Application de différents scores:
-
-
Population de test et de construction
Par génération de production
Ancien et nouveau scores
Selon le seuil de sélection des variables
Selon les variables utilisées
Application sur différents critères Y:
-
Critère 3 incidents de paiements ou Critère contentieux (Cf. partie 3)
Comparaison: Le score S* est plus performant sur la population Pop* que le
score S^ sur la population Pop^ ssi la courbe de sélection de (S*,Pop*) est
en dessous de (S^, Pop^).
Remarque: Cette comparaison est une relation d’ordre partiel. Si les scores
sont non comparables, il faut faire intervenir le seuil d’acceptation.
2- Mesure de la qualité d’un score
c- Comparaison des Courbes de sélection
Scores non comparables
1
1
0,9
0,9
0,8
0,8
0,7
0,6
Hasard
0,5
Courbe 1
0,4
Courbe 2
0,3
0,2
Taux de mauvais accepté
Taux de mauvais accepté
Scores comparables
0,7
0,6
Hasard
0,5
Courbe 1
0,4
Courbe 2
0,3
0,2
0,1
0,1
0
0
0
0,2
0,4
0,6
Taux d'acceptation
0,8
1
0
0,2
0,4
0,6
Taux d'acceptation
0,8
1
2- Mesure de la qualité d’un score
d- Mesure synthétique de la performance
Indice de Gini:
C’est le rapport entre la qualité du score S mesurée comme la surface sous la
bissectrice et la performance du score idéal.
Gini= Surf1 / Surf2
Courbe de sélection
1
Taux de mauvais accepté
0,9
0,8
0,7
0,6
Hasard
0,5
Courbe 1
0,4
0,3
0,2
0,1
0
0
0,2
0,4
0,6
Taux d'acceptation
0,8 1-P(Y=0)
1
2- Mesure de la qualité d’un score
d- Mesure synthétique de la performance
Adéquation à la loi logistique:
On calcule sur des intervalles de X ß:
x= moyenne sur l’intervalle de (X ß)
y= ln (P1 / (1-P1) ) avec P1=moyenne sur l’intervalle de P (Y=1/ X ß)
Pour mémoire, on a posé: P(Y=1/ X ß) = 1/( 1+exp(-X ß) )
La courbe doit se rapprocher d’une droite.
2- Mesure de la qualité d’un score
e- Courbes de Discrimination
On regarde les lois conditionnelles des scores sachant les valeurs de Y:
- f0(s) densité de S sachant Y=0
- G0(s) fonction de répartition de S sachant Y=0
- f1(s) densité de S sachant Y=1
- G1(s) fonction de répartition de S sachant Y=1
Courbe de discrimination:
- x(s)= G1(s) pourcentage de bon refusé
- y(s)= G0(s) pourcentage de mauvais refusé
Un autre indice synthétique de performance:
La statistique de Kolmogorov-Smirnov : KS=Max sur s de (G0(s) – G1(s))
Comparaison: un score (S*,Pop*) est plus discriminant qu’un score (S^, Pop^)
ssi il se trouve au dessus. C’est une relation d’ordre partielle.
Remarque: un score qui est plus discriminant qu’un autre est également plus
performant.
2- Mesure de la qualité d’un score
e- Courbes de Discrimination
Courbe de Discrimination
1
Taux de mauvais refusés
0,9
0,8
0,7
0,6
Hasard
0,5
Courbe 1
0,4
0,3
0,2
0,1
0
0
0,2
0,4
0,6
Taux de bon refusés
0,8
1
3- Performance pour un établissement de Crédit
En variant les critères de risque
Nombre
Latence
d’observation
Pertinence
Incidents légers
1 mois de retard
++++
++++
+
Incidents lourds
3 mois de retard
+++
+++
++
++
++
+++
+
+
++++
Contentieux
Perte
On estime sur les incidents lourds mais on vérifie la performance sur les
contentieux et les pertes.
L’estimation et la mesure de performance se font sur des critères différents car il
faut un nb minimum de réalisations observées supérieure pour l’estimation.
3- Performance pour un établissement de Crédit
En variant les critères marketing
Nombre
Pertinence
Demande de
Documentation
++
+
Prise de produit
+
++
On estime sur les demandes de documentations mais on mesure la performance
sur la prise de produit
3- Performance pour un établissement de Crédit
En variant les horizons d’observation
Question: est ce que mon score est performant pour prévoir les risques proches et
lointains?
Mesure de performance sur des taux de mauvais à 1 an, 2 an, 3 an, 4 an,…
En variant les générations
Question: est ce que mon score est performant pour toutes les générations de production?
Crédit produit en 2000, 2001, … 2005
Mesure de performance par génération de production
Détection des effets produits, temporels, commerciaux
3- Performance pour un établissement de Crédit
En variant les variables
Question: est ce que je peux garder la même performance mais avec des variables plsu
stables/robustes? Exemple: âge versus CSP.
Mesure de performance en variant les variables explicatives