Transcript PPT

Séminaire national sur l’analyse des données
du recensement au Burkina Faso
Ouagadougou, 14-16 novembre 2011
Université de Ouagadougou
La régression logistique:
fondements et conditions
d’application
Jean-François KOBIANÉ
Institut Supérieur des Sciences de la Population
[email protected]
Pourquoi la régression logistique?

La régression linéaire (simple ou multiple) se
prête bien pour l’analyse d’une variable
dépendante continue (intervalle ou ratio).

En sciences sociales, il y a peu de variables de
ce type et ce que l’on tente d’expliquer se
présente souvent sous une forme dichotomique





Mariée ou non ?
En chômage ou actif ?
Vivant ou décédé ?
Vacciné ou non ?
À l’école ou non ?
 En somme: être ou ne pas être ?
Pourquoi la régression logistique?
Pourquoi la régression logistique?

Avec la régression linéaire (RLi), les valeurs prédites
seront plus grandes que 1 et plus petites que 0, au fur et
à mesure qu’on s’éloigne sur l’axe des X.

Une des hypothèses de la RLi est que la variance de Y
est constante à travers les valeurs de X
(Homoscedasticité). Ceci n’est vérifié dans la RLo, parce
que la variance est égale à PQ.

L’hypothèse de la RLi selon laquelle les erreurs de
prédiction (Y-Y’) sont normalement distribuées n’est pas
non plus tenable en RLo, puisque Y prend les valeurs 0
et 1.
Le modèle de régression logistique

Le modèle de régression logistique nous permet donc
de résoudre le problème de non-linéarité certaine dans
la relation entre notre variable dépendante et n’importe
quelle variable indépendante.

Notre variable dépendante est transformée sous forme
de probabilité. Il s’agit donc de mesurer l’effet de
certaines variables indépendantes sur une variable
dépendante qui peut essentiellement prendre les
valeurs comprises entre 0 et 1.
Le modèle de régression logistique

Supposons que nous connaissons uniquement la taille
d’un individu et que nous souhaitons prédire son sexe.
Nous pouvons raisonner en termes de probabilité
comme nous pouvons raisonner en termes de odds.
Supposons que la probabilité d’être un homme pour
une taille donnée est de 0,9.
Le modèle de régression logistique

Le odds d’être un homme dans notre exemple sera de
0,90/0,10=9. Le odds d’être une femme sera de
0,10/0,90=1/9=0,11. Il y a là une asymétrie
difficilement concevable, parce que le odds d’être un
homme devrait être l’opposé du odds d’être une
femme.

Ce problème d’asymétrie peut être résolu en recourant
au logarithme népérien (ou log naturel: ln):
ln(9/1)=2,219 alors que ln(1/9)=-2,217. Le log odds
d’être homme est exactement l’opposé du log odds
d’être femme.
Le modèle de régression logistique
Le modèle de régression logistique

En régression logistique, la variable dépendante est un
logit c’est-à-dire le log naturel du odds :

logit(P) = a + bX Relation linéaire entre le log
odds et les V.I.
Le modèle de régression logistique

Le concept de logit est difficile à se
représenter de façon concrète! On préférera
alors parler en termes de probabilités
Formalisation mathématique
(ß0 + ß1X1 + ß2X2 + ...ßzXz)
e
P(Y) = ______________________
(ß0 + ß1X1 + ß2X2 +..ßzXz)
1+e
P(Y):probabilité de la variable dépendante (entre 0 et 1);
ß0: la constante du modèle ("intercept");
ßz : coefficient pour la variable indépendante Xz.
Transformation de l’équation
1
P(Y)= __________________________
- (ß0 + ß1X1 + ß2X2 +..ßzXz)
1+e
Adéquation du modèle
Le test d’adéquation du modèle se fait à partir de la probabilité
de Chi deux. Si cette probabilité est inférieure au seuil choisi,
le modèle est adéquat. Ceci signifie que les variables
indépendantes considérées dans l’ensemble expliquent la
variation de la variable dépendante. Elles peuvent donc
prédire la valeur de Y.
On a deux modèles: le modèle saturé et le modèle pas à pas.
Le modèle saturé permet de calculer la contribution de chaque
variable indépendante au modèle.
Le modèle pas à pas permet d’identifier les mécanismes par
lesquels chacune des variables indépendantes influence la
variable étudiée.
R- Carré
Il n’ y a pas à proprement parler d’équivalent du
R2 en Rli. On calcule néanmoins un pseudo
R2.
Pseudo R2=chi-deux/(chi-deux+n)
n étant la taille de l’échantillon