Howell: chapitre 15 (pp. 509-543)

Download Report

Transcript Howell: chapitre 15 (pp. 509-543)

Objectifs du chapitre sur la
régression
 Comprendre ce qu’est une
régression simple et multiple
 Savoir calculer la RPE, l’ordonnée et
la pente de régressions simple et
double
 Savoir interpréter la RPE, l’ordonnée
et la pente de régression simple et
multiple
 Comprendre les conditions
d’application de la régression
Une autre façon de
représenter une
association:
la droite
de régression
 Dans
les graphiques
de dispersion:
 un nuage de points
 à travers duquel peut passer
une droite qui le résume
 cette droite passe par
l’ordonnée (coupe l’axe des Y)
 soit une autre façon d’exprimer
une relation
 qui suppose des
transformations effectives
30
20
10
niveau scolaire
6,00
0
4,00
2,00
-10
Total Population
0
10
20
score au WRAT 3
30
40
50
60
La droite de régression (1)
 est une relation univoque:
contrairement à la corrélation
Y = f(X) = a + b(X)
où X est conçu comme causant Y
 s’exprime par 2 paramètres:
 ordonnée
_
_
a  Y b X
 pente
b
yx

Co var
s
2
x
xy

X Y

 XY 
N
 X


2
X
2
N
Lien entre la régression simple
et la corrélation bivariée
pour le calcul
 pente
Co
var
b 
s
yx
2
x
xy
s
r

s
xy
y
x
 pente standardisée
b
s
β r 
s
yx
yx
x
xy
y
La droite de régression (2)
 permet de calculer des valeurs
prédites
(intraet extra-polation danger!)
^
Y  a  b(X)
La droite de régression
définit 2 sources de
variation de Y
 la variance totale originale de Y:




  Yi Y 
N1
_
2
 la variance résiduelle de Y suite à sa
prédiction par X:




  Yi Y 
N1
^
2
Pour chaque valeur de Y par
rapport à l’axe des X
Soit un Y
observé de 18
(X = 40)
18
16
14
12
Sa moyenne
est 13,1
10
8
6
4
2
0
40
Sa valeur prédite est 16,6
selon l’équation de régression
Pluriel = -,201 + .420 Lecture
Chaque Y se décompose en
3 morceaux
20
18
16
14
résidu
12
10
8
6
4
2
0
moyenneprédiction
0-moyenne
Le calcul de régression …
 détermine une droite qui
 soit est identique
à la droite de la moyenne
 soit en dévie de façon
systématique
_
Y



  Yi Y 
^
 ceci fait que plus
2
_ 2
sera petit


par rapport à   Yi  Y 
meilleure sera la prédiction
Quand il y a une seule
variable prédictrice
(un seul X)
 la RPE (Réduction Proportionnelle de
l’Erreur de prédiction) se détermine
 soit par la corrélation
(au carré)
RPE 
r xy
2
 soit par la droite de régression
(conceptuellement)
^
Y  a  b(X)
Interprétation de la
régression simple
 RPE
% d’explication ou de prédiction empirique
de la variable dépendante Y
 Les éléments de la droite de régression
 a: ordonnée
la valeur de Y quand X = 0
si cela signifie quelque chose
 b: pente
quantité de changement de Y
par unité de changement de X,
Note: quand il s’agit de β,
l’unité de changement est l’écart-type
Données du problème 9.1
% naiss. à fertilité
risque
Somme
% naiss. non
mariées
6,1
7,1
7,4
43,0
55,3
48,5
9,2
12,0
10,4
6,3
38,8
9,8
6,5
5,7
6,6
46,2
39,9
43,1
9,8
7,7
10,9
8,1
6,3
6,9
48,5
40,0
56,7
9,5
11,6
11,6
Les produits croisés
Somme
YX1
YX2
X1X2
262,30
392,63
358,90
244,44
300,30
227,43
284,46
392,85
252,00
391,23
56,12
85,20
76,96
61,74
63,70
43,89
71,94
76,95
73,08
80,04
395,60
663,60
504,40
380,24
452,76
307,23
469,79
460,75
464,00
657,72
Les carrés des données
Somme
Y2
X12
X22
37,21
50,41
54,76
39,69
42,25
32,49
43,56
65,61
39,69
47,61
1849,00
3058,09
2352,25
1505,44
2134,44
1592,01
1857,61
2352,25
1600,00
3214,89
84,64
144,00
108,16
96,04
96,04
59,29
118,81
90,25
134,56
134,56
De la régression simple à la
régression multiple…
 La RPE sera toujours égale à
 SC
SC
RPE 
 1  SC
SC
SC
y
résid .
résid .
y
y
 La droite
de _régression
(multiple)
_
_
_
a  Y bi Xi  b j X j ...  bk Xk
2
b
yx 1. x 2
Co var s

s s
x 1y
2
x1
x2
2
 Co var x 2 y Co varx1x 2
 Co varx1x 2 
x2
2
Étapes du calcul de la
régression double (1)
 Les formules
2
b
yx 1. x 2
Co var s

s s
x 1y
x2
2
2
x1
_
 Co var x 2 y Co var x1x 2
 Co var x1x 2 
x2
2
_
_
a  Y b1 X 1  b 2 X 2
Étapes du calcul de la
régression double (2)
 Application de la formule de la
pente


 
2

 X1 Y   2  X  

 X 2  Y  
 X 1  X 2  
2

  X1Y 
   X2 
    X 2 Y  N   X 1X 2 
N 




N
N





byx1.x2
2
2
2






X
X




X
X
 2
 2
 
 1 2 
1
2


X
X


 

  X1 
  X 2 
  1 2
N 






N 
N 

 
 
Étapes du calcul de la
régression double (3)
 Application de la formule de la
pente en 5 morceaux
Co var
x 1y
 X 1  Y  

   X 1Y 

N





 







X
2
2

2
2 

X2 
sx 2
 sx 1  


N


 X 2  Y  


Co varx2 y    X 2 Y 
N

Co var
x 1x 2
2





X
2
1 
X 
2
1
N

 X 1  X 2  

   X 1X 2 

N






Étapes du calcul de la
régression double (4)
 La formule pour la pente de X2 et Y
2
b
yx 2. x 1
Co var s

s s
x2y
2
x1
x1
 Co varx1y Co var x1x 2
 Co var x1x 2 
x2
2
2
on ne fait qu’inverser la position de 1 et 2,
mais ce sont les mêmes termes
Données
Chômage Année
Moyenne
Prod. Industr.
3,1
1,9
1950
1951
113
123
1,7
1,6
3,2
1952
1953
1954
127
138
130
2,7
2,6
2,9
4,7
3,8
2,8
1955
1956
1957
1958
1959
1954,5
146
151
152
141
159
138
Les produits croisés des
données
AxC
Somme
PIxC
AxPI
0
1,9
3,4
350,3
233,7
215,9
0
123
254
4,8
12,8
13,5
15,6
220,8
416,0
394,2
392,6
414
520
730
906
20,3
440,8
1064
37,6
34,2
144,1
662,7
604,2
3931,2
1128
1431
6570
Les carrés des données
Chômage Année
Somme
Prod. Industr.
9,61
3,61
0
1
12769
15129
2,89
2,56
10,24
4
9
16
16129
19044
16900
7,29
6,76
8,41
22,09
14,44
87,90
25
36
49
64
81
285
21316
22801
23104
19881
25281
192354
Calcul de l’exemple (3)
 Appliquons les calculs dans la formule
2
b
yx1.x2
Covar s

s s
x1y
2
x1
x2
2
x2
 Covar x2y Covar x1x2
 Covar x1x2 
2

Calcul de l’exemple (4)
 Oui, mais la pente de X2 et Y?
 Covar Covar
Covar
s

2
2 
s x 2 s x1 Covar 
2
b
x2y
yx2.x1
x1
x1y
x1x2
2
x1x2
b
yx2.x1

on ne fait qu’inverser la position de 1 et 2,
mais ce sont les mêmes termes
Le dénominateur est le même

Calcul de l’exemple (5)
 Le calcul final
b
yx1. x 2
Co var

2
s
s s
x1 y
2
x2
2
x1
b
yx 2. x1
Co var

s
s s
x1
_
_
_
a  Y  b1 X 1  b2 X 2 
x1
2
 Co var x1x 2 
2
x2
2
x2 y
2
 Co var x 2 y Co var x1x 2
 Co var x1 y Co var x1x 2
x2
 Co var x1x 2 
2


Calcul de l’exemple (6)
 L’équation de prédiction
^
Y  a  b 1 (X 1 )  b 2 (X 2 )  taux..de..chôm age..(par..m illion)
 13,65  0,66..année 0,10..production..industrielle
Données des problèmes 9.1-9.3
% naiss. à fertilité
risque
Somme
% naiss. non
mariées
6,1
7,1
7,4
43,0
55,3
48,5
9,2
12,0
10,4
6,3
38,8
9,8
6,5
5,7
6,6
46,2
39,9
43,1
9,8
7,7
10,9
8,1
6,3
6,9
48,5
40,0
56,7
9,5
11,6
11,6
Les produits croisés
Somme
YX1
YX2
X1X2
262,30
392,63
358,90
244,44
300,30
227,43
284,46
392,85
252,00
391,23
56,12
85,20
76,96
61,74
63,70
43,89
71,94
76,95
73,08
80,04
395,60
663,60
504,40
380,24
452,76
307,23
469,79
460,75
464,00
657,72
Les carrés des données
Somme
Y2
X12
X22
37,21
50,41
54,76
39,69
42,25
32,49
43,56
65,61
39,69
47,61
1849,00
3058,09
2352,25
1505,44
2134,44
1592,01
1857,61
2352,25
1600,00
3214,89
84,64
144,00
108,16
96,04
96,04
59,29
118,81
90,25
134,56
134,56
Calcul du problème 9.1-9.3
(4)
 Oui, mais la pente de X2 et Y?
2
 Co var Co var
Co
var
s

2
2 
s x 2 s x1 Co var 
x2y
b
yx 2. x 1
x1
x 1y
2
x 1x 2
b
yx 2. x 1

2,87(355,98)  24,54(41,09)
15,725(355,98)  41,09
2
 .003
on ne fait qu’inverser la position de 1 et 2,
mais ce sont les mêmes termes
Le dénominateur est le même
x 1x 2

Calcul du problème 9.1-9.3
(5)
 Le calcul final
2
b
b
yx 1. x 2
yx 1. x 2
Co var s

s s
x2
2
2
x1
x2
b
Co var s

s s
x2y
yx 2. x 1
yx 2. x 1
_
 Co var x 1x 2 
2

 .068
2
b
 Co var x 2 y Co var x 1x 2
x 1y
x1
 Co var x 1y Co var x 1x 2
2
2
x1
x2
 Co var x 1x 2 
2
 .003
_
_
a  Y  b 1 X 1  b 2 X 2  6,7  (,068x 46)  (,003x10,25) 
a  6,7  3,128,03075  3,54125

Calcul du problème 9.1-9.3
(6)
 L’équation de prédiction
^
Y  a  b 1 (X 1 )  b 2 (X 2 )  %naissances.à.risque
 3,5  0,07taux.de.fertilité 0,003%fem m es
..non.m ariées
Vérification du calcul du
problème 9.1-9.3
Y
6,1
7,1
7,4
6,3
6,5
5,7
6,6
8,1
6,3
6,9
X1
43,0
55,3
48,5
38,8
46,2
39,9
43,1
48,5
40,0
56,7
X2
9,2
12,0
10,4
9,8
9,8
7,7
10,9
9,5
11,6
11,6
Y’=a+b1X1+b2X2
Y’
3,5 +0,07(43) + 0,003(9,2)
3,5 +0,07(55,3) + 0,003(12)
3,5 +0,07(48,5)+0,003(10,4)
3,5 +0,07(38,8) + 0,003(9,8)
3,5 +0,07(46,2) + 0,003(9,8)
3,5 +0,07(39,9) + 0,003(7,7)
3,5 +0,07(43,1)+0,003(10,9)
3,5 +0,07(48,5) + 0,003(9,5)
3,5 +0,07(40) + 0,003(11,6)
3,5 +0,07(56,7)+0,003(11,6)
6,54
7,41
6,93
6,25
6,76
6,32
6,55
6,92
6,33
7,50
Y-Y’ (Y-Y’)2
-0,44
-0,31
+0,47
+0,05
-0,26
-0,62
+0,05
+1,18
-0,03
-0,60
-2,26
,19
,09
,22
,00
,07
,38
,00
1,38
,00
,36
2,69
Ceci permet de calculer la
RPE
 La RPE égale
 SC
SC
RPE 
SC
y
 1  SCrésid .
résid .
SC
y
2


SC    Y Y    Y


_
2
y
y


 67
Y


 453,28 
2
N
10
2
 453,28 
SC y  SCrés id.
2,69
SCrés id.
RPE 
 1
 1
 0,386
4,38
SC y
SC y
4489
 4,38
10
Comment savoir
si RPE égale 0 ou non?
 rappel test t pour la corrélation:
t
dl 
r

xy
N2
1  r xy
2
avec N-2 comme ddl
 pour la RPE, test F avec k et N-k-1
comme ddl
RPE N
0,386
10k211

 2,20
ddl,ddl
ddl
FFddl,
 
RPE 
2k110,386
Calcul des sommes de carrés
des pentes
SCb
SC
SC
yxi.xi 1
 byxi.xi 1  Covarx1y
  SC
bi
régression
totale
RPE 
 SCrégression  SC
formule
résiduelle
SCy  SCrésid.
SC
y
qui n’est
SC
régression
SC
résid.
 1

pas dans le
SCy livre
SCy
Calcul des sommes de carrés
des pentes
SCbyxi.xi 1  byxi.xi 1  Covarx1y
SCrégression   SCb
SCrégression ,068(24,54),003(2,87) 
SCrégression  1,66872  0,00861  1,67733
i
Interprétation de la
régression multiple
 RPE: même chose
% d’explication ou de prédiction empirique
de la variable dépendante Y
 Les éléments de la droite de régression
 a: ordonnée
la valeur de Y quand tous les Xi = 0
si cela signifie quelque chose
 b: pente
quantité de changement de Y
yx 1 . x 2
par unité de changement de Xi
lorsque les autres Xj = 0
b
Interprétation graphique de
la régression multiple
(diagrammes de Venn)
Y X1
X2
Différentes approches de
régression multiple
 Régression hiérarchique:
 comparaison de modèles inclusifs
 Régression en étape (séquentielle):
 selon les patrons de (cor)rélations
entre les variables
 plusieurs approches pas à pas:
 stepwise
 élimination (backward)
 sélection (forward)
Notions particulières
 Corrélation partielle:
 corrélation entre deux variables pour
laquelle les (cor)relations avec une
troisième variable (ou plus) ont été
extraites sur les deux variables en jeu
 Corrélation semi-partielle:
 corrélation entre deux variables pour
laquelle les (cor)relations avec une
troisième variable (ou plus) ont été
extraites sur l’une des deux variables
en jeu
Notions particulières

Corrélation partielle:
Y X1
X2
Y X1
X2
Notions particulières

Corrélation semi-partielle:
Y X1
X2
Y X1
X2
Retour sur la notion de
contrôle
Notion particulière (2)
2 sortes de contrôle
• contrôle
expérimental:
 action planifiée
pour annihiler
un effet ou le
répartir dans
toutes les
conditions
• contrôle
statistique:
 calcul pour
soutirer des
relations
(corrélations,
covariances)
d’une relation
multivariée
Formule pour la RPE
multiple (double)
Formule 1:

R
 β yx1.x2ryx1  β yx 2.x1ryx 2
2
y.x1x2
 Formule 2:
R
2
y. x 1x 2
r

2
yx 1
r
2
yx 2
1 r
 Formule 3:
2
y.x1x2...p
R
 2ryx 1ryx 2rx1x 2
r
2
yx1
r
2
yx2.x1 
2
x 1x 2
 ...  r
2
yxp.x1x2... xp 1
Conditions et facteurs
de la corrélation
et de la régression
 Conditions:
 Homoscédasticité:
homogénéité des variances autour
de la droite de régression
 Normalité des données
 Facteurs
 restriction de l’étendue des valeurs:
diminue la taille de r et de (b)
 hétérogénéité des sous-échantillons:
augmente l’erreur