1 Droite de régression de y en x

Download Report

Transcript 1 Droite de régression de y en x

CHU Amiens IFTLM 2`eme ann´ee, UPJV IUP Sant´e
2012-2013
Statistique
Cours 2
Statistique descriptive `
a deux variables - R´
egression
Le cours pr´ec´edent traitait de la statistique descriptive univari´ee, c’est-`a-dire de la description d’une
s´erie statistique selon un seul caract`ere (la taille par exemple). On veut maintenant ´etudier, visualiser
et mesurer les liens ´eventuels existant entre deux variables : c’est l’objet de la statistique descriptive
bivari´ee. On consid`ere une population sur laquelle on ´etudie deux variables quantitatives X et Y . On
´etudiera donc des s´eries statistiques `
a deux variables ; autrement dit un couple de variables (X, Y ). On
veut savoir si les deux variables sont li´ees par une liaison fonctionnelle du type Y = f (X)(c’est-`a-dire
que l’on peut pr´evoir les valeurs de Y `
a partir des valeurs de X), ou bien X = g(Y ) (c’est-`a-dire que
l’on peut pr´evoir les valeurs de X `
a partir des valeurs de Y ). Pr´ecisons d`es maintenant que l’existence
d’une telle liaison entre les deux variables X et Y ne signifie pas obligatoirement un lien de cause `
a
effet entre elles (expliquer).
Exemple fondamental : Y = aX + b (liaison affine).
Sur un ´echantillon de n individus extrait de la population, on observe n couples (x1 , y1 ), . . . , (xn , yn )
de valeurs de X et Y .
Repr´
esentation graphique : nuage de points
Ces observations peuvent ˆetre repr´esent´ees dans le plan. A chaque couple (xi , yi ), i = 1, . . . , n,
on fait correspondre un point Mi . On obtient un nuage de point. La forme du nuage obtenu peut
indiquer le type de d´ependance possible entre X et Y . Si les points sont ”plutˆot” align´es, on peut
envisager une relation de type Y = aX + b (´equation de droite). Si le nuage ”forme” une parabole, on
peut envisager une relation de type Y = aX 2 + bX + c, etc... On dit que l’on cherche `a ajuster une
courbe au nuage de points.
1
Droite de r´
egression de y en x
On cherche `a ajuster une droite d’´equation y = ax + b au nuage de points. En fait, on essaie de
minimer les distances entre les points du nuage Mi (xi , yi ) et les points correspondant sur la droite
Pi (xi , axi + b).
On trouve un unique couple (a, b) qui minimise cette distance. On ne d´etaillera pas les calculs
pour obtenir a et b.
La droite de r´egression de y en x a pour ´equation :
Dy/x : y = ax + b avec a =
cov(x, y)
et b = y¯ − a¯
x
s2x
avec les notations suivantes pour les moments :
P
P
• moyennes : x
¯ = n1 ni=1 xi , y¯ = n1 ni=1 yi .
P
P
• variances : s2x = n1 ni=1 (xi − x
¯)2 , s2y = n1 ni=1 (yi − y¯)2 .
P
P
• covariance : cov(x, y) = n1 ni=1 (xi − x
¯)(yi − y¯) = n1 ni=1 xi yi − x
¯y¯.
Exemple On consid`ere la s´erie double statistique suivante :
xi 2 3 5 1 4
yi 4 9 11 3 8
Le nuage de points correspondant est repr´esent´e sur le graphique ci-dessous.
et b = y¯ − a¯
x.
La droite de r´egression de y en x a pour ´equation y = ax + b avec a = covs(x,y)
2
x
Il vaudra mieux utiliser une calculatrice ou un tableur pour obtenir les coefficients a et b plutˆot que
d’effectuer les calculs suivants
xi yi xi yi
2 4
8
3 9
27
5 11 55
1 3
3
4 8
32
15 35 125
x2i
4
9
25
1
16
55
55
125
2
2
¯ = 35
On a x
¯ = 15
5 = 3, y
5 = 7, cov(x, y) = 5 − 3 × 7 = 4, sx = 5 − 3 = 2.
On en d´eduit a = 42 = 2 et b = 7 − 2 × 3 = 1.
La droite de r´egression de y en x a donc pour ´equation y = 2x + 1.
On peut remarquer que cette droite passe par deux points du nuage : c’est une coincidence !
2
Droite de regression de x en y
On suit une d´emarche analogue `
a celle qui a donn´e la droite de r´egression de y en x, en ´echangeant le
rˆole de x et y.
cov(x, y)
et d = x
¯ − a¯
y
Dx/y : x = cy + d avec c =
s2y
On peut remarquer que les ´equations peuvent aussi s’´ecrire
Dy/x : y − y¯ = a(x − x
¯)
Dx/y : x − x
¯ = c(y − y¯)
Les droites Dy/x et Dx/y se coupent donc au point G(¯
x, y¯).
Exemple
Reprenons l’exemple pr´ec´edent. On a toujours x
¯ = 3, y¯ = 7, cov(x, y) = 4, s2x = 2 et a = 2.
On calcule s2y =
291
5
=
− 72 = 9, 2, d’o`
u c = covs(x,y)
2
x
4
9,2
=
1
2,3 .
1
(y − 7),
La droite de r´egression de x en y a donc pour ´equation x − x
¯ = c(y − y¯), soit x − 3 = 2,3
c’est-`a-dire y = 2, 3x + 0, 1.
On retrouve ´egalement une ´equation de la droite de r´egression de y en x : y − y¯ = a(x − x
¯), soit
y − 7 = 2(x − 3), c’est-`
a-dire y = 2x + 1.
Les droites Dy/x et Dx/y se coupent au point G(¯
x, y¯) = G(3, 7).
3
Coefficient de corr´
elation lin´
eaire entre x et y
(x,y)
Le coefficient de corr´elation lin´eaire est d´efini par : rx,y = cov
sx sy .
Qualit´
e de l’ajustement
2 6 1. On peut aussi montrer que r 2 = 1 si et seulement si pour tout
On peut d´emontrer que rx,y
x,y
i =, . . . , n, Mi (xi , yi ) ∈ Dy/x , c’est-`
a-dire si et seulement si les points Mi sont align´es sur Dy/x .
2 est proche de 1, meilleur est l’ajustement de la droite de r´
De fa¸con g´en´erale, plus rx,y
egression
au nuage de points. Le signe de rx,y (qui est le mˆeme que celui de a) indique le sens de la liaison
(croissante si rx,y > 0, d´ecroissante si rx,y < 0) entre X et Y .
Partageant arbitrairement le plan en secteurs de 30◦ , on obtient 5 zones permettant
de d´efinir
√
une bonne, m´ediocre ou mauvaise corr´elation entre X et Y . Sachant que cos 30◦ = 23 ' 0, 866 et
cos 60◦ = 21 , ce crit`ere graphique se traduit num´eriquement par :
√
• si
• si
3
2
1
2
6 |rx,y | 6 1, il existe une bonne corr´elation lin´eaire entre X et Y .
√
6 |rx,y | 6
3
2 ,
la corr´elation lin´eaire entre X et Y est m´ediocre.
• si 0 6 |rx,y | 6 12 , la corr´elation lin´eaire entre X et Y est mauvaise.
Siginfication de rx,y
2 prouve qu’il
La question se pose de savoir si une forte valeur de rx,y (en valeur absolue) ou de rx,y
y a une forte corr´elation entre les deux caract`eres X et Y (par exemple lorsque l’ajustement est bon)
ou si elle est due au hasard de l’´echantillonage (par exemple lorsque n est petit). Pour obtenir une
r´eponse, on peut utiliser des tests statistiques (voir statistique inductive).
4
Exercices
Exercice 1
Dans la s´erie statistique suivante, x repr´esente le nombre de jours d’exposition au soleil d’une
feuille et y le nombre de stomates a´erif`eres au millim`etre carr´e :
x 2 4 8 10 24 40 52
y 6 11 15 20 39 62 85
1. D´eterminer une ´equation de la droite de r´egression de y en x.
2. Calculer le coefficient de corr´elation lin´eaire entre x et y. Commenter le r´esultat.
3. Quel nombre de stomates peut-on pr´evoir apr`es 30 jours d’exposition au soleil ? apr`es 60 jours ?
Exercice 2
On s´electionne 12 personnes inscrites `
a un stage de formation. Avant le d´ebut de la formation, ces
stagiaires subissent une ´epreuve A not´ee de 0 20. A l’issue du stage, une ´epreuve B identique `
a la
premi`ere est aussi not´ee de 0 20. Consid´erant les deux variables X =note de A et Y =note de B, on
a obtenu les r´esultats suivants :
stagiaire 1 2 3 4 5 6 7 8 9 10 11 12
xi
3 4 6 7 9 10 9 11 12 13 15 4
yi
8 9 10 13 15 14 13 16 13 19 6 19
1. (a) Repr´esenter ces r´esultats par un nuage de points.
(b) Quelle courbe d’ajustement ce nuage vous sugg`ere-t-il ?
2. A partir des r´esultats obtenus, on a d´etermin´e la droite de r´egression de y en x, ainsi que le
coefficient de corr´elation lin´eaire entre x et y. On a obtenu l’´equation y = 0, 180x + 11, 99 et
r = 0, 101. Expliquer pourquoi l’ajustement n’est pas bon.
3. On d´ecide d’´eliminer les stagiaires 11 et 12, et donc de ne tenir compte que des stagiaires 1 `
a 10.
(a) D´eterminer une ´equation de la droite de r´egression de y en x.
(b) Calculer le coefficient de corr´elation lin´eaire entre x et y. Interpr´eter le r´esultat obtenu.
Exercice 3
Le tableau ci-dessous donne une estimation du montant des achats en ligne des m´enages fran¸cais :
Ann´ee
Rang de l’ann´ee : xi
Montant d’achats en millions d’euros : yi
1998
0
75
1999
1
260
2000
2
820
2001
3
1650
2002
4
2300
2003
5
4000
2004
6
5300
1. (a) Pr´eciser la population, la(les) variable(s) ´etudi´ee(s) et la taille de l’´echantillon.
(b) Donner une ´equation de la droite de r´egression de y en x.
(c) Donner le coefficient de corr´elation lin´eaire entre x et y. Interpr´eter le r´esultat obtenu.
(d) Quelle pr´evision du montant d’achats peut-on faire pour l’ann´ee 2005 ? Est-elle fiable ?
√
2. On consid`ere la nouvelle variable z = y.
(a) D´eterminer une ´equation de la droite de r´egression de z en x, ainsi que le coefficient de
corr´elation lin´eaire entre x et z. Interpr´eter le r´esultat obtenu.
(b) En d´eduire une expression de y en fonction de x, puis une pr´evision du montant d’achats
pour l’ann´ee 2005.
3. A partir du tableau de donn´ees, le logiciel Excel propose un ajustement polynomial par l’´equation
y = 130x2 + 100x + 68.
(a) S’agit-il du mˆeme ajustement que celui obtenu dans le 2) ? Expliquer cette situation.
(b) D´eduire de cet ajustement une pr´evision du montant d’achats pour l’ann´ee 2005.
4. Le montant des achats en ligne en 2005 a ´et´e de 7700 millions d’euros. Lequel des trois ajustements pr´ec´edents vous paraˆıt-il le plus conforme `a la r´ealit´e ? Justifier votre r´eponse.
Exercice 4
Le tableau ci-dessous donne l’´evolution, par p´eriode de 5 ans, de la population (en millions
d’habitants) de l’Allemagne ; il s’agit de la population globale des deux Allemagnes (RDA et RFA)
de 1958 `a 1973, puis de la population de l’Allemagne r´eunifi´ee de 1993 `a 2008.
Ann´ee
Rang de l’ann´ee : xi
Population : yi
1958
1
71.5
1963
2
74.4
1968
3
77
1973
4
78.8
1993
8
81
1998
9
82.1
2003
10
82.5
2008
11
82.2
1. Repr´esenter graphiquement la s´erie statistique (xi , yi ).
2. On commence par chercher un ajustement affine.
(a) Donner une ´equation de la droite de r´egression de y en x. Donner le coefficient de corr´elation
lin´eaire entre x et y. interpr´eter le r´esultat obtenu.
(b) En d´eduire une estimation de la population de l’Allemagne en 2018. L’estimation est-elle
fiable ?
3. On cherche maintenant un ajustement de type logarithmique, autrement dit `a mod´eliser le
ph´enom`ene ´etudi´e par une relation du type y = a ln(x) + b. Pour cela, on consid`ere la nouvelle
variable z = ln(x).
(a) Effectuer une r´egression permettant d’obtenir les coefficients a et b. Pr´eciser les variables
consid´er´ees de donner le coefficient de corr´elation lin´eaire correspondant. Interpr´eter le
r´esultat obtenu.
(b) En d´eduire une estimation de la population de l’Allemagne en 2018. L’estimation est-elle
fiable ?
4. Comparer les deux estimations des 2)b) et 3)b) et commenter les r´esultats obtenus. Lequel des
deux ajustmements est le meilleur ?