Document 4666229

Download Report

Transcript Document 4666229

La Régression Linéaire Multiple
Giorgio Russolillo
Departement IMATH
CNAM
[email protected]
Aspects déscriptifs
Giorgio Russolillo – STA102
La Régression Multiple
C’est une généralisation de la régression simple. Au lieu
d’avoir une seule variable explicative x on en a P. On veut:
•  Expliquer le comportement de y à partir des variables
explicatives
•  Prédire les valeurs de y
(
)
yi = f x1i ,…, x pi + ε i
(n x P)
(n x 1)
Giorgio Russolillo – STA102
Exemples d’application
Expliquer
en fonction de
superficie
n  standing
n  quartier
n  sécurité
n  proximité de commerce
n 
Prix d'un appartement
cylindrée
n  taille
n  vitesse maximum
n  origine
n  niveau de finition
n 
Prix d'une voiture
budget de recherche
n  investissements
n  publicité
n  remises aux grossistes
n  prix de vente
n 
Prévoir des ventes
Giorgio Russolillo – STA102
Régression Linéaire Multiple
(n x P)
(n x 1)
On dispose d’un échantillon de n individus sur lesquels
on a observé P+1 variables : une variable y à prédire et
P variables explicatives X
On cherche une combinaison lineaire des x la plus
proche (au sens des moindres carrés) des données
Giorgio Russolillo – STA102
Interprétation géométrique
Dans le cas de la régression multiple un hyperplan de dimension
P est définie par l’équation de régression. Ci-dessous le cas P=2
est montré.
y
yi
b0
ei
Obs i
b0+b1x1+b2x2
(yi , x1i , x2i)
b0+b1x1i+b2x2i
x2i
x2
x1i
x1
Giorgio Russolillo – STA102
Le modèle de régression linéaire multiple
Giorgio Russolillo – STA102
Le modèle de la Régression Linéaire Multiple
On suppose que la relation entre y et X est LINEAIRE :
Paramètres
inconnus
Variable explicative - connue
sans erreur
Yi = β0 + β1 xi1 + β2 xi 2 +!+ β P xiP + ε i
Variable aléatoire
Sous les Hypothèses:
i = 1, !, n
p = 1, !, P
Terme résiduel
aléatoire
ü  Les erreurs sont des v.a. avec espérance nulle et égale variance σ2.
ü  Les P variables explicatives x sont supposées linéairement
indépendantes, donc aucune n’est combinaison linéaire des autres.
N.B.: Ça ne veut pas dire qu’elles sont statistiquement indépendantes…
elles peuvent être corrélées !
Giorgio Russolillo – STA102
Ecriture matricielle du modèle
y = Xβ + ε
[n ×1]
⎡
⎢
où y = ⎢⎢
⎢
⎢⎣
⎡⎣n × ( P + 1)⎤⎦
⎡1
Y1 ⎤
⎥
⎢
Y2 ⎥
1
⎢
X=
⎥
!
⎢"
⎥
⎢
Yn ⎥
⎦
⎣1
Hypothèses:
[( P + 1) ×1] [n ×1]
x11 !
x 21 !
"
x n1 !
⎡
x1P ⎤
⎢
⎥
x 2P ⎥
⎢
β =⎢
" ⎥
⎢
⎥
x nP ⎦
⎢⎣
⎧1. E(ε ) = 0
⎪
2
⎨2. var(ε ) = E(εε ') = σ I
⎪ 3. rang(X) = p + 1
⎩
Giorgio Russolillo – STA102
β0 ⎤ ⎡
⎥ ⎢
β1 ⎥ ⎢
⎥ε = ⎢
! ⎥ ⎢
β P ⎥⎦ ⎢⎣
ε1 ⎤
⎥
ε2 ⎥
⎥
! ⎥
ε n ⎥⎦
Estimation des paramètres du modèle
Giorgio Russolillo – STA102
Estimation des paramètres du modèle
Yi = β 0 + β1 xi1 + β 2 xi 2 +! + β P xiP + ε i
Les paramètres à estimer sont :
•  les coefficients de régression β1, β2 , .... βP
•  le terme constant β0
•  la variance des erreurs σ2 (ce dérnier paramètre est estimé que avec la methode de
maximum de vraisemblance) Giorgio Russolillo – STA102
Estimation des paramètres par la méthode OLS
Méthode des moindres carrés (OLS - Ordinary Least Squares)
n
2⎫
⎧
Min ⎨ F ( Β0 …ΒP ) = ∑ (Yi − ( Β0 + Β1 xi1 +!ΒP xiP )) ⎬
Β0…ΒP
i=1
⎩
⎭
Ce minimum est atteint par des valeurs telles que :
On appelle ce
système,
le
système des
Equations Normales
⎧
⎪
⎪
⎪
⎪
⎪
⎨
⎪
⎪
⎪
⎪
⎪
⎩
n
∂F
= 0 ⇒ ∑ (Yi − Β0 − Β1 xi1 −!ΒP xiP )1 = 0
∂ Β0
i=1
"
n
∂F
= 0 ⇒ ∑ (Yi − Β0 − Β1 xi1 −!ΒP xiP )xip = 0
∂ Βp
i=1
"
n
∂F
= 0 ⇒ ∑ (Yi − Β0 − Β1 xi1 −!ΒP xiP )xiP = 0
∂ ΒP
i=1
Giorgio Russolillo – STA102
Les estimateurs et les estimations des β
La solution du système des équations normales donne
les estimateurs des moindres carrés des paramètres
β0…βP que l’on appellera B0…BP .
B0…BP sont des ESTIMATEURS donc des
variables aléatoires
Les réalisations dues à l’échantillon des estimateurs
des moindres carrés des paramètres β sont les
estimations b0…bP b0…bP sont des ESTIMATIONS car sont
calculées à partir des observations
Giorgio Russolillo – STA102
Notations matricielles
Vecteurs
de valeurs
observées
⎡
⎢
⎢
y =⎢
⎢
⎢⎣
⎡
y1 ⎤
⎥
⎢
y2 ⎥
⎢
ˆ
y
=
⎥
⎢
! ⎥
⎢
yn ⎥⎦
⎢⎣
yˆ1 ⎤
⎥
yˆ2 ⎥
⎥
! ⎥
yˆn ⎥⎦
⎡
⎢
⎢
e =⎢
⎢
⎢⎣
e1 ⎤
⎥
e2 ⎥
⎥
! ⎥
en ⎥⎦
valeurs de la variable valeurs de la
résidus
dépendante
droite (predictions)
valeurs de la droite
(predictions)
Vecteurs de
variables
aléatoires
⎡
⎢
⎢
ˆy = ⎢
⎢
⎢
⎣
Yˆ1 ⎤
⎥
Yˆ2 ⎥
⎥
! ⎥
Yˆn ⎥
⎦
Giorgio Russolillo – STA102
⎡b0 ⎤
⎢ ⎥
b1 ⎥
⎢
b=
⎢! ⎥
⎢ ⎥
⎣bP ⎦
estimations des
coefficients
estimateurs des
coefficients
⎡ B0 ⎤
⎢B ⎥
1
b=⎢ ⎥
⎢! ⎥
⎢B ⎥
⎣ P⎦
Le problème en forme matricielle
Min {( y - Xb )'( y - Xb )}
b
Min { y'y + b'X'Xβ - 2b'X'y}
Qu’on peut réécrire comme
b
∂F
= 2X'Xb - 2X'y
∂b
Calcul de la dérivée
Estimateur OLS pour β
Condition d’optimisation
2X'Xb - 2X'y = 0
⇒
b = ( X'X ) X'y
Giorgio Russolillo – STA102
-1
La décomposition de la variance
Giorgio Russolillo – STA102
Somme des carrés totale
La Somme des carrés totale (SCT) représente la
variabilité totale de y sans tenir compte de X :
n
SCT = ∑ (Yi − Y )
2
i=1
N’est pas bornée et dépendante de l’unité de mesure de y
La SCT a n-1 degrés de liberté
Giorgio Russolillo – STA102
Somme des carrés totale
La variabilité totale (somme des carrés totale) de y se
décompose en une variabilité expliquée par X et une
partie inexpliquée :
SCT = SCE + SCR
Somme des carrés
expliqués par le modèle,
i.e. variabilité expliquée
par X
Somme des carrés des résidus,
i.e. variabilité inexpliquée par le
modéle
Giorgio Russolillo – STA102
Somme des carrés expliquée par le modèle
La Somme des carrés expliqués par le modèle (SCE)
représente la variabilité de y qui est expliquée par X,
i.e. la variabilité des prédictions :
n
(
SCE = ∑ Yˆi − Y
i =1
)
2
N’est pas bornée et dépendent de l’unité de mesure de Y
La SCE a P degrés de liberté
Nombre de variable explicative
Giorgio Russolillo – STA102
Somme des carrés des résidus
La Somme des carrés des résidus (SCR)
représente la variabilité de y autour de la droite
de régression :
n
SCR = ∑
i =1
(
Yi − Yˆi
)
2
N’est pas bornée et dépendent de l’unité de mesure de Y
La SCR a n-P-1 degrés de liberté
Nombre de variables explicatives
Giorgio Russolillo – STA102
La matrice « chapeau » H = X (X ' X) X '
−1
§  C’est la matrice que, multipliée pour y, donne ŷ.
§  On l’appelle H de l’anglais « hat », car elle met un chapeau à la y.
§  C’est une matrice symétrique et idempotente
§  rang(H)=rang(X)
§  C’est un operateur de projection: elle projets la variable dépendent
dans l’espace engendré par les prédicteurs.
yˆ = Xb = X ( X 'X ) X ' y = Hy
−1
L’i-éme element diagonal de H (hii) est le levier de l’observation i
Giorgio Russolillo – STA102
Visualisation géométrique des données
Espace à P+1 dimensions
engendré par 1, x1, x2 ,.., xp Obs 2
xp
1
Obs 1
Obs n
Espace à n dimensions engendré
par Obs 1, Obs 2 ,.., Obs n Giorgio Russolillo – STA102
Régression comme projection orthogonale
y
Espace engendré par
1, x1, x2 ,.., xP η
x1
y
0
yˆ = Xb
1
xp
Décomposition de la somme des carrés totale
n
∑ ( yi − y )
n
n
2
y − y = y − yˆ + yˆ − y
= ∑ ( yi − yˆi ) + ∑ ( yˆi − y )
i=1 SCT
i=1
SCR i=1 SCE
Coefficient de corrélation multiple
Coefficient de détermination
2
cos (η ) =
2
2
yˆ − y
2
y−y
2
=R
2
2
cos(η ) =
Giorgio Russolillo – STA102
2
yˆ − y
y−y
2
= R = ρ (y, yˆ )
R2 ajusté
Ra2 =
R 2 ( n −1) − P
n − P −1
§  Le coefficient de détermination ajusté permet de comparer
des modèles où le nombre de variables explicative diffère.
§  Il tient compte du nombre de degrés de liberté du modèle.
§  C’est une estimation non biaisée du coefficient de
détermination multiple de la population quand il est positif.
Giorgio Russolillo – STA102
Propriétés des estimateurs
Giorgio Russolillo – STA102
Propriétés de B
On introduit A = ( X'X )
-1
X' tel que AA'= ( X'X ) X'X ( X'X ) = ( X'X )
-1
b = ( X'X ) X'y = Ay
-1
-1
-1
b est linéaire
On peut réécrire b comme b = ( X'X ) X'y = ( X'X ) X'( Xβ + ε ) =
-1
-1
( X'X )-1 X'Xβ + ( X'X )-1 X'ε = β + ( X'X )-1 X'ε =
E ( b ) = E ( β + Aε ) = β + AE ( ε ) = β
b est sans biais
var ( b ) = var ( Ay ) = var ( y ) AA ' = σ 2 ( X'X )
Giorgio Russolillo – STA102
β + Aε
−1
Théorème de Gauss-Markov
Parmi tous les estimateurs pour β linéaires non biaisés,
l'estimateur par moindres carrés présente une variance
minimale.
On peut résumer tout cela en
disant que l'estimateur par
moindres carrés est le
BLUE
(Best Linear Unbiased Estimator).
Giorgio Russolillo – STA102
Théorème de Gauss-Markov (Démonstration)
On introduit un estimateur linéaire quelconque de β
b! = ( A + C ) y = Ay + C ( Xβ + ε ) = b + CXβ + Cε
On impose qu’il soit sans biais
( )
E b! = E ( b ) + CXβ + CE ( ε ) = β + CXβ = β ( I + CX ) = β ⇔ CX = 0
On calcule sa variance :
var b! = var ⎡⎣( A + C ) y ⎤⎦ = ( A + C ) var ( y ) ( A + C ) ' =
( )
= ( A + C )σ 2 I ( A + C ) ' = σ 2 ( AA '+ AC'+ CA '+ CC')
mais CA ' = C ⎡( X'X )−1 X ' ⎤ = C ⎡ X ( X'X )−1 ⎤ = CX ( X'X )−1 = 0 ( X'X )−1 = 0
⎣
⎦
⎣
⎦
AC' = (CA ') ' = 0
et
donc var b! = σ 2 (X'X)−1 + σ 2 ( CC')
'
( )
d’où
( )
var ( b! ) ≡ var ( b )
var b! − var ( b ) = σ 2 ( CC') ≥ 0
si et seulement si b! ≡ b
Giorgio Russolillo – STA102
Esperance et variance de Y-Xb
On introduit la matrice :
−1
M = I − H = I − XA = I − X ( X 'X ) X '
M = M ' = MM = M 'M
M est symétrique et idempotente :
MH = 0
c’est une matrice de projection
orthogonale à H
r(M) = tr(M) = n − P − 1
Les résidus sont combinaison linéaire des Y..
−1
y − Xb = y − X ( Ay ) = y − X ( X 'X ) X ' y = ( I − H ) y = My
.. et donc ils sont combinaison linéaire des erreurs
y − Xb = My = M ( Xβ + ε ) = MXβ + Mε = 0 β + Mε = Mε
E ( y − Xb ) = E ( Mε ) = ME ( ε ) = 0
var ( y − Xb ) = var ( Mε ) = M var ( ε ) = σ 2 M
Giorgio Russolillo – STA102
Estimation de σ2
Si on ajute la quatrième hypothèses
4. ε ~ N (0, σ 2 I)
§  On peut dériver les estimateurs de maximum de
vraisemblance (MV) pour β et σ2
§  les estimateurs de MV et OLS pour β coïncident. Donc,
sous l’hypothèses #4, les estimateurs OLS ont les mêmes
propriétés des estimateurs de MV.
§  L’estimateur de MV S2 pour σ2 est biaisé.
§  On préfère utiliser l’estimateur pas biaisé :
2
n−P−1
S
( y − Xb ) ' ( y − Xb ) =
=
n − P −1
n
1
2
Yi − B0 − B1 xi1 −… − BP xiP )
(
∑
n − P − 1 i=1
Giorgio Russolillo – STA102
Esperance de S2 et de S2n-P-1
⎡ ( y − Xb ) ' ( y − Xb ) ⎤ 1
E (S ) = E ⎢
= E ⎡⎣( Mε ) ' ( Mε ) ⎤⎦
⎥
n
⎣
⎦ n
1
1
= E ( ε 'M'Mε ) = E ⎡⎣ tr ( M ) ( ε ' ε ) ⎤⎦ = σ 2tr(M) = σ 2 ( n − P − 1)
n
n
2
E (S
2
n−P−1
σ 2 ( n − P − 1)
1
) = n − P − 1 E ⎡⎣( y − Xb ) '( y − Xb )⎤⎦ = n − P − 1 = σ 2
Giorgio Russolillo – STA102
Estimation de σ2 et des variances et
covariances des coefficients
σˆ
2
y - Xb ) ' ( y - Xb )
(
=
=
n − P −1
n
1
2
( ei )
∑
n − P − 1 i =1
−1
σˆ b2 = σˆ 2 ( X 'X )
−1
σˆ B2 p = σˆ 2 ⎡⎣( X 'X ) ⎤⎦
p+1, p+1
Giorgio Russolillo – STA102
Implications de l’hypothèses de normalité
y ~ N ( Xβ ,σ 2 I )
( y − Xb ) ~ N(0,σ 2 M)
(
b ~ N β ,σ
2
( X 'X )
−1
(
)
−1
Bp ~ N β p , σ 2 ⎡⎣( X 'X ) ⎤⎦
p+1, p+1
Bp − β p
σ ⎡⎣( X 'X )
−1/2
⎤
⎦ p+1, p+1
)
~ N ( 0,1)
Giorgio Russolillo – STA102
p = 0,…, P
p = 0,…, P
Deux théorèmes importants
Soit x un vecteur et A une matrice carré de dimension n. La forme
quadratique est un scalaire défini par
x'Ax = ∑
n
i=1
∑
n
j =1
aij xi x j
Théorème
Si
⎡ X1 ⎤
1. ⎢! ⎥ = x ~ N ( 0,I )
⎢ ⎥
⎢⎣ Xn ⎥⎦
Alors Q = x'Ax ~ χ g
2
2. A est une matrice de projection orthogonale de rang g
3. Q = x'Ax
Théorème de Craig
Q1 et Q2 sont indépendantes si et seulement si A1A 2 = 0.
Giorgio Russolillo – STA102
Lois des cotés du triangle y, Xb, Xβ
y
Espace engendré par
les x
yˆ = Xb
Xβ
Interprétation géométrique
ε
2
= y − Xb + Xb − Xβ
2
Interprétation matricielle
ε 'ε ε 'Mε ε 'Hε
ε 'ε = ε 'Mε + ε 'Hε ⇒
=
+ 2
2
2
σ
σ
σ
2
n
ε 'ε
2
~
χ
n
σ2
(
ε 'Mε ∑
= i=1
2
σ
σ2
Yi − Yˆi
)
2
~χ
2
n−P−1
Giorgio Russolillo – STA102
ε 'Hε
2
~
χ
P+1
σ2
Lois des cotés du triangle y, Xb,Ȳ
Décomposition de la somme des carrés totale
n
n
(
∑ (Yi − Y ) = ∑ Yi − Yˆi
i=1
∑(
n
i=1
2
SCT
Yi − Yˆi
σ2
)
i=1
SCR
)
2
n
(
+ ∑ Yˆi − Y
i=1
SCE
)
2
2
2
(n − P − 1)Sn−P−1
2
=
~
χ
n−P−1
σ2
si et seulement si β p = 0 ∀p ∈ {1,…, P} , alors
∑(
n
i=1
Yˆi − Y
σ
2
)
n
2
~χ
2
P
et
Giorgio Russolillo – STA102
∑ (Yi − Y )
i=1
σ
2
2
2
~ χ n−1
Tableau de l’analyse de la variance
Source
de
variation
Somme
des
carrés
Degrés
de
liberté
expliquée
∑ ( yˆ − y )
2
i
erreur
∑ ( y − yˆ )
total
∑( yi − y )
i
P
Carrés
moyens
Fobs
2
ˆ
y
−
y
∑( i )
2
Σ ⎛⎜⎝ yˆi − y ⎞⎟⎠
P
2
i
2
n − P −1
∑ ( yi − yˆi )
⎞2
⎟
i⎠
Σ ⎛⎜⎝ yi − yˆ
2
n − P −1
n −1
Giorgio Russolillo – STA102
P
n− P −1
(
)
Pr FP, (n−P−1) > Fobs
Statistiques de test
Bp -β p
SBp
−1/ 2
~Tn− P −1 où S Bp = Sn− P −1 ⎡⎣( X 'X ) ⎤⎦
∑(
n
∑(
n
i=1
Yˆi − Y
i=1
Yi − Yˆi
)
2
)
2
P
n − P −1
⎡n
⎢∑ Yˆi | xi1 …xiP − Y
⎣ i=1
((
p+1, p+1
R2 P
=
~ FP,(n−P−1)
2
1
−
R
n
−
P
−
1
(
)
) ) − ∑ ((
2⎤
ˆ
Yi | xi1 …xir − Y ⎥ P − r
⎦
∑ (Y − Yˆ )
n − P −1
n
2
i=1
n
i
i
2
) )
i=1
Giorgio Russolillo – STA102
~ F(P−r ),(n−P−1)
Tests sur les paramètres
Giorgio Russolillo – STA102
Tests sur un coefficient
On veut tester l’hypothèse H0 = { le paramètre βp est égal à
0} contre l’hypothèse H1 = {le paramètre βp est diffèrent de 0}
H 0 : {β p = 0} contre H 1 : {β p ≠ 0}
Ce test se fait au moyen de la statistique de test :
Bp
~Tn-P-1
Sbp
La statistique de test T suit sous H0 une lois de Student à n-P-1
degrés de liberté
Le test d’un coefficient considères l’effet d’une variable
étant donné que les autres variables sont dans le modèle
Giorgio Russolillo – STA102
Test de la signification du modèle
On veut tester l’hypothèse H0 = {il n’existe pas de
liaison linéaire entre Y et les X} contre l’hypothèse H1 =
{il existe une liaison linéaire entre ces variables*}
En régression linéaire simple, ce test s’écrit :
H 0 = {Yi = β0 + ε i } contre H 1 = {Yi = β0 + β1 xi1 +!+ β P xiP + ε i }
Test du modèle M0 contre le modèle M1
*Cela implique qu’il y a au moins l’un des coefficients (sauf l’intercepte) non nulle.
Giorgio Russolillo – STA102
Test de la signification du modèle global
H 0 = {Yi = β 0 + E i } contre H1 = {Yi = β 0 + β1 x i1 + ! + β P x iP + E i }
Ce test se fait au moyen de la statistique de test de
Fischer :
F=
SCE P
SCR ( n − P − 1)
Variance expliquée par x
Variance résiduelle
La statistique de test F suit sous H0 une lois de Fisher à P et nP-1 degrés de liberté
Giorgio Russolillo – STA102
Test de la signification du modèle global
H 0 = {Yi = β0 + ε i } contre H 1 = {Yi = β0 + β1 xi1 +!+ β P xiP + ε i }
Statistique de test
SCE P
F=
SCR ( n − P − 1)
Approche de Fisher
(Pure Significance Test):
Probabilité critique
(p-value)
Approche
classique
Règle de décision
Pr ( FP,n- P -1 > Fobservé )
Probabilité d’obtenir
F-value sous H0 : plus
elle proche de 0, plus
forte est la contradiction
entre H0 et le résultat de
l’échantillon
On rejette l’hypothèse H0 au niveau α si
Pr ( FP,n- P-1 > Fobservé ) < α
Giorgio Russolillo – STA102
ou
Fobservé > f P ,(n−P −1),(1−α )
Test générale
On veut étudier la nullité des P-r coefficients de régression, qui (sans
perte de généralité) on ordonne de façon que sont les derniers
Modèle restreint
H 0 = {Yi = β0 + β1 xi1 +!+ βr xir + ε i } c.à.d. H 0 = {βr+1 = … = β P = 0}
contre
H 1 = {Yi = β0 + β1 xi1 +!+ β P xiP + ε i }
Statistique de test
Modèle complet
( SCE | H1 ) − ( SCE | H 0 ) P − r ~ F
où
(P −r ),(n− P −1) ,
( SCR | H1 ) ( n − P − 1)
( SCE | H1 ) est la somme des carrés expliquée par le modèle H1
( SCE | H 0 ) est la somme des carrés expliquée par le modèle H 0
Giorgio Russolillo – STA102
Test générale
Approche de Fisher
(Pure Significance Test):
Probabilité critique (p-value)
Pr ( F(P -r ),(n- P -1) > Fobservé )
Probabilité d’obtenir
F-value sous H0 : plus
elle proche de 0, plus
forte est la contradiction
entre H0 et le résultat de
l’échantillon
Approche classique: Règle de décision
On rejette l’hypothèse H0 au niveau α si
Pr ( F(P -r ),(n- P -1) > Fobservé ) < α
ou Fobservé
Giorgio Russolillo – STA102
> fP −r,(n− P −1),(1−α )
Autre approche au test du coefficient βp
{
P
P
⎧
⎫
H 0 = ⎨Yi = β 0 + ∑ j>0 β j xij + ε i ⎬ contre H 1 = Yi = β 0 + ∑ p=1 β p xip + ε i
j≠ p
⎩
⎭
}
Statistique de test
( SCE − SCE ) 1 ~ F
(− p)
SCR ( n − P − 1)
1,(n−P−1)
, où
( SCE ) est la somme des carrés expliquée par le modèle sans x
(− p)
p
(c.à.d. β p = 0)
( SCE ) est la somme des carrés expliquée par le modèle complet
Approche de Fisher (Pure Significance Test):
Probabilité critique(p-value)
Approche
classique
Règle de décision
Pr ( F1,(n- P -1) > Fobservé )
On rejette l’hypothèse H0 au niveau α si
Pr ( F1,(n- P-1) > Fobservé ) < α ou
Giorgio Russolillo – STA102
Fobservé > f1,(n−P−1),(1−α )
Intervalle de confiance de E(Y0) et
intervalle de prévision de Y0
Giorgio Russolillo – CNAM 2011/2012
Intervalle de confiance de E(Y0)
On considère le vecteur (x10, … , xP0) des valeurs des variables
indépendants pour une observations x0.
'
Posons
x 0 = [1, x10 , x20 ,, xP 0 ]
Yˆ0 = E(Y0 ) = E(Y | x 0 ) = x '0 b peut être exprimé comme une
combinaison linéaire de v.a. gaussiennes, donc il suit une loi normale :
(
E (Y x 0 ) ~ N x '0 β , σ 2 ( x 0 (X 'X)−1 x 0 )
Comme dans le cas de la régression
simple, on obtient par studentisation que:
)
Yˆ0 − x '0 β
−1
Sn−P−1 x 0 (X 'X) x 0
~ T(n−P−1)
Ce qui permet de construire l’intervalle de confiance
IC1−α ⎡⎣E (Y x0 )⎤⎦ = ⎡⎣ yˆ0 ± t(n−P−1), (1−α 2) × σˆ x 0 (X 'X)−1 x 0 ⎤⎦
yˆ0 = x '0 b
Giorgio Russolillo – STA102
Intervalle de prédiction pour une nouvelle
observation x0
On connaît les lois de
Y0 = (Y | x 0 ) = ( x '0 β 0 + ε 0 ) ∼ N ( x '0 β 0 ; σ 2 )
(
Yˆ0 ∼ N x '0 β 0 ; σ 2 ( x 0 (X 'X)−1 x 0 )
Donc la loi du résidu
est
(
)
)
(
Y0 − Yˆ0 ~ N 0, σ 2 (1+ x 0 (X 'X)−1 x 0 )
On obtient par studentisation que:
Y0 − Yˆ0
−1
Sn−P−1 1+ x 0 (X 'X) x 0
)
~ T(n−P−1)
Ce qui permet de construire l’intervalle de confiance
IC1−α [Y | x0 ] = ⎡⎣ yˆ0 ± t(n−P−1), (1−α 2) × σˆ 1+ x '0 (X 'X)−1 x 0 ⎤⎦
yˆ0 = x '0 b
Giorgio Russolillo – STA102
La stabilité des coefficients de régression
Giorgio Russolillo – STA102
Mesures de Multicolinéarité :Tolérance et VIF
L’écart-type du coefficient bj est un indicateur du caractère plus ou moins
−1
stable de l’estimation d’un coefficient. Comme var(B) = σ 2 ( X 'X )
, si
le prédicteurs sont très corrélés entre eux X’X est mal conditionnée
(déterminant proche de zéro) et son inverse aura des terme élevés. Donc
la source principale d’instabilité dans l’estimation de βp est la
multicolinéarité.
On note Rp2 le coefficient de détermination de la régression de xp
sur tous les autres prédicteurs. En plus, on note :
Variance Influence Factor
Tolérance
Tol(x p ) = 1 − Rp2
1
1
VIF(x p ) =
=
Tol(x p ) 1 − Rp2
N.B. : Si xp est orthogonale (c.à d. cov( xp, xp’ ) = 0) aux autres
prédicteurs, VIF(xp) = 1 ; sinon, VIF(xp) > 1
Giorgio Russolillo – STA102
Le VIF et la variance de Bp
On peut réécrire l’estimation de la variance d’un coefficient de
régression comme
σˆ
2
Bp
=
σˆ 2
n
∑ (x
ip
− x p )2
( )
× VIF x p
i=1
Ainsi, la variance du coefficient augmente avec VIF(xp)
Il faut éviter les situations où Tol < 0.5, ou VIF > 2. Une seuil de 3
est aussi commune pour le VIF.
Giorgio Russolillo – STA102
Autres diagnostics de multicolinéarité
§  Étudier la matrice des corrélations des estimateurs des
coefficients.
§  SAS fournit des autres indications concernant la multicolinéarité.
ü 
Comme en ACP, on calcule les valeurs propres de la
matrice X’X normée. On les édite de la plus grande à la plus
petite. Une valeur propre nulle indique une dépendance linéaire,
donc une colinéarité parfaite.
ü  CONDITION NUMBER est la racine carrée du rapport entre
la plus grande valeur et chacun des autres valeurs. Ces
rapports devraient être égaux à 1 si les sont indépendantes.
Une valeur grande (30 avec l’option COLLINOINT) met en
évidence un problème
ü 
De plus, SAS fournit des «variance proportions» qui
indiquent la pourcentage de variabilité de chaque variable
expliquée par la composante. (Problème si plusieurs variables
ont des « variance proportions » > 0,50 pour un «CONDITION
NUMBER» élevé.)
Giorgio Russolillo – STA102
Remèdes en cas de multicolinéarité
ü  Augmenter la taille n de l’échantillon
ü  Sélectionner les régresseurs, si P trop grand par
rapport à n
ü  Régression sur composantes principales
ü  Ridge-régression
ü  Régression PLS
Giorgio Russolillo – STA102
Les données
Giorgio Russolillo – STA102
Description des variables
Giorgio Russolillo – STA102
Objectif
Giorgio Russolillo – STA102
Exemple : Matrice de corrélations
Giorgio Russolillo – STA102
Exemple : Tableau de l’analyse de la variance
Giorgio Russolillo – STA102
Exemple : Estimations des coefficients
Giorgio Russolillo – STA102
Exemple : Diagnostique de colinéarité
Giorgio Russolillo – STA102