Document 4587507

Download Report

Transcript Document 4587507

Etude des résidus et des points
influentes
Giorgio Russolillo – STA102
Etude des résidus
Giorgio Russolillo – STA102
Graphe des résidus
e
e
x
Toutes les hypothèses sont respectées
x
Non linearité:
La relation entre y et x n’est pas
linéaire.
Envisager un modèle en x2
Giorgio Russolillo – STA102
Graphe des résidus
e
e
x
Hétéroscédasticité:
Giorgio Russolillo – STA102
x
Autocorrelation:
Test d’autocorrélation des résidus
Giorgio Russolillo – STA102
Tests de normalité des résidus
(QQ Plot)
Giorgio Russolillo – STA102
Remarque
Ne pas confondre les variances des v.a. Y-A-Bx
(résidu) et Y0-A-Bx0 (résidu pour une nouvelle valeur x0) :
var(Yi − [A + Bxi ]) = var(Yi ) + var(A + Bxi ) − 2 cov(Yi , A + Bxi ) =
= var(Y ) + var(A + Bx ) − 2 var(Yˆ ) = σ 2 + σ 2 h − 2σ 2 h ⇒
i
i
i
i
i
var(Yi − [A + Bxi ]) = σ 2 (1− hi )
Yi − A − Bxi ~ N(0, σ 2 (1 − hi ))
var(Y0 − [A + Bx0 ]) = var(Y0 ) + var(A + Bx0 ) − 2 cov(Y0 , A + Bx0 ) =
= σ 2 + σ 2 h0 − 0 ⇒
var(Y0 − [A + Bx0 ]) = σ 2 (1+ h0 )
Y0 − A − Bx0 ~ N(0, σ 2 (1+ h0 ))
(Voir le transparent intitulé « Le résidu pour une
valeur non observée x0 »)
Giorgio Russolillo – STA102
Erreurs et résidus
ε i ~ N ( 0, σ 2 )
les erreurs sont indépendents
Yi − A − Bxi ~ N(0,σ 2 (1− hi ))
ils ne sont pas indépendents!!
2
Si on estime σ 2 par Sn−2
:
Yi − A − Bxi
~ Tn−2
Sn−2 × 1 − hi
Giorgio Russolillo – STA102
Résidus standardisés et studentisés
Trois possibles normalisations des résidus:
ei / σˆ
Résidu standardisé
Résidu studentisé interne
ei / σˆ 1 − hi (Student Residual in SAS)
Résidu studentisé externe
ei / σˆ (−i ) 1 − hi (RStudent in SAS)
1 n 2
e(−i ) j
Écart type calculé par jackknife σˆ (−i ) =
∑
n − 3 j =1
Un résidu studentisé est considéré (trop) grand si > 2 (mais
autres seuils possibles sont 2.5 et 3)
(σˆ
1 − hi = Std Err Residual in SAS
Giorgio Russolillo - STA102
)
Une mesure d’influence: la distance de Cook
n
Di =
2
ˆ
ˆ
(
y
−
y
)
∑ i (− j )i
j =1
2σˆ 2
ei ⎡ hi ⎤
=
2 ⎢
2⎥
2σˆ ⎣ (1 − hi ) ⎦
Seuls possibles: Di > 1; Di > 4/n
Giorgio Russolillo - STA102
Exemple
Giorgio Russolillo – STA102
Autres mesures d’influence
2
'
−1
det(σˆ (−i
(X
X
)
)
n ⎡ 4
)
(−i ) (−1)
4
ˆ
ˆ
covratio=
=
σ
var(x
)
/
σ
var(x)⎤⎦
(−i )
(−i )
⎣
2
'
−1
det(σˆ (−i ) (X X) )
n−2
(
)(
DFBETASi = b − b(−i ) σˆ
C’est grand si
|Covratio – 1| > 6/n
(
DFBETAS _ ai = a − a(−i )
)(
2
σˆ (−i
) (X 'X)11
)
2
(−i )
(X 'X)22
)
−1/2
−1/2
C’est grand si
DFBETAS > 2/sqrt(n)
C’est grand si
DFFITS > 2*sqrt(2/n)
yˆi − yˆ(−i )
DFFITSi =
σˆ (−i ) hi
Giorgio Russolillo – STA102
Exemple
Giorgio Russolillo – STA102
Outputs de SAS pour le dataset
« Apartements »
Giorgio Russolillo – STA102
Sorties SAS
Giorgio Russolillo – STA102
Exemple
Giorgio Russolillo – STA102
Sorties SAS
Giorgio Russolillo – STA102
Sorties SAS
Giorgio Russolillo – STA102
Sorties SAS
Giorgio Russolillo – STA102
Élimination des observations atypiques
Si la connaissance du domaine étudié permet
d’expliquer une erreur anormalement élevée en valeur
absolue et justifie de considérer cette observation
comme différente des autres, alors, et alors seulement,
il est légitime de recommencer l’analyse en éliminant
cette observation.
Mais le champ d’application du model obtenu en est
évidemment réduit d’autant.
Giorgio Russolillo – STA102
Observations atypiques
18
25
Giorgio Russolillo – STA102
Observations atypiques
16
Giorgio Russolillo – STA102
Observations atypiques
3
Giorgio Russolillo – STA102
Observations atypiques
Giorgio Russolillo – STA102
Ecriture matricielle du modèle
Y = XΘ
+
ε
( ) (
(n ×1)
(n × 2)
2 ×1
n ×1)
où
⎡
⎢
⎢
Y =⎢
⎢
⎢⎣
⎡ ε ⎤
⎡1 x1 ⎤
Y1 ⎤
1
⎢
⎥
⎥
⎢
⎥
⎡ α ⎤
1
x
⎢ ε2 ⎥
Y2 ⎥
2⎥
⎢
⎥
⎥ X = ⎢! ! ⎥ Θ = ⎢⎢ β ⎥⎥ ε = ⎢
! ⎥
! ⎥
⎣
⎦
⎢
⎢
⎥
Yn ⎥⎦
⎢⎣ ε n ⎥⎦
⎣1 x n ⎦
Giorgio Russolillo – STA102
Traiter de relations non linéaires avec
un model linéaire
Giorgio Russolillo – STA102
Généralité du model linéaire
La méthode des moindres carrés utilisée dans le
cadre de la régression linéaire permet l’ajustement
de modèles non linéaires, en transformant les
données.
Giorgio Russolillo – STA102
Modèle Exponentiel
⎧
⎪ x* = x
⎨ *
⎪
⎩ y = ln(y)
⎧x
⎨
⎩y
Giorgio Russolillo – STA102
Modèle Exponentiel
On effectue l’ajustement linéaire sur les données
transformées.
ln y = a + bx
soi
t
y* = a + bx *
En prenant l’exponentielle des deux
membres : ln y
a+bx
a
b x
e =e
=e e
( )
K C
Soit
y = KC x
Giorgio Russolillo – STA102
Modèle Logarithmique
⎧
⎪ x * = ln(x)
⎨ *
⎪
⎩y = y
⎧x
⎨
⎩y
On effectue l’ajustement linéaire sur les données
transformées.
y = a + b ln(x) soit
y* = a + bx *
Giorgio Russolillo – STA102
Modèle Puissance
⎧
⎪ x * = ln(x)
⎨ *
⎪
⎩ y = ln(y)
⎧x
⎨
⎩y
On effectue l’ajustement linéaire sur les données
transformées.
ln(y) = a + b ln(x) soit
y* = a + bx *
Par passage à l’exponentielle :
e
Soit
ln( y)
=e
y = Kx b
( ) = ea eln ( x )
a+ln x b
b
K
Giorgio Russolillo – STA102