Diapositive 1

Download Report

Transcript Diapositive 1

Chapitre 5 - Mesurer la
relation entre 2 variables
(suite)
Exemple d’application de la corrélation de Pearson
Existe-t-il une relation la longueur des
pattes antérieures et postérieures
chez les sciuridés ?
Espèce
1
2
3
4
5
6
antérieur
6
12
14
18
21
24
postérieur
5
10
17
16
24
25
- On observe une relation de type linéaire
- H0: Il n’y a pas de relation linéaire entre
les 2 variables
patte postérieure
30
25
20
15
10
5
0
0
10
20
patte antérieure
30
1/ calcul des écarts aux moyennes
moyenne
x
y
x-x
y-y
6
12
14
18
21
24
15.8
5
10
17
16
24
25
16.2
-9.8
-3.8
-1.8
2.2
5.2
8.2
-11.2
-6.2
0.8
-0.2
7.8
8.8
2/ calcul de r
n
rX, Y 
 x  x  y
i 1
n
i
i
 y 
n
2




x

x
y

y
 i
 i
i 1
2
(-9.8)(-11.2)+(-3.8)(-6.2)+…= 244.16
[(-9.8)²+(-3.8)² +…] [(-11.2)² +(-6.2)²+…]= 139. 50
i 1
r=0.912
3/ On détermine la statistique pour robservé
robs = 0.912
t obs
n2
r
 7.02
2
1 r
4/ On prend la décision statistique
tcritique = t0.05,4= 2.777
tobs > tcritique
H0 rejetée
Il y existe une relation linéaire positive et
significative entre les 2 variables
Les deux variables sont significativement corrélées
La régression linéaire
• Une régression teste la nature de la relation entre une variable
dépendante et une variable indépendante à l’aide d’un modèle
spécifié
Ex: Existe-il un effet de la température sur la croissance d’une
espèce végétale ?
Variable dépendante
croissance
Variable indépendante
température
On teste ici un modèle du type : croissance = f(température)
1/ Décrit la relation linéaire entre une variable dépendante Y et une
variable indépendante X
2 / Détermine la proportion de la variation de Y est expliquée par la
variation de X
3/ Prédit de nouvelles valeurs de Y à partir de nouvelles valeurs de X
Le modèle est celui d’une équation de droite (modèle linéaire).
ordonnée
à l’origine
erreur
ŷi = a + b.xi + ei
Valeur prédite par le modèle
pour une valeur xi donnée
pente
Test en 2 étapes
1- Tester les coefficients de l’équation de droite a et b
Est-ce que la pente de la relation est différente de 0 ?
2- Tester l’ajustement du modèle aux données
Est-ce que le modèle décrit bien le nuage de points ?
val. observée yi
val. prédite ŷi
erreur ei
pente b
y
ordonnée à
l’origine a
x
xi
val. observée

Pour chaque valeur xi une population de valeur yi
est possible.
- cette population de yi est normalement distribuée
- sa variance est égale pour chaque yi
µ2
µ1
e2
e1
x1
x2
Estimation des paramètres de la régression
La droite de régression minimise la somme des carrés des erreurs
(méthode des moindres carrés). On estime a et b les 2 paramètres de la
droite.

n
La pente b
b
 x
i
i 1
n
 x
i 1
Forte relation
entre x et y
 x  yi  y 
i
 x
2
Pas de relation
entre x et y
b tend vers 0

La pente d’une régression b (i) n’est pas un coefficient de corrélation r (ii)
n
(i)
b
 x
i
i n
 x  yi  y 
n
2


x

x
 i
i 1
n
(ii)
rX, Y 
 x  x  y
i 1
i
n
n
i 1
i 1
i
 y 
2
2




x

x
y

y
 i
 i
L’ordonnée à l’origine a
a=0
a  y  bx
a0
- Biologiquement, a=0 peut avoir une signification
Ex: la relation entre la quantité de molécules synthetisées et le
nombre de molécules d’enzymes présentes
- Mathématiquement, on peut forcer la régression pour que a=0
Test des paramètres de la droite de régression
Test H0 : b=0
Test H0 : a=0
a
ta 
sa
b
tb 
sb
avec
sb 
(y
avec
i
 yˆ )
2
sa 
i
(n  2)( n  1) s x
2
2
ˆ
(
y

y
)
 i
 xi
i
i
(n  2)n ( xi  x ) 2
i

y  valeur prédite de y
tb et ta suivent une loi
de Student à ddl = n-2
2
Si ItobsI < ta/2, n-2 alors H0 acceptée
Si ItobsI > ta/2, n-2 alors H0 rejetée
Test du modèle de régression
disp. Totale =
disp. erreurs (résidus) +
yi
ŷi
y
x
xi
disp. régression
Principe du test
- On compare la variation expliquée par le modèle à la variation
inexpliquée (erreurs).
- Si variation non expliquée < variation expliquée, alors le modèle est ‘valide‘.
Source de variation ddl
Expliquée
yˆ i  y
Non expliquée
yi  yˆ
Totale
yi  y
1
Somme des Carrés
2
ˆ


y

y
 i
Carré moyen
(a)
i
n-2
2
ˆ


y

y
 i i
i
n-1
2


y

y
 i
i
2
ˆ


y

y
 i
i
(b)
Fobs
(a)/(b)
2
ˆ


y

y
 i
i
n2

Fobs suit une loi de Fisher-Snedecor à 1 et n-2 ddl

L’hypothèse alternative est ici variation expliquée > variation inexpliquée.

C’est un test unilatéral
inexpliquée > expliquée
inexpliquée < expliquée
a
Fobs<F0.05(1, n-2)
HO acceptée
F0.05(1, n-2)
Fpbs>F0.05(1, n-2)
HO rejetée
Coefficient de détermination r²

r² indique la proportion de la variation expliquée par la régression
par rapport à la dispersion totale.
2
n
r2 
dispersion expliquée par régression

dispersion totale
  yˆ
in
n
i
 y
2


y

y
 i
i 1

r² est un paramètre important car il donne le degré d’ajustement
du modèle de régression aux données observées.

C’est une indication de la validité du modèle.
Exemple d’application
Existe-t-il une relation la longueur des pattes
postérieures et la vitesse de course chez les
insectes ?
Espèce
1
2
3
4
5
6
patte
vitesse
6
12
14
18
21
24
19
26
33
35
44
43
Longueur patte postérieures = variable indépendante
Vitesse de course = variable dépendante
Hypothèses
- H0 (pente) : la pente de la droite n’est pas significativement différente de 0
- H0 (modèle) : Il n’y a pas de relation linéaire significative entre les 2 variables
1/ calcul des paramètres de la pente
Equation de droite
Vitesse = 1.444 longueur patte + 10.470
2/ Test des paramètres de la pente
coefficient
ordonnée a
pente b
10.470
1.444
erreur type
2.930
0.173
t
p
8.337
0,001
On rejette H0 : la pente de la régression diffère significativement de 0
3/ calcul de F
x
y
ŷ
yˆ  y
y  yˆ
6
12
14
18
21
24
19
26
33
35
44
43
33.33
19.13
27.80
30.69
36.46
40.79
45.13
-14.20
-5.54
-2.65
3.13
7.46
11.79
-0.13
-1.80
2.31
-1.46
3.21
-2.13
y
• Variation expliquée
2
ˆ


y

y
 i
(-14.2)²+(-5.54)²+…= 443.78
i
• Variation inexpliquée
2
ˆ


y

y
 i i
i
n2
(-0.13)²+(-1.80)²+…= 25.54 = 6.39
4
4
• Rapport F1,4
F1,4=
441.4
= 69.50
117.3
• Tableau récapitulatif
source
ddl
régression
résidu
1
4
carré moyen
443.78
6.50
F
p
69.50
0,001
4/ Décision statistique
- On cherche Fcritique dans la table (n trop petit ici) ou la probabilité du test
- On rejette H0 (modèle) et on accepte H1
Il existe une relation linéaire significative entre les 2 variables.
Le modèle permet d’expliquer la variation de la vitesse
Régression de y en x et régression de x en y
Contrairement au coefficient de corrélation, on ne peut interchanger
les 2 variables
x=c+dy
y=a+bx
y
x
Les deux pentes b et d sont égales uniquement si la corrélation entre les
deux variables est parfaite
Chapitre 6 – Tester la
normalité
Tester l’homogénéité de
variance

Défaut de symétrie
Asymétrique à gauche

Asymétrique à droite
Défaut de variance
Platykurtique
Leptokurtique
Test de Kolmogorov-Smirnov
Compare une distribution observée (discrète) à une distribution
théorique continue

Distribution observée
1
5
0
0
Fonction de répartition
Distribution discrète
Distribution théorique
1
0
Fonction de densité de
probabilité
0
Distribution discrète
Fonction de répartition
1 / Calculer les courbes de fréquence relatives cumulées pour les
valeurs théoriques et observées
2/ Calculer la différence entre la valeur observée et la valeur théorique
pour chaque classe de valeur
1
D
0
3/ La différence la + grande est la statistique Dobs
Dobs
4/ On compare Dobs à Dcritique dans une table spécifique
Si Dobs>Dcritique, H0 est rejetée

la distribution n’est pas normale
Test de Lilliefors
Même principe que le test de K-S, mais les paramètres de la distribution
théorique sont estimés d’après ceux de la distribution observée.
Tests de Kolmogorov-Smirnov et de Liliefors sont sensibles à
tous types de déviation (moyenne, asymétrie, aplatissement)
Test de Shapiro-Wilks' W

Test courant des logiciels statistiques
Plus conservatif que Kolmogorov-Smirnov. Sensible notamment aux
asymétries

Rapport W de 2 estimations liées à la variance de la population dont
provient l’échantillon de n valeurs


Procédure
1/ On classe les n valeurs par ordre croissant
x1 x2  …  xn-1  xn
n
2/ On calcule la somme des carrés des écarts
(1)  SCE   xi  x   n  1S 2
i 1
3/ On calcule les différences
Si n pair= n/2 différences
Si n impair = (n-1)/2 différences
d1=xn-x1
d2=xn-1-x2
d3=xn-2-x3
4/ On calcule b
Les coefficients ai sont donnés dans
une table pour n donné
5/ On calcule W
n
(2)  b   ai d i
i 1
(2)
b2
W

(1) SCE
6/ On Compare W à W1-α,n
W1-α,n dans table de Shapiro-Wilk est
fonction de α et n
7/ Si W< W1-α,n H0 est rejetée
http://www.cjonquiere.qc.ca/begin/ZEAA2005/TestShapiroWilk.htm
la distribution n’est
pas normale
Test d’égalité des variances
Certains tests supposent que les échantillons comparés ont
des variance égales (ANOVA)

oui
oui
non

Procédure
S21 variance de l’échantillon 1, S2n variance de l’échantillon n
- H0 : s21 = s22=…=S2n
- On calcule Fobservée = S2max/ S2min
- Le ddl est de ni-1 pour chaque échantillon i
- On calcule Fcritique= Fddl Smax, ddl Smin
-Suppose les ddl des différents groupes égaux. Si faux, correction
- Si Fobs > Fcritique pour a donné
H0 est rejetée
Test sensible aux déviation de normalité des variables
Autres tests
Test de Bartlett :très sensible aux déviations de normalité
Test log-anova : plus robuste aux déviations de normalité
Test de Levene : idem mais grands échantillons nécessaires
Dans tous les cas, le rejet de H0 indique l’hétérogénéité
des variances
Un test comme l’ANOVA ne devrait alors pas être utilisé
Collecte des données
Préparation d’un tableau statistique
(observations en ligne, variables en colonne)
Exploration – Distribution de fréquence, statistiques descriptives
Test de normalité
Test d’égalité des variances
Test paramétrique
H0 acceptée
ou
H0 rejetée
Que faire quand les données ne sont pas normales ?
On réalise une transformation de la variable à l’aide d’une fonction
mathématique

y
f(y)
Variable originale
Variable transformée

Une transformation doit être monotone
f(y)
y
oui

oui
Les transformations les plus courantes sont
y
log(y)
exp(y)
yx racines ou puissances
non
Synoptique des
principaux tests
Variables quantitatives
Objectif
Tests
- Comparer 2 groupes
Test t
- Comparer + 2 groupes
ANOVA
- Relation linéaire entre 2
variables (pente non calculée)
Corrélation linéaire de Pearson
- Relation linéaire entre 2
variables et prédictions valeurs
(pente calculée)
Régression linéaire
Variables catégorielles
Objectif
Tests
- Conformité à des effectifs
théoriques
Test du Khi-deux de conformité
- Association entre variables
Test du Khi-deux, test de Fisher
Variables quantitatives
Test t
moyenne ±
écart-type
G1
G2
moyenne ±
écart-type
ANOVA
G1
G2
G3
y
Corrélation linéaire
de Pearson
x
y
Régression linéaire
x
Variables catégorielles
effectifs
Test du Khi-deux
de conformité
0
1
2
3
4
5
x
condition 1
condition 2
Test du Khi-deux
Test de Fisher
effectifs
G1
G2