Les différents tests statistiques

Download Report

Transcript Les différents tests statistiques

- Comparaison de deux pourcentages -
Cours de statistiques – ISBS - 2006
Test du Khi-2
Hypothèse nulle Ho : P1=P2
Hypothèse alternative H1 : P1P2
Observations :
-Échantillon issu de la population 1 : n1 et p1
-Échantillon issu de la population 2 : n2 et p2
M+
M-
E1
O11
O12
n1
E2
O21
O22
n2
m2
n
m1
Cij = valeur attendue si Ho est vraie = ?
p1 =
p2 =
O11
n1
O21
n2
Calculs des Cij
M+
M-
E1
O11
O12
n1
E2
O21
O22
n2
m2
n
m1
Cij =
ni mj
n
p1 =
p2 =
O11
n1
O21
n2
Test du Khi-2
Ho : P1=P2
H1 : P1P2
M+
E1
O11
E2
O21
m1
MC11
C21
O12
O22
m2
C21
C22
n1
n2
n
p1 =
p2 =
O11
n1
O21
n2
Si Ho est vraie, et la taille de l’échantillon est assez grande (Cij5) alors:
o2
(O11-C11)2 (O12-C12)2 (O21-C21)2 (O22-C22)2
=
+
+
+
C12
C21
C22
C11
o2
2
(O-C)
=Σ
C
Suit une loi du khi-2 à 1ddl
Cas des petits échantillons
Si au moins un des Cij est inférieur à 5 et que tous sont supérieurs ou
égaux à 3
M+
ME1
O11
E2
O21
m1
C11
C21
O12
O22
m2
C21
C22
n1
n2
n
Correction de Yates
o2
2
(lO-Cl-0,5)
=Σ
C
Suit une loi du khi-2 à 1ddl
Conditions d’application : 3 Cij <5
Cas des très petits échantillons
Au moins un des Cij est inférieur à 3
Test de Fisher
- Comparaison de plusieurs distributions observées -
Cours de statistiques – ISBS - 2006
• p populations : B1, B2, ……, Bp
• k classes de sujets : A1, A2, ….Ak
• Pij = pourcentage vrai de sujets dans la classe j de la population i
A1
A2
B1
P11
P12
….
….
P1k
1 (=100%)
B2
P21
P22
….
….
P2k
1
…..
….
….
….
….
….
1
Bi
Aj
….
Pij
Ak
1
….
….
….
….
….
….
….
1
Bp
Pp1
Pp2
….
….
Ppk
1
A1
A2
Ak
B1
P11
P12
….
P1k
1 (=100%)
B2
P21
P22
….
P2k
1
….
….
….
….
….
1
Bp
Pp1
Pp2
….
Ppk
1
Hypothèses à testées
Ho : P11=P12=….=P1k
P12 =P22=….=Pk2
……………………..
La répartition des classes Aj est
identiques dans les p populations
P1k= P2k=….=PpK
H1 : une des égalités au moins n’est pas vraie.
Valeurs attendues si Ho est vraie
Dans chacune des populations, on tire au hasard un échantillon de ni sujets.
A1
B1
B2
…..
O11
O21
A2
O12
C11
C21
….
C12
O22
C22
….
Bi
….
Bp
Aj
….
….
….
….
….
….
….
….
….
Op1
Op2
Cp1
m1
Cp2
m2
Ak
Oij
Cij
….
….
….
mj
C1k
O2k
C2k
….
….
n1
n2
….
ni
….
….
…
O1k
….
….
Opk
np
Cpk
mk
n
Le même raisonnement que pour le tableau de o2 à 4 cases conduit à :
Cij =
ni mj
n
Si Ho est vraie, et la taille de l’échantillon est assez grande (Cij5) alors:
o2
2
(Oij-Cij)
=Σ
Suit une loi du khi-2 à (p-1)x(k-1) ddl
Cij
Rejet de Ho au risque α, si o2  2
(p-1)x(k-1);α
Conditions d’application : Cij5
Si les conditions d’application ne sont pas satisfaites, on regroupe
2 lignes ou 2 colonnes (ou plus de 2 si nécessaire) à condition que
cela est un sens.
- Comparaison d’une moyenne observées à une
valeur théorique -
Cours de statistiques – ISBS - 2006
Hypothèses testées
Ho : µ = µHo
H1 : µ  µHo
µ = valeur vraie de la moyenne de X dans la population
µHo = valeur fixée à laquelle on veut comparer µ
Observations sur un échantillon de taille n
n
n
Σxi
m=
i=1
n
s2 =
Σxi2i=1
1 n 2
(Σx )
n i=1 i
n-1
Cas d’un petit échantillon (n < 30)
Observations attendues si Ho est vraie
Si la distribution de X est normale : Tn-1 =
m-µHo
σ2/n
suit une loi de
Student à (n-1) ddl
Test: On calcule la valeur de T observée sur l’échantillon:
t0 =
m-µHo
s2/n
Conditions d’application : distribution de X normale
n <30
Rejet de Ho avec un risque α:
Rejet Ho
-tn-1;α/2
0
tn-1;α/2
t0
Rejet de Ho si ItoI  tn-1;α/2
Cas d’un grand échantillon (n  30)
Observations attendues si Ho est vraie
Si la distribution de X est normale : Z =
m-µHo
σ2/n
suit une loi de
normale centrée réduite
Test: On calcule la valeur de T observée sur l’échantillon:
z0 =
m-µHo
s2/n
Condition d’application : n <30
Rejet de Ho avec un risque α:
Rejet Ho
-zα/2
0
zα/2
z0
Rejet de Ho si IzoI  zα/2
- Comparaison de deux moyennes -
Cours de statistiques – ISBS - 2006
Hypothèses testées
Ho : µ1 = µ2
H1 : µ1  µ2
µ1 et µ2 = valeurs vraies de la moyenne de X dans les populations 1 et 2
Observations
Echantillon 1 : n1, m1, s21
Echantillon 2 : n2, m2, s22
Le choix du test va dépendre des effectifs des 2 échantillons
Cas de grands échantillons (n1  30 et n2  30)
m1 suit approximativement une loi normale de moyenne µ1 et de
variance σ21/n1 car n1  30
m2 suit approximativement une loi normale de moyenne µ2 et de
variance σ22/n2 car n2  30
(m1-m2) suit approximativement une loi normale de moyenne
(µ1-µ2) et de variance
Z=
σ2 1
(m1-m2)-(µ1-µ2)
σ2 1
n1
+
σ2 2
n2
n1
+
σ2 2
n2
Suit approximativement une loi
normale centrée réduite
Observations attendues si Ho vraie
Si Ho vraie µ1-µ2 = 0
Z=
(m1-m2)
σ2 1
+
n1
σ22
Suit approximativement une loi
normale centrée réduite
n2
Test : on calcule la valeur de Z observée sur l’échantillon :
zo =
(m1-m2)
s2
1
n1
+
s2
2
n2
Rejet de Ho si IzoI  zα/2
Condition d’application : n1  30 et n2  30
Cas de petits échantillons (n1 < 30 ou n2 < 30)
Hypothèses testées
Ho : µ1 = µ2
H1 : µ1  µ2
Si
- la distribution de X est normale dans les deux populations
- les variances de X sont égales σ21 = σ22= σ2
Alors
T=
(m1-m2)-(µ1-µ2)
σ2
n1
Avec s2 =
Variance commune
+
σ2
Suit une loi de Student à n1+n2-2
ddl
n2
(n1-1)s21+(n2-1)s22
(n1-1)+(n2-1)
=
(n1-1)s21+(n2-1)s22
(n1 + n2-2)
Hypothèses testées
Ho : µ1 = µ2
H1 : µ1  µ2
Observations attendues si Ho est vraie
T=
(m1-m2)
σ2
n1
+
σ2
Suit une loi de Student à n1+n2-2
ddl
n2
Test : On calcule la valeur de T observée sur l’échantillon
to =
(m1-m2)
s2
s2
+
n1
n2
Rejet de Ho si ItoI  tn-1;α/2
Conditions d’application :
-distribution normale de X dans les 2 populations
-Variances de X égales dans les 2 populations
Cas de petits échantillons de tailles inégales et de variances différentes
On montre que
t’o =
(m1-m2)
Suit une loi de Student à k ddl
s2
s2
+
n1
n2
k=
(k=l’entier le plus proche du k
donné par la formule suivante)
s21
s22
+
n1
n2
1
n1-1
s21
n1
1
+
n2-1
s22
n2
- Comparaison de deux variances ANOVA
Cours de statistiques – ISBS - 2006
Hypothèses testées
Ho : σ21 = σ22
H1 : σ21  σ22
Observations
Echantillon 1 : n1, m1, s21
Echantillon 2 : n2, m2, s22
Fluctuations d’échantillonnage si Ho est vraie
Si la distribution de X est normale alors,
F=
S21
S22
Suit une lui de Fisher
n1-1
F n -1
2
Test de comparaison des variances
A partir des observations faites sur les échantillons, on calcule
Fo =
s21
s22
Et on le compare à la valeur seuil de la loi de Fischer à (n1-1) et (n2-1) ddl.
Fo > Fs on rejette Ho, les 2 variances sont significativement différentes
- Comparaison de plusieurs moyennes (Analyse de la variance ou ANOVA)
Cours de statistiques – ISBS - 2006
Les sujets de la population se répartissent en k classes.
On s’intéresse à une variable X dont on veut comparer les
moyennes dans les k classes
Hypothèses testées
Ho : µ1 = µ2 =…. = µk
H1 : il y a au moins une différence entre les k moyennes
Exemples
• Comparaison des poids de naissance moyens de différentes portées
de souriceaux.
L’intérêt est le « facteur portée » pas la différence entre
2 portées particulières.
• Comparaisons des valeurs moyennes d’un dosage biologique de 6
groupes de patients traités par 6 traitements différents.
On est intéressé par une comparaison globale mais peut-être
aussi par une comparaison 2 à 2, voire par un classement des
traitements.
Principes de l’analyse de variance
Considérons le cas où il y a 4 populations (k=4)
σ2
µ1
µ2
Les 4 moyennes sont
égales : σ2 = σ2T
Total σ2T
µ3
µ4
µ
σ2
Total σ2T
Les 4 moyennes sont
différentes : σ2 < σ2T
µ1
µ2
µ4
µ3
µ
σ2
Total σ2T
µ1
µ2
µ4
µ
µ3
La variance σ2T a deux composantes :
- σ2 qui est la variance interne à chaque groupe (variance
intra-groupe)
- la dispersion entre les µi qui correspond à la variabilité entre
les groupes (variance inter-groupe)
Principe de l’analyse de la variance :
- décomposer σ2T en ces 2 parties
- tester si σ2T est différentes de σ2
Notations
Soit X la variable aléatoire à laquelle on s’intéresse
k : le nombre de populations (et donc de moyennes) à comparer
(chaque population est repérée par l’indice j)
nj : la taille de l’échantillon extrait de la population j
(chaque sujet de l’échantillon est repéré par l’indice i)
Donc xij : ième observation de l’échantillon j
Décomposition de la variabilité des observations
Somme des carrés des écarts totale :
SCET = Σ(xij – m)2
ij
SCET = Σ (xij –mj+mj-m)2
ij
= Σ [(xij-mj)+(mj-m)]2
ij
Les termes (xij – mj) caractérisent la variabilité intra-groupe
Les termes (mj – m) caractérisent la variabilité inter-groupe
On montre que :
SCET = Σ (xij –mj)2 + Σ nj (mj-m)2
ij
j
SCET = Σ (xij –mj)2 + Σ nj (mj-m)2
ij
j
SCET
Somme des carrés des écarts totale
SCER
Somme des carrés des écarts
résiduelle
SCEA = Σ nj (mj-m)2
j
SCEA
Somme des carrés des écarts due
au facteur étudié
ne dépend que de la dispersion des
moyennes mj des groupes comparés
= somme des carrés des écarts entre groupes (ou somme des carrés
des écarts due au facteur A)
SCEA possède (k-1) ddl
La variance correspondante (entre groupes) σ2A est estimée par
s2A =
SCEA
k-1
SCET = Σ (xij –mj)2 + Σ nj (mj-m)2
ij
j
SCET
Somme des carrés des écarts totale
SCER
Somme des carrés des écarts
résiduelle
SCER = Σ j (xjj-mj)2
ij
SCEA
Somme des carrés des écarts due
au facteur étudié
ne dépend que de la dispersion des
valeurs xij au sein de chaque échantillon
= somme des carrés des écarts intra-classe (ou résiduelle)
SCER possède (n-k) ddl
La variance résiduelle correspondante σ2R est estimée par
s2R =
SCER
n-k
Principes de l’analyse de variance
1. Décomposer S2T (en fait SCET) en deux parties : SCET = SCEA + SCER
σ2
Total σ2T
µ1
µ2
µ4
µ
σ2 T
σ2 A
σ2 =(σ2R)
µ3
2. Tester si σ2T est égale à σ2 (σ2 = σ2 R) c’est-à-dire comparer s2T et
s2R
En fait, S2T et S2R ne sont pas indépendants et on montre qu’il faut
comparer S2A et S2R
Pour cela on a besoin de leurs valeurs théoriques
Valeurs théoriques des sommes des carrés des écarts
SCET
Somme des carrés des écarts totale
SCER
Somme des carrés des écarts
résiduelle
SCEA
Somme des carrés des écarts due
au facteur étudié
On montre que :
1 Σ n (µ -µ)2
j
j
n-1
σ2A = σ2 + 1 Σ nj (µj-µ)2
k-1
σ2 R = σ2
σ2 T = σ2 +
Test de comparaison des moyennes – Analyse de la variance
Ho : µ1 = µ2 = ……+ µk
Ho : σ2A = σ2R
H1 : il y a au moins une différence entre les k moyennes
H1 : σ2A > σ2R
Si Ho est vraie
et si X a une distribution normale de même variance dans chaque
population,
on montre que
Fo =
S2A
S2R
suit une loi de Fischer F
k-1
n-k
Règle de décision – Analyse de la variance
k-1
: Rejet de Ho (au risque α)
k-1
: Non rejet de Ho
Fo ≥ F n-k
Fo < F n-k
Conditions d’application : X a une distribution normale
de même variance dans chaque population.
Exécution des calculs
Tableau d’analyse de la variance
Source de
variation
Entre
groupes
Somme des carrés
des écarts
SCEA
ddl
Carrés moyen
(ou variance)
k-1
s2
s2
Résiduelle
SCER
n-k
Total
SCET =
SCEA+SCER
n-1
A
R
=
=
SCEA
k-1
SCER
n-k
F
s2A
Fo = 2
s R
SCEA = Σ nj (mj-m)2
Tj2 TG2
=Σ
= Σnjmj2 – nm2
n
nj
TG = total général = Σ xij
Tj = total de l’échantillon j = Σ xj
T j2
SCER = Σ xij2 - n
ij
j
Exemples
Mois de
prélèvement
n
11
12
2
3
4
30
106
87
53
40
8212
777286
4929
459085
3739
350201
717
412
769
377
VGM (en µ3)
Σx
Σ x2
2809
9687
263467 887305
Nombre de leucocytes (106 par l)
m
s2
824
627
749
507
716
290
Comparaison des moyennes du VGM
Mois de
prélèvement
n
11
12
2
3
4
30
106
87
53
40
8212
777286
4929
459085
3739
350201
VGM (en µ3)
Σx
Σ x2
2809
9687
263467 887305
Tj2 TG2 28092
37392 293762
=
+ ……. +
SCEA = Σ
n
nj
30
40
316
= 464,75
T j2
2
2
SCER = Σ xij2 - n = 2737344 – ( 2809 + ……. + 3739 )
ij
j
30
40
= 6026,80
SCET = 464,75 + 6026,80 = 6491,54
Source de
variation
Entre mois
Résiduelle
Somme des carrés
des écarts
SCEA = 464,75
SCER = 6026,8
ddl
4
311
Carrés moyen
(ou variance)
s2
464,75
A =
4
116,19
Fo =
19,38
= 116,19
= 6,00
s2
R
6026,8
=
311
= 19,38
Total
SCET = 6491,54
315
4
F
Fo doit être comparé avec la valeur seuil de F 311
α
0,05
0,025
0,01
0,001
F 4
200
2,42
2,85
3,41
4,81
F 4
311
…….
……..
……..
……..
F 4
500
2,39
2,81
3,36
4,69
Les moyennes de VGM varient avec le mois de prélèvement
Comparaison des moyennes du VGM
Mois de
prélèvement
n
11
12
2
3
4
30
106
87
53
40
716
290
717
412
769
377
Nombre de leucocytes (106 par l)
m
s2
824
627
749
507
Σn m
m = 1 ΣTj = j j
n
n
=
30x8,24+…..+40x7,69
316
=
2351,67
316
= 7,442
SCEA = Σnjmj2 – nm2
= 30x8,242+…..+40x7,692-316x7,4422
= 17533,76-17501,14 = 32,62
SCER = Σ(nj-1)sj2
= 29x6,27+…..+39x3,77
= 1324,85
SCET = SCEA+ SCER
= 1366,87
Source de
variation
Entre mois
Somme des carrés
des écarts
SCEA = 32,62
ddl
4
Carrés moyen
(ou variance)
s2A =
32,62
4
= 8,16
Résiduelle
SCER = 1324,85
311
1324,85
s2R =
311
= 4,26
Total
SCET = 1366,87
315
4
Fo doit être comparé avec la valeur seuil de F 311
F
8,16
Fo =
4,26
= 1,92
α
0,05
0,025
0,01
0,001
F 4
200
2,42
2,85
3,41
4,81
F 4
311
…….
……..
……..
……..
F 4
500
2,39
2,81
3,36
4,69
On ne met pas en évidence de différence entre les nombres
moyens de leucocytes selon le mois de prélèvement.