chapitre 1 - IUT en Ligne
Download
Report
Transcript chapitre 1 - IUT en Ligne
Initiation aux statistiques inférentielles
• Chapitre 1 : les échantillons
• Chapitre 2 : la loi normale : première loi
d’échantillonnage
• Chapitre 3 : l’estimation ponctuelle et par
intervalle de confiance
• Chapitre 4 : l’initiation aux tests d’hypothèse
1
CHAPITRE 1 : LES ECHANTILLONS
INTRODUCTION
A. Les indicateurs des
échantillons
1°) Exemple 1.
2°) Exemple 2.
3°) Exemple 3.
B. Les fluctuations d’échantillonage.
1°) Objectif .
2°) Exemple.
C. Les sondages classiques
1°) Les sondages aléatoires.
2°) les sondages empiriques.
Mises en garde.
2
CHAPITRE 1 : LES ECHANTILLONS
Les objectifs
•
Premier objectif : Connaître les propriétés de la population dont est extrait l’ échantillon.
•
Deuxième objectif : Vérifier si la production est conforme aux attentes ou spécifications.
•
Troisième objectif : comparer deux (ou plus) traitements différents : en ressources humaines, peut-on
affirmer que depuis la création de la crèche d’ entreprise, le taux d’ absentéisme a baissé ; en marketing,
les ventes réalisées sont-elles différentes avec ce nouvel emballage ?
•
Le comportement des échantillons est incertain :
Par exemple, si le poids moyen des paquets de la production est de 250 grammes, il est
possible de trouver un échantillon de poids moyen 249 grammes
Si dans un échantillon de 1 000 personnes, 200 votent pour A alors est-on vraiment certain que A
réalisera un score de 20 % lors de l’ élection ?
3
CHAPITRE 1 : LES ECHANTILLONS
Incertain et Aléatoire
•
Par exemple, si le poids moyen des paquets de la production est de 250 grammes, il est possible de
trouver un échantillon de poids moyen 249 grammes mais avec quelle probabilité ?
•
Autre exemple : si dans un échantillon de 1 000 personnes, 200 votent pour A alors est-on vraiment
certain que A réalisera un score de 20 % lors de l’ élection ? Avec quelle certitude ?
•
On peut penser que, si le sondage est bien fait, A réalisera un score «autour» de 20 % mais la
question devient alors :
entre 19 % et 21 % ?
entre 17 % et 23 % ?
entre 10 % et 30 % ?
«il va peut-être pleuvoir» et «il y a une probabilité de 30 % qu’il pleuve»
Si je connais cette probabilité, j’adapte mon comportement et je prends ou pas mon parapluie
4
CHAPITRE 1 : LES ECHANTILLONS
Echantillon Gaussien
•
L’utilisation de la loi normale dont la caractéristique principale est sa
forme de «courbe en cloche» est fondamentale
•
Parmi ces trois échantillons qui suivent, y en a-t-il qui sont manifestement
gaussiens ?
5
CHAPITRE 1 : LES ECHANTILLONS
Gaussien ?
Oui !
6
CHAPITRE 1 : LES ECHANTILLONS
Gaussien ?
Non !
7
CHAPITRE 1 : LES ECHANTILLONS
Gaussien ?
?? ?
8
CHAPITRE 1 : LES ECHANTILLONS
A. Les indicateurs des échantillons
1°) Exemple 1 :
Dans une PME, durant les 25 derniers jours
ouvrés, on a relevé chaque jour le nombre de
salariés en arrêt de travail :
Nombre de
personnes
0
1
2
3
4
5
6
7
8
9
3
4
3
5
3
2
3
1
0
1
en arrêt
Nombre de
jours
n .x
x
n
i
i
i
V (x)
3 0 4 1 .........1 9
3,24
3 4 ......9
2
n
.x
i i
n
i
2
2
2
3
0
4
1
.......9
1
397
x2
3,24 2
3,24 2 5, 3824
25
25
(x) 5,3824 2,32
la variable est numérique est il est bien difficile de savoir si la représentation est proche d’une courbe en
cloche
9
CHAPITRE 1 : LES ECHANTILLONS
A. Les indicateurs des échantillons
2°) Exemple 2 :
Une entreprise a étudié son chiffre d’ affaires sur les derniers jours:
Chiffre
d’affaires
[0,1[
[1,2[
[2,3[
[3,4[
[4,5[
[5,6[
[6,7[
[7,8[
2
12
40
88
65
35
5
3
Nombre de
journées
On rappelle que dans le cas d’une série continue, les xi représentent alors les centres de classe
n .x 2 0,5 12 1,5 .........3 7,5
x
3,868
2 12 ....3
n
n .x
2 0,5 12 1,5 .......3 7,5
V (x)
x
2 12 ....3
n
i
i
i
2
i
i
2
2
2
i
2
4110,5
3,868
3,868 2 1, 486
250
2
(x) 1,486 1,219
la variable est numérique et la représentation est proche d’une courbe en cloche
10
CHAPITRE 1 : LES ECHANTILLONS
11
CHAPITRE 1 : LES ECHANTILLONS
A. Les indicateurs des échantillons
3°) Exemple 3 :
Dans ce groupe de 135 étudiants, il y a 80 filles : 51 de moins de 21 ans et 29 de plus
de 21 ans et 55 garçons : 25 de moins de 21 ans et 30 de plus de 21 ans.
Quelle est la proportion de filles ?
80
Elle est de
135
Quelle est la proportion d’ étudiants de moins de 21 ans ?
Elle est de
51 25
135
Quelle est la proportion de filles parmi les étudiants de moins de 21 ans ?
Elle est de
51
51 25
Les variables étudiées sont :
le sexe, variable qualitative
l’âge, variable quantitative mais comme l’échantillon est séparé en deux groupes , jeunes et
moins jeunes, la variable est devenue qualitative.
12
CHAPITRE 1 : LES ECHANTILLONS
B. Les fluctuations d’échantillonage.
Urne :
180 blanches et 20 noires
On en tire 10 .
Quelle est la probabilité d’avoir 1 noire ?
Quelle est la probabilité d’avoir au moins 3 noires ?
Ceci est le point de vue probabiliste .
13
CHAPITRE 1 : LES ECHANTILLONS
B. Les fluctuations d’échantillonage.
Urne : 1000 boules
On en tire 15
par exemple on en obtient 3 noires soit 20 %
Peut-on en déduire le nombre de noires dans l’urne ?
C’est le point de vue du sondeur
14
CHAPITRE 1 : LES ECHANTILLONS
B. Les fluctuations d’échantillonage.
Urne :
beaucoup de boules
On en tire 15
par exemple on en obtient 3 noires soit 20 %
Peut-on en déduire le nombre de noires dans l’urne ?
Peut-on en déduire la proportion de noires dans l’urne ?
C’est le point de vue du sondeur
15
CHAPITRE 1 : LES ECHANTILLONS
B. Les fluctuations d’échantillonage.
Plage avec beaucoup de grains de sable
On m’affirme 10 % de grains noirs et je prends un
échantillon de 80 grains.
Je trouve non pas 8 grains noirs comme attendu mais 9.
Que décider ?
C’est le point de vue du contrôleur
16
CHAPITRE 1 : LES ECHANTILLONS
B. Les fluctuations d’échantillonage
2°) Exemple :
On considère les 5 notes obtenues par un étudiant : 7 ; 8 ; 10 ; 11 ; 14
a) la moyenne :
la variance :
l’écart-type :
7 8 10 11 14
m
10
5
7 2 8 2 10 2 112 14 2
10 2 6
5
2
6
1
et parmi ces 5 notes la proportion p de notes supérieure à 12pest
5
Attention
Si on considère que ces 5 notes constituent la population, les indicateurs de la population sont notés :
m, , p
On va prélever dans cette population de 5 notes des échantillons de taille 2
17
CHAPITRE 1 : LES ECHANTILLONS
Les 25 échantillons possibles
Ecarttype
proportion de notes
supérieures à 12
0
0
0
7,5
0,25
0,5
0
10
8,5
2,25
1,5
0
11
9
4
2
0
Echantillon n°
note 1
note 2
Moyenne Variance
1
7
7
7
2
7
8
3
7
4
7
12,2
14 10,5
3,5
5
pour le premier échantillon :
moyenne
variance
proportion
0,5
77
x1 7 2 772
s12 2
72 0
2
0
f1
2
5
7
6
8
7
7,5
0,25
0,5
0
7
8
8
8
0
0
0
8
8
10
9
1
1
0
9
8
11
9,5
2,25
1,5
0
10
8
14
11
9
3
0,5
11
10
7
8,5
2,25
1,5
0
12
10
8
9
1
1
0
13
10
10
10
0
0
0
14
10
11
10,5
0,25
0,5
0
15
10
14
12
4
2
0,5
16
11
7
9
4
2
0
17
11
8
9,5
2,25
1,5
0
18
11
10
10,5
0,25
0,5
0
19
11
11
11
0
0
0
20
11
14
12,5
2,25
1,5
0,5
Si on considère que ces 2 notes constituent
21
14
7
10,5
12,25
3,5
0,5
22
14
8
11
9
3
0,5
un des échantillons, les indicateurs de cet
23
14
10
12
4
2
0,5
24
14
11
12,5
2,25
1,5
0,5
25
14
14
14
0
0
1
pour le cinquième échantillon :
moyenne
variance
proportion
7 14
10,5
2
2
7 14 2
2
s5
10,5 2 12,25
2
x5
1
f5
2
Attention
échantillon sont notés :
x, s, f
Remarque : si la population était de N=7 notes et que l'on s'intéressait aux échantillons de taille 3, on aurait obtenu 73 échantillons !
18
CHAPITRE 1 : LES ECHANTILLONS
On ne retrouve pas dans ces échantillons les indicateurs de la population.
Des outils de probabilité apparaissent rapidement :
La moyenne observée, la variance observée et la proportion observée sont aléatoires (elles
dépendent de l’ échantillon pris au hasard).
Par convention, on conserve les majuscules pour ces variables aléatoires.
moyenne de l’échantillon X
i
pi
espérance
7,5
8
8,5
9
9,5
10 10,5 11
12 12,5 14 total
0,04 0,08 0,04 0,08 0,16 0,08 0,04 0,16 0,12 0,08 0,08 0,04
nombre d’ observations
L’
7
1
2
1
2
4
2
1
4
3
2
2
1
1
25
E X p x 0,04 7 0,08 8 ..... 0,04 14 10
i i
est
On retrouve une propriété bien pratique pour la suite : la moyenne observée dans un échantillon est une
variable aléatoire.
cette variable aléatoire a pour espérance la moyenne de la population
m E X
le même travail fait pour la variance de l’échantillon montre que la variance est aussi aléatoire mais son espérance
n’est pas la variance de la population : il faut y apporter une correction qui dépend de la taille de l’échantillon :
n
E S2
n 1
2
19
CHAPITRE 1 : LES ECHANTILLONS
C. Les sondages classiques
1°) Les sondages aléatoires
Les sondages aléatoires simples : on prend au hasard dans la population un échantillon (c’ est facile sur une
fabrication en série ou sur un ensemble de chèques mais c’ est moins facile sur une population humaine : si on
réalise un sondage dans les rues piétonnes le samedi après-midi, je risque de louper des tranches considérables
de la population et de ne trouver que des jeunes et étudiants).
Les sondages par strates : chaque catégorie de la clientèle est considérée comme une population : on étudiera
par exemple la population classée suivant son âge ou bien la population classée suivant son sexe.
2°) les sondages empiriques :
La méthode des quotas : on essaie de conserver dans notre échantillon les proportions de la population : si la
population-mère contient 25 % de femmes de moins de 25 ans, on gardera 25 % de femmes de moins de 25 ans
dans notre échantillon.
• Avantages : la précision est aussi bonne que dans les échantillon aléatoires simples, le coût est faible.
• Inconvénient : il demande beaucoup de dextérité et d’ expérience pour bien relever les variables importantes : le
sexe ? l’ âge ? la CSP ? le milieu rural ou urbain ? le niveau d’ études ? la religion ? le nombre d’ enfants ? les
revenus annuels ? le nombre de salles de cinémas dans un rayon de 20 km ? (c'est une variable importante si
vous réalisez un sondage sur la fréquentation des cinémas !).
En cette période post-électorale, on pourra se demander quelles sont les variables (ou critères) utilisées pour les
sondages politiques et pourquoi celles-là. On pourrait aussi faire une enquête sur la taille des échantillons utilisés.
20
CHAPITRE 1 : LES ECHANTILLONS
Mises en garde :
1°) On ne s’ intéresse dans la suite qu’aux sondages aléatoires simples où la taille de l’
échantillon est inférieure au dixième de la taille de la population (ce qui permet de négliger la correction
d’ exhaustivité et de pas tenir compte du sondage avec ou sans remise) .
2°) Les sondages ne peuvent s’ appliquer que sur des processus stabilisés : certains voulaient
estimer une moyenne à venir alors que l’ on connaissait les ventes des 4 mois précédents.
Oui, pourquoi pas ?
Quand j'ai su que l’ on comptait lancer une campagne promotionnelle sur ce produit, tout était fortement
déstabilisé.
Quand de plus j'ai appris que ce produit était le CD d'un groupe de musique régional (et donc soumis
aux effets de mode) j'ai renoncé!
21
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
A. Prérequis : la loi normale.
1°) Les intervalles de référence.
Cas d’ un intervalle unilatéral (ayant une borne infinie)
P X m a (a)
On suppose que X=NOR(33 ; 5), calculer puis représenter les probabilités
p(X ≤ 38)=
Méthode 1 : 38=33+1*5 donc p(X≤38)=∏(1)=0,8413
Méthode 2 : p(X≤38)=∏((38-33)/5)=∏(1)=0,8413
1 écart-type au dessus de la moyenne
On suppose que X=NOR(33 ; 5), calculer puis représenter les probabilités
p(X ≤ 27)=
Méthode 1 : 27=33-1,2*5 donc p(X≤27)=∏(-1,2)=1-∏(1,2)=1-0,8849=0,1151
Méthode 2 : p(X≤27)=∏((27-33)/5)=∏(-1,2)=0,1151
1,2 écart-type en dessous de la moyenne
22
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
Cas d’ un intervalle unilatéral
Déterminer un intervalle du type ]-∞ ; a] qui contienne 80 % de la population
La table de la page 46 donne 0,80=∏(0,840) donc
a= 33+0,840*5=37,2
L’intervalle est donc ]-∞ ; 37,2]
15 % de la population
La table de la page 46 donne 0,15=∏(-1,040) donc
a= 33-1,040*5=27,8
L’intervalle est donc ]-∞ ; 27,8]
Les pourcentages classiques
La table de la page 46
donne 0,95=∏(1,96)
La table de la page 46
donne 0,90=∏(1,65)
23
La table de la page 46
donne 0,05=∏(-1,96)
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
Cas d’ un intervalle bilatéral
On suppose que X=NOR(33 ; 5), calculer puis représenter les probabilités
• p(28 ≤ X ≤ 38)
On remarque que 28=33- 1 *5 et que 38=33+ 1 *5.
cet intervalle est centré sur la moyenne et il y a un écart-type de part et d’autre de la moyenne
p(28 ≤ X ≤ 38)= 2∏(1)-1=2*0,8413-1=0,6826
• p(23 ≤ X ≤ 43)
On remarque que 23=33-2 * 5 et que 38=33+ 2 *5.
cet intervalle est centré sur la moyenne et il y a deux écarts-type de part et d’autre de la moyenne
p(23 ≤ X ≤ 33)= 2∏(2)-1=2*0,9772-1=0,954
• p( 30 ≤ X ≤ 42)
On remarque que 30=33-0,6*5 et que 42=33+1,8*5.
cet intervalle n’est pas centré sur la moyenne et il faut revenir aux outils classiques :
p 30 X 42 p(X 42) p(X 30)
42 33
30 33
p(X 42) p(X 30)
5
5
42 33
30 33
1,8 0,6
5
5
1,8 0,6 1,8 1 0,6 0,9641 1 0,7258 0,6899
24
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
2°) Les propriétés de la loi normale
a) Théorème 1:
Si X NOR(m ; )
alors k.X NOR(k.m ; k. )
Si k est un réel positif
b) Théorème 2 : la somme de 2 lois normales indépendantes est une loi normale dont la moyenne est la somm
des moyennes et la variance est la somme des variances.
Si X1NOR(m1; 1)
Si X2 NOR(m2 ; 2 )
2 2
alors Y NOR m1m2 ; 1 2
Si X1 et X2 indépendantes
Si Y X1 X2
Exemple : Une entreprise vend quotidiennement deux produits A et B. Les ventes de A et B sont
indépendantes et suivent des lois normales de moyennes respectives 100 et 120 et d’écarts-type
respectifs 30 et 40.
Quelle est la loi suivie par Q, quantité de produits vendues quotidiennement ?
X A NOR(100; 30)
X B NOR(120; 40)
2
2
alors Q NOR 100120; 30 40 NOR 220;50
X A et X B indépendantes
Q X A X B
Quelle est la probabilité que Q soit supérieure à 250 ?
250 220
p Q 250 1 p Q 250 1
1 (0,6) 0,2743
50
25
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
Corollaire : La somme de lois normales indépendantes de mêmes moyennes et de mêmes écarts-type est une loi
normale dont la moyenne est la somme des moyennes et la variance est la somme des variances.
X NOR(m, ) pour 1 i n
i
Si X indépendantes
alors
i
X
X
X
...
X
1
2
n
X NOR(m', ')
m' nm
' n.
Exemple : Les ventes quotidiennes pour un certain produit sont indépendantes et peuvent être approchées par une loi
normale de paramètre 120 et 30. On dispose d’ un stock de 2500 objets.
a) Quelle est la probabilité que le stock soit épuisé en 20 jours ?
Les ventes totales en 20 jours est bien une variable aléatoire notée VT.
VT est la somme de 20 lois normales de même moyenne (120) , de même écart-type (30) et indépendantes.
D’après le théorème :
VT NOR 20 120, 20 30 NOR(2 400; 134)
Le stock est épuisé si les ventes VT ont dépassé ce stock :
2500 2400
p VT 2500 1
1 (0, 75) 1 0, 7737 0,2263
134
26
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
b) Si on ne tolère la rupture de stock qu’avec une probabilité inférieure à 1 %, au bout de combien de jours doiton réapprovisionner ce stock ?
On cherche le stock inconnu (que l’on va noter x) tel que la probabilité que les ventes soient supérieures aux stocks
soit inférieure à 1%.
ou par événement contraire tel que la probabilité que les ventes soient inférieures aux stocks soit supérieure à 99 %
p VT x 0,99
x 2400
(2, 330)
134
x 2400
0,99
134
x 2400
2, 330 et
134
La table de la page 46 donne 0,99=∏(2,330)
x 2400 134 2, 330 2712,2
27
On prévoira un stock de 2713 objets
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
2°) Les propriétés de la loi normale
c) Théorème 3 : la différence de 2 lois normales indépendantes est une loi normale dont la moyenne est la
différence des moyennes et la variance est la somme des variances.
Si X1NOR(m1; 1)
Si X2 NOR(m2 ; 2 )
2 2
alors Y NOR m1m2 ; 1 2
Si X1 et X2 indépendantes
Si Y X1 X2
Exemple : Une entreprise vend quotidiennement deux produits A et B. Les ventes de A et B sont indépendantes
et suivent des lois normales de moyennes respectives 100 et 120 et d’écarts-type respectifs 30 et 40.
Quelle est la probabilité, un jour fixé, de vendre plus de A que de B ?
On cherche la probabilité que VA soit supérieure à VB c’est à dire
p(VA≥VB)
C’est aussi p(VA-VB≥0)
Notons D=VA-VB alors, d’après le théorème
VBNOR(120; 40)
2 40 2 NOR 20 ; 50
alors
D
NOR
100120
;
30
VA et VB indépendantes
Si DVAVB
VANOR(100; 30)
0 (20)
p D 0 1
1 0, 4 0, 3446
50
28
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
3°) Théorème central limite :
a) Le Théorème : La somme de beaucoup de lois indépendantes de mêmes moyennes et
de mêmes écarts-type peut être approchée par une loi normale dont la moyenne est la somme des
moyennes et la variance est la somme des variances
Ce théorème est un des théorèmes de référence des statistiques inférentielles cependant il faut bien
noter les nuances (importantes) par rapport au théorème vu précédemment :
Les lois utilisées ne sont pas nécessairement normales.
Il faut que l’on additionne beaucoup de lois ( au moins 30)
On a seulement une approximation
Xi var iables de même
moyenne m et d’ écart type
pour 1 i n
Si
alors
X indépendantes
i
X X X ... X
1
2
n
Si n 30
X NOR(m’, ’)
m’ nm
'
n.
b) Exercice de référence : Sur un site internet, on sait que le nombre de visites par minute
a pour moyenne 20 et pour écart-type 30.
1°) Quelle est la loi suivie par le nombre de visites sur une journée de 24 heures soit 1440 minutes ?
On peut considérer que les minutes sont indépendantes alors le théorème central limite donne :
VT NOR 1440 20 ; 1440 30 NOR(28 800 ; 1138)
29
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
3°) Théorème central limite :
2) On considère une journée de 1440 minutes qui est la base (ou l’échantillon) pour réaliser une
étude statistique sur le nombre de visites par minute. et en particulier sur le premier indicateur
classique : la moyenne.
Pourquoi la moyenne par minute est-elle une variable aléatoire ?
• La moyenne observée dépend de l’échantillon (qui est pris au hasard), elle est donc aléatoire
et se note avec une majuscule.
• Pour calculer une moyenne, il suffit de tout additionner et de diviser par le nombre d’observations
donc :
VT
1
1
V
VT
NOR(28 800 ; 1138)
1440 1440
1440
28800 1138
V NOR
;
NOR 20 ; 0, 79
1440 1440
Donner un intervalle bilatéral qui contienne 90 % des valeurs de cette moyenne.
• Si on cherche un intervalle centré sur la moyenne qui contient un pourcentage ß de la population alors
cet intervalle sera du type I=[m-a.s ; m+a.s] avec 2∏(a)-1=ß
Ici ß=0,90 donc 2∏(a)-1=0,9 et ∏(a)=0,95.
La table donne a=1,65
L’intervalle sera donc I= [20-1,65.0,79 ; 20+1,65.0,79]
• L’interprétation
est intéressante : dans 90 % des échantillons d’une durée d’une journée, le nombre
moyen de visiteurs par minute sera compris entre 18,70 et 21,30.
30
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
3°) Théorème central limite :
c) Un corollaire : approximation d’ une loi binomiale par une loi normale :
Si
Si
Si
Si
XBIN(n;p)
n30
alors X NOR(np;
np5
n(1 p)5
np(1 p))
Exemple : dans une région de 100 000 habitants, 20 % des personnes votent pour A.
On prend un échantillon de 852 personnes et X est la variable aléatoire qui prend pour valeurs le nombre de personnes
qui votent pour A.
• X est une loi hypergéométrique :
X HYP 100000 ; 852 ; 0,20
•
Première approximation de X :
Comme la taille de la population est au moins 10 fois supérieure à la taille de l’échantillon ( N≥10n), on peut
approcher X par une loi binomiale :
X BIN(852;0,20)
•
Deuxième approximation de X :
Comme n=852 est supérieur ou égal à 30 et np=852*0,20=170,4 est supérieur ou égal à 5, cette loi binomiale peut
être approchée par une loi normale :
X NOR 852 0,20; 852 0,20 (1 0,20) NOR 170, 4;11,68
31
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
3°) Théorème central limite :
Soit F la variable aléatoire qui prend pour valeurs le pourcentage observé de personnes qui votent pour A dans l’
échantillon. Quelle est la loi de F ?
• F est la proportion observée donc c’est bien le rapport entre le nombre de cas favorables dans l’échantillon (X) et
le nombre de personnes dans l’échantillon donc
F
X
1
NOR 170, 4;11, 7 NOR (0,20;0,0137
852 852
Calculer p(F≥0,22) et interpréter le résultat trouvé
0,22 0,20
p F 0,22 1
1 1, 46 0,0721
0,0137
• On a donc environ 7,2 % de chances de trouver un échantillon de 852 personnes qui contiendra plus de 22 %
pour A alors que ce pourcentage n’est que de 20 % dans la population.
32
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
B. Loi suivie par la moyenne d’ un échantillon prélevé dans une population d’écart-type σ connu.
Théorème : Si n≥30 ou si l’ échantillon est gaussien, la moyenne de cet échantillon de taille n prélevé dans une
population de moyenne m et d’ écart-type σ suit une loi normale de paramètres m et
n
Démonstration :
X X2 ....... Xn 1
X 1
X1 X2 ....... Xn
n
n
• En utilisant le théorème central limite, si n≥30,
nm n
1
1
X X1 X2 ....... Xn NOR n.m; n . NOR
;
NOR
m;
n
n
n
n
n
• Remarque : si l’échantillon est de taille inférieure à 30 mais chacune des lois est normale, alors le corollaire sur
la somme de lois normales s’applique
Attention :
• Il faut que l’écart-type de la population soit connu.
• Si l’échantillon est de taille inférieure à 30 et si nous ne savons pas si cet échantillon est gaussien,
le théorème ne peut s’appliquer
33
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
Exercice 1 : Dans une population de moyenne 85 et d’ écart-type 12, on prélève un échantillon de taille 50.
Quelle est la probabilité d’observer un échantillon de moyenne inférieure à 82 ?
• D’après le théorème précédent, l’échantillon est de taille supérieure à 30, la population est d’écart-type
connu donc :
12
X NOR m;
NOR
85;
n
50
82 85
p X 82
1, 77 1 1, 77 0,038
12
50
Déterminer un intervalle de centre 85 qui contienne 95 % des moyennes des échantillons de taille 50.
• On cherche un intervalle centré sur la moyenne qui contienne un pourcentage α=95 % alors
2∏(a)-1=0,95 et ∏(a)=0,975 donc a=1,96.
• Cet intervalle sera :
12
12
I 85 1,96
;85 1,96
81,67;88, 33
50
50
Déterminer un intervalle du type ]-∞; a] qui contienne 95 % des moyennes des échantillons de taille 50.
• On a alors ∏(a)=0,95 et la table donne a=1,65
• Cet intervalle sera :
12
I ;85 1,65
;87,80
50
34
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
C. Loi suivie par la fréquence d’ un grand échantillon.
Théorème : La fréquence dans un grand échantillon prélevé dans une population de proportion p suit une loi
normale de paramètres p et
p(1 p)
n
Démonstration :
La fréquence observée
(dans l’échantillon) est bien le nombre de cas favorables divisé par la taille de
l’échantillon.
Cette fréquence, notée F, est aussi une variable aléatoire
Appelons X la variable aléatoire qui prend pour valeurs le nombre de cas favorables observé dans
l’échantillon.
• X est une loi hypergéométrique de paramètres N, n et p.
• X peut être approchée par une loi binomiale de paramètres n et p
• X peut être approchée par une loi normale car on a supposé que l’échantillon est grand.
X NOR np; np(1 p)
np np(1 p)
1
1
p(1 p)
F X NOR np; np(1 p) NOR ;
NOR p;
n
n
n
n
n
35
CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE
Exercice 1: Dans une population, 20 % des individus sont de type B. On prélève un échantillon de taille 210.
Est-il possible d’ observer un échantillon où la fréquence observée d’ individus de type B est inférieure à 15 % ?
• Pourquoi pas !
Si oui, avec quelle probabilité?
p(1 p)
0,20 0,80
F NOR p;
NOR
0,20;
NOR 0,20;0,0276
n
210
0,15 0,20
p F 0,15
1,81 1 1,81 0,035
0,0276
Déterminer un intervalle de centre 20 % qui contienne 95 % des fréquences observées dans des
échantillons de taille 210.
• Nous
avons vu précédemment que l’intervalle centré sur la moyenne qui contient 95 % de la
population pour une loi normale était obtenu avec 1,96 écart-type donc
0,20 0,80
0,20 0,80
I 0,20 1,96
;0,20 1,96
0,146;0,254
210
210
• Interprétation
: nous savons (avant de prélever l’échantillon) que, dans 95 % des échantillons, le
pourcentage observé sera compris entre 14,5 % et 25,5 %
Déterminer un intervalle du type ]-∞ ; a] qui contienne 95 % des fréquences observées dans des
échantillons de taille 210.
• Comme précédemment, l’intervalle sera :
0,20 0,80
I ;0,20 1,65
;0,246
210
36
CHAPITRE 3 : L’ESTIMATION
PRESENTATION DU PROBLEME :
On connaît les caractéristiques f ou x et s d’ un échantillon, on voudrait en déduire des caractéristiques p et m et de la population.
Bien entendu, on ne pourra pas donner des probabilités sur ces valeurs car ce ne sont pas des variables aléatoires,
elles sont fixes et dépendent de la population.
On définira alors des intervalles de confiance.
ATTENTION : On distinguera nettement les indicateurs de l’ échantillon et les indicateurs de la population
Nos conventions sont résumées par le schéma suivant
Population
Taille N ?
Moyenne m ?
Ecart-type σ ?
Proportion p ?
Echantillon
Taille n
Moyennex
Ecart-type s
Proportion f
37
CHAPITRE 3 : L’ESTIMATION
A. Estimations ponctuelles
Quelques exemples de «biais statistiques» :
Un premier biais statistique est connu par les sondeurs politiques : l’expérience a montré que lors de
sondages, certains électeurs n’osent pas «avouer» leur préférence.
Ainsi, à l’aide de l’expérience, les sondeurs corrigent ce biais en ajoutant environ 3 % à ce parti politique :
Si dans l’échantillon, ce parti est à 11 % alors les instituts de sondage l’affichent à 14 % !.
D’autres biais statistiques apparaissent dans les sondages, ces biais statistiques peuvent être corrigés de
deux façons : à la louche comme au dessus ou bien à l’aide de définitions mathématiques
1°) Usage : si g est un indicateur que l’ on veut connaître par sondage, on note ĝ la meilleure estimation de g.
Cette estimation s’ appuie sur la valeur observée dans l’ échantillon.
2°) Estimation ponctuelles usuelles
Pour m : On sait, d’ après le chapitre 1, que E(X) m alors la meilleure estimation de m ( que l’ on notera
mˆ ) est
ˆ x
m
Pour p : On sait, d’ après le chapitre 1, que E(F) p alors la meilleure estimation de p ( que l’ on notera
est
2
Pour σ : On sait, d’ après le chapitre 1, que E(S )
est
pˆ f
ˆ
n
. s
n 1
pˆ )
n 1 2
alors la meilleure estimation de σ (que l’ on notera
n
38
ˆ )
CHAPITRE 3 : L’ESTIMATION
A. Estimations ponctuelles
Exemple :
Dans une production de paquets de café, on prélève un échantillon de taille 50. Dans cet échantillon de taille 50,
la moyenne observée est 248 grammes, l’écart-type observé est de1,2 gramme et un paquets sur les 50 pèsent
moins de 245 grammes.
Donner des estimations ponctuelles de la masse moyenne d’un paquet de café, de l’écart-type de la masse d’un
paquet de café et de la proportion de paquets de café pesant moins de 245 grammes
• D’après les formules précédentes , on a
mˆ x 248
n
50
s
1,2 1,212
n 1
49
1
pˆ f
50
ˆ
39
CHAPITRE 3 : L’ESTIMATION
A. Estimations ponctuelles
Problème de fiabilité :
Illustration : Supposons que dans la production, la proportion de paquets de café défectueux soit de 4 %. Prenons
un lot de 50 paquets de café et X est la variable aléatoire qui prend pour valeurs le nombre de défectueux dans le
lot.
• X suit une loi hypergéométrique : X=HYP(N ; 50 ; 0,04)
• X peut être approchée par une loi binomiale : X=BIN(50 ; 0,04)
• X peut être approchée par une loi de Poisson : X=POI(2) en effet n est grand ( ≥30) et np est petit (≤5)
A l’aide de la table de la loi de Poisson de paramètre 2, comparons les probabilités d’avoir dans ce lot 1 défectueux,
puis 2.
k
0
1
2
3
4
5
p(X=1)=0,2707
p(X=k)
0,1353
0,2707
0,2707
0,1804
0,0902
0,0361
p(X=2)=0,2707
Conclusion : il y avait autant de chances d’avoir 1 paquet défectueux que d’avoir 2 paquets défectueux.
Réciproquement, supposons que la proportion dans la population n’est pas connue ( c’est bien le principe de
l’estimation) et que le sondeur ait la même probabilité d’avoir 1 défectueux que 2 alors l’estimation ponctuelle peut
prendre plusieurs valeurs :
dans le premier cas j’aurais dit que la proportion estimée est de 1 sur 50 soit 2 %
dans le deuxième cas, j’aurais dit que la proportion estimée est de 2 sur 50 soit 4 %
Enfin p(X=5)=0,0361
Enfin, il était possible d’avoir 5 paquets défectueux (probabilité de 0,036) et dans ce cas , j’aurai déclaré que la
proportion estimée est 5 sur 50 soit 10 %.
40
CHAPITRE 3 : L’ESTIMATION
B) Estimation par intervalle de confiance d’ un indicateur statistique :
Stratégie :
On a vu dans le chapitre précédent, les indicateurs statistiques des échantillons sont aléatoires (ils
dépendent de l’ échantillon pris au hasard) et suivent les lois d’ échantillonnage.
Appelons l’ indicateur Ge de l’ échantillon correspondant à l’ indicateur gp de la population. On sait que
Ge est une variable aléatoire.
Si gp est connu, alors il y a une probabilité α que l’ indicateur Ge soit dans un intervalle de centre gp
c’est à dire :
P g p Ge g p
C’est à dire que la distance entre gp et Ge est inférieure à ∆ avec une probabilité α.
Et donc, on peut mesurer la distance entre gp et Ge.
On obtient donc un encadrement du type
Ge g p Ge
La stratégie de l'estimation par intervalle de confiance est de remplacer la variable aléatoire Ge par la valeur
observée dans l'échantillon notée ge.
α n’ est plus une probabilité car gp n’est pas aléatoire, α est appelé niveau de confiance
41
CHAPITRE 3 : L’ESTIMATION
B) Estimation par intervalle de confiance d’ un indicateur statistique :
Comment faire en pratique ? L’ énoncé donne les caractéristiques de l’ échantillon : sa taille, sa moyenne,
son écart-type et la proportion observée
Dans une population normale d’écart-type 9, on a prélevé un échantillon de taille 51 et de moyenne observée
30 . Donner un intervalle de confiance de la moyenne de la population au niveau de confiance 82 %
Première étape : On donne les estimations ponctuelles.
Deuxième étape : On construit l’intervalle de confiance
ˆ x 30
m
a) On donne la loi suivie par l’indicateur de l’échantillon. X NOR m; NOR m; 9 m est inconnue
n
50
b) On donne, sous forme d’ encadrement, un intervalle centré qui contienne un pourcentage α= 82 % des
indicateurs de l’ échantillon.
2∏(a)-1=0,82
2∏(a)=1,82
∏(a)=0,91
9
9
m 1, 340
X m 1340
50
50
a=1,340
On permute dans cet encadrement l’indicateur de la population et celui de l’échantillon avec les propriétés des
encadrements
9
9
X 1, 340
m X 1, 340
50
50
c) Enfin on remplace dans cet intervalle la variable aléatoire de l’échantillon par la valeur estimée.
9
9
30 1, 340
m 30 1, 340
50
50
IC(m; 82%) 28,29 ; 31, 71
Interprétation : la valeur de m cherchée est comprise entre 28,29 et 31,71 avec une méthode fiable à 82 %
42
CHAPITRE 3 : L’ESTIMATION
B) Estimation par intervalle de confiance d’ un indicateur statistique :
Exercice 1 : Dans une population normale d’ écart-type 38, on a prélevé un échantillon de taille 15, de moyenne
observée 30. Donner un intervalle de confiance de la moyenne de la population au niveau de confiance 98 %.
Estimation ponctuelle :
mˆ x 30
Intervalle de confiance de m au niveau de confiance 98 % :
a) Loi suivie par X :
b) 2∏(a)-1=0,98
2∏(a)=1,98
∏(a)=0,99
a=2,33
38
X NOR m;
NOR
m;
n
15
m est inconnue
38
X m 2, 33
15
38
X 2, 33
m X 2, 33
15
m 2, 33
38
15
38
15
c) Enfin on remplace dans cet intervalle la variable aléatoire de l’échantillon par la valeur estimée.
30 2, 33
38
38
m 30 2, 33
15
15
IC(m; 98%) 7,14 ; 52,86
Commentaires : pourquoi un intervalle aussi large :
• A cause de l’écart-type de la population (grand)
• A cause du niveau de confiance élevé
• A cause de la taille de l’échantillon ( petite)
43
CHAPITRE 3 : L’ESTIMATION
Exercice 2 : Dans une population, on a prélevé un échantillon de taille 200, et parmi ces 200 individus, 48 possède
une caractéristique notée C. Donner un intervalle de confiance de la proportion d’ individus présentant la
caractéristique C dans la population au niveau de confiance 94 %.
• Estimation ponctuelle :
pˆ f
48
0, 24
200
• Intervalle de confiance de p au niveau de confiance 94 % :
a) Loi suivie par F :
F NOR p ;
p(1 p)
NOR
p;
n
p(1 p)
200
b) Intervalle de centre p qui contient 94 % des valeurs de F :
2∏(a)-1=0,94
2∏(a)=1,94
p 1,88
p(1 p)
p(1 p)
F p 1,88
200
200
F 1,88
p(1 p)
p(1 p)
p F 1,88
200
200
∏(a)=0,97
a=1,88
Par permutation :
On sait que l’on remplacera F par la valeur observée dans l’échantillon mais p est inconnue. Deux stratégies s’opposent :
-
la première, très rigoureuse, utilise le fait que
F 1, 88
p(1 p) 0, 5
pour toute valeur de p entre 0 et 1 et on a alors :
0, 5
0, 5
p F 1, 88
200
200
- la deuxième remplace la valeur de p par son estimation ponctuelle : c'est la méthode fréquemment utilisée
F 1,88
ˆ
ˆ
ˆ
ˆ
p(1
p)
p(1
p)
p F 1,88
200
200
c) Intervalle de confiance de p :
- Premier cas :
- Deuxième cas :
0,5
0,5
IC p;94% 0,24 1,88
;0,24 1,88
0,175;0, 305
200
200
0, 24 0, 76
0, 24 0, 76
IC ( p;94%) 0, 24 1,88
; 0, 24 1,88
0,184; 0, 296
200
200
44
CHAPITRE 3 : L’ESTIMATION
Exercice 3 où il y danger : Dans une population normale, on a prélevé un échantillon de taille 300, de moyenne 51 et
d’ écart-type 9. Donner un intervalle de confiance de la moyenne de la population au niveau de confiance 95 %.
ˆ x 51
Estimation ponctuelle : m
Intervalle de confiance de m au niveau de confiance 95 % :
a) Loi suivie par : X NOR m;
NOR
m;
n
15
Attention : l’écart-type de la population n’est pas donné, on donne l’écart-type de l’échantillon !
b) 2∏(a)-1=0,95
m 1,96
2∏(a)=1,95
∏(a)=0,975
a=1,96
Par permutation :
X 1,96
300
X m 1,96
300
m X 1,96
300
300
c) Enfin on remplace dans cet intervalle la variable aléatoire de l’échantillon par la valeur estimée.
51 1,96
300
m 51 1,96
300
Si l’échantillon est grand et si l’écart-type de la population est inconnu, on démontre que l’ on peut
utiliser l’estimation ponctuelle de cet écart-type.
51 1,96
ˆ
300
m 51 1,96
ˆ
300
9,015
9,015
51 1,96
m 51 1,96
300
300
ˆ
n
s
n 1
300
9 9,015
299
IC(m;95%) 49,98;52,02
45
CHAPITRE 3 : L’ESTIMATION
L'estimation par intervalle de confiance sous un aspect pédagogique :
Dans la dernière minute du cours d'amphi, demander aux 140 étudiants présents le travail suivant pour la prochaine fois :
Lancer 100 fois une pièce de monnaie (la même, par exemple de 1€) et de noter la série de résultats obtenus sous la forme P, F, P,
F, F....
Lors du cours suivant, vérifier que tout le monde l' a fait (et faire confiance), passer un léger savon à ceux qui ont recopié ou fait
ensemble (Comme il y avait 2100 ≈1,26×1030 séries possibles, quelle est la probabilité d'avoir le même résultat que le voisin ?)
Demander aux étudiants de compter le nombre de piles obtenus, puis de calculer la fréquence de piles obtenus noté f)
Calculer les bornes de l'intervalle f 1,65
Attention aux parenthèses !
f (1 f )
; f 1,65
100
f (1 f )
100
J'affirme alors que 90 % des étudiants ont la valeur 0,5 dans cet intervalle et donc que 10 % n'ont pas la valeur 0,5 dans cet
intervalle.
Je demande aux 14 attendus (soit 10 % de 140) de lever la main.
Je constate que je ne suis pas loin des 14.
Remarques : je n'ai pas travaillé avec les 2100 échantillons mais avec seulement 140 (mais statistiquement, ces deux nombres sont
grands).
Définition : Je constate que 90 % des intervalles construits de cette façon contiennent la vraie valeur de p : j'ai construit un intervalle
de confiance de p avec un niveau de confiance de 90 %.
Enfin, on peut recommencer avec les 50 premiers lancers (on divise par 50) et constater que les résultats restent vrais mais
l'amplitude de l'intervalle est plus large.
L'expérience a montré que cela reste valable avec des effectifs plus petits ( on peut même descendre à 20 étudiants, en prenant un
peu de marge : entre 1 et 3 n'auront pas la vraie valeur de p dans leur intervalle).
46
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
47
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
Premier exercice de référence :
Un médecin sait que chez les personnes en bonne santé, le taux X de .. suit une loi normale de paramètre 1,5 et
0,4. Dans sa pratique, il a décidé que si le taux observé chez un patient est inférieur ou égal à 2,2 alors il déclare
ce patient non malade.
Question 1 : Un patient en bonne santé se présente, quelle est la probabilité que le médecin ne le déclare pas
malade ?
T NOR(1,5;0, 4)
2, 2 1, 5
P T 2, 2
1, 75 0, 96
0, 4
Quelle est la probabilité qu’il soit déclaré malade ?
p T 2,2 0,04
En rendant sa décision, le médecin a commis un risque dit de 1° espèce noté α : c’est la probabilité que le médecin
le déclare malade alors qu’il ne l’est pas ( le patient est en bonne santé)
48
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
En fait, ce médecin ne sait pas que pour un malade, ce taux suit une loi normale de paramètre 2,5 et 0,4.
Question 2 : Un patient malade se présente. quelle est alors la probabilité que le médecin le déclare non malade ?
T ' NOR2,5;0,4
2,2 2,5
p T ' 2,2
0, 75 1 0, 75 0,23
0, 4
En rendant sa décision, le médecin a commis une erreur dite erreur de 2° espèce notée ß : c’est la probabilité de le
déclarer pas malade alors qu’il l’est.
La puissance du test est 1-ß=77 %
49
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
Codage des informations :
H 0 : t 1,5 ; H1 : t 2,5
Pas de symptôme
symptôme
Décision
Etat de santé inconnu
OK
pas malade
malade
ß = probabilité d’accepter H0 alors
que
H1 est vraie
α = probabilité de rejeter H0 alors
que
H0 est vraie
OK
En fait, si l’information initiale pour un patient non malade est correcte, l’affirmation pour un malade est sujette à
caution et d’autres affirment que pour un malade, ce taux suit alors une loi normale de paramètres 2,8 et 0,3.
Quelle est alors le risque de 2° espèce ? Quelle est la puissance du test ?
H 0 : t 1,5 ; H1 : t 2,8
T ' NOR2,8;0,3
2,2 2,8
p T ' 2,2
2 1 2 0,02
0, 3
Le risque de 2° espèce est de 2 %
La puissance du test est de 98 %
50
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
Deuxième exercice de référence :
Une pièce m’est affirmée bien équilibrée. Je décide de la lancer 100 fois et si elle tombe entre 45 et 55 fois sur pile,
j’accepte l’affirmation.
X est la variable aléatoire qui prend pour valeurs le nombre de fois où pile apparait sur les 100 lancers.
Quelle est la loi de X ?
1
X BIN 100;
2
Donner une approximation de X.
1
1 1
X NOR 100 ; 100 1 NOR 50 ; 5
2
2 2
Quelle est la probabilité que j’accepte l’affirmation ?
p 45 X 55 211 0,68
Quel est le risque de 1° espèce ?
C’est la probabilité de rejeter l’affirmation alors qu’elle
est vraie c’est-à-dire si le nombre de pile obtenus n’est
pas compris entre 45 et 55 :
α= 1- 0,68=0,32
51
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
La personne qui m’ a donnée cette pièce sait que en fait la probabilité qu’elle tombe sur pile est 1/3.
Y est la variable aléatoire qui prend pour valeurs le nombre de fois où pile apparait sur les 100 lancers.
Quelle est la loi de Y ?
1
Y BIN 100;
3
Donner une approximation de Y.
1
1
1
Y NOR 100 ; 100 1 NOR 33, 3 ; 4, 71
3
3
3
55 33, 3
45 33, 3
p 45 Y 55
4,61 2, 48 1 0,993 0,007
4, 71
4, 71
Le risque de 2° espèce est 0,007
La puissance du test est 0,993
Codage des informations :
H0 : p
Décision
1
2
; H1 : p
1
3
La pièce n’est pas truquée ; la pièce est truquée
Pas truquée
Truquée
Pas truquée
OK
α=0,32
Truquée
ß=0,007
OK
Etat de la pièce
52
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
Généralisation :
• Le risque de 1° espèce est donné par énoncé : en général 10 %, 5% ou 1%.
• L’hypothèse nulle notée H0 est celle qui permet de faire les calculs et de construire
un intervalle de
décision I.
La phrase-type associée est alors : « Si H0 est vraie alors dans 90 % (ou 95 % ou 99%) des
échantillons l'indicateur statistique observé est dans I »
• Je décide :
Soit la valeur observée dans l’échantillon est dans I et j’accepte H0 ( avec un risque ....
Soit la valeur observée dans l’échantillon n’est pas dans I et je rejette H0 (avec un risque α)
En réalité, nous n'avons qu'une seule envie : celle de rejeter H0 mais parfois l'échantillon ne me permet
pas de la rejetter alors, contraint et forcé, j'accepte H0
• Bien
souvent, l’hypothèse alternative H1 n’est pas explicite et on se contentera de la négation
de H0 et en ce cas, on n'étudiera plus le risque de seconde espèce ni la puissance du test.
53
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
B. Deux exercices classiques
1°) Test bilatéral ou unilatéral ?
Le test bilatéral teste une égalité contre une différence mais il peut présenter certaines difficultés :
Si par exemple, on me promet dans une production moins de 8 % de défectueux, je serai contraint avec
bon sens d’ accepter toutes les livraisons avec un pourcentage inférieur à 8 % (et même 0 % qui est très loin de
l’affirmation !) et je devrai même accepter les livraisons où le pourcentage est “légèrement” supérieur à 8 %.
Ou bien, cette étiquette :
Ce qui est écrit n’est pas la valeur exacte: c’est une valeur promise pour la moyenne par le fabricant,
cependant, si à des fins de contrôle, un échantillon affiche une moyenne de 800 g, je ne vais pas me fâcher !
• On se souviendra que l’égalité doit se trouver dans l’hypothèse nulle.
• On se souviendra aussi que si on veut tester l’affirmation «l’écart-type
«l’écart-type est significativement inférieur à 8 (au risque de ...%)»
54
est inférieur à 8», il faut entendre
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
Le sens statistique de significatif :
Première approche : Un hypermarché a étudié les ventes quotidiennes d'un produit et a on a observé une moyenne
quotidienne de 50 produits.
Le fournisseur décide de changer l'emballage (dans quel but ?) et lors des 30 jours suivants, la moyenne
quotidienne observée est de 52 produits.
On peut se demander si 52 est vraiment loin de 50 et on pourrait en déduire que la différence n'est pas significative.
Si par contre, la moyenne de ces 30 jours était passée à 94, on pourrait penser qu'elle l'est.
Cependant :
On sait qu'une moyenne est souvent un outil insuffisant et qu'il faut lui associer l'écart-type.
On travaille sur un échantillon de 30 jours et les clients n'étaient peut être pas d'humeur et un autre échantillon
aurait pu donner une autre moyenne observée que 52.
On sait que le comportement des indicateurs des échantillons est aléatoire, que l'on peut y associer des lois et
donc calculer des probabilités ( et des risques)
55
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
2°) Exercice 1 : Une étude a été réalisée auprès de quelques stations-services sur des pleins de 30 litres et dans l’ une d’elle, on a
réalisé 10 pleins de 30 litres et on a relevé sur ces pleins une moyenne de 29,95 litres. On sait que l’écart-type est de 0,1 litre. On sait
que le volume distribué suit une loi normale. On veut tester différentes affirmations au risque de 5%
a) Le gérant de la station service affirme que la moyenne est de 30 litres. Sur quel indicateur statistique est posée la question ?
• La question est posée sur la moyenne des pleins.
Ecrire les deux hypothèses H0 et H1.
• H0 : m=30 ;
H1 : m≠30
Donner la loi suivie par cet indicateur statistique en rappelant les conditions d’application.
• L’échantillon
n’est pas de taille supérieure à 30 mais la population est
supposée normale.
• L’écart-type de la population est connu.
0,1
X
NOR
m;
NOR
30;
n
10
Schéma :
Le risque est 5 % et l’hypothèse alternative contient le signe ≠ donc l’intervalle est bilatéral
2∏(a)-1=0,95 donc 2∏(a)=1,95 donc ∏(a)=0,975 et a=1,96
Dans 95 % des échantillons, la moyenne observée vérifie
30 1,96
0,1
0,1
X 30 1,96
10
10
donc 29,938 X 30,062
L’intervalle de décision est donc I=[29,938 ; 30,062]
Décision : la moyenne observée (de 29,95 l) est dans I et j’accepte H0 avec un certain risque ß que H0 soit fausse. En fait j'accepte
H0 parce que je ne peux pas la rejetter !
56
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
2°) Exercice 1 :
b) Une association de consommateurs affirme que la moyenne est inférieure à 30 litres.
Ecrire les deux hypothèses H0 et H1.
• H0 : m<30 ;
H1 : m≥30
Une difficulté apparait ici : le signe = doit se trouver dans H0
On est obligé de permuter les hypothèses :
• H0 : m≥30 ; H1 : m<30
• H0 : m=30 (et m>30) ;
H1 : m<30
Le risque est 95 % et l’hypothèse alternative contient le signe < donc l’intervalle est unilatéral : il contient une borne
infinie.
Laquelle ? +∞ ou -∞
Ici, c’est +∞ car on accepte ≥
∏(a)=0,95 donc a=1,65
Dans 95 % des échantillons, la moyenne observée vérifie
0,1
30 1,65
X
10
donc 29,947 X
L’intervalle de décision est donc I=[29,947 ; +∞[
Décision : la moyenne observée (de 29,95 l) est dans I et j’accepte H0 m≥30 (ou plus exactement, je
ne peux pas la rejetter).
Je ne peux pas accepter le point de vue des consommateurs qui déclaraient m<30
57
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
c) les textes prévoient que la moyenne soit supérieure ou égale à 30 litres.
Ecrire les deux hypothèses H0 et H1.
• H0 : m≥30 ; H1 : m<30
• H0 : m=30 (et m>30) ; H1 : m<30
•Les hypothèses sont inchangées par rapport au b) et l’intervalle de décision aussi :
L’intervalle de décision est donc I=[29,947 ; +∞[
Décision : la moyenne observée (de 29,95 l) est dans I et j’accepte H0 m≥30. ( en fait, je ne peux rejetter H0)
Commentaire : avec une moyenne sur l’échantillon de 29,95 litres, le gérant ne peut être pénalisé : il est conforme au
texte (au risque de 5 %).
Certaines enseignes réussissent ainsi à gagner 0,05 litre par plein
(et 150 000 pleins par an !)
d) Pour conclure
On constate que le choix de l'hypothèse nulle n'est pas sans conséquence et l' association de consommateurs pourraient
émettre l'hypothèse H0: m ≤ 29,9 et le calcul montre que H0 est acceptée (ou plus exactement, je ne peux pas la rejeter)
Le cas le plus classique est donné par l'usine de traitement de déchets radioactifs de la Hague :
Pendant de nombreuses années, cette usine a rejeté de l'eau en bas de la falaise et les riverains et les écologistes l'ont
soupçonné
de favoriser le développement de certains types de cancers (il y en avait plus dans la région que dans d'autre régions)
mais au sens statistique, la différence n'était pas significative (au risque de 1 % souvent utilisé en médecine).
Depuis, cette usine a construit un long tuyau de plus d'un kilomètre lui permettant de rejeter ses effluents beaucoup plus
loin en mer ...
58
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
3°) Exercice 2 : « Ce nouveau procédé de fabrication va nous permettre de modifier la proportion d’ objets
défectueux qui est aujourd’hui de 3 % »
Sur 300 nouveaux objets testés, 10 sont défectueux. Décider au risque de 5% suivant les 3 points de vue
•le point de vue de l’installateur de la machine qui prévoit une diminution.
•le point de vue du sceptique : gestionnaire de l’entreprise qui prévoit une augmentation
•le point de vue de l’indifférent.
Sur quel indicateur statistique est posée la question ?
La question est bien posée sur une proportion de pièces défectueuses
Ecrire les deux hypothèses H0 et H1.
a) H0 : p<0,03 ; H1 : p≥0,03
H0 : p≥0,03 ; H1 : p<0,03
b) H0 : p>0,03 ; H1 : p≤0,03
H0 : p≤0,03 ; H1 : p>0,03
c) H0 : p=0,03 ; H1 : p≠0,03
Unilatéral avec pour borne +∞
Unilatéral avec pour borne -∞
Bilatéral
risque 0,05 donc
risque 0,05 donc
risque 0,05 donc
∏(a)=0,95 donc a=1,65
∏(a)=0,95 donc a=1,65
2∏(a)-1=0,95 donc a=1,96
On rappelle que pour la fréquence observée dans un échantillon de taille supérieure à 30 :
F NOR p ;
p(1 p)
0,03 0,97
NOR
0,03
;
n
300
59
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
3°) Exercice 2 :
0,03 0,97
I 0,03 1,65
;
300
I 0,0137 ;
0,03 0,97
I ; 0,03 1,65
300
I ;0,0463
0,03 0,97
0,03 0,97
I 0,03 1,96
; 0,03 1,96
300
300
I 0,0107 ; 0,0493
Décision : la fréquence observée est de 10 sur 300 soit f= 0,033
f I : j’accepte H0
f I : j’accepte H0
f I : j’accepte H0
Là encore, l'écritue de l'hypothèse nulle n'est pas sans effet car tout le monde a raison (ou plus exactement, je ne
sais pas prouver que quelqu'un à tort).
Mais :
a) l'installateur connait-il vraiment les tests statistiques et qui lui permettraient de sortir de l'épineuse situation ?
Une phrase du type : «on va refaire une série car l'échantillon est vraiment mauvais» serait du plus mauvais goût
b) le gestionnaire fera-t-il confiance si l'échantillon affiche plus que promis ?
60
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
C. Un exercice sur les tests de comparaison d’échantillons indépendants :
On a prélevé dans deux fabrications différentes et supposées normales, d’ écarts types respectifs 5 et 8, deux
échantillons de tailles respectives 50 et 80 et de moyennes observées 248 et 261. Au risque de 5 %, la
différence des moyennes est-elle significative ?
Ecriture des hypothèses :
On rappelle que l’hypothèse nulle doit contenir l’égalité, on va donc supposer que les moyennes sont égales.
• H0 : m1=m2 ; H1 : m1≠m2
• H0 : m1-m2=0 ; H1 : m1-m2≠0
Donner la loi suivie par la moyenne observée dans le premier échantillon.
1
X1 NOR m1 ;
La population est normale et l’écart-type est connu donc
n1
2
X2 NOR m2 ;
n2
De même, la moyenne du deuxième échantillon suit
Rappeler le théorème sur la différence de 2 lois normales
c) Théorème 3 : la différence de 2 lois normales indépendantes est une loi normale dont la moyenne est la
différence des moyennes et la variance est la somme des variances.
Si X1NOR(m1; 1)
Si X2 NOR(m2 ; 2 )
2 2
alors Y NOR m1m2 ; 1 2
Si X1 et X2 indépendantes
Si Y X1 X2
61
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
C. Un exercice sur les tests de comparaison d’échantillons indépendants :
Donner la loi suivie par la différence des moyennes.
2
2
1 2
X1 X2 NOR m1 m2 ;
n1 n2
Mais on a supposé que m1-m2=0 et par simplification :
12 22
X1 X2 NOR 0;
n
n
1
2
L’intervalle est bilatéral, le risque est de 5% donc la valeur de a est 1,96 et l’intervalle de
décision est
12 22
12 22
I 0 1,96
; 0 1,96
n
n
n
n
1
2
1
2
52 82
52 82
I 0 1,96
; 0 1,96
[2,24 ; 2,24]
50 80
50 80
Interprétation : si H0 est vraie alors dans 95 % des cas, la différence des moyennes observées
dans les échantillons se trouve dans l’ intervalle de décision.
Décision : ici la différence des moyennes observées est 261-248=13 qui n’appartient pas à I.
Je rejette H0 et j’accepte H1 avec un risque inférieur à 5 % que H0 soit vraie.
62
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
D. Tests de comparaison de moyennes d’ échantillons appariés.
On veut évaluer les différences de notation sur deux correcteurs ayant corrigé les mêmes copies :
n° de la copie
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
note A
13
12
10
11
10
9
8
6
8
5
3
10
9
6
10
12
note B
14
11
10
12
12
8
7
5
9
4
2
12
10
6
11
12
n° de la copie
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
note A
15
16
9
3
5
11
4
10
9
8
10
11
13
15
16
11
note B
16
18
8
4
5
10
5
8
11
11
9
12
13
15
17
12
Au risque de 5 %, la différence des moyennes est-elle significative ?
On travaille sur un seul échantillon mais on évalue sur cet échantillon deux traitements différents : on parle
d’échantillons appariés.
Si il n’ y a pas de différence de notation alors la différence observée entre A et B doit être nulle en moyenne.
Ecrire les hypothèses :
• H0 : la différence est nulle en moyenne ; H1 : la différence n’est pas nulle en moyenne
ou bien
• H0 : la moyenne de la différence est nulle ; H1 : la moyenne de la différence n’est pas nulle
n° de la copie
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
note A
13
12
10
11
10
9
8
6
8
5
3
10
9
6
10
12
note B
14
11
10
12
12
8
7
5
9
4
2
12
10
6
11
12
différence
-1
1
0
-1
-2
1
1
1
-1
1
1
-2
-1
0
-1
0
n° de la copie
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
note A
15
16
9
3
5
11
4
10
9
8
10
11
13
15
16
11
note B
16
18
8
4
5
10
5
8
11
11
9
12
13
15
17
12
différence
-1
-2
1
-1
0
1
-1
2
-2
-3
1
-1
0
0
-1
-1
63
CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES
∆=note A-note B
-4
-3
-2
-1
0
1
2
3
4
effectifs
0
1
4
11
6
9
1
0
0
Calculons la moyenne, la variance et l’écart-type de cet échantillon :
x
1 (3) 4 (2) 11 (1) 6 0 9 1 1 2
11
0, 34375
32
32
1 (3)2 4 (2)2 11 (1)2 6 0 2 9 12 1 2 2
s
(0, 34375)2 1, 41
32
s 1, 41 1,19
2
Donner la loi suivie par la moyenne de la différence.
NOR m ;
n
L’échantillon est de taille supérieure à 30 donc la normalité de ∆ n’est pas nécessaire.
L’écart-type de ∆ n’est pas connu mais comme l’échantillon est de taille supérieure à 30, on peut utiliser son estimation ponctuelle :
n
32
s
1,19 1, 21
n 1
31
On a supposé dans H0 que m∆ =0 donc
ˆ
1, 21
NOR 0;
32
L’intervalle est bilatéral, le risque est de 5% donc la valeur de a est 1,96 et l’intervalle de décision est
1, 21
1, 21
I 0 1,96
;0 1,96
0, 42; 0, 42
32
32
Interprétation : si il n’ y a pas de différence de notation des copies alors dans 95 % des échantillons, la différence des notes
présente sa moyenne dans I.
Décision : dans notre échantillon, la moyenne observée est -0,34375 qui appartient à I : j’accepte H0 et je ne peux pas conclure à
une différente de notation.
64