Transcript Document
Applications de l’étude des
fluctuations
d’échantillonnage dans le
nouveau programme de
seconde
Stage nouveau programme de seconde
16/04/10
– Partie 1 –
Étude de la fluctuation
d’échantillonnage
Un minimum de « théorie »
p
n tirages avec remise.
X nombre de boules
rouges
X suit la loi binomiale de moyenne
E(X) = np et d’écart type n p(1 p)
F 1 X correspondant à la fréquence des
n
boules rouges a pour moyenne
E(F) 1 E(X) p
n
et pour écart type
p(1 p)
1
1
(F) (X) np(1 p)
n
n
n
Pour n « assez grand » la loi binomiale est
proche d’une loi normale et
F suit approximativement la loi normale de
moyenne p
et d’écart type p(1 p)
n
Pour une loi normale, environ 95 % des
observations se font dans un intervalle de
rayon 2 écarts types autour de la moyenne.
Intervalle de fluctuation de 95 % des
observations :
[p–2
p(1 p)
n
; p+2
p(1 p)
n
]
On peut majorer cet intervalle :
p(1 p) 1
d’où
p(1 p) 1
2
4
n
n
Intervalle de fluctuation de plus de 95 % des
observations :
1
[ p–
n
; p +
1
n
]
Observations par simulation
Échantillon n° 1 : f 1 = 0,61
...
0,80
0,75
0,70
0,65
0,60
0,55
0,50
0,45
0,40
0
Population :
p = 0,6
Roue 1
Échantillon n° 50 : f50 = 0,51
Roue 2
Roue 3
10
20
30
40
50
Fréquences f1, f2, ..., f50
obtenues sur les 50 échantillons
0
5
10 15 20
Distribution
d’échantillonnage
1
0,99
0,98
0,97
0,96
0,95
0,94
0
200
400
Roue 1
600
Roue 2
800
1000
Roue 3
Observation_theorie_Echantillonnage.xls
Quels obstacles, quelles questions ?
· Bien distinguer population et échantillon(s).
· Définition de « échantillon ».
· Intérêt de certaines « images mentales » comme l’urne (de
Bernoulli) ou la roulette.
· Nécessité d’expérimenter, physiquement et par simulation.
· La définition de l’intervalle de fluctuation s’énonce en
termes de probabilité.
· Bien retenir qu’il y a un seul intervalle de fluctuation au
seuil de 95 %. Il est centré sur p.
· La formule de l’intervalle de fluctuation au seuil de 95 %
n’est pas à faire apprendre aux élèves de seconde.
– Partie 2 –
Prendre une décision à
partir d’un échantillon
Un minimum de « théorie »
p = p0 ?
échantillon
f connu
On fait l’hypothèse que la proportion de boules
rouges dans l’urne est p = p0 .
Si l’hypothèse est vraie, on sait que la
probabilité qu’un échantillon aléatoire de taille n
fournisse une fréquence dans l’intervalle (de
fluctuation) [ p0 – 1 , p0 + 1 ]
n
n
est environ (ou supérieure à) 0,95.
On prélève un échantillon aléatoire de taille n
dans l’urne sur lequel on observe une
fréquence f de boules rouges. On suit la règle
de décision suivante :
– Si f appartient à [ p0 – 1 , p0 + 1 ],
n
n
on accepte l’hypothèse p = p0 au seuil de 5 %.
– Si f n’appartient pas à [ p0 – 1 , p0 + 1 ],
n
n
on rejette l’hypothèse p = p0 au seuil de 5 %.
Lorsqu’on, rejette l’hypothèse, le risque (la
probabilité) de se tromper est de 5 %. il y a en
effet environ 5 % des cas où la fréquence
observée est en-dehors de l’intervalle de
fluctuation, alors que H0 est vraie.
En revanche, lorsqu’on accepte H0, on ne connait
pas le risque d’erreur. En effet, celui-ci dépend
de la nature de l’hypothèse H1 alternative à H0.
Comparaison des lois binomiales de paramètres n = 20, p = 1/3 et p = 0,6
0,2
0,18
0,16
0,14
0,12
0,1
0,08
0,06
0,04
0,02
0
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20
distribution sous H0
distribution sous H1
Quels obstacles, quelles questions ?
· Les situations les plus simples sont celles où on
rejette l’hypothèse : notion de « différence
significative » ou de « preuve statistique » Dans ce
cas, un raisonnement rigoureux est possible fondé
sur la probabilité correspondant à l’intervalle de
fluctuation.
· Il y a deux risques d’erreur. Ne pas faire croire
qu’il n’y en a qu’un.
Simulation avec les TICE
0
30%
70%
0,3
1
1,3
=ALEA()
?
=ALEA() + 0.3
=ENT(ALEA() + 0.3) donne
0 dans 70% des cas et
1 dans 30% des cas
Exemple d’activité :
l’affaire Castaneda contre Partida
En Novembre 1976 dans un comté du sud du Texas, Rodrigo
Partida était condamné à huit ans de prison.
Il attaqua ce jugement au motif que la désignation des jurés
de ce comté était discriminante à l’égard des Américains
d’origine mexicaine. Alors que 79,1% de la population de
comté était d’origine mexicaine, sur les 870 personnes
convoqués pour être jurés lors d’une certaine période de
référence, il n’y eût que 339 personnes d’origine mexicaine.
Partie A : Simulation de la désignation d’un juré..
• On rappelle que la fonction Random de la calculatrice
génère un nombre aléatoire entre 0 et 1. Sur le tableur, on
obtient la même fonction avec ALEA().
• Expliquer pourquoi on peut simuler la désignation d’un
juré de ce comté sur la cellule A1 à l’aide de la formule
=ENT( ALEA() + 0,791). On pourra s’aider de schémas
pour représenter des intervalles.
Une réponse d’élève
L’ensemble de la simulation
• ..\Castaneda v Partida.xls
La prise de décision: Y a-t-il eu discrimination ?
Quelques réponses d’élèves...
Ici, la simulation n’avait pas du tout été exploitée...
Les élèves n’ont pas toujours l’habitude de synthétiser
des données en mathématiques...
Ici, en revanche l’exploitation de la simulation est
satisfaisante, mais ce qui manquait avec l’ancien
programme, était le seuil à partir de laquelle la fréquence
observée est significativement « éloignée » de la
probabilité...
• Cette copie est particulièrement satisfaisante; l’élève
synthétise bien l’ensemble des paramètres (taille de
l’échantillon et écart entre la fréquence observée et 0,791).
• Il est aussi intéressant de noter que naturellement, cette
élève utilise le terme de probabilités qui ne figurait pas à
son programme...
Exemple d’activité :
l’affaire Hazelwood
En 1964, afin de lutter contre les discriminations dont étaient
victimes les minorités ethniques, des lois furent promulguées aux
Etats-Unis (Civil Rights Act) stipulant qu’en cas de suspicion de
discriminations raciales à l’embauche, le prévenu serait coupable
à l’issue du procès s’il ne pouvait prouver son innocence.
Le gouvernement américain attaqua en justice le réseau
d’établissements scolaires de Hazelwood Independent School
District (situé dans le comté de Saint Louis) au motif que parmi
les 405 enseignants recrutés lors des années 1972 à 1974, il n’y
eût que 15 enseignants noirs alors que dans l’ensemble du comté
le taux d’enseignants noirs recrutés durant la même période fut de
15,4%.
•
Utiliser votre cours de statistique, des simulations,
des graphiques pour accréditer, à partir des chiffres
ci-dessus, la thèse de la discrimination.
•
..\Hazelwood.xls
•
Pour réfuter la thèse de la discrimination, les avocats
d’Hazelwood ont contesté la pertinence des chiffres cités par
l’accusation. Le taux d’enseignants noirs recrutés dans ce
comté était, selon eux, faussé par les modalités particulières
de recrutement dans la ville même de Saint Louis. En effet,
durant cette même période, une politique dite de
« discrimination positive » visait à essayer de recruter 50% de
noirs parmi les nouveaux enseignants dans la ville de SaintLouis. Ainsi, en ne prenant en compte que les enseignants
Noirs recrutés dans le comté de Saint Louis en dehors de la
ville de Saint Louis, ce taux n’était plus que 5,7%.
•
Peut-on à partir de ce nouveau chiffre condamner le réseau
d’établissements scolaires d’Hazelwood ?
•
..\Hazelwood.xls
Comment évaluer ?
• « [...] S’agissant de la fluctuation d’échantillonnage, l’objectif
est de faire réfléchir les élèves à la conception et à la mise en
œuvre d’une simulation et de les sensibiliser aux notions
d’intervalle de fluctuation, d’intervalles de confiance et à
l’utilisation qui peut en être faite. Aussi, semble-t-il prématuré
d’exiger dans des contrôles écrits une autonomie totale des
élèves [...] on prendrait en effet le risque de restitutions par cœur
pour compenser une assimilation naissante et encore fragile.
• C’est pourquoi, l’évaluation [...] devrait être majoritairement
être réalisée sous forme de comptes-rendus de travaux
pratiques ou de devoir à la maison.
• [...] Ces modalités d’évaluations mobilisent davantage les
capacités de recherche, d’expérimentation et d’initiative. »
• Source: document ressources pour la classe de seconde probabilités et
statistiques
• « [...] Par ailleurs, concernant tout particulièrement ce chapitre,
la place de l’oral gagnerait à être développée tant cette forme de
communication facilite, par le questionnement interactif [...]
l’explicitation de certains raisonnements statistiques délicats à
consigner à l’écrit. Dans ce cadre, on peut envisager de proposer
des situations dont l’étude est réalisée en classe et dont le
compte rendu rédigé à la maison, est suivi d’un exposé en classe
ou bien d’échanges avec le professeur permettant d’approfondir
certaines argumentations ou démarches imparfaitement
restituées à l’écrit afin de les améliorer. ».
• Source: document ressources pour la classe de seconde probabilités et
statistiques
Exemple d’évaluation :sex-ratio
1. La probabilité habituelle de naissance d’un garçon est
p = 0,512. Quelle est la probabilité de naissance d’une
fille ?
2. Donner la bonne réponse (on ne demande pas de justifier).
Si l’on prélève des échantillons aléatoires de taille n dans
une population où la fréquence étudiée est p = 0,512 ,
dans plus de 95 % des cas, la fréquence f observée sur
l’échantillon sera comprise dans l’intervalle :
3. Si la fréquence f , obtenue sur un échantillon, n’appartient
pas à cet intervalle, on dira que f présente une « différence
significative » avec p = 0,512.
a) Dans la réserve indienne d’Aamjiwnaag, située au
Canada à proximité de nombreuses industries chimiques, il
est né entre 1999 et 2003, n = 132 enfants dont 46 garçons.
Que vaut la fréquence f de garçons pour cette période à
Aamjiwnaag (arrondir à 10 – 3) ?
b) Vous semble t-il utile de demander une étude sanitaire
(justifier par un calcul) ?
Exemple d’évaluation :les méfaits du tabac
(1ère partie)
À l’hôpital Bellevue, en 1952, la fréquence des « grands
fumeurs » (plus de 15 cigarettes par jour) parmi les malades
est 44 %. Parmi les 1 357 malades soignés pour un cancer du
poumon, 806 sont de grands fumeurs.
1
1. Calculer, à 10 – 2 près, les bornes p – 1n et p + n , de
l’intervalle de fluctuation à 95 % des fréquences des
échantillons aléatoires de taille n = 1 357, lorsqu’on suppose
que la proportion de grands fumeurs est p = 0,44.
2. Calculer la fréquence f des grands fumeurs parmi les 1 357
malades atteints de cancer du poumon.
3. Est-il « raisonnable » de penser que la différence entre f et
p est uniquement due au hasard ? Expliquer.
– Partie 3 –
Estimer une proportion
inconnue
Un minimum de « théorie »
p=?
échantillon
f connu
On ignore la proportion p de boules rouges
dans l’urne.
On sait que, sous certaines conditions, la
probabilité qu’un échantillon aléatoire de taille
n fournisse une fréquence f comprise dans
1
1
l’intervalle [ p – , p + ] est supérieure à
n
n
0,95.
Or : p
1
n
f p
1
n
f
1
n
p f
1
n
.
On en déduit que, pour plus de 95 % des
échantillons aléatoires de taille n, la fréquence
inconnue p appartient à l’intervalle
1
1
[ f – , f + ] calculé à partir de
n
n
l’échantillon.
On adopte la procédure d’estimation suivante :
on prélève UN échantillon aléatoire de taille n
pour lequel on obtient UNE fréquence f et on
estime que p est compris dans l’intervalle de
confiance [ f – 1 , f + 1 ]
n
n
avec un niveau de confiance de 0,95.
Quels obstacles, quelles questions ?
· L’intervalle de confiance ne correspond pas à une
probabilité. On a un seul intervalle centré sur f obtenu après
l’expérience aléatoire du tirage dans l’urne. Il n’y a plus de
hasard : p est, ou non, dans l’intervalle de confiance.
· Ne pas confondre (malgré la symétrie dangereuse de la
formule) intervalle de fluctuation et intervalle de confiance.
Il y a autant d’intervalles de confiance que d’échantillons. Ils
sont centrés sur la fréquence f de l’échantillon.
Réserver le mot « confiance » à l’intervalle de confiance.
Utiliser plutôt « niveau » de confiance, ou « coefficient » de
confiance et préférer « seuil » ou « probabilité » dans le cas
de l’intervalle de fluctuation.
Exemple d’activité :
Sondages électoraux
Obama.ods
Exemple d’activité: estimation de pi par la
méthode de Monte-Carlo
• Dans le repère orthonormal
(O;I;J) l’aire du carré OIKJ
vaut 1.
• On va utiliser la méthode de
Monte Carlo pour approcher
l’aire du quart de disque c’està-dire Pi/4.
• En multipliant par quatre on
retrouvera Pi.
Algorithme en langage naturel
VARIABLE
disque: compte le nombre de points situés à
l’intérieur du quart de disque
n: nombre de points placés aléatoirement
x :abscisse d’un point au hasard dans le carré
y :ordonnée d’un point au hasard dans le carré
TRAITEMENT
Pour i de 1 à n
x prend une valeur aléatoire dans
[0 ;1]
y prend une valeur aléatoire dans
[0 ;1]
Si x²+y² <1 alors disque prend la
valeur disque +1
SORTIE
Afficher (disque /n)
Algorithme en Scilab
Visualisation des résultats avec Scilab
Les premières décimales de Pi sont 3,1 4 1 5 9 2 6 5 3 5
Que j’aime à faire apprendre un nombre utile aux sages...
• On pose
aire du quart de disque
p
aire du carré
• On pose f obs la fréquence observée de points situés
dans le quart de disque.
• Alors en plaçant n points aléatoirement avec n assez
grand, p est compris dans
1
1
f
;f
+
obs n obs
n
avec un niveau de confiance de 0,95.
Quelle précision ?
• L’intervalle de confiance a une longueur
4
de 2. 10
• Mais, p vaut
donc on doit multiplier
4
l’intervalle de confiance par 4 pour estimer
• On n’observe donc seulement 3 décimales au
niveau de confiance de 0,95
• Mais, les élèves reconnaissent facilement
3,14. Cela contribue aussi à valider la
démarche à leurs yeux.
Exemple d’évaluation :
e
les méfaits du tabac (2 partie)
Lors d’un sondage aléatoire effectué aux États-Unis en 1995,
sur 737 fumeurs quotidiens, seuls 295 estimèrent courir un
risque de cancer supérieur à celui des non fumeurs de leur
âge (source : Journal of the American Medical Association
1999).
1. Calculer la fréquence f des fumeurs interrogés pensant
prendre un risque.
2. Estimer la proportion p de fumeurs aux États-Unis pensant
prendre un risque en utilisant l’intervalle de confiance au
1
1
niveau 95 %, [ f – 737
; f + 737
].
Merci de votre attention !