TSTI2D CH XI : Prise de décision et estimation

Download Report

Transcript TSTI2D CH XI : Prise de décision et estimation

TSTI2D
CH XI : Prise de décision et estimation
I Intervalle de fluctuation et prise de décision
Contexte :
Dans une certaine population la proportion p d’individus présentant le caractère C est connue ou on la
suppose connue.
On sélectionne, par tirage au sort, un échantillon de taille n dans la population.
On observe la fréquence f du caractère C dans cet échantillon.
On veut déterminer si l’échantillon est représentatif de la population ou bien vérifier à partir d’un échantillon
la validité de l’hypothèse faite sur p.
Pour cela on détermine un intervalle de fluctuation et une règle de décision permettant de répondre à la
question posée.
1) En classe de Première avec la loi binomiale
En classe de Première, on a vu que si X n est la variable aléatoire associant à chaque échantillon de taille n le
X
nombre d’individus présentant le caractère C et si Fn  n est la variable aléatoire correspondant à la
n
fréquence de C dans cet échantillon alors :
 X n suit la loi binomiale de paramètres n et p ;
a b
 On peut déterminer un intervalle de la forme  ;  , avec a et b entiers, a étant le plus petit entier
n n
tel que P  X n  a   0,025 et b le plus petit entier tel que P  X n  b  0,975 .

a b
Un tel intervalle qui vérifie P  Fn   ;    0,95 est appelé intervalle de fluctuation au seuil
n n

0,95 de Fn .
Exemple
Un laboratoire pharmaceutique annonce qu’un médicament sauve 40% des patients atteint d’une maladie
rare.
Pour contrôler cette affirmation, on teste ce médicament sur 100 patients atteints de cette maladie : on sauve
30 malades.
Au seuil de risque de 5% , que peut-on dire de l’annonce faite par ce laboratoire ?
Méthode :
1. Soit X le nombre de malades sauvés par ce médicament dans un échantillon aléatoire de 100 malades.
Par hypothèse, la proportion de patients sauvés par ce médicament est 0,4.
X suit donc la loi binomiale de paramètres 100 et 0,4.
2. Détermination de l’intervalle de fluctuation au seuil 0,95.
On cherche le plus petit entier a tel que P  X  a   0,025 :
avec la calculatrice, on obtient P  X  30  0,0248 et P  X  31  0,04 donc a  31 ;
On cherche de même le plus petit entier b tel que P  X  b   0,975 :
P  X  49  0,973 et P  X  50  0,983 donc b  50 .
L’intervalle de fluctuation au seuil 0,95 de la fréquence dans les échantillons de taille 100 est 0,31;0,50 .
TSTI2D CH XI Prise de décision et estimation
1
Cela signifie que dans 95% des échantillons de taille 100, la proportion de patients sauvés appartient à
l’intervalle 0,31;0,50 .
3. Prise de décision sur l’échantillon
On utilise la règle de décision suivante :
Si la fréquence f observée sur l’échantillon de 100 patients appartient à l’intervalle 0,31;0,50 ,
l’hypothèse p  0, 4 est acceptable , sinon elle est rejetée au seuil de risque de 5%.
La fréquence observée est 0,30 et 0,30 n’appartient pas à l’intervalle 0,31;0,50 , donc, au seuil de risque de
5%, on rejette l’hypothèse selon laquelle ce médicament sauve 40% des malades.
Exercice 1
On prélève, au hasard et avec remise, un échantillon de 15 élèves d’un lycée.
La variable aléatoire X qui compte le nombre d’élèves préférant
les livres de science-fiction sur les 15 choisis suit une loi
binomiale de paramètres n  15 et p.
1. Que désigne le paramètre p ?
2. La loi de la variable aléatoire X est représentée par le
diagramme en bâtons ci-contre.
Déterminer un intervalle de fluctuation au seuil de 95% de la
fréquence des élèves préférant les livres de science-fiction sur un
échantillon de taille 15.
Exercice 2
On s’intéresse au taux de calcium de l’eau d’une grande quantité de bouteilles devant être livrée à une chaîne
d’hypermarchés.
On rappelle que lorsque le taux de calcium dans l’eau dépasse 6,5 mg par litre dans une bouteille, l’eau de
cette bouteille est dite calcaire.
Le service de contrôle de qualité de l’entreprise commercialisant cette eau de source affirme que la
fréquence des bouteilles avec de l’eau calcaire est à 0,08.
On prélève au hasard et avec remise un échantillon de 60 bouteilles dans cette livraison : la fréquence des
bouteilles avec de l’eau calcaire est 0,15.
L’objectif de l’exercice est de déterminer si, au seuil de 5%, l’affirmation du service de contrôle de qualité
est valable.
On fait l’hypothèse que la proportion des bouteilles avec de l’eau calcaire dans la livraison est 0,08.
Soit X la variable aléatoire qui, à tout échantillon de 60 bouteilles prélevées au hasard et avec remise dans la
livraison associe le nombre de bouteilles avec de l’eau calcaire.
1. Justifier que X suit une loi binomiale et déterminer ses paramètres.
2. a. Déterminer le plus petit entier a tel que P  X  a   0,025 .
b. Déterminer le plus petit entier b tel que P  X  b   0,975 .
c. En déduire l’intervalle de fluctuation à 95% de la fréquence des bouteilles avec de l’eau calcaire dans un
échantillon de 60 bouteilles prélevées dans la livraison.
3. Enoncer la règle de décision permettant d’accepter ou de refuser, au seuil de 5%, l’hypothèse faite sur la
proportion de bouteilles avec de l’eau calcaire et appliquer cette règle au cas de l’échantillon.
TSTI2D CH XI Prise de décision et estimation
2
2) En classe de Terminale avec la loi normale
a) Intervalle de fluctuation asymptotique au seuil de 95%
Soit X n une variable aléatoire suivant la loi binomiale B  n; p  de paramètres n et p , avec p dans 0;1 .
X
La variable aléatoire Fn définie par Fn  n représente la fréquence du succès pour un schéma de Bernoulli
n
de paramètres n et p.
On a vu dans le CH X, que si n  30 , np  5 et n 1  p   5 , X n suit approximativement la loi normale
d’espérance   np et d’écart type   np 1  p  .
On démontrerait que P  X n     1,96 ;   1,96   0,95 , on en déduit que :


p 1  p 
p 1  p   


   0,95 .
P Fn  p  1,96
; p  1,96

n
n





On a ainsi un intervalle dans lequel Fn prend ses valeurs avec une probabilité qui s’approche de 0,95 .
Définition

p 1  p 
p 1  p  
L’intervalle I   p  1,96
 est un intervalle de fluctuation asymptotique
; p  1,96
n
n


au seuil de 95% ( ou au niveau de confiance 0,95 ) de la variable aléatoire fréquence Fn qui, à tout
échantillon de taille n, associe la fréquence obtenue d’un certain caractère, p désignant la proportion,
connue ou supposée, de ce caractère dans la population.
Dans la pratique, on utilise cet intervalle dès que : n  30 , np  5 et n 1  p   5 .
Remarques :
L’intervalle de fluctuation asymptotique au seuil de 95% est inclus dans l’intervalle de fluctuation étudié en
1
1 

; p
classe de Seconde qui est défini par :  p 
.
n
n

L’intervalle de fluctuation asymptotique au seuil de 95% et l’intervalle de fluctuation étudié en Seconde
sont centrés sur la proportion p du caractère étudié dans la population. Par contre ce n’est pas nécessairement
le cas pour l’intervalle de fluctuation déterminé à l’aide de la loi binomiale et étudié en classe de 1ère .
Exercice 3 Déterminer un intervalle de fluctuation asymptotique au seuil de 95%
La proportion de chômeurs dans la population active est de 10%.
Déterminer un intervalle de fluctuation asymptotique au seuil de 95% de la fréquence des chômeurs dans les
échantillons de taille 400.
On arrondira les bornes à 10-3 par défaut pour la borne inférieure et par excès pour la borne supérieure.
Livre page 231 Application 1, page 236 n°3 et n°4
Exercice 4
Le taux de réussite au Bac L en France en 2011 a été de 85,6% et celui du Bac S a été de 88,2%.
1. Déterminer un intervalle de fluctuation asymptotique au niveau de confiance 0,95 du taux de réussite dans
une classe de Terminale L de 35 élèves .
2. Peut-on déterminer un intervalle de fluctuation asymptotique au niveau de confiance 0,95 du taux de
réussite dans une classe de Terminale S de 35 élèves ?
TSTI2D CH XI Prise de décision et estimation
3
Récapitulatif
Intervalle de fluctuation au seuil de 95% : p connue
n  25 0, 2  p  0,8
Seconde
Première
Terminale
1
1 

I  p
; p

n
n

Avec la loi binomiale
a b
I  ; 
n n
n  30 np  5 n 1  p   5

p 1  p 
p 1  p  

I   p  1,96
; p  1,96
n
n


b) Prise de décision à partir d’un échantillon
La détermination d’un intervalle de fluctuation permet de prendre une décision lorsqu’on fait une hypothèse
sur une proportion dans une population.
En effet, en faisant une hypothèse sur la proportion p d’un caractère dans une population, on peut déterminer
un intervalle de fluctuation asymptotique I au seuil de 95% de la fréquence de ce caractère dans un
échantillon aléatoire de taille n : cela signifie que pour 95% des échantillons la fréquence observée appartient
à I.
On peut alors établir la règle de décision suivante :
Si la fréquence observée dans l’échantillon appartient à I , comme cela arrive pour 95% des échantillons,
on accepte l’hypothèse faite sur p sinon on rejette l’hypothèse avec un risque de se tromper de 5%.
Propriété
On considère une population dans laquelle on suppose que la proportion d’un caractère est p.
On observe f comme fréquence de ce caractère dans un échantillon aléatoire de taille n.
Soit l’hypothèse : « La proportion de ce caractère dans la population est p. »
Si I est l’intervalle de fluctuation asymptotique au seuil de 95% de la fréquence du caractère dans les
échantillons de taille n, la règle de décision est la suivante :
 Si f  I : on considère que l’hypothèse selon laquelle la proportion du caractère dans la population
est p n’est pas remise en question ;
 Si f  I : on rejette l’hypothèse selon laquelle cette proportion vaut p au seuil de risque de 5%.
Exercice 5 Exploiter un intervalle de fluctuation asymptotique
On considère qu’une machine à former des pilules fonctionne de façon satisfaisante si le pourcentage de
pilules défectueuses est de 1 pour 1000.
Sur un échantillon de 10 000 pilules, on a trouvé 15 pilules défectueuses.
On veut savoir si la machine est bien réglée.
1. Déterminer un intervalle de fluctuation asymptotique au seuil de 95% de la fréquence de pilules
défectueuses dans les échantillons de taille 10 000 prélevés au hasard. ( On arrondira les bornes de
l’intervalle à 10-4).
2. Enoncer la règle de décision permettant d’accepter ou non l’hypothèse p  0, 001 au seuil de confiance
95% puis conclure sur le problème posé.
TSTI2D CH XI Prise de décision et estimation
4
Livre page 231 Application 2, page 237 n°10 et n°12
II Intervalle de confiance
Contexte :
On ignore la proportion p d’individus présentant le caractère C dans une certaine population.
Pour des raisons à la fois financières et logistiques on ne peut pas recueillir des données sur la population
toute entière.
On sélectionne alors un échantillon de taille n dans la population par tirage au sort et on observe la fréquence
f du caractère C dans cet échantillon.
On estime la proportion p par un intervalle de confiance déterminé à partir de f et n selon un niveau de
confiance.
1) Intervalle de confiance d’une proportion
Définition
Soit f la fréquence observée dans un échantillon de taille n extrait d’une population dans laquelle la
proportion est p .

p 1  p 
p 1  p  
 est un intervalle de confiance de p au niveau de
; f  1,96
L’intervalle  f  1,96
n
n


confiance 0,95.
On utilise cet intervalle dés que : n  30 , nf  5 et n 1  f   5 ,
Remarque
Une fois qu’on a calculé la fréquence f dans un échantillon donné, cet intervalle de confiance est connu : p
peut appartenir ou non à cet intervalle de confiance.
Mais si on pouvait extraire un très grand nombre d’échantillons de taille n et pour chacun d’entre eux
calculer la fréquence f i du caractère , on obtiendrait pour chaque échantillon l’intervalle

p 1  p 
p 1  p  
 fi  1,96
 et p appartiendrait à au moins 95% des intervalles .
; fi  1,96
n
n


Exercice 6 Estimer par intervalle une proportion inconnue
Dans une population donnée, on s’intéresse à la proportion de myopes.
Dans un échantillon de taille 100 extrait de cette population, on a trouvé 22 myopes.
Déterminer un intervalle de confiance de la proportion des myopes dans la population au niveau de
confiance 0,95.
Livre page 237 n°15, page 238 n°18
2) Comparaison de deux proportions à l’aide d’intervalles de confiance
Exemple
Dans trois villes voisines, on s’intéresse au temps passé en moyenne, par jour, devant un écran par les jeunes
de 15 à 20 ans, pendant leur temps de loisir.
Dans chaque ville on constitue un échantillon de taille 500 considéré comme prélevé au hasard et avec
remise ; on observe ainsi que le temps est supérieur à 4h pour 210 jeunes de la ville A, 160 jeunes de la ville
B et 170 jeunes de la ville C.
TSTI2D CH XI Prise de décision et estimation
5
1) Calculer, pour chaque échantillon, la fréquence des jeunes pour lesquels le temps passé devant un écran
est supérieur à 4 heures :
fA 
fB 
et f C 
2) Déterminer un intervalle de confiance au niveau de 95% pour la proportion inconnue du même caractère
dans chaque ville :
, IB  
IA  
;
;
;

 et IC  
.
3 ) Noter sur l’axe ci-dessous les trois intervalles I A , I B , I C :
1
0
0,1
0,2
0,3
0,4
Les intervalles I A et I B n’ont pas d’éléments en commun . On dit qu’ils sont disjoints .
On considère alors que la différences des fréquences observées f A et f B est significative et on juge, avec un
petit risque d’erreur, que les deux proportions p A et pB sont différentes .
Cela veut dire que l’écart entre les fréquences observées est trop grand pour être considéré comme le résultat
de la seule fluctuation d’échantillonnage.
A l’opposé, les intervalles I B et I C ont une partie commune importante ; l’écart entre f B et f C a donc de
fortes chances d’être le résultat de la seule fluctuation d’échantillonnage.
La différence des fréquences observées f B et f C n’est pas significative et on juge, avec un petit risque
d’erreurs, que les proportions pB et pC sont égales.
Pour les intervalles I A et I C qui ne sont pas disjoints, on peut conclure comme pour les intervalles I B et
IC .
Cependant, compte tenu de la taille réduite de leur intersection, il peut être utile d’effectuer une nouvelle
prise d’échantillon dans les villes A et C avant de conclure définitivement.
Règle de comparaison de deux proportions à l’aide des intervalles de confiance
La différence entre deux fréquences observées f A et f B est considérée comme significative quand les
intervalles de confiance au seuil de 95% I A et I B sont disjoints.
On juge alors, avec un petit risque d’erreur, que les deux proportions p A et pB sont différentes .
Dans le cas contraire, toujours avec un petit risque d’erreur, on juge que les proportions p A et pB sont
égales.
Livre page 238 n°22, page 239 n°25
TSTI2D CH XI Prise de décision et estimation
6