Statistiques - Denis Vekemans

Download Report

Transcript Statistiques - Denis Vekemans

Statistiques
Denis Vekemans ∗
1
Introduction
Les statistiques proposent différents indicateurs qui permettent de résumer, ou de rendre apparentes
certaines propriétés d’une population que l’on veut étudier.
Population : ensemble de ce qui est étudié, cela peut être des personnes ou des choses.
2
Série statistique discrète
2.1
Dans un cadre général
Les valeurs du caractère sont discrètes.
Les éléments qui composent la population sont appelés des individus.
L’effectif total est le nombre d’individus de la population.
Ce qui est étudié de ces individus est appelé un caractère. Un caractère peut être qualitatif ou
quantitatif.
Une série statistique est l’ensemble des valeurs d’un caractère pour chacun des individus d’une population donnée. Si le caractère étudié est quantitatif, ce sera une série de nombres.
L’effectif d’une valeur est le nombre d’individus de la population a qui est attribué cette valeur.
D’une manière générale, les valeurs du caractère sont notées xi et l’effectif correspondant est noté ni
p
X
ni .
pour i allant de 1 à p qui est le nombre de valeurs du caractère et l’effectif total est n =
k=1
La fréquence d’une valeur est le quotient de l’effectif de cette valeur par l’effectif total.
ni
D’une manière générale, la fréquence d’un caractère xi est fi =
pour i allant de 1 à p.
n
2.1.1
Critères de position
Le mode est la valeur du caractère dont l’effectif est le plus grand.
∗
Laboratoire de mathématiques pures et appliquées Joseph Liouville ; 50, rue Ferdinand Buisson BP 699 ; 62 228 Calais
cedex ; France
1
La moyenne d’une série statistique est le quotient de la somme de toutes les valeurs pondérées par de
cette série par l’effectif total.
Pp
ni × x i X
f i × xi .
=
D’une manière générale, la moyenne m est m =
n
k=1
Une valeur médiane M é partage les valeurs d’une série statistique en deux groupes de manière à ce
p
k=1
que
– 50% (ou plus) des valeurs sont inférieures ou égale à M é ;
– 50% (ou plus) des valeurs sont supérieures ou égale à M é.
Remarque : dans le cas de médianes multiples, il est d’usage de choisir le moyenne de toutes les
médianes.
Un premier quartile Q1 partage les valeurs d’une série statistique en deux groupes de manière à ce
que
– 25% (ou plus) des valeurs sont inférieures ou égale à Q1 ;
– 75% (ou plus) des valeurs sont supérieures ou égale à Q1 .
Un troisième quartile Q3 partage les valeurs d’une série statistique en deux groupes de manière à ce
que
– 75% (ou plus) des valeurs sont inférieures ou égale à Q3 ;
– 25% (ou plus) des valeurs sont supérieures ou égale à Q3 .
Remarque : dans le cas de quartiles multiples, il est d’usage de choisir le moyenne de tous les quartiles.
2.1.2
Critères de dispersion
Lorsque Q1 et Q3 sont déterminés, la différence Q3 − Q1 s’appelle l’écart inter-quartiles.
L’étendue d’une série statistique est la différence entre la valeur la plus grande et la valeur la plus
petite. D’une manière générale, l’étendue est xp − x1 quand les valeurs du caractère sont rangées par ordre
croissant.
2.2
Sur un exemple
On a demandé aux 28 élèves d’une classe de CM1 leur nombre de frères et soeurs. Voici les réponses
obtenues :
2 ; 1 ; 0 ; 1 ; 4 ; 0 ; 3 ; 2 ; 0 ; 1 ; 2 ; 5 ; 1 ; 2 ; 2 ; 3 ; 0 ; 0 ; 1 ; 3 ; 1 ; 2 ; 4 ; 3 ; 0 ; 4 ; 1 ; 2.
Population : les élèves de la classe de CM1.
Caractère : le nombre de frères et soeurs.
Valeurs du caractère et effectif : le nombre de valeurs du caractère est p = 6, les valeurs du
caractère sont x1 = 0 d’effectif n1 = 6, x2 = 1 d’effectif n2 = 7, x3 = 2 d’effectif n3 = 7, x4 = 3 d’effectif
n4 = 4, x5 = 4 d’effectif n5 = 3 et x6 = 5 d’effectif n6 = 1).
Effectif total (le nombre d’élèves de la classe) : n = n1 +n2 +n3 +n4 +n5 +n6 = 6+7+7+4+3+1 = 28.
6
7
7
4
3
1
Fréquences du caractère : f1 = , f2 = , f3 = , f4 = , f5 =
et f6 = .
28
28
28
28
28
28
2
Présentation des xi , ni et fi dans un tableau :
Nombre frères et soeurs xi
0
1
2
3
4
5
Effectif ni
6
7
7
4
3
1
Fréquence fi
6
28
7
28
7
28
4
28
3
28
1
28
Le diagramme suivant s’appelle diagramme en bâtons
2.2.1
Critères de position
Mode : 1 et 2 sont les caractères liés à l’effectif maximum qui est 7, ils sont donc tous deux modes.
Moyenne :
m=
6
28
×0+
7
28
×1+
7
28
4
× 2 + 28
×3+
28
3
28
×4+
1
28
×5
=
50
≈ 1, 79.
28
Médiane : M é = 2 car il y a 20 enfants (soit plus de 50%) qui ont 2 frères/soeurs ou moins et 15
enfants (soit plus de 50%) qui ont 2 frères/soeurs ou plus.
Quartiles : Q1 = 1 car il y a 13 (soit plus de 25%) enfants qui ont 1 frères/soeurs ou moins et 22
enfants (soit plus de 75%) qui ont 1 frères/soeurs ou plus ; Q3 = 3 car il y a 24 (soit plus de 75%) enfants
qui ont 3 frères/soeurs ou moins et 8 enfants (soit plus de 25%) qui ont 1 frères/soeurs ou plus.
2.2.2
Critères de dispersion
L’écart interquartiles : Q3 − Q1 = 3 − 1 = 2.
L’étendue : x6 − x1 = 5 − 0 = 5.
3
Série statistique classée
Les valeurs du caractère sont classées (des intervalles).
3
L’effectif d’une classe est le nombre de valeurs comprises dans cette classe.
La fréquence d’une classe est le quotient de l’effectif de cette classe par l’effectif total.
L’amplitude d’une classe est la différence entre la plus grande valeur et la plus petite valeur de cette
classe.
3.1
Sur un exemple
Dans le but d’étudier la loi de survie d’un certain type de matériel, une entreprise s’est livrée sur 600
machines identiques à des observations résumées dans le tableau suivant :
Année de mise en réforme
0
1
2
3
4
5
6
7
8
9
10 11 12
Nombre de machines encore
en service à la fin
600 592 564 508 391 267 155 87 34 17
7
2
0
de l’année
– Déterminer la durée médiane d’existence du type de matériel utilisé, en justifiant votre résultat.
Donner une interprétation du résultat obtenu.
– Déterminer sa durée moyenne d’existence. On admettra que les mises à la réforme s’effectuent de
façon uniforme dans le courant de l’année. On arrondira le résultat à 10−2 près.
[0, 1]
]1, 2]
]2, 3]
]3, 4]
]4, 5]
]5, 6]
]6, 7]
]7, 8]
]8, 9]
]9, 10]
]10, 11]
]11, 12]
Effectif des machines
8
28
56
117
124
112
68
53
17
10
5
2
Effectifs cumulé des machines
8
36
92
209
333
445
513
566
583
593
598
600
Durée de vie des machines en années
1. La moitié de l’effectif est 300, la médiane est donc une valeur comprise dans l’intervalle ]4, 5[.
Le calcul exact de cette valeur s’effectue par interpolation linéaire en cherchant l’abscisse du point
d’ordonnée 300 de la droite qui passe par les points de coordonnées (4; 209) et (5; 333).
4
Cette droite représente graphiquement la fonction affine f : R → R; x 7→ a×x+b vérifiant f (4) = 209
et f (5) = 333, ce qui donne f (x) = 124 × x − 287.
587
587
. La médiane est donc de
années, ce qui est proche de 4, 7 années.
f (x) = 300 donne x =
124
124
2. Le calcul de la moyenne m s’effectue en utilisant les centres des classes
8 × 0, 5 28 × 1, 5 56 × 2, 5 117 × 3, 5 124 × 4, 5 112 × 5, 5
+
+
+
+
+
600
600
600
600
600
600
68 × 6, 5 53 × 7, 5 17 × 8, 5 10 × 9, 5 5 × 10, 5 2 × 11, 5
+
+
+
+
+
+
600
600
600
600
600
600
2924
=
600
= 4, 87 arrondi à 10−2 près.
m =
Exercice 1
Indiquer si les affirmations suivantes sont vraies ou fausses.
Si on ajoute 2 à toutes les valeurs d’une série statistique, on augmente
1. la médiane de 2.
2. la moyenne de 2.
3. l’étendue de 2.
4. le premier quartile de 2.
Solution 1
1. Oui, si toutes les valeurs sont accrues de 2, l’endroit où se lit la médiane ne change pas et la valeur
de la madiane est donc aussi accrue de 2.
2. Oui, si yi = xi + 2, alors si mx est la moyenne des xi et si my est la moyenne des yi ,
Pp
k=1 ni × yi
my =
Pp n
k=1 ni × (xi + 2)
=
n
Pp
n
×
xi 2 × n
k=1 i
=
+
n
Pp n
k=1 ni × xi
+2
=
n
= mx + 2
3. Non, si yi = xi + 2, si xM est le plus grand des xi et si xm est le plus petit des xi , alors yM = xM + 2
est le plus grand des yi et ym = xm + 2 est le plus petit des yi , l’étendue sur les xi est xM − xm et
l’étendue sur les yi est yM − ym = (xM + 2) − (xm + 2) = xM − xm et l’étendue n’est pas modifiée.
4. Oui, de même que pour la médiane, si toutes les valeurs sont accrues de 2, l’endroit où se lit le
premier quartile ne change pas et la valeur du premier quartile est donc aussi accrue de 2.
5
Exercice 2
Trouver le 1er et le 3e quartile de la série : 27; 12; 4, 5; 16; 25; 18; 7; 15; 12, 5; 26; 18, 5; 11.
Solution 2
On classe la série par valeurs croissantes et on insère les éléments de position M é, Q1 , Q3 :
Q3
Q1
Mé
4, 5; 7; 11 Ξ 12; 12, 5; 15 Ξ 16; 18; 18, 5 Ξ 25; 26; 27.
Ainsi,
– M é peut prendre toute valeur comprise entre 15 et 16, on prendra 15, 5,
– Q1 peut prendre toute valeur comprise entre 11 et 12, on prendra 11, 5,
– Q3 peut prendre toute valeur comprise entre 18, 5 et 25, on prendra 21, 75.
Exercice 3
Une enquête sur l’argent de poche mensuel de 600 jeunes a donné les résultats regroupés
sous la forme de l’histogramme suivant :
1. Compléter le tableau suivant :
Somme d’argent en eurosxi Effectif ni Fréquence fi Angle en degrés
[0; 5[
[5; 10[
[10; 15[
[15; 20[
[20; 25[
[25; 30[
Total
600
1
2. Regrouper les données sous la forme d’un diagramme à secteurs.
3. Calculer le montant moyen.
Solution 3
6
360
1. Le tableau met en jeu des grandeurs qui sont proportionnelles : l’effectif, la fréquence et l’angle en
degrés.
Somme d’argent en eurosxi Effectif ni Fréquence fi Angle en degrés
[0; 5[
54
[5; 10[
73
[10; 15[
173
[15; 20[
150
[20; 25[
100
[25; 30[
50
9
100
73
600
173
600
1
4
1
6
1
12
Total
600
1
32, 4˚
43, 8˚
103, 8˚
90˚
60˚
30˚
360
2.
3. La moyenne m se calcule en utilisant les centres des classes :
m = 2, 5 ×
Exercice 4
54
73
173
150
100
50
9 095
+ 7, 5 ×
+ 12, 5 ×
+ 17, 5 ×
+ 22, 5 ×
+ 27, 5 ×
=
≈ 15, 16.
600
600
600
600
600
600
600
On considère un ensemble de notes : 12; 4; 16; 16; 16; 7; 9; 12; 9; 12.
1. Faire un tableau d’effectifs et établir un diagramme en bâtons.
2. On répartit les notes en quatre sous-groupes selon qu’elles appartiennent à l’intervalle : [0; 5[, [5; 10[,
[10; 15[ ou [15; 20[.
3. Faire un tableau d’effectifs et établir un histogramme.
Solution 4
7
Exercice 5
Dans deux classes de 24 élèves chacune, on demande aux collégiens qui utilisent tous l’au-
tobus, combien de temps ils passent dans ce moyen de transport pour se rendre à leur collège.
1. Reproduire et compléter la première colonne du tableau suivant qui représente les résultats de cette
enquête, en sachant que tous les élèves ont donné une réponse.
Temps en minutes Effectif Fréquences fi
0 ≤ t < 15
6
15 ≤ t < 30
24
30 ≤ t < 45
45 ≤ t ≤ 60
3
2. Quel est l’effectif d’élèves passant au moins 30 minutes dans l’autobus pour se rendre au collège ?
3. Déterminer les valeurs maximales et minimales de la variable étudiée.
4. Compléter la colonne des fréquences correspondant à cette étude statistique.
Solution 5
1. et 4. Les 24 + 24 = 48 élèves ont fourni une réponse, donc les 48 − 6 − 24 − 3 = 15 élèves manquants
mettent entre 30 (inclus) et 45 minutes (exclu) pour se rendre au collège.
Temps en minutes Effectif Fréquences fi
0 ≤ t < 15
6
15 ≤ t < 30
24
30 ≤ t < 45
15
45 ≤ t ≤ 60
3
1
8
1
2
5
16
1
16
0 ≤ t ≤ 60
48
1
8
2. L’effectif d’élèves passant au moins 30 minutes dans l’autobus pour se rendre au collège est 15 + 3 =
18.
3. La valeur minimale de la variable étudiée est 0 minute ; la valeur maximale de la variable étudiée
est 60 minutes.
Exercice 6
Dans une entreprise, les salaires, en euros, se répartissent de la façon suivante :
Classes
Effectifs
Classes
Effectifs
[1 000; 1 200[
12
[1 600; 1 800[
18
[1 200; 1 400[
20
[1 800; 2 000[
6
[1 400; 1 600[
40
[2 000; 2 200[
4
1. Faites un histogramme des effectifs.
2. Quel est le salaire médian dans cette entreprise ?
3. Quel est le salaire moyen dans cette entreprise ?
Solution 6
L’unité monétaire choisie pour tout cet exercice est l’euro.
1.
2. On cherche dans la représentation graphique des fréquences cumulées croissante l’abscisse correspondant à un effectif cumulé croissant de 0, 5.
9
Tableau de valeurs des fréquences cumulées croissante.
Classes
Fréquences cumulées croissante
[1 000; 1 200[
0, 12
[1 200; 1 400[
0, 32
[1 400; 1 600[
0, 72
[1 600; 1 800[
0, 90
[1 800; 2 000[
0, 96
[2 000; 2 200[
1, 00
Le calcul exact de cette valeur s’effectue par interpolation linéaire en cherchant l’abscisse du point
d’ordonnée 0, 5 de la droite qui passe par les points de coordonnées (1 400; 0, 32) et (1 600; 0, 72).
Cette droite représente graphiquement la fonction affine f : R → R; x 7→ a×x+b vérifiant f (1 400) =
0, 32 et f (1 600) = 0, 72, ce qui donne f (x) = 0, 002 × x − 2, 48.
2, 48 + 0, 5
= 1 490. Le salaire médian est donc de 1 490.
f (x) = 0, 5 donne x =
0, 002
3. Pour calculer le salaire moyen m, on utilise les centres des classes :
m = 1 100×
20
40
18
6
4
149 600
12
+1 300×
+1 500×
+1 700×
+1 900×
+2 100×
=
= 1 496.
100
100
100
100
100
100
100
Le salaire moyen est donc de 1 496.
10