statistique2

Download Report

Transcript statistique2

Les principaux résumés de la statistique
Les résumés de position et de valeur centrale
LA STATISTIQUE
DESCRIPTIVE
Année 2005-2006
MENU GENERAL
Veuillez cliquer sur l’un des boutons
COURS
EXERCICE
Fractal
FIN
Menu du cours
Veuillez cliquer sur l’un des boutons
Valeurs centrales
Dispersion
Forme des distributions
Fractal
MENU GENERAL
Menu des résumés de positions et de valeurs
centrales
Veuillez cliquer sur l’un des boutons
Conditions de YULE
Moyenne Arithmétique
Moyenne Géométrique
Médiane
Fractal
Mode
Quartiles
Moyenne Harmonique
Moyenne quadratique
Déciles et centiles
RETOUR MENU
Propriétés souhaitables
Les distributions statistiques à une variable sont représentées par
un petit nombre d'indicateurs (résumés numériques) qui doivent
être représentatifs de la distribution statistique. Il est souhaitable
que les paramètres ou résumés numériques possèdent certaines
propriétés, appelées conditions de Yule :
•être définis de manière objective,
•dépendre de toutes les observations,
•avoir une signification concrète,
•être facilement calculables et interprétables,
•être peu sensibles aux fluctuations d'échantillonnage,
•se prêter aisément aux calculs algébriques.
RETOUR MENU
La médiane
Voir exercice
Définition
La médiane XM d'une distribution statistique est la valeur de la
variable qui partage l'effectif total de la distribution en deux
parties égales, telles que la première moitié des observations soit
inférieures (ou égales) à XM et la seconde moitié soit supérieures
(ou égales) à XM.
RETOUR MENU
La médiane (suite)
Voir exercice
Calcul de la médiane
Si (xi , Fi(x)) est la distribution des fréquences cumulées d'une
variable statistique, alors la médiane est donnée par l'équation :
F(XM) = 1/2
Si la variable est continue on effectue une interpolation à
l’intérieure de la classe médiane.
X
M
 xi  1
 0 ,5  Fi  1 
 0 ,5  Fi  1 
  xi  1  a i 

 ai 
fi
 Fi  Fi  1 


RETOUR MENU
Les quartiles, déciles et centiles
Définition des quartiles
Les quartiles Q1, Q2, Q3, sont les valeurs d'une série ou d'une
distribution statistique rangée par ordre croissant (ou
décroissant) qui partagent l'effectif total en quatre parties égales.
Si (xi , Fi(x)) représente la distribution de fréquences relatives
cumulées d'une variable statistique, alors les quartiles sont
donnés par les équations :
F(Q1) = 0.25
F(Q2) = 0.5
F(Q3) = 0.75
Le quartile Q2 d'une variable statistique est égale à la médiane XM
RETOUR MENU
Les quantiles (suites)
Définition des déciles et centiles
Les déciles, notés D1, D2, D3 ,..., D9 (resp. les centiles ou
percentiles, souvent notés C1, C2, C3,..., C99 ) partagent
l'effectif total d'une série ou d'une distribution statistique rangée
par ordre croissant (ou décroissant) en dix (resp. cent) parties
égales. Si l'on reprend les notations ci-dessus nous avons la
relation :
C50 = D5 = Q2 = XM ; C10 = D1 ; C90 = D9 .
RETOUR MENU
Le mode
Voir exercice
Définition restrictive
Le mode Xm d'une série ou d'une distribution statistique est la valeur
de la variable pour laquelle l'effectif est le plus élevé ; on parle alors
de mode absolu.
Définition élargie
Le mode Xm d'une série ou d'une distribution statistique est la
valeur de la variable dont l'effectif ou la fréquence est encadré par
deux valeurs qui lui sont inférieures ; on parle alors de mode relatif.
Lorsqu'une série ou une distribution statistique possède un seul
mode on dit que la série ou la distribution est unimodale, en possède
plusieurs, on dit qu'elle est multimodale
RETOUR MENU
Le mode (suite)
Voir exercice
Calcul du mode
Lorsque les variables sont groupées en classes il est parfois
utile de remplacer la notion de classe modale par la notion de
mode, pour cela on effectue une interpolation linéaire à
l'intérieur de la classe modale ; la détermination se fait de la
façon suivante :
X m  xi  1
 d1 

 ai 
 d1  d 2 
RETOUR MENU
La moyenne arithmétique
Voir exercice
Définition
Soit x1, ..., xi, ..., xr les r observations numériques d'une variable
statistique X et soit les effectifs respectifs n1, ..., ni, ..., nr de ces
r valeurs numériques avec :
ir
X 
n 1 x 1  . . . n i x i  . . . n r x r
n 1  . . . n i  . . . n r
 ni xi

i 1
N

1
N
ir
 ni xi
i 1
RETOUR MENU
La moyenne géométrique
Définition
Soit x1, ..., xi, ..., xr les r observations numériques d'une variable
statistique X et soit les effectifs respectifs n1, ..., ni, ..., nr de ces
r valeurs numériques avec :
log G 
n 1 log x 1  . . . n i log x i  . . . n r log x r
n 1  . . . n i  . . . n r

1
N
ir
ir
 n i log x i  
i 1
f i log x i
i 1
RETOUR MENU
La moyenne harmonique
Définition
Soit x1, ..., xi, ..., xr les r observations numériques d'une variable
statistique X et soit les effectifs respectifs n1, ..., ni, ..., nr de ces
r valeurs numériques avec :
1
H
n1

1
x1
 . . . n i
1
xi
 . . . n r
n 1  . . . n i  . . . n r
1
xr

1
N
ir

i 1
ni
xi
RETOUR MENU
La moyenne quadratique
Définition
Soit x1, ..., xi, ..., xr les r observations numériques d'une variable
statistique X et soit les effectifs respectifs n1, ..., ni, ..., nr de ces
r valeurs numériques avec :
2
Q
2

2
2
n 1 x 1  . . . n i x i  . . . n r x r
n 1  . . . n i  . . . n r

1
N
ir

i 1
ir
2
ni xi 

2
f i xi
i 1
RETOUR MENU
Menu des résumés des valeurs de dispersion
Veuillez cliquer sur l’un des boutons
Étendue
Variance – écart type
Fractal
RETOUR MENU
L’étendue
Les résumés de dispersion
Définition
L'étendue est la mesure la plus simple de la dispersion (ou
variabilité ou étalement) des observations faites sur une
variable. L'étendue ne dépend que très indirectement de
l'ensemble des valeurs xi de la variable X. L'étendue est très
influencée par les valeurs extrêmes de la variable statistique qui
sont parfois aberrantes, ce qui en fait une mesure peu utilisée.
RETOUR MENU
La variance et l’écart-type
Voir exercice
Définition
Soit X une variable statistique de distribution (xi, ni) où , on
appelle variance (mesure de dispersion ou de variabilité), notée,
la moyenne arithmétique pondérée des carrés des écarts à la
moyenne arithmétique pondérée :
2
sX

1
N
ir
 ni  x i
 X

2
i 1
On appelle écart-type de la variable X, noté, la racine carrée de
la variance :
sX 
2
sX 
1
N
ir

i 1
ni  x i  X 
2
ir


i 1
f i  xi  X 
2
RETOUR MENU
Les moments non-centrés d’ordre r
Voir exercice
Définition
Soit la distribution statistique (xi, ni) où , on appelle moment
non centré d’ordre r de la variable statistique X ,la quantité
définie par :
mp 
1
N
ir
 n i x ip
i 1
ir
avec
N 
 ni
i 1
RETOUR MENU
Les moments centrés d’ordre r
Voir exercice p=2
Voir exercice p=3
Définition
Voir exercice p=4
Soit la distribution statistique (xi, ni) où , on appelle moment
non centré d’ordre r de la variable statistique X ,la quantité
définie par :
p 
1
N
ir
 ni  x i  X 
i 1
p
ir
avec
N 
 ni
i 1
RETOUR MENU
Menu des caractéristiques asymétrie
et d’aplatissement
Veuillez cliquer sur l’un des boutons
Présentation
Moment non centré
Moment centré
Fractal
Asymétrie
Aplatissement
RETOUR MENU
Les caractéristiques de forme
Les différents indicateurs d’asymétrie et d’aplatissement
permettent en premier lieu la comparaison entre les distributions
statistiques.
• l’asymétrie d’une distribution peut être approchée par une
comparaison entre le mode, la médiane et la moyenne
arithmétique (vision empirique).
• l’aplatissement peut être approchée par l’étude des
observations aux alentours du mode. Plus le nombre
d’individus ayant une valeur proche du mode de la
distribution, plus la courbe sera concentrée et plus
l’aplatissement sera faible.
RETOUR MENU
Le coefficient d'asymétrie de Pearson
Voir exercice
Définition
L'approche de la mesure de l’asymétrie est réalisée grâce à la
notion de moment centré.
3
2
AP 
2
3
Si AP est nul alors la distribution est symétrique. Si AP est
positif alors il y a asymétrie. Le signe est donné par le
moment centré d’ordre 3
Voir asymétrie de Fisher
RETOUR MENU
Le coefficient d'asymétrie de Fisher
Définition
L'approche de la mesure de l’asymétrie pour Fisher est réalisée à
partir de la définition de Pearson.
3
2
AF 
AP 
3
2

3
3
sX
S’il est calculé directement, alors il est possible d’écrire :
Si AF = 0 alors la distribution est symétrique,
Si AF > 0 alors la distribution est étalée vers la droite,
Si AF < 0 alors la distribution est étalée vers la gauche.
RETOUR MENU
Le coefficient d'aplatissement de
Pearson
Définition
L'approche de la mesure de l’aplatissement est réalisée grâce à la
notion de moment centré.

A PP 
4
2
2
Si APP = 3 alors la distribution est dite « normale » ou mésokurtique
(de mêmes paramètres),,
Si APP < 3 alors la distribution est dite plus aplatie que la « normale »
ou platykurtique (de mêmes paramètres),,
Si APP > 3 alors la distribution est dite moins aplatie que la «
normale » ou leptokurtique (de mêmes paramètres).
Voir aplatissement de Fisher
RETOUR MENU
Le coefficient d'aplatissement de
Fisher
Voir exercice
Définition
L'approche de la mesure de l’asymétrie pour Fisher est réalisée à
partir de la définition de Pearson.
A PF 
4
2
2
3
Si APP = 0 alors la distribution est dite « normale » ou mésokurtique
(de même paramètres),
Si APP < 0 alors la distribution est dite plus aplatie que la « normale
» ou platykurtique (de même paramètres),
Si APP > 0 alors la distribution est dite moins aplatie que la «
normale » ou leptokurtique (de même paramètres).
RETOUR MENU
Menu exercice
Veuillez cliquer sur l’un des boutons
La médiane
Le moment – 3
Les calculs
La moyenne
L’histogramme
Le moment – 4
Les effectifs
Asymétrie
Le mode
La variance
Fractal
Les moments - m
Aplatissement
MENU COURS
Présentation d’un exercice
Variable statistique continue groupée en classes
LE TABLEAU DES CALCULS
L’ensemble de ces sommes permettent de déterminer les principaux
résumés : moyenne, variance, moments, asymétrie et aplatissement
Age
20 à 40 ans
40 à 60 ans
60 à 75 ans
75 ans et plus
Total
Somme Centre de classe
44
30
26
50
20
67,5
10
80
100
xi 
ir
N 
n
ir
x i 1  x i  1
i
i 1
r est le nombre de classes
2
ni xi ²
ni xi 3
ni xi 4
39600
1188000
35640000
65000
3250000 162500000
91125
6150937,5 415188281
64000
5120000 409600000
259725 15708937,5 1022928281
ni xi
1320
1300
1350
800
4770
nx
i
i 1
ir

i 1
ni xi
r
0
1
2
3
ir

2
i
i 1
ir

4
ni xi
3
ni xi
i 1
xi est la borne de classe ni est l’effectif de classe
MENU EXERCICE
L’histogramme
Age
20 à 40 ans
40 à 60 ans
60 à 75 ans
75 à 85 ans
Somme Centre de classe Amplitude
44
30
20
26
50
20
20
67,5
15
10
80
10
rapport
4
4
3
2
correction
11,0
6,5
6,7
5,0
L’amplitude de base est de 5 unités
HISTOGRAMME
12,0
10,0
8,0
6,0
4,0
2,0
Mode
0,0
20 à 40 ans
40 à 60 ans
60 à 75 ans
75 à 85 ans
MENU EXERCICE
La somme des effectifs ou effectif total
Age
20 à 40 ans
40 à 60 ans
60 à 75 ans
75 ans et plus
Total
Somme Centre de classe
44
30
26
50
20
67,5
10
80
100
ni xi ²
ni xi 3
ni xi 4
39600
1188000
35640000
65000
3250000 162500000
91125
6150937,5 415188281
64000
5120000 409600000
259725 15708937,5 1022928281
ni xi
1320
1300
1350
800
4770
r
0
1
2
3
ir
N 
n
i
i 1
Cette somme correspond au nombre d’individus de l’échantillon ou qui
ont un age entre 20 ans et plus de 75 ans C’est l’effectif total.
ni est l’effectif de classe
MENU EXERCICE
Le mode (regroupement en classe)
 d1
X M  x i 1  a i 
 d1  d 2
Age
20 à 40 ans
40 à 60 ans
60 à 75 ans
75 ans et plus
Total
Somme Centre de classe
44
30
26
50
20
67,5
10
80
100
La classe modale
ni xi
1320
1300
1350
800
4770




ni xi ²
ni xi 3
39600
1188000
65000
3250000
91125 6150937,5
64000
5120000
259725 15708937,5
ni xi 4
35640000
162500000
415188281,3
409600000
1022928281,3
r
0
1
2
3
Le mode XM d'une série ou d'une distribution statistique est
la valeur de la variable pour laquelle l'effectif est le plus
élevé. Ici la distribution est unimodale. FAIRE LE CALCUL
SUR LES EFFECTIFS CORRIGES
Le mode n’existe pas. Nous avons un intervalle modal. Néanmoins,
nous pouvons calculer une valeur qui par définition est obtenue par :
 11

X M  20  20 .
  20  14 , 2  34 , 2 ans
 11  4 ,5 
MENU EXERCICE
La médiane
Définition
Age
20 à 40 ans
40 à 60 ans
60 à 75 ans
75 ans et plus
Total
X m  x i 1
Somme Centre de classe
44
30
26
50
20
67,5
10
80
100
La classe médiane
ni xi
1320
1300
1350
800
4770
 ( N / 2 )  N i 1
 a i 
 N i  N i 1
ni xi ²
39600
65000
91125
64000
259725




ni xi 3
ni xi 4
1188000
35640000
3250000 162500000
6150937,5 415188281
5120000 409600000
15708937,5 1022928281
La médiane Xm d'une distribution statistique est
la valeur de la variable qui partage l'effectif total
de la distribution en deux parties égales, telles
que la première moitié des observations soit
inférieures (ou égales) à Xm et la seconde moitié
soit supérieures (ou égales) à Xm.
 50  44 
X m  40  20 
  40  4 . 62  44 . 62 ans
 70  44 
Ni
44
70
90
100
Effectifs cumulés
croissants
MENU EXERCICE
La moyenne arithmétique
ir
X 
Age
20 à 40 ans
40 à 60 ans
60 à 75 ans
75 ans et plus
Total
ir
N 
n
i 1
i
n1 x1  ...  n i x i  ...  n r x r
n1  ...  n i  ...  n r
Somme Centre de classe
44
30
26
50
20
67,5
10
80
100
ni xi
1320
1300
1350
800
4770


ni xi
i 1

N
1
N

X 
1
N
i0
r
0
1
2
3
ir
nx
i
i
i 1
i  r 1
n
ni xi
i 1
ni xi ²
ni xi 3
ni xi 4
39600
1188000
35640000
65000
3250000 162500000
91125
6150937,5 415188281
64000
5120000 409600000
259725 15708937,5 1022928281
Le rapport de ces deux quantités donne
la moyenne arithmétique de la
distribution statistique
On obtient la moyenne arithmétique :
ir
i
xi 
4770
 47 , 7 années
100
MENU EXERCICE
La variance ou dispersion
s
2
X

N
Age
20 à 40 ans
40 à 60 ans
60 à 75 ans
75 ans et plus
Total
ir
N 
n
i
1
i  r 1


 On obtient :
2
ni xi  X
s

2
X
N
i0
Somme Centre de classe
44
30
26
50
20
67,5
10
80
100
1
i  r 1

ni xi  X
i0
ni xi ²
ni xi 3
ni xi 4
39600
1188000
35640000
65000
3250000 162500000
91125
6150937,5 415188281
64000
5120000 409600000
259725 15708937,5 1022928281
ni xi
1320
1300
1350
800
4770
Le rapport de ces deux quantités donne la variance de
la distribution statistique.
r
0
1
2
3
ir

2
ni xi
i 1
i 1
sX 
2
On obtient :
2
s
2
X

259725
 ( 47 , 7 )  327 ,96 ( ans )
2
2
100
1
N
i  r 1
n
xi  X
2
i
2

327 , 96  17 , 94 ans
i0
Voir également moment centré 2
MENU EXERCICE
2
Moments non centré d’ordre 2, 3 et 4
1
Moment non centré d’ordre s m s 
Age
20 à 40 ans
40 à 60 ans
60 à 75 ans
75 ans et plus
Total
m2 
1
100
Somme Centre de classe
44
30
26
50
20
67,5
10
80
100
ni xi
1320
1300
1350
800
4770
N
ir

s
ni xi
i 1
ni xi 3
1188000
3250000
6150937,5
5120000
15708937,5
ni xi ²
39600
65000
91125
64000
259725
ni xi 4
35640000
162500000
415188281,3
409600000
1022928281
 259725   2597 , 25 ( ans ) 2
m3 
15708937 ,5
 157089 ,37 ( ans )
3
100
m4 
1022928281
 10229282 ,81 ( ans )
4
100
MENU EXERCICE
Le moment centré d’ordre 2
Le moment centré d’ordre : correspond à la variance
Age
20 à 40 ans
40 à 60 ans
60 à 75 ans
75 ans et plus
Total
Somme Centre de classe
44
30
26
50
20
67,5
10
80
100
ni xi ²
ni xi 3
ni xi 4
39600
1188000
35640000
65000
3250000 162500000
91125
6150937,5 415188281
64000
5120000 409600000
259725 15708937,5 1022928281
ni xi
1320
1300
1350
800
4770
La variance est un moment non centré
d’ordre 2 moins un moment non centré
d’ordre 1 élevé au carré.
sX 
2
1
N
m1  X 
1
N
i  r 1
n
i
x i  47 , 7 années
i0
i  r 1

ni xi  X
2
2
 m 2  m 1  327 ,96 ( ans )
2
2
i0
m2 
1
N
i  r 1
n
i0
x i  2597 , 25 ( ans )
2
i
2
MENU EXERCICE
Le moment centré d’ordre 3
 3  m 3  3 m1 m 2  2 m1
3
En fonction des moments non centrés
Age
20 à 40 ans
40 à 60 ans
60 à 75 ans
75 ans et plus
Total
Somme Centre de classe
44
30
26
50
20
67,5
10
80
100
ni xi
1320
1300
1350
800
4770
ni xi ²
ni xi 3
ni xi 4
39600
1188000
35640000
65000
3250000 162500000
91125
6150937,5 415188281
64000
5120000 409600000
259725 15708937,5 1022928281
Calcul
 3  157089 ,37  371666 , 47  217062 , 66  2485 ,56
Solution
 3  2485 , 56 ( ans )
3
MENU EXERCICE
Le moment centré d’ordre 4
En fonction des moments non centrés
Age
20 à 40 ans
40 à 60 ans
60 à 75 ans
75 ans et plus
Total
Somme Centre de classe
44
30
26
50
20
67,5
10
80
100
ni xi
1320
1300
1350
800
4770
 4  m 4  4 m1 m 3  6 m1 m 2  3 m1
2
ni xi ²
ni xi 3
ni xi 4
39600
1188000
35640000
65000
3250000 162500000
91125
6150937,5 415188281
64000
5120000 409600000
259725 15708937,5 1022928281
Calcul
 4  10229282 ,8  29972651 ,8  35456981 , 7  15530833 ,8  182779 , 0
Solution
 4  182779 ( ans )
4
MENU EXERCICE
4
Asymétrie de Pearson
3
2
Le coefficient de Pearson
Age
20 à 40 ans
40 à 60 ans
60 à 75 ans
75 ans et plus
Total
Somme Centre de classe
44
30
26
50
20
67,5
10
80
100
Calcul
AP 
6178013 , 48
35274643 ,5
AP 
ni xi
1320
1300
1350
800
4770
 0 ,175
2
3
ni xi ²
ni xi 3
ni xi 4
39600
1188000
35640000
65000
3250000 162500000
91125
6150937,5 415188281
64000
5120000 409600000
259725 15708937,5 1022928281
Coefficient sans dimension
Décision :
La distribution est asymétrique étalée vers la droite. Le coefficient
est positif (asymétrie) et le moment centré d’ordre 3 est positif
(étalée vers la droite ou oblique à gauche)
MENU EXERCICE
Aplatissement de Fisher
Le coefficient de Fisher AP F 
Age
20 à 40 ans
40 à 60 ans
60 à 75 ans
75 ans et plus
Total
Somme Centre de classe
44
30
26
50
20
67,5
10
80
100
Calcul
AP P 
182779 , 0
107557 , 76
4

ni xi
1320
1300
1350
800
4770
 3   1,30
2
2
3
ni xi ²
ni xi 3
ni xi 4
39600
1188000
35640000
65000
3250000 162500000
91125
6150937,5 415188281
64000
5120000 409600000
259725 15708937,5 1022928281
Coefficient sans dimension
Décision :
La distribution est plus aplatie que la loi normale de mêmes
paramètres. La distribution est « platykurtique ». Les paramètres
sont ici :
X  47 , 7 ans
s X  17 ,94 ans
MENU EXERCICE
Fin des définitions & Graphiques
LA STATISTIQUE
DESCRIPTIVE
Année 2005-2006
MENU GENERAL