Rappels de statistiques descriptives

Download Report

Transcript Rappels de statistiques descriptives

Rappels de statistiques
descriptives
1
Plan
2
Types de variables aléatoires (VA)
3
Caractère qualitatif-quantitatif
Caractères qualitatifs
Population
Ensemble des clients potentiels de l’entreprise
Un client potentiel
Individu
Caractères
Modalités du
caractère
Sexe
Nationalité
Situation maritale
Homme
Française
Marié(e)
Femme
Anglaise
Veuf(ve)
Allemande
Célibataire
Etc.
Etc.
Variables
Revenu mensuel
Age
Modalités
R1-R2 €
R3-R4 €
A1-A2 années
A3-A4 années
Distance
Domicile - Travail
K1-K2 kms
K3-K4 kms
Caractères quantitatifs
4
Caractère discret-continu
• Une variable statistique discrète ne prend que
certaines valeurs dans un intervalle donné
• Un caractère qualitatif est toujours discret
• Une variable continue se représente en
classes (toutes les valeurs au sein de la classe
sont alors considérées comme possibles
5
Variable continu
• Les classes d’un caractère continu en
constituent les modalités
• Les classes sont définies par les valeurs de leurs
extrémités : borne de gauche - borne de droite
• On note [6000 ; 7000[ la classe allant de 6000 inclus
à 7000 exclu
• Pour le calcul du centre de classes, les classes
consécutives se notent :
• [6000 ; 7000[ [7000 ; 9000[ [9000 ; 12000[ etc.
• Le centre de classe est la moyenne entre les deux
bornes :
• (6000 + 7000)/2 ; (7000 + 9000)/2
• Les amplitudes de classes peuvent être constantes
ou variables
6
Tableau des données
7
Exemples
• Données ponctuelles d’une variable aléatoire discrète
N°
1
âge
18 19 18 19 20 21 18 22 19 20
2
3
4
5
6
7
8
9
10
• Tableau de distribution
xi
18 19 20 21 22
ni
3
3
2
1
1
– Xi = âge de l’étudiant
– Ni = effectif correspondant
8
Effectif et fréquences
• Effectif d’une modalité xi d’un caractère X :
– nb d’individus présentant cette modalité
• Notation
– ni : nb de fois que la modalité est présente dans la population
étudiée
i k
– N = effectif total ; N   ni
i 1
• Fréquence d’une modalité xi d’un caractère X :
– Proportion d’individus de la population totale qui
présentent cette modalité
– On la note fi :
n
fi  i
N
i k
f
i 1
i
1
9
Effectif et fréquences (2)
• Effectif cumulé
– Nb d’individus de la population présentant au plus
cette modalité
N  n
– Notation :
k i
i
k 1
k
• Fréquence cumulée
– Somme des fréquences des modalités qui lui sont
inférieures ou égales
– Notation : F   f ou F  N
k i
i
i
k 1
k
i
N
10
Exemple
Poids : xi
Effectif : ni
<50
2
[50,60]
4
[60,70[
4
[70,80[
6
>= 80
4
S
20
fréquences
Fréquences
cumulées
11
Paramètres d’une distribution d’une VA
quantitative
• 2 types de paramètre
– Paramètre de tendance
• moyenne, médiane, mode
– Paramètre de dispersion
• Résumé de la + ou – grande concentration des valeurs
autour d’un paramètre de tendance centrale
12
Paramètre de tendance : la moyenne
• On note X
la moyenne arithmétique de la VA X
• D’après le tableau de distribution de la VA X
Xi et ni sont connus
X
n x
i i
i
N
ou X   f i xi
i
13
Paramètre de tendance : la moyenne
• VA discrète
– La moyenne se calcule d’après les xi et ni qui sont donnés dans
le tableau de distribution
X
n x
i i
i
N
• VA continue
– Les modalités de la variable sont des classes
– On retient comme valeurs de la VA les centres de classe
X
n c
i i
i
N
– Inconvénient : un calcul approché
14
Exemple moyenne (VA continue)
• On étudie la distribution de 24 étudiants selon leur taille
Taille :
xi
Effectif :
ni
Centre de classe
ci
<1,60
6
1,55
[1,60;1,70[
7
1,65
[1,70;1,80[
8
1,75
[1,80;1,90[
2
1,85
>= 1,90
1
1,95
S
24
15
Propriétés de la moyenne
• Soit z = a X +b avec a et b des constantes
Z  aX  b
• La somme des écarts à la moyenne, pondérés
par les effectifs, est nulle
 n x  X   0
i
i
i
• La moyenne est sensible aux valeurs extrêmes
16
Paramètre de tendance : la médiane
• Définition
– Valeur de la VA X telle que l’on ait autant d’observations qui ont
une valeur supérieure ou égale à Me que d’observations qui ont
une valeur inférieure ou égales à Me
– La médiane est la valeur prise par X qui partage la population
étudiée en 2 sous-ensembles égaux
• Mode de calcul
– Le calcul de la médiane dépend de la nature de la variable :
discrète ou continue
• Avantage de la médiane
– Elle résume bien la distribution observée
– Elle minimise :
i n
n
i 1
i
xi  a pour a  Me
17
Médiane d’une variable discrète
• Les valeurs prises par X doivent être classées par ordre croissant
• Se Calcule à partir des effectifs cumulés ou des fréquences cumulés
• Lorsque le nombre d’observations est impair
– La médiane est la valeur de X qui correspond à l’effectif cumulé (n+1)/2 si les
éléments sont classés par ordre croissant
• Lorsque le nombre d’observations est pair
– Aucune observation ne permet de partager en 2 groupes égaux la population
– si la suite possède un nombre pair de termes soit 2n, la médiane est constituée par la
moyenne du (n)e et du (n+1)e terme
18
Médiane d’une variable discrète
ni
Snj
ni
Snj
0
5
5
0
5
5
1
8
13
1
8
2
6
19
2
3
3
22
4
2
5
1
S
25
Xi
Me =1
ni
Snj
0
5
5
13
1
8
13
6
19
2
6
19
3
4
23
3
3
22
24
4
2
24
4
1
23
25
5
1
26
5
1
24
S
26
S
24
Xi
Me = 1,5
Xi
Me =1
19
Médiane d’une variable continue
• Un calcul exact dans le cas continue
•
2 étapes
– 1. Détermination de la classe médiane
• On détermine la classe dans laquelle se situe la médiane de
façon identique à une VA discrète
– 2. Détermination de la médiane par interpolation linéaire
n  n1
Me  x1  ( x2  x1 )
n2  n1
20
Médiane d’une variable continue
Effectif cumulé
n2
N/2
n
n
n1
x1
Me
x2
X
21
Médiane d’une variable continue : exemple
Taille :
xi
Effectif :
ni
Effectifs cumulés :
Ni
<1,60
6
6
[1,60;1,70[
7
13
[1,70;1,80[
8
21
[1,80;1,90[
2
23
>= 1,90
1
24
S
24
22
Médiane d’une variable continue
Effectif cumulé
13
n
12
n
6
1,60
12  6
 1,686 m
Me = 1,60+(1,70-1,60)
13  6
Me
1,70
X
23
Paramètres de tendance centrale : synthèse
24
Paramètre de dispersion
• La moyenne : un indicateur insuffisant pour
caractériser une distribution car adaptée que dans les
situations égalitaires
• 2 types des paramètres
– L’intervalle interquartile
– La variance ou l’écart-type
25
Paramètre de dispersion
• Interprétation :L'écart - type donne l'écart moyen des
observations par rapport à la moyenne
Fréquence
Courbe A
Courbe B
xo
Moyenne
26
Paramètre de dispersion
• Définition de la variance
1 i r
2
V ( X )   ni xi  X 
n i 1
ou
i r
V ( X )   f i xi  X 
2
i 1
ou
1 i r
V ( X )   ni xi2  X 2
n i 1
• L’écart-type
  V (X )
27
Paramètre de dispersion
Xi
ni
niXi
niXi*Xi
0
5
0
0
1
8
8
8
2
6
12
24
3
3
9
27
4
2
8
32
5
1
5
25
S
25
42
116
1.68
4.64
S/n
V ( X )   2  4.64 1.682  1.8176
28