statistiquesdescriptives1
Download
Report
Transcript statistiquesdescriptives1
Statistiques Descriptives I
Ce module couvre les statistiques couramment utilisées pour
décrire ou résumer un ensemble de données, y compris des
mesures de tendance centrale (moyenne, médiane, mode) et
des mesures de variabilité (écart, écart-type, variance).
MPC | Manager Par les Chiffres
Auteurs : Phillip E. Pfeifer
Traduction et adaptation : Younes BENJELLOUN
© 2014 Phillip E. Pfeifer, Younes Benjelloun et Manager par les chiffres.
• Les Mesures de Tendances Centrales
o La Moyenne
o La Médiane
o Le Mode
• Les Mesures de Variabilité
o Etendue (Maximum – Minimum)
o L‘Ecart-Type
o La Variance
DEUX TYPES DE STATISTIQUES DESCRIPTIVES
Deux types de Statistiques Descriptives
Ce module couvre ces six mesures statistiques. Les trois premières
décrivent le «centre» d'un ensemble de données. Les trois dernières
décrivent la diffusion d'un ensemble de données. A chaque définition,
nous identifierons et expliquerons la fonction Excel que l’on peut
utiliser pour calculer la mesure en question.
MPC | Manager Par les Chiffres
2
LA MOYENNE
La Moyenne
Définition
La Moyenne =
Fonction Excel =
- ou -
La moyenne arithmétique d’un ensemble de données
(nombre1 + nombre2 +… nombren) / n
Moyenne(nomb1, nomb2, …, nombn)
Moyenne(Première cellule:Dernière cellule)
A noter
Si vous connaissez la moyenne de l'échantillon et le nombre de
valeurs, vous pouvez multiplier les deux pour calculer le total. C'est
l’une des raisons pour lesquelles la moyenne de l'échantillon est une
mesure très populaire en statistiques.
MPC | Manager Par les Chiffres
3
Question 1: Quelle est la moyenne des ventes de véhicules par jour
sur cette semaine ? Lun.=2, Mar.=8, Mer.=4, Jeu.=13, Ven.=2
LA MOYENNE
La Moyenne
Réponse :
On sait que la moyenne = (nombre1 + nombre2 +… nombren) / n
Par conséquent, en remplaçant nos valeurs :
La moyenne = (2 + 8 + 4 + 13 + 2) / 5 = 5,8
Nous pouvons également calculer rapidement le montant total en multipliant
5,8 véhicules en moyenne x 5 jours = 29 véhicules pour la semaine.
MPC | Manager Par les Chiffres
4
LA MÉDIANE
La Médiane
Définition
La Médiane =
La médiane est le point qui se trouve au milieu.
Le même nombre de valeurs se trouvent au-dessus
et au-dessous de la médiane.
Note: S'il y’a un nombre pair de valeurs de données, la
médiane est la moyenne des deux valeurs centrales.
Fonction Excel = Médiane(nombre1, nombre2, …, nombren)
- ou Médiane(Première cellule:Dernière cellule)
A noter
Le tri des données permet de trouver plus facilement la médiane.
MPC | Manager Par les Chiffres
5
Question 1: Quelle est la médiane des ventes de véhicules par jour sur cette
LA MÉDIANE
La Médiane
semaine ? Lun.=2, Mar.=8, Mer.=4, Jeu.=13, Ven.=2
Réponse:
On sait que la médiane est le point qui se trouve au milieu d’un ensemble
de données triées.
Par conséquent, en triant nos valeurs:
La Médiane = 2, 2, 4, 8, 13 = 4
On note que deux valeurs sont inférieures (2, 2) et deux valeurs sont
supérieures (8, 13)
MPC | Manager Par les Chiffres
6
Question 2: Quelle serait la médiane si nos données ne contenaient que les
LA MÉDIANE
La Médiane
ventes de véhicules du mardi au vendredi ? Mar.=8, Mer.=4, Jeu.=13, Ven.=2
Réponse:
On sait que la médiane est le point qui se trouve au milieu d’un ensemble
de données triées.
Par conséquent, en triant nos valeurs :
Les données triées= 2, 4, 8, 13
Mais, dans cet exemple, il y’a deux points dans le milieu, 4 et 8. On prend
alors la moyenne des deux points.
Médiane = (4 + 8) / 2 = 6
MPC | Manager Par les Chiffres
7
LE MODE
Le Mode
Définition
Le Mode =
Le mode est la valeur apparaissant le plus
souvent.
Remarque : S’il n’y a pas de valeur qui se répète on dit
que les données ne possèdent pas de mode.
Fonction Excel = Mode(nombre1, nombre2, …, nombren)
- ou Mode(Première cellule:Dernière cellule)
Définitions
Unimodal =
Lorsqu’une seule valeur est la plus fréquente
Bimodal =
Lorsque deux valeurs apparaissent le plus souvent
MPC | Manager Par les Chiffres
8
LE MODE
Le Mode
Question 1: Quel est le mode des ventes de véhicules par jour sur cette
semaine ? Lun.=2, Mar.=8, Mer.=4, Jeu.=13, Ven.=2
Réponse :
On sait que le mode est la valeur apparaissant le plus souvent.
Par conséquent, en triant nos valeurs :
2, 2, 4, 8, 13
Le mode est 2 comme il apparait deux fois, et les trois autres valeurs
n’apparaissent qu'une seule fois.
Nous pouvons aussi décrire cet ensemble comme des données unimodales
parce qu'il n’y a qu’un seul mode.
MPC | Manager Par les Chiffres
9
LE MODE
Le Mode
Question 2: Si les données incluaient les ventes de samedi de 13 véhicules,
quel serait le mode pour les ventes de la semaine du lundi au samedi ?
Lun.=2, Mar.=8, Mer.=4, Jeu.=13, Ven.=2, Sam.=13
Réponse :
On sait que le mode est la valeur apparaissant le plus souvent.
Par conséquent, en triant nos valeurs :
2, 2, 4, 8, 13, 13
Les valeurs 2 et 13 sont toutes les deux des modes pour cet ensemble de
données bimodales.
MPC | Manager Par les Chiffres
10
• La Moyenne
o La moyenne arithmétique
• La Médiane
o La Valeur au Milieu
• Le Mode
o La valeur se produisant le plus souvent
MESURES DE LA TENDANCE CENTRALE
Mesures de la Tendance Centrale
L'ensemble de la Moyenne, la Médiane et le Mode peuvent
vous en dire beaucoup sur la façon dont les données sont
distribuées .... comme nous allons le voir maintenant.
MPC | Manager Par les Chiffres
11
Définitions
Si les données sont unimodales et la moyenne, la médiane et le mode
sont tous égaux, on dit que les données sont symétriques.
Si les données sont unimodales et la moyenne, la médiane et le mode
sont toutes différentes, les données sont dites asymétriques.
LA SYMÉTRIE ET L‘ASYMÉTRIE
La Symétrie et l‘Asymétrie
Les données sont dites désaxées vers la droite lorsqu’elle contiennent
quelques grandes valeurs et de nombreuses petites valeurs. Dans ce
cas, la moyenne de l'échantillon est normalement supérieure à la
médiane.
Les données sont dites désaxées vers la gauche lorsqu’elle
contiennent quelques petites valeurs et de nombreuses grandes valeurs.
Dans ce cas, la moyenne de l'échantillon est normalement inférieure à
la médiane.
MPC | Manager Par les Chiffres
12
Question 1: Décrivez les données suivantes de ventes de voitures pour une
semaine en termes de symétrie et d'asymétrie.
Lun.=2, Mar.=12, Mer.=9, Jeu.=7, Ven.=5, Sam.=7
Réponse :
LA SYMÉTRIE ET L‘ASYMÉTRIE
La Symétrie et l‘Asymétrie
Tout d’abord, le tri de nos valeurs nous donne ceci : 2, 5, 7, 7, 9, 12
La Moyenne = (2 + 5 + 7 + 7 + 9 + 12) / 6 = 7
La Médiane = 7 (Valeur du milieu)
Le Mode = 7 (apparit 2 fois)
Par conséquent, la moyenne, la médiane et le mode sont tous égaux, ainsi
l'ensemble des données serait décrit comme symétriques.
MPC | Manager Par les Chiffres
13
Question 2: Décrivez les données de vente suivantes en termes de symétrie
et d'asymétrie. Lun.=2, Mar.=21, Mer.=9, Jeu.=2, Ven.=3, Sam.=5
Réponse :
Tout d’abord, le tri de nos valeurs nous donne ceci : 2, 2, 3, 5, 9, 21
La Moyenne = (2 + 2 + 3 + 5 + 9 + 21) / 6 = 7
La Médiane = (3 + 5) / 2 = 4 (La moyenne des 2 valeurs du milieu)
Le Mode = 2 (apparait 2 fois)
LA SYMÉTRIE ET L‘ASYMÉTRIE
La Symétrie et l‘Asymétrie
La moyenne, la médiane et le mode ne sont pas égaux, ces données sont
donc asymétriques. Parce que la moyenne, la médiane et le mode sont
différents ET le mode étant inférieur à la médiane, qui, à son tour, est
inférieure à la moyenne de l'échantillon --- nous disons que les données sont
désaxées vers la droite.
A noter
Les données de l’entreprise sont souvent désaxées vers la droite
(pensez aux salaires, les ventes part client, etc.)
MPC | Manager Par les Chiffres
14
Beaucoup de décisions commerciales sont fondées non
seulement sur des moyennes, mais aussi sur la variabilité
autour de la moyenne. La variabilité de la température,
par exemple, conduit à des coûts plus élevés de
chauffage / refroidissement. Nous passons maintenant à
trois statistiques qui décrivent la propagation des
données, come par exemple la mesures de la variabilité.
MESURE DE LA VARIABILITÉ
Mesure de la Variabilité
• Mesure de la Variabilité
o L’Etendue (Maximum – Minimum)
o L‘Ecart-Type
o La Variance
MPC | Manager Par les Chiffres
15
L’ETENDUE
L’Etendue
Définition
L’Etendue =
La différence entre la plus grande et la plus
petite des valeurs d’un échantillon de données.
La Fonction Excel =
Max(n1, n2, …, nn) - Min(n1, n2, …, nn)
- ou Max(première cell.:dernière cell.) - Min(première cell.:dernière cell.)
Question 1: Quelle est l’étendue des ventes de voitures par jour sur cette
semaine ? Lun.=2, Mar.=8, Mer.=4, Jeu.=13, Ven.=2
Réponse:
On sait que l’étendue = Maximum - Minimum
Par conséquent, en substituant nos valeurs:
Etendue = 13 – 2 = 11
Notes que “l’étendue’’ va de 2 à 13, l’étendue des données est 11.
MPC | Manager Par les Chiffres
16
Définition
L’écart-type de l'échantillon est la racine carrée des carrés des distances
«moyennes» des points par rapport à la moyenne de l'échantillon.
L’ECART-TYPE
L’Ecart-Type
(nb1 – x )^2 + (nb2 – x )^2 + … + (nbn – x )^2 ^ (1/2)
Ecart-Type =
n-1
Avec x = moyenne de l’échantillon et n = nombre de données dans
l’échantillon.
Fonction Excel = ECARTYPE (nb1, nb2, …, nbn)
A noter
Pensez à l'écart type de l'échantillon comme une mesure de la façon dont les données
varient. Si toutes les données ont la même valeur, l'écart type sera égal à zéro.
* A noter que le signe ^2 signifie au carré et le ^(1/2) ou ^0,5 signifient racine carré, comme
sur Excel.
MPC | Manager Par les Chiffres
17
Question 1: Quel est l’écart-type des ventes de voitures par jour sur cette
semaine ? Lun.=2, Mar.=8, Mer.=4, Jeu.=13, Ven.=2
L’ECART-TYPE
L’Ecart-Type
Réponse :
On sait que la moyenne = (nb1 + nb2 +… nbn) / n
Pas conséquent, en substituant nos valeurs :
La moyenne = (2 + 8 + 4 + 13 + 2) / 5 = 5,8
Puis en continuant notre calcul de l’écart-type de l'échantillon…
La somme des carrés des écarts = (2 – 5,8)^2 + (8 – 5,8)^2 … + (2 – 5,8)^2 =
88,8
Ecart-type = (88,8 / (5 – 1))^0,5 = 4,71
Il est important de connaître la formule de calcul de l’écart-type, mais
l’utilisation d’Excel facilite considérablement le traitement des données.
* A noter que le signe ^2 signifie au carré et le ^0,5 signifient racine carré, comme sur Excel.
MPC | Manager Par les Chiffres
18
A noter
L’écart-type est une meilleure mesure de la variabilité des données car il
utilise tous les points de données (et pour d'autres raisons techniques que
nous n’aborderons pas.)
Pour calculer un écart-type, vous devrez presque toujours utiliser Excel ....
même s'il y a peu de données à analyser.
SAMPLE STANDARD DEVIATION
L’Ecart-Type
Si il y’a beaucoup de données unimodales, distribution symétrique
(courbe en cloche), une règle empirique indique que 68% des valeurs se
situent à un écart-type de la moyenne (entre la moyenne moins l’écarttype et la moyenne plus l’écart-type).
En prenant l’exemple précédent, où la moyenne de l'échantillon = 5,8 et l'écarttype = 4,71 (et en supposant une distribution en forme de cloche des données – ce
qui n’est pas le cas), notre règle d'or serait alors de dire que 68% des valeurs se
situent entre 5,8 - 4,71 et 5,8 + 4,71 (ou entre environ 1,1 et 10,5).
MPC | Manager Par les Chiffres
19
Définition
La Variance est la ‘’moyenne’’ des distances au carré des points de
l'échantillon par rapport à la valeur moyenne (c’est aussi le carré de
l'écart type).
(nb1 – x )^2 + (nb2 – x )^2 +…+ (nbn – x )^2
La Variance
=
n-1
LA VARIANCE
La Variance
Avec x = valeur moyenne et n = nombre de données dans l’échantillon
Fonction Excel =
var(nb1, nb2, …, nbn)
A noter
Si cela vous semble familier, c’est normal ! Le calcul de la variance de
reprend toutes les étapes du calcul écart-type .. sauf la racine carré
finale. Par conséquent, la variance est aussi égale à Ecart-Type ^ 2.
MPC | Manager Par les Chiffres
20
Question 1: Quelle est la variance des ventes de voitures par jour sur cette
LA VARIANCE
La Variance
semaine ? Lun.=2, Mar.=8, Mer.=4, Jeu.=13, Ven.=2
Réponse :
La valeur moyenne = (2 + 8 + 4 + 13 + 2) / 5 = 5,8
Puis en continuant notre calcul de l’écart-type de l'échantillon…
La somme des carrés des écarts = (2 – 5,8)^2 + (8 – 5,8)^2 … + (2 – 5,8)^2
= 88,8
Variance = (88,8 / (5 – 1)) = 22,2
A noter
Etant donné que la variance est le carré de l'écart-type, si vous disposez de l’une
vous pouvez facilement calculer l'autre. En général, l'écart-type est beaucoup plus
facile à interpréter, en partie, parce qu'il a les mêmes unités que les données. (par
exemple, l’écart-type de 4,71 calculé précédemment correspond à 4,71 voitures.
Le 22,2 correspond au nombre de voitures au carré)
MPC | Manager Par les Chiffres
21
• Mesures de Tendances Centrales
o La Moyenne
o La Médiane
o Le Mode
• Measures de Variabilité
o Etendue (Maximum – Minimum)
o L‘Ecart-Type
o La Variance
STATISTIQUES DESCRIPTIVES
Statistiques Descriptives
Ceci complète notre introduction aux six statistiques descriptives
énumérées ci-dessus. Ce qui suit sont quelques diapositives qui montrent
comment ces statistiques se comportent si vous multipliez les données
par une constante "b" et vous ajoutez une autre constante "a". C'est ce
qu'on appelle une conversion linéaire. Les transformations utilisées pour
convertir des kilogrammes en livres, les miles en kilomètres, et des
millions en milliards sont tous des exemples de conversions linéaires.
MPC | Manager Par les Chiffres
22
Prenons X comme les données d’origine.
Disons que Y = a + b * X sont les données transformées.
Moyenne (Y) = a + b * Moyenne (X)
Mediane (Y) = a + b * Mediane(X)
Mode(Y) = a + b * Mode(X)
A noter
La moyenne, la médiane et le mode se comportent tous de façon
logique pour les données transformées linéairement. Ainsi, si la
température moyenne était de 68 degrés Fahrenheit, la température
médiane (si elle est calculée en utilisant les mêmes données
exprimées en degrés Celsius) serait (5/9) * (68-32) = 20 degrés
Celsius. Cela est vrai parce que la transformation de Fahrenheit en
Celsius est linéaire ... et due à la façon dont les trois indicateurs
statistiques se comportent.
MPC | Manager Par les Chiffres
STATISTIQUES DESCRIPTIVES POUR DONNÉES TRANSFORMÉES
Statistiques Descriptives pour Données Transformées
23
Prenons X comme les données d’origine.
Disons que Y = a + b * X sont les données transformées.
Etendue(Y) = abs(b) * Etendue(X)
Ecart-Type(Y) = abs(b) * Ecart-Type(X)
Variance(Y) = b^2 * Variance(X)
A noter
Etant donné que l’Etendue, l'écart-type et la variance sont toute mesure
variabilité, il n’est donc pas surprenant que l'ajout d'une constante aux
données n'affecte pas ces trois statistiques. La multiplication des
données par une constante, cependant, multiplie l’étendue et l'écarttype par la valeur absolue de la constante et multiplie la variance par la
constante au carré. Ainsi, si l'écart-type de la température était de 10
degrés Celsius, l'écart type de la même donnée devrait être (5/9) * 10
ou de 50/9 en degrés Celsius.
MPC | Manager Par les Chiffres
STATISTIQUES DESCRIPTIVES POUR DONNÉES TRANSFORMÉES
Statistiques Descriptives pour Données Transformées
24
Statistiques Descriptives à Deux Variables (Module
MPC - Prochainement disponible). Ce module fournit
davantage d’apprentissages en statistiques, y compris la
corrélation et la régression.
RÉFÉRENCES COMPLÉMENTAIRES
Références Complémentaires
N’importe quel livre d’introduction aux statistiques comme
Introductory Statistics (9th Edition), Neil. A. Weiss,
Pearson Publishing, 2010.
MPC | Manager Par les Chiffres
25