INF L14 Initiation aux statistiques 5 – Tendance centrale Introduction  Représentations graphiques   renseignent sur la forme des distributions ex.

Download Report

Transcript INF L14 Initiation aux statistiques 5 – Tendance centrale Introduction  Représentations graphiques   renseignent sur la forme des distributions ex.

INF L14
Initiation aux statistiques
5 – Tendance centrale
Introduction

Représentations
graphiques


renseignent sur la forme
des distributions
ex. tuyaux d’orgue
longueur de prénoms des étudiants
Introduction

Mais on a parfois besoin d’indices numériques
résumer de façon très synthétique
 comparer, classer


ex. comparer la longueur des prénoms



garçons/filles
évolution au fil des années
Difficile à faire avec des graphiques
Introduction


Divers indices possibles
Le plus simple :
caractériser le centre des
distributions

tendance centrale
Où situeriez-vous le "centre" ? A la valeur 6, qui
est la plus fréquente ? ou bien plus à droite, par
exemple de façon à partager les observations en
paquets égaux ? Si oui, où, exactement ? 7, 8, 9 ?
Mode

Mode


Valeur qui apparaît le plus
fréquemment.
Exemples:


taille de chaussures la plus
vendue
âge normal pour passer le
bac
le mode est 6
Tableur

Fonction

=MODE(données)
Données
7
8
8
0
3
6
Mode
Formule
8 =MODE(A2:A7)
Tableur

Attention, ne marche pas toujours


ici toutes les fréquences sont identiques
pas de mode ou alors modes ex aequo
1
2
3
4
5
6
7
8
9
A
B
Données
0
4
6
7
1
8
Mode
Formule
#N/A =MODE(A2:A7)
Plusieurs modes ?


Pic principal et pic(s)
secondaire(s)
Distributions bimodales,
ou multimodales
Distance entre construit et barrage (pages
Web) (exemples)
Plusieurs modes ?
-1: construit (un) barrage
+3: barrage (a été) construit
+1: barrage construit
Données groupées

Lorsque les données ont de nombreuses valeurs

on calcule le mode après avoir groupé les données
par intervalles
Exemple, durées des pauses
dans un discours (ms)
Moyenne


La moyenne est la mesure de tendance centrale
la plus connue
Utilisée fréquemment dans la vie courante

Exemple :

La note finale d'une unité d'enseignement est la moyenne
des notes des différents partiels
Calcul de la moyenne

Somme des valeurs divisée par le
nombre d’individus
m 
X 1  X 2  ...  X n
N
Représentation synthétique
m 

Xi
N
S = somme
Moyenne : Tableur

Fonction

=MOYENNE(données)
1
2
3
4
5
6
7
8
9
A
Données
B
4
1
2
0
7
7
Moyenne
Formule
3,50 =MOYENNE(A2:A7)
Analogie physique
La moyenne est le point
auquel il faudrait placer
un support pour que la
"planche" reste en
équilibre.
Inconvénient de la moyenne

Sensibilité aux valeurs extrêmes


erreurs
cas particuliers
Calcul
Données
danseuse 1
danseuse 2
danseuse 3
danseuse 4
danseuse 5
danseuse 6
danseuse 7
danseuse 8
sumotori
Moyenne
Formule
70,78 =MOYENNE(A2:A10)
51
52
45
50
51
51
53
49
235
les danseuses
ont de quoi se
faire du sushi
Exemple (cours 1)

On compare deux classes de 10 élèves
A
11
11
12
11
12
11
13
11
10
20
Moy
12,2
B
13
13
14
13
12
14
13
15
12
0
Moy
11,9
Oops !
A
11
11
12
11
12
11
13
11
10
20
Moy
11,3
B
13
13
14
13
12
14
13
15
12
0
Moy
13,2
Médiane


La médiane est la valeur pour laquelle il y a
autant d'observations à gauche qu'à droite.
Pour la calculer,
on classe les observations par ordre croissant
 on cherche quelle est la valeur qui divise les
observations en deux groupes égaux.

Exemple
Calculer

On pourrait faire le calcul à la main


1) tri
2) choix de la valeur du milieu
1
2
3
4
5
6
7
8
9
10
A
Données
B
45 danseuse 3
49 danseuse 8
50 danseuse 4
51 danseuse 1
51 danseuse 5
51 danseuse 6
52 danseuse 2
53 danseuse 7
235 sumotori
Médiane : Tableur

Fonction

=MEDIANE(données)
A
Données
B
1
2
51 danseuse 1
3
52 danseuse 2
4
45 danseuse 3
5
50 danseuse 4
6
51 danseuse 5
7
51 danseuse 6
8
53 danseuse 7
9
49 danseuse 8
10
235 sumotori
11 Moyenne
Formule
12
51 =MEDIANE(A2:A10)
Nombre pair

Cas particulier
On prend la moyenne des deux valeurs du milieu (le tableur se débrouille)...
Exemple
A
11
11
12
11
12
11
13
11
10
20
Moy
12,2
Med
11,0
B
13
13
14
13
12
14
13
15
12
0
Moy
11,9
Med
13,0
Relation entre les trois indices


La relation dépend de la forme la distribution
Distribution symétrique (ou à peu près)

mode ~ médiane ~ moyenne
So ?

Distribution asymétrique

Etalée à droite

mode < médiane < moyenne
Iiiik !!!
http://www.faecesoftheworld.co.uk/

Distribution asymétrique

Etalée à gauche

mode > médiane > moyenne
Yuuuk !!!
http://www.faecesoftheworld.co.uk/
Quel indice choisir ?

Mode

peu stable, parfois inexistant


Moyenne

la force de l’habitude


à éviter
ok dans les distributions symétriques
Médiane

Meilleur indice dans les distributions asymétriques

Très souvent le cas en linguistique !
Termes à retenir






Tendance centrale
Mode
Distribution bimodale, multimodale
Moyenne
Médiane
Distribution symétrique, asymétrique
Pweeh... all this computer hacking
is making me thirsty !