ppt2coursstatistiquescopie

Download Report

Transcript ppt2coursstatistiquescopie

Cours de statistiques
Licence Pro Animation 2010 - 2011
Bruno GACHASSIN
Organisation des 4 séances
5 janvier
. Travail à partir d’un questionnaire
. Définitions, échelles de variable
. Mode, %
27 janvier
. Représentation graphique
. Moyenne, médiane, écart-type
. Salle informatique: utilisation d’Excel (formules, graphique,
manipulations diverses)
28 janvier
. Evaluation n°1
. Khi2
15 mars
. Khi2
. Questions / révision
. Evaluation n°2
Nbre de citations en %
N
Fréquence en %
å (x   )
i
=
Préférence du secteur
d'insertion
2
Conseil
i =1
N
Industrie
Luxe
20.00
16.00
12.00
8.00
4.00
0.00
Développement durable
Tourisme
Expérience pro
non
oui
TOTAL
Banque
Gde distribution
Secteurs d'insertion
Finance
0
+5 (50)
-13 (16)
66 (66)
1
-24 ( 7)
+57 ( 8)
15 (15)
Grande distribution
TOTAL
57 (57)
24 (24)
81 (81)
Autre secteur
n
20
i
Secteur
s=
Industrie
15
å (x -m)
2
Nbre de citations en %
i =1
n -1
Développement durable
10
Banque
5
Grande distribution
0
Immobilier
0
0.5
1
-5
1.5
Assurance

åx
i
=
i=1
Autre…
N
0.00
0
5
10
Axis Title
15
Linear (Nbre
de citations
en %)
20.00
10.00
0.00
Banque
Finance
Nbre de citations en %
20.00
Imm…
5.00
Finan…
10.00
Dével…
Nbre de
citations en %
Nbre de citations
en %
Conseil
15.00
Nbre de citations
en %
Tourisme
Grande…
20.00
Axis Title
N
Conseil
20.00
Assurance
Industrie
15.00
Automo… 10.00
Luxe
5.00
Immobilier
Dévelop…
0.00
Nbre de
citations en
%
10.00
Nbre de
citations en %
0.00
0
5
10
15
A quoi servent les statistiques?
• Organiser, présenter et décrire des données.
• Vérifier des relations entre variables.
• Tester des hypothèses
• Généraliser à une population, des caractéristiques
observées sur des échantillons.
• Faire de “bonnes” prévisions.
Définition: la statistique
Il existe tellement de définitions différentes de la statistique qu’on pourrait presque
en faire une étude … statistique. Ainsi, Raymond DUMAS, dans son ouvrage
"L'entreprise et la statistique", datant de 1967, en dénombre-t-il déjà une centaine.
La statistique est une méthode scientifique qui consiste à réunir des données
chiffrées sur des ensembles nombreux, puis à analyser, à commenter et à critiquer
ces données.
Il ne faut pas confondre la statistique qui est la science définie ci-dessus et une
statistique qui est un ensemble de données chiffrées sur un sujet précis.
Deux branches distinctes
La statistique au sens large comprend deux branches.
Statistique descriptive
Organisation, présentation et analyse
des données relatives à une
population, un échantillon, en
mettant les points
importants en évidence.
Statistique inférentielle
Elle permet de généraliser à de grands
ensembles d'éléments les conclusions tirées
des résultats obtenus avec des ensembles
beaucoup plus restreints appelés échantillons.
Echantillon
Inférence
Population ?
La statistique, qu’elle soit descriptive ou inférentielle, est employée dans
toutes les sciences, ainsi que dans la vie quotidienne.
La population
En statistique, la population désigne un ensemble d‘unités. Ces unités sont des êtres
vivants ou des objets concrets ou abstraits. Le terme "individu" est souvent employé
comme synonyme du terme "unité ", même lorsque l'on étudie des populations non
humaines.
La première information statistique que l'on tire d'une population est le nombre de
ses individus, que nous désignerons par n.
À titre d'exemple, voici la liste des 35 élèves d'une classe. {Ahmed, Alexandre,
Antoine, Sandra, Hugo, Anne, Jeannot, Sara, Karim, Chloé, Kim, Loïck, Leila, Laurène,
Lucas, Ludovic, Marine, Maxime, Valentine, Pauline, Paul, Pedro, Pierre, Quentin,
Thomas , Nadia, Valentin, Vim, Lara, Flora, Clément, Rudy, Michael, Alison, Aline}
Ces 35 élèves sont les individus qui composent notre population (n = 35). Cette
population de 35 individus peut schématiquement être représentée par ce
diagramme :
Un individu
« Individu »
en latin: « ce qui
est indivisible ».
Les ensembles étudiés sont appelés population. Les éléments de la
population sont appelés individus. La population est étudiée selon une
ou plusieurs variables (ou caractères).
Attention!!
Une population doit être définie avec précision, c’est totalement différent de
considérer:
• les salariés des structures socio-culturelles de Midi-Pyrénées;
• Les salariés des structures socio-culturelles de France;
• Les animateurs socio-culturels de Midi-Pyrénées;
• Les assistant(e)s sociaux expérimentés de Toulouse;
• Des salariés de l’animation socio-culturelle.
L’échantillon
On parle d’échantillon d’une population quand les individus sont tirées au sort ou
choisies par une méthode qui permet d’assurer la représentativité de l’échantillon
par rapport à la population totale.
Le diagramme ci-après représente la
population statistique d'une classe de
35 élèves. Supposons que l'on y
choisisse, par tirage au sort, 6 élèves.
Ces 6 élèves constituent alors un
échantillon.
Cet échantillon représente 17% de la
population (6/35).
Population
Ensemble de référence
Individu
Elément de la population
Echantillon
Sous-ensemble de la population.
x
x x
x
x
x x
x
x
x
x
x
x x x
x
x x x x x
x
x
xx
x
xx
x
x
x
x x
x
x
x
x x
x
x
x
x
x
x
x
x
x x
x
x
Remarquons qu'un échantillon peut être considéré comme une population en
elle-même, quoique beaucoup plus petite que la population dont il est extrait. En
tant que population, il peut faire l'objet d'une étude statistique dont les
conclusions, sous certaines conditions, sont susceptibles d’être étendues à la
population toute entière. (C'est l'objet de la statistique inférentielle.)
Attention!!
Il faut distinguer l'échantillon du sous-ensemble de la population obtenu par
un classement ou "découpage" des individus au moyen de certains critères.
Nous pouvons ainsi diviser la
population des 35 élèves en deux sousensembles, par exemple les garçons et
les filles. On aura alors le schéma
suivant :
Organisation des données / Variables
Pour étudier une population, on procède à un classement des individus au moyen de
certains critères appelés variables.
Les variables sont les caractéristiques que l’on observe sur chacun des individus de la
population.
Tableau à double entrée :
. Lignes  individus
. Colonnes  variables
Sujets / Variables
1
2
3
…
V1
V2
V3
…
Exemple de la classe de 35 élèves
Dans la classe de 35 élèves, pour chaque élève, différentes caractéristiques ont été
recueillies : le prénom, le nombre de frères et soeurs, la taille, ainsi que le résultat d’un
test d’anglais.
Mise en page avec le logiciel Excel
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Prénom
Lara
Chloé
Flora
Sara
Kim
Leila
Sandra
Pauline
Anne
Laurène
Lucas
Quentin
Valentine
Clément
Hugo
Marine
Valentin
Aline
Alison
Nadia
Rudy
Jeannot
Pedro
Ahmed
Taille
Sexe (cm)
F
168
F
163
F
161
F
165
G
165
F
168
F
161
F
163
F
165
F
165
G
170
G
175
F
168
G
165
G
170
F
170
G
170
F
170
F
165
F
163
G
163
G
170
G
175
G
175
Nombre de
frères et Résultat test
soeurs
d'anglais
1
D
2
D
4
B
1
B
0
A
2
B
2
D
1
C
3
A
1
C
3
C
1
D
1
A
0
B
1
C
0
C
1
B
1
B
1
C
0
D
1
A
4
C
2
B
4
A
Les différents types de variables / la modalité
La variable est une propriété que tous les individus d’un échantillon possède
même si sa modalité est différente (ex : le sexe d’une population : tout le monde
à un sexe, mais la modalité est différente : F ou M, ex : l’âge, etc).
N° Questionnaire Pôle d'activité Ancienneté
1
2
3
4
5
6
7
8
9
10
Animation
Acc Social
Accueil
Acc Social
Animation
Administratif
Accueil
Animation
Acc Social
Administratif
18
13
1
18
6
17
3
8
14
9
Dernière
formation
Info
formation
Intérêt
formation
1
3
2
4
2
4
2
3
4
3
oui
oui
je ne sais pas
oui
non
oui
oui
non
oui
oui
+
-++
++
+
+
+
Chaque colonne est une variable. Mais…
Milieu Sexe Age
rural
urbain
rural
urbain
rural
rural
urbain
urbain
rural
urbain
H
H
F
H
F
F
F
H
F
H
46
38
20
53
29
42
22
30
41
31
3 types (échelles) de variables:
Échelle nominale
Échelle ordinale
Échelle d’intervalle
Echelle NOMINALE
Echelle ORDINALE
• Les variables ne sont • Hiérarchie entre les
pas mesurables.
modalités de la variable.
Cette hiérarchie est
• Ce sont des noms, des admise
par
toute
sigles, des codes.
personne à qui cette
question est posée.
• Pas de hiérarchie entre
les modalités de la • Il y a une idée de
variable.
quantité
mais
pas
mesurable en intervalles
• Il n’y a pas de quantité. égaux.
• Attention, même si les
modalités sont des
codes numériques, les
opérations
sur
les
modalités n’ont aucun
sens.
• C’est le cas de tous les
caractères
qualitatifs
dont les modalités sont
des opinions.
Echelle d’INTERVALLE
• L’instrument
de
mesure nous garantit
des intervalles égaux.
• On est autorisé à
calculer la moyenne !
Les échelles de mesure
• Les échelles nominales :
– Modalités = catégories non hiérarchisées,
visée descriptive
Exemple : un constructeur d’automobiles a demandé à un échantillon de 220
individus de faire part de leur préférence de couleur de voiture. Les
résultats qu’il obtient sont les suivants :
Couleur
Blanc
Noir
Rouge
Bleu
Vert
Marron
Gris
Jaune
Autre
Total
Effectifs
43
30
15
32
30
20
28
12
10
220
Autres exemples : le sexe, la CSP, le département de naissance, etc.
Les modalités peuvent être nominales ou numériques
Les échelles de mesure
• Les échelles ordinales : modalités de la
variable hiérarchisées
Exemple :
Dans un questionnaire portant sur les loisirs, on a demandé à 102 personnes
de répondre à la question suivante : « allez-vous à l’opéra.. »
Jamais. Rarement. Quelquefois. Assez souvent. Souvent. Régulièrement
Résultats sous une forme ordonnée (bon/moyen/mauvais) ou sous une forme
de classement (premier, deuxième, troisième, etc.)
Les échelles de mesure
• Les échelles d’intervalle : l’instrument de
mesure garantie des intervalles égaux entre
les modalités
Exemple : la taille, l’âge, la température, etc.
Echelle nominale
Pas de hiérarchie entre les
modalités de la variable
Variable sexe :
Homme
Femme
Effectifs : 75 hommes,
25 femmes
Pourcentages :
hommes, 25% ;
femmes, 75%
Histogrammes
Secteurs angulaires
Echelle ordinale
Hiérarchie entre les modalités de la
variable admise par toute personne
à qui cette question est posée
Pas du tout
J’aime
les
stats
Un peu
Beaucoup
Passionnément
La moyenne n’est pas autorisée
Médiane
Quantiles (médiane, déciles,
centiles)
Echelle d’intervalle
L’instrument de mesure
garantit des intervalles
égaux.
La taille
L’âge
On est autorisé à utiliser la
moyenne
Variance
Ecart type
Rappel sur les pourcentages
Le pourcentage est le rapport d’un sous-ensemble à son ensemble ramené à 100.
Un % est une façon d'exprimer une proportion ou une fraction dans un ensemble.
P=
n
N
n= effectif de la modalité considérée
X 100
N= effectif total de la population
Représentations graphiques
Variable “Milieu”
Variable “Milieu”
Variable “Milieu”
80
70
Rural
Urbain
Urbain
60
50
40
%
%
33%
30
20
Rural
67%
10
0
Rural
Urbain
0
Variable « Pôle d’activité »
50
100
Variable « Pôle d’activité »
35.00
Acc Social
30.00
30.00
25.00
20.00
Diff culturelle
10.00
20.00
Accueil
en %
0.00
en %
15.00
10.00
5.00
Animation
Administratif
0.00
0
1
2
3
4
5
6
Echelle
Pôle d’activité
45
30
15
Fréquence
0
Pôle d’activité
9
8
7
6
Fréquence
5
4
Biais (1)
Pôle d’activité
Acc Social
Accueil
Administratif
Animation
Diff culturelle
Pôle d’activité
30.00
25.00
20.00
15.00
10.00
5.00
0.00
en %
en %
Biais (2)
Salaires
45
30
15
Fréquence
0
Salaires
9
8
7
6
5
4
Fréquence
Transformations d’échelle
Un seul sens possible !
Echelle d’intervalle  échelle ordinale  échelle nominale
On perd chaque fois de l’information !
Exemple
Les résultats de fin d’année d’un groupe d’élèves (en %)
Élèves
A
B
C
D
E
F
G
H
I
intervalle
26
32
38
44
50
56
62
68
74
ordinale
nominale
< 35
de 35 et 49
échec
De 50 à 65
réussite
> 65
Statistiques descriptives: indicateurs de tendance centrale et de dispersion
• Echelle d’intervalles : Moyenne, variance, écart-type, mode, médiane,
écart semi-interquartile, étendue.
• Echelles ordinales : Médiane, écart semi-interquartile, étendue, mode.
• Echelle nominale : mode.
Définitions simples
Le mode d'une série est la valeur ou la modalité qui revient le plus
fréquemment.
Exemples : Soit la série {8, 4, 4, 3, 4, 3, 8, 2,5} La valeur la plus fréquente de cette
série est 4. Le mode est donc égal à 4. L'effectif associé à ce mode est 3.
L’étendue est la différence entre la valeur la plus élevée et la valeur la plus
basse.
Exemple: Les fréquentations par journée de l’atelier poterie depuis la rentrée:
10 – 5 – 16 – 7 – 20 – 9 – 11
R = 20 – 5 = 15
Moyenne arithmétique : indice de tendance centrale
Prononcer « mu »
x
å
=
N
POPULATION
Prononcer
« x barre »
Somme
de toutes les valeurs
Nombre de valeurs
ECHANTILLON
x
å
X=
n
Somme
de toutes les valeurs
Nombre de valeurs
LA VARIANCE ET L’ECART TYPE
Voici les scores sur 20 (échelles d’intervalles) de deux groupes A et B
Groupe A : 10 - 12 - 8 - 9 - 11
Ces deux groupes ont
pour moyenne : 10
Groupe B : 3 - 17 - 2 - 18 - 19 - 1
8 9 10 11 12
Groupe A
Dispersion
Groupe B
1 2 3
17 18 19
D i s p e r s i o n
LA MOYENNE (indice de tendance centrale)
NE DIT RIEN DE LA DISPERSION DES VALEURS
Deux outils vont être associés à la moyenne pour donner à voir la dispersion des
données : La variance et l’écart type.
Variance
L’idée consiste à inventer un indice qui donne une idée des écarts à la moyenne.
Ecart à la moyenne
élevé au carré
Variance

2
X

=
 X    X 2  X    X 3  X  ............. X n  X 
n
2
1
2
2
C’est la moyenne des carrés des écarts à la moyenne.
Cette formule est équivalente à :

2
X  X

å
=
n
2
2
Variance
Exemple pour le groupe A :
8 9 10 11 12
Variance =
Groupe B
Variance =
8  10 2   9  10 2  10  10 2  11  10 2  12  10 2
5
1 2
10
=
=2
5
17 18 19
3
1  10 2   2  10 2   3  10 2  17  10 2  18  10 2  19  10 2
6
=
388
= 64,66
6
Variance et Ecart-type
Rappel des diverses formules que vous utiliserez
La variance
L’écart type

2
X  X

å
=
2
n 1
 =
å X  X 
n 1
2
8 9 10 11 12
Dispersion
Variance du groupe A = 2,5
Groupe B
1 2 3
17 18 19
D i s p e r s i o n
Variance du groupe B = 77,6
A la lecture de ces deux variances on voit que la dispersion du groupe B est plus importante
que celle du groupe A. Mais ces calculs ayant été obtenus par des élévations au carré, il est
difficile de percevoir l’ordre de grandeur des variances.
Groupe A : variance = 2,5 Ecart type =
Groupe B : variance = 77,6 Ecart type =
2,5 = 158
,
77,6 = 8,81
La médiane
La médiane, c’est une valeur qui occupe la place du milieu lorsqu’on énumère la totalité des
valeurs du groupe, soit dans l’ordre croissant, soit dans l’ordre décroissant.
13 - 15 - 12 - 9 - 7 - 17 - 18
Valeurs
7 - 9 - 12 - 13 - 15 - 17 - 18
Rangs
1
2
3
4
5
6
7
50% de l’effectif du groupe a une note supérieure ou égale à la médiane
50% de l’effectif du groupe a une note inférieure ou égale à la médiane
Les statistiques inférentielles
Les principes des tests statistiques
Les tests permettent de comparer des statistiques mesurées (moyenne,
variance, effectifs, etc.) sur des échantillons de données (comparaison de
deux échantillons, comparaison de plusieurs échantillons, comparaison
échantillon/population)
Comparaisons de deux moyennes
Test « t » de student
Comparaisons de deux variances
Le « F » de Snédecor
Comparaison de proportions d’individus (effectifs)
Le chi2
Comparaison de plus de deux moyennes
ANOVA
La corrélation entre deux variables
Le « r » de pearson, etc.
Comparaison de rangs
Le U de Mann Withney, Wilcoxon, Friedman ,etc.
Utilisation du Khi2
Nous allons utiliser le test du Khi2 pour:
• Comparer la distribution observée dans un échantillon statistique à
une distribution théorique.
Exemple: un dé est-il pipé? Comparaison du résultat d’une série de tirage au
résultat théorique (chaque face doit avoir la même fréquence d’apparition).
• Apprécier l’existence ou non d’une relation entre deux variables au
sein d’une population.
Exemple: Les salariés qui ont le plus d’ancienneté sont-ils davantage intéressés
que les salariés débutants pour recevoir de la documentation sur la formation
continue?
Attention!! Une relation n’est pas une causalité.
Principes des tests statistiques
Hypothèse nulle (H0) : les différences entre les
mesures effectuées sont uniquement dues à
l’effet du hasard (5% d’erreur).
Accepter H0, c’est dire que les différences ne sont pas suffisantes. Le
lien entre les deux variables n’est pas significatif.
Rejeter H0, c’est dire que les différences sont suffisantes. Le lien entre
les deux variables est significatif.
Principes des tests statistiques
Echantillons indépendants : comparaison de
groupes de sujets différents
Echantillons appariés : comparaison de paires de
sujets, plan expérimental avant/après
Comparaison de données catégorielles ou
nominales : le test du Chi2
1. Comparaison d’une fréquence et d’une norme
Exemple :
Un fabriquant teste trois type de nourriture pour des souris. Pendant 50 jours, il
propose aux mêmes souris ces trois type de nourriture. Le tableau suivant résume le
choix des souris.
Peut-on affirmer que les souris préfèrent un de ces produits ?
Effectifs observés
Types de nourritures
A
B
C
58
30
23
Total
111
H0 : à .05, les choix des souris ne sont pas significativement différents de choix au hasard
Effectifs observés
Effectifs théoriques
å
n
0
 nt 
nt
Types de nourritures
A
B
C
58
30
23
37
37
37
Total
111
111
2
ddl = k-1
(58  37) 2
( 30  37) 2
( 23  37) 2


= 18,54
37
37
37
À .05, Chi2 théorique = 5.99
À .001, chi2 théorique = 13.81
H0 est rejetée à .001 car chi2 observé > chi2 théorique
Avec moins d’une chance sur 1000 de se tromper, on peut affirmer que ces souris
préfèrent la nourriture A.
Comparaison de données catégorielles ou
nominales : le test du Chi2
2. Comparaison de deux variables nominales, échantillons
indépendants
Exemple :
Au cours d’une enquête sur les loisirs, un jeune chercheur souhaite savoir s’il y a un lien entre le
sexe et la préférence pour des loisirs particuliers. Au cours de son étude, il demande ainsi à des
hommes et à des femmes s’ils préfèrent aller au cinéma ou au théâtre. il obtient les réponses
suivantes :
Tableau de
contingence
Théâtre
Cinéma
Total
Hommes
20
55
75
Femmes
50
44
94
Total
70
99
196
H0 : à .05, les réponses des hommes ne diffèrent pas significativement de celles des
femmes.
Théâtre
20
50
70
Hommes
Femmes
Total
Cinéma
55
44
99
Total
75
94
196
Valeurs attendues pour sexe, culture
Cinéma Théâtre
Totaux
Femmes
55,065
38,935
94,000
Hommes
43,935
31,065
75,000
Totaux
99,000
70,000 169,000
Contribut. a posteriori pour sexe, culture
Cinéma Théâtre
Femmes
-3,478
3,478
Hommes
3,478
-3,478
Comparaison de données catégorielles ou
nominales : le test du Chi2
3. Comparaison de deux variables nominales, échantillons
appariés
Exemple :
Dans une étude de docimologie, on analyse les résultats des examens d’entrée
à Polytechnique et à Normale. On ne considère que les résultats des 300
candidats ayant présenté ces deux examens à la fois : 60 ont été reçus
uniquement à Normale, 44 uniquement à Polytechnique et 16 aux deux. Peuton conclure que les deux examens sont de même difficulté ?
On reconstitue le tableau de contingence
Ecole
Normale
Réussite
Echec
Ecole Polytechnique
Réussite
Echec
16
60
44
180
Ecole Polytechnique
Ecole
Normale
Réussite
Echec
Réussite
16
60
Echec
44
180
H0 : A .05, il n’y a pas de différence significative dans les résultats (réussite/échec) des deux
types d’examen (Polytechnique/Normale)
 =
2
a d
 1
ad
2
Chi2 Mac Nemar = (60-44)-1)2/60 + 44 = 1,81
On conserve l’hypothèse nulle car chi2 observé est < au chi2 théorique (3, 84 à
.05)
Une référence intéressante:
Statistique pour psychologues, cours et exercices
de Nicolas Guéguen (2006), édition Dunod.
Côte BU centrale: 150.727 GUE 4ème étage Nord