CONCEPTS DE STATISTIQUES

Download Report

Transcript CONCEPTS DE STATISTIQUES

CONCEPTS DE STATISTIQUES
Une sensibilisation
[email protected]
www.cirinandgile.com
D Gile concepts de stats
1
LES STATS DANS LA VIE QUOTIDIENNE (1)
Pas seulement dans les sciences et technologies
Quand on nous demande
- Combien de fois par semaines nous sortons
- Combien nous dépensons pour les courses etc.
Quand nous voyons quelqu’un dans la rue
et décidons de changer de trottoir à cause de son allure
Quand nous décidons que
pour aller quelque part en vacances en saison,
il faut réserver longtemps à l’avance…
D Gile concepts de stats
2
LES STATS DANS LA VIE QUOTIDIENNE (2)
Dans tous ces cas, nous savons qu’il y a
Une certaine variabilité dans le phénomène
Que nous ne sortons pas exactement le même
nombre de fois le soir toutes les semaines,
Qu’une personne qui porte certains vêtements
n’est pas nécessairement agressive
Que le taux d’occupation des hôtels varie…
Mais nous raisonnons statistiquement :
Sur la base d’informations disponibles, nous calculons
mentalement la probabilité d’un événement,
et agissons en conséquence
D Gile concepts de stats
3
1ERE APPROCHE FORMELLE DES STATS
Les statistiques sont un ensemble de concepts et de techniques
qui cherchent à faire quelque chose d’analogue
Mais de manière plus systématique, explicite, précise et fiable.
C’est leur nature systématique et la recherche
de la précision et de la fiabilité,
notamment dans l’évaluation des probabilités d’erreurs,
Qui en font un outil puissant pour la recherche
Et pour bien d’autres applications
(notamment industrielles)
D Gile concepts de stats
4
MESURER
Pour simplifier : mesurer,
c’est affecter des valeurs chiffrées à des variables
d’une manière qui fait sens
En statistique, on le fait surtout pour comparer
Dans certains cas, c’est facile
(note en classe, vitesse, argent, nombre d’accidents…)
Dans d’autres, plus difficile :
Attitudes, sentiments…
D Gile concepts de stats
5
LES VARIABLES
En statistique, on traite de « variables »
Les variables sont des caractéristiques « mesurables » de
phénomènes ou d’entités
Pour être utiles, les variables doivent être définies avec précision.
Sinon, il peut y avoir trop d’incertitudes
Ex: taux de chômage
Qu’est-ce que le chômage?
« Vous êtes au chômage si vous êtes disponible et recherchez un
emploi et n’avez pas travaillé la semaine dernière » (Bureau of
Labor Statistics)
Et si vous n’êtes pas entièrement disponible en raison d’une
activité non rémunérée familiale ou bénévole ? Et si vous avez
travaillé la semaine dernière ?
D Gile concepts de stats
6
LES ECHELLES DANS LES MESURES
Nominale (nominal scale) : catégories (poisson, bœuf, porc,
poulet)
Ordinale: (ordinal scale) : Rang (premier, deuxième, troisième
etc., mais pas de valeur dans l’absolu (par ex. popularité de
membres d’un groupe)
Echelle d’intervalles (interval scale) : mesure de combien une
valeur est « plus » qu’une autre (température)
Echelle de ratios (ratio scale) : Quand en plus, la valeur zéro
correspond à « absence » de la caractéristique mesurée par la
variable
(ex: 0 euros, c’est l’absence d’argent – mais une température de
0 ne veut pas dire qu’il n’y a pas de chaleur)
D Gile concepts de stats
7
EXAMINER DES STATISTIQUES
INTELLIGEMMENT
- Source des données
Qualité de la source ? A priori honnête, fiable ?
- Non-sens ?
« 90% des femmes disent qu’elle sont satisfaites »
- Biais ?
- Données partielles, ne montrent ou ne mettent en
valeur graphiquement qu’un aspect du phénomène,
peut-être le plus favorable à ce que l’auteur des
statistiques essaie de défendre ?
D Gile concepts de stats
8
Apparences trompeuses
*
90
80
70
60
50
40
30
20
10
0
jan
fev
mar
avr
mai
juin
juil
aout
sept
oct
nov
dec
80
70
80
60
70
60
50
50
40
40
30
30
20
20
10
10
0
sept
oct
nov
dec
0
sept oct nov dec
D Gile concepts de stats
9
TABLEAUX ET GRAPHIQUES
« Etes-vous d’accord ou non sur l’idée que la possession de petits
quantités de hachich devrait être dépénalisée? »
928 d’accord
543 pas d’accord
66 ne s’expriment pas
Plus parlant si :
60% d’accord
35% pas d’accord
4% ne s’expriment pas
D Gile concepts de stats
10
FREQUENCE ET FREQUENCE RELATIVE
Fréquence d’une valeur : nombre de fois où elle apparaît
928 d’accord
543 pas d’accord
66 pas d’opinion
Fréquence relative : proportion de fois où elle apparaît
60% d’accord
35% pas d’accord
4% ne s’expriment pas
D Gile concepts de stats
11
DONNEES UNIVARIEES ET MULTIVARIEES
Respectivement sur une variable ou plusieurs variables
Deux variables : sexe et diplôme
licence
M2
Doctorat
Hommes 508549 167745 26273
Femmes
425849 145256 7803
Total
934443 313001 34076
6 pour mille des diplômes sont des doctorats féminins
22,9% des doctorats sont féminins
1,34% des diplômes féminins sont des doctorats
D Gile concepts de stats
12
GRAPHIQUES
Représentations visuelles schématiques
Souvent plus parlantes que tableau
70
60
50
OK
Non
Nrep
40
30
20
10
0
OK
Non
Nrep
60 % pour, 35 % contre, 5% Non réponse
D Gile concepts de stats
13
STATISTIQUES DESCRIPTIVES ET
INFERENTIELLES
Quand masse d’informations
Souvent difficile de dégager tendances
(par ex. données météo sur la planète)
D’où l’importance de disposer d’outils
Permettant de les faire apparaître :
Statistiques descriptives
Souvent, besoin de généraliser
Mais seules données sur sous-ensemble de la population
disponibles
C’est le rôle des statistiques inférentielles
D Gile concepts de stats
14
STATISTIQUES CONCEPTS DE BASE
Population : L’ensemble des entités qui nous intéressent
(personnes, objets, textes, actions d’un certain type, sommes,
entreprises…)
Unité : Chacune des entités dont se compose la population
Variable : Une caractéristique d’un phénomène qui peut prendre
différentes « valeurs », numériques ou non
Distribution : La manière dont se répartissent les valeurs d’une
variable
Echantillon : Sous-ensemble de la population, qui va être étudié
pour en tirer des conclusions sur la population dans son ensemble
Théorie des probabilités : théorie mathématique à la base des
statistiques inférentielles
D Gile concepts de stats
15
LA DISTRIBUTION D’UNE VARIABLE (1)
C’est la manière dont se répartissent ses valeurs
Exemple 1 :
Quand on jette une pièce en l’air et qu’elle retombe.
Deux valeurs, Pile et Face
En principe, distribution égale : elle tombera en moyenne le
même nombre de fois sur le côté Pile et sur le côté Face
Exemple 2 :
La taille des hommes en France en 2011
La plupart auront entre 170 et 180 cm, peu d’entre eux auront
moins de 160 cm et plus de 190 cm, etc.
Ces distributions sont souvent représentées graphiquement par
des courbes
D Gile concepts de stats
16
LA DISTRIBUTION D’UNE VARIABLE (2)
Certaines distributions fréquentes dans la nature
ont des caractéristiques mathématiques intéressantes
qui facilitent les inférences
La plus connue est la distribution dite « Gaussienne » ou
« Normale », qui est symétrique autour d’une moyenne et dont
on peut calculer la valeur à chaque endroit de l’abscisse
D Gile concepts de stats
17
STATISTIQUES DESCRIPTIVES
Tendance centrale
Y a-t-il une tendance générale dans toute cette variabilité ?
Dispersion
Les valeurs individuelles sont-elles plutôt regroupées autour de la
tendance centrale, ou sont-elles plutôt dispersées ?
[En statistiques, les distributions de variables sont caractérisées à
travers trois critères, qui suffisent généralement :Forme de la
distribution, tendance centrale et dispersion]
Corrélation
Semble-t-il y avoir un lien entre deux ou plusieurs variables ?
D Gile concepts de stats
18
TENDANCES CENTRALES (1)
Moyenne (mean)
Intéressante si nombre relativement élevé de valeurs
Pas s’il y en a deux ou trois
(à moins que l’on sache qu’il y a une faible dispersion dans la
population)
Sensible à valeurs aberrantes si petit échantillon
n=4
10, 10, 10, 20
→ moyenne :12,5
n = 20 10, 10, 10, 10, 10, 10, 10, 10, 10, 10,
10, 10, 10, 10, 10, 10, 10, 10, 10, 20
→ moyenne : 10,5
D Gile concepts de stats
19
TENDANCES CENTRALES (2)
Médiane (median)
Divise la population en deux parties égales, l’une avec des
valeurs supérieures à la médiane, l’autre avec des valeurs
inférieures à la médiane
10, 11, 10, 12, 13, 13, 13
Médiane : 12
N’est pas sensible aux valeurs aberrantes
10,11, 10, 12, 13, 13, 20
Médiane : 12
D Gile concepts de stats
20
TENDANCES CENTRALES (3)
Mode (mode)
Valeur la plus fréquente
10, 11, 12, 10, 10, 10, 9, 14
→ Mode : 10 (4 fois)
10, 11, 12, 10, 10, 12, 12, 9, 14
→ Modes : 10 (3 fois) et 12 (3 fois)
(distribution bimodale)
D Gile concepts de stats
21
TENDANCES CENTRALES (4)
Quel est le meilleur indicateur de tendance centrale ?
Si la distribution est plus ou moins symétrique, la moyenne est
souvent un bon indicateur (mais pas toujours)
Si l’influence des valeurs aberrantes est trop grande, la moyenne
n’est pas très adaptée pour mesurer la tendance générale
et on peut lui préférer la médiane
Le mode n’est généralement pas très utile pour les variables
quantitatives; il l’est davantage pour les variables qualitatives
(échelle nominale)
Par exemple : quel est le plat le plus souvent commandé dans un
restaurant ?
D Gile concepts de stats
22
LA DISPERSION (1)
La raison pour laquelle les mesures de tendance centrale sont
nécessaires est la variabilité des valeurs mesurées.
S’il n’y en avait pas, on n’aurait pas besoin de mesurer la
tendance centrale – elle serait immédiatement apparente.
Mais la variabilité peut poser des problèmes, surtout pour les
valeurs extrêmes
(par ex. poids, taille pour meubles, ascenseurs, voitures…)
On a donc besoin de mesurer non seulement la tendance générale,
mais aussi la dispersion.
D Gile concepts de stats
23
LA DISPERSION (2)
La fourchette des valeurs (range)
Peu intéressante, car ne prend en compte que les valeurs extrêmes
1, 10, 11, 12, 10, 11, 12, 13, 11, 12, 11, 11, 12, 11, 12, 12, 19
19 - 1 = 18 peu représentatif
En réalité, faible dispersion
Intervalle interquartile
Interquartile range
2 2 5 5 6 7 8 20
Q1 Q2 Q3 Q4
D Gile concepts de stats
24
LA DISPERSION (3)
L’écart type
(standard deviation)
Le carré des distances entre les valeurs individuelles et la
moyenne de ces valeurs, divisé par le nombre de ces valeur
(généralement moins 1). On en prend la racine carrée.
Un peu compliqué, mais il y a une raison mathématique :
L’écart-type d’une distribution Normale facilite le calcul des
fréquences
D Gile concepts de stats
25
LA CORRELATION
Une mesure de la force d’association entre deux variables
Plusieurs coefficients
(Spearman’s rho, Pearson’s r coefficient)
Prend des valeurs entre -1 et +1
-1 et +1 sont des corrélations « parfaites »
Qui permettent de prévoir la valeur de x d’après la valeur de y
0 : corrélation nulle, indique l’absence d’un lien entre x et y
Corrélation positive: si x augmente, y augmente
(courbe montante)
Corrélation négative: si x augmente, y baisse
(courbe descendante)
D Gile concepts de stats
26
LA CORRELATION (1)
Corrélation (positive) forte entre deux variables
Il est clair que Y augmente quand X augmente, mais aussi que
l’on peut prévoir la valeur de Y à partir de la valeur de X
Variable Y strong correlation with X
Value of Variable Y
16
14
12
10
Variable Y strong
correlation with X
8
6
4
2
0
0
2
4
6
8
Value of variable X
D Gile concepts de stats
27
LA CORRELATION (2)
Corrélation faible entre deux variables
On ne voit pas très bien le lien entre X et Y
Weak correlation
7
6
5
4
3
Weak correlation
between X and Y
2
1
0
-1 0
-2
2
4
6
8
-3
Value of variable X
D Gile concepts de stats
28
FORCE DE LA CORRELATION
Coefficient de détermination : carré du coefficient de
corrélation. Il mesure la proportion de la variabilité par
rapport à la correspondance parfaite expliquée par la
corrélation
Une corrélation de 0,6 est-elle forte ?
Elle n’explique que 36% de la variabilité
Une corrélation de 0,7 n’explique que 49% de la variabilité
S’en souvenir lorsqu’on lit les résultats de travaux où l’on parle
de corrélations « fortes »
D Gile concepts de stats
29
STATISTIQUES INFERENTIELLES
Partent d’un échantillon
(sous-ensemble de la population)
pour déterminer les caractéristiques de populations,
Réelles ou fictives,
(expliqué plus loin)
dont ils est tiré.
(A condition qu’il en soit représentatif – discuté ultérieurement)
D Gile concepts de stats
30
LES ECHANTILLONS (1)
En principe, sauf extraordinaire,
La distribution des valeurs dans un échantillon n’est pas
exactement superposable à la distribution des valeurs dans la
population
L’ « erreur d’échantillonnage »
(sampling error)
Correspond à l’écart entre les valeurs mesurées dans l’échantillon
et les valeurs dans la population.
Il ne s’agit pas d’une « erreur » à proprement parler
On peut la réduire, notamment en augmentant la taille de
l’échantillon (voir plus loin)
D Gile concepts de stats
31
LES ECHANTILLONS (2)
L’erreur d’échantillonnage est aléatoire.
En principe, si on prélève successivement de nombreux
échantillons, cette erreur devrait être parfois positive, parfois
négative, et sa moyenne devrait finir par devenir nulle.
Le biais, en revanche, est une déviation systématique par rapport
aux valeurs de la population.
C’est le biais qui doit être évité, car il donne systématiquement
une image fausse de la réalité.
D Gile concepts de stats
32
LES ECHANTILLONS (3)
La meilleure manière d’être sûr d’éviter tout biais
Est de sélectionner les unités de l’échantillon
Par un procédé strictement aléatoire
(table de nombres aléatoires, ordinateur)
Selon lequel toute unité dans la population a la même probabilité
d’être tirée
Les procédés non aléatoires peuvent introduire un biais
insoupçonné
Dans la pratique, le tirage aléatoire est le plus souvent impossible
D Gile concepts de stats
33
LES ECHANTILLONS (4)
Un échantillon aléatoire simple (simple random sampling ou
SRS) n’est pas la seule manière d’obtenir un échantillon non
biaisé.
Il existe d’autres méthodes, qui consistent par exemple à diviser
la population en sous-populations (strata) et à procéder à un
échantillonnage aléatoire simple à l’intérieur de chaque
sous-population en proportion de son importance dans la
population.
(échantillonnage stratifié)
C’est une autre manière de réduire l’erreur d’échantillonnage.
D Gile concepts de stats
34
LES ECHANTILLONS (5)
La moyenne d’un échantillon est en général plus proche de la
moyenne de la population qu’un élément quelconque de
l’échantillon.
Si l’on tire successivement de nombreux échantillons
représentatifs, la moyenne de leurs moyennes est en général
plus proche de la moyenne de la population que chacune de
ces moyennes.
Si l’on tire une infinité d’échantillons aléatoires, la moyenne de
leurs moyennes est égale à la moyenne de la population.
D Gile concepts de stats
35
LES ECHANTILLONS (6)
Le rendement de l’augmentation de la taille de l’échantillon pour
réduire l’erreur d’échantillonnage est fortement décroissant.
L’erreur-type (standard error) est l’écart-type de la distribution
des moyennes d’échantillons.
Elle s’obtient en divisant celui-ci par la racine carré de la taille
de l’échantillon n.
Elle est donc moins importante que l’écart-type, mais…
Si n=100, l’erreur-type est 10 fois moins importante que l’écarttype.
Si n=400, l’erreur type n’est que 20 fois inférieure
C’est pourquoi l’on n’augmente pas nécessairement la taille des
échantillons autant qu’il apparaîtrait ‘normal’ au non initié
D Gile concepts de stats
36
Très souvent, dans les statistiques inférentielles, on
compare des populations :
Des populations réelles :
La population des bilingues précoces
La population des bilingues tardifs
Des populations fictives ou ‘construites’ :
La population des patients qui vont être soignés avec une
nouvelle molécule A
La population des patients qui vont être soignés avec une
nouvelle molécule B
Ces populations n’existent pas au moment de l’étude, mais les
groupes sur lesquels va être réalisée une expérience sur ces
molécules seront considérés comme représentant d’éventuelles
populations A et B respectivement
D Gile concepts de stats
37
Test d’hypothèse (1)
Chaque échantillon est considéré comme représentant une
« population » correspondant à la « condition » concernée
(population réelle, par exemple en épidémiologie ou en travail
sur corpus, ou non, par exemple dans tests sur nouvelles
molécules pharmaceutiques)
Les caractéristiques de chacune de ces populations sont induites
des caractéristiques trouvées sur les échantillons
Essentiellement par calcul de la moyenne et de l’écart-type dans
l’échantillon
D Gile concepts de stats
38
Test d’hypothèses (2)
Un test statistique (statistical test)
est un calcul fondé sur des hypothèses concernant la distribution
et prenant en compte la moyenne et l’écart type dans chacun
des échantillons,
qui indique la probabilité
que les populations représentées par ces échantillons
ne diffèrent pas entre elles,
cad que statistiquement, elles sont « la même »
C’est l’hypothèse de différence nulle ou « hypothèse nulle »
(null hypothesis)
Qui s’oppose à l’hypothèse alternative (alternative hypothesis)
selon laquelle les populations diffèrent réellement
D Gile concepts de stats
39
Test d’hypothèses (3)
Concrètement, en utilisant une formule mathématique,
Il va calculer la probabilité que les différences relevées sur ces
échantillons sont attribuable au seul effet du hasard
(par opposition à une différence « réelle » )
Si cette probabilité est inférieure à un certain seul
(souvent fixé à 0,5 ou à 0,01)
On conclura que les différences entre les populations sont
« significatives »
(par convention, on dira souvent significant pour p<0,5
et highly significant pour p<0,01)
D Gile concepts de stats
40
Le Français lecteur du Times
Vous voyez dans la rue à Paris un homme moustachu et portant
un béret et pensez au départ qu’il est français.
En vous approchant, vous voyez qu’il lit le Times
Or, vous savez que 95% des Français ne lisent qu’en français
Suspense : Ce personnage est-il français ?
Vous allez peut-être décider que puisqu’il lit le Times,
il ne l’est pas
Mais en êtes vous-sûr ?
Quelle est la probabilité qu’il est français en dépit de ses
curieuses et condamnables lectures ?
D Gile concepts de stats
41
Erreur de type I, erreur de type II
Un « faux positif » serait le rejet injustifié de l’hypothèse “nulle”
selon laquelle l’homme fait partie des Français
(après tout, 5% des Français ne lisent pas en français)
Est appelé erreur de Type I
Un « faux négatif », cad l’acceptation injustifiée de l’hypothèse
nulle (en réalité, il s’agit d’un étranger qui vient manger le
pain des Français – parce qu’il apprécie),
est appelé erreur de Type II
D Gile concepts de stats
42
Résultats significatifs
On peut vouloir accepter les 5% de risques d’erreur de type I est
dire que les différences entre les populations
(telles que reflétées par les différences entre les échantillons
comparés)
sont « significatives » à 5%, ou à 0.05
On peut aussi ne vouloir accepter que 1% de risque d’erreur,
auquel cas ce qui était significatif à 5% ne l’est pas
nécessairement à 1%
Mais ces seuils sont conventionnels et arbitraires…
Quand (en général), les valeurs mesurées sont numériques, passer
de « oui » à « non » soudainement, entre 3,5 et 3,4…
D Gile concepts de stats
43
Qu’est-ce qui justifie ces inférences ? (1)
Quand, dans une population donnée, on tire un échantillon au
hasard, puis un deuxième, puis un troisième etc., leurs moyennes
auront une distribution qui tendra à approcher la distribution
Normale.
Il est souvent possible de calculer que 95% d’entre elles se
situeront entre telle valeur minimum et telle valeur maximum,
…et que 99% d’entre elles se situeront entre telle valeur
minimum et telle valeur maximum
L’intervalle entre cette valeur minimum et cette valeur maximum
s’appelle l’intervalle de confiance
D Gile concepts de stats
44
Qu’est-ce qui justifie ces inférences ? (2)
On peut dire quelque chose d’analogue des différences moyennes
entre les moyennes de deux échantillons qui correspondent
respectivement à deux populations.
Si ces deux populations sont la même,
95% de ces différences se trouveront à l’intérieur d’un certain
intervalle de confiance
99% de ces différences se trouveront à l’intérieur d’un autre
intervalle de confiance
La moyenne de deux échantillons tirés respectivement dans les
deux populations peut être considérée comme représentative de la
distribution des moyennes d’échantillons tirés de manière
répétitive
D Gile concepts de stats
45
Si la différence entre ces moyennes se situe à
l’extérieur…
…de l’intervalle de confiance de 95% (ou de 99%) que calculera
votre test
Vous pouvez considérer qu’elle est « significative », (ou
« hautement significative » respectivement)
Puisque cette différence ne surviendrait que dans moins de 5%
(ou 1% respectivement) des échantillons que vous tireriez si
les deux populations étaient identiques
D Gile concepts de stats
46
IMPORTANT (1)
1. Quand les données et les calculs indiquent une différence
significative à un certain niveau
(p < 0,05 ou p < 0,01 par exemple)
Ils indiquent des probabilités, pas une certitude.
C’est l’homme qui décide s’il va considérer être suffisamment
certain ou non
2. Les différences significatives ne disent rien sur l’ampleur des
différences. Elles ne disent que la nature de ces différences,
probablement liées à autre chose qu’à une variabilité aléatoire.
D Gile concepts de stats
47
IMPORTANT (2)
3. Souvent, les tests se fondent sur certaines distributions
mathématiques et sur certaines conditions (tests
« paramétriques » ou parametric tests)
(taille minimum des échantillons, distribution d’un certain type
dans la population, conditions de dispersion…)
Si votre cas n’y correspond pas tout à fait,
Les résultats de ces tests ne sont pas fiables
4. Il existe aussi des tests qui se fondent sur une absence de
connaissance de la distribution de la variable en question. Ils
sont appelés tests « non-paramétriques » ou non parametric
tests.
Ils sont moins puissants que les tests paramétriques, ce qui veut
dire qu’ils ont une capacité moindre à détecter des différences
significatives
D Gile concepts de stats
48
IMPORTANT (3)
4. Si l’un des échantillons est biaisé
On ne saurait extrapoler les résultats à l’ensemble de la
population
En augmentant la taille de l’échantillon
On réduit la taille des intervalles de confiance,
Ce qui donne davantage de « puissance » au test,
Mais on n’élimine pas le biais
(sauf quand on en arrive à des échantillons qui couvrent
quasiment la totalité de la population)
D Gile concepts de stats
49