L`ECHANTILLONNAGE : QUELQUES PRINCIPES

Download Report

Transcript L`ECHANTILLONNAGE : QUELQUES PRINCIPES

L’ECHANTILLONNAGE : QUELQUES
PRINCIPES
Daniel Gile
[email protected]
www.cirinandgile.com
Gile Echantillonnage
1
POURQUOI L’ECHANTILLONNAGE (1)
Dans la recherche scientifique
On cherche souvent (mais pas toujours)
à généraliser à partir d’un nombre d’observations
limitées
parce qu’on n’a accès qu’à une partie de la réalité
Si la réalité était homogène
Il suffirait d’une observation
(ou deux ou trois pour s’assurer que l’on n’a pas
commis d’erreurs dans l’observation)
Gile Echantillonnage
2
POURQUOI L’ECHANTILLONNAGE (2)
Mais la réalité est généralement complexe
et présente de la variabilité
Il faut donc trouver un moyen de s’assurer
(dans la mesure du possible)
que la partie de la réalité que l’on va pouvoir mesurer
« représentera » bien celle-ci
L’échantillonnage comme méthode
ou ensemble de procédés
vise à assurer que, dans la mesure du possible,
La partie de la réalité que l’on va pouvoir mesurer
sera aussi proche que possible de la réalité
Gile Echantillonnage
3
REPRESENTATIVITÉ ET ERREUR
D’ECHANTILLONNAGE
La caractéristique principale que l’on cherchera dans
l’échantillon constitué est sa « représentativité »
En statistique, cela ne veut pas dire qu’il aura les mêmes
caractéristiques que la totalité du phénomène que l’on souhaite
étudier (la ‘population’)
Un certain écart est toujours possible, et même très probable.
Cet écart s’appelle « erreur d’échantillonnage » bien qu’il
ne s’agisse pas d’une « erreur » au sens de « faute »
La ‘représentativité’ désigne l’absence de biais, c.a.d.
l’absence d’une déviation systématique dans un sens donné
(généralement soit plus, soit moins)
entre les valeurs mesurées sur l’échantillon et la ‘population’
Gile Echantillonnage
4
ECHANTILLON ET POPULATION
Il est convenu, en statistiques, de parler d’une « population »
L’ensemble des individus ou entités qui intéressent le chercheur
(personnes, animaux, objets, événements, situations)
L’échantillon étant un sous-ensemble d’entités de cette même
« population »
L’échantillon a une certaine « taille », à savoir le nombre
d’entités dont il se compose
Gile Echantillonnage
5
CARACTERISTIQUES MESUREES DANS
L’ECHANTILLON
En général, on mesure dans l’échantillon la valeur d’un
indicateur pour estimer sa valeur dans la population
(pourcentage de chômeurs, note moyenne des étudiants, temps
d’accomplissement d’une tâche, etc.)
Deux calculs très importants sont celui de la moyenne de cette
valeur dans l’échantillon
Et celui de l’écart-type, qui est une estimation de la variabilité
des valeurs constatées autour de la moyenne.
La moyenne est une estimation de la moyenne de la valeur dans
la population
L’écart-type nous renseigne sur le degré d’incertitude due à la
variabilité (par opposition à des erreurs) de cette estimation
Gile Echantillonnage
6
ECHANTILLON REPRESENTATIF OU BIAISÉ 1
Dans un échantillon représentatif, le hasard fera que la
moyenne de la valeur mesurée sera soit supérieure, soit
inférieure à la moyenne de la population, sans qu’on
sache si elle y est supérieure ou inférieure.
En principe, si on constitue un premier échantillon
représentatif, puis un second, puis un troisième et ainsi de
suite, le hasard fera que les moyennes pour chaque
échantillon seront distribuées de manière plus ou moins
symétriques autour de la moyenne de la population.
La moyenne d’une ensemble de moyennes d’échantillons
devrait être plus proche de la moyenne de la population
que chacune des moyennes des échantillons individuels
Gile Echantillonnage
7
ECHANTILLON REPRESENTATIF OU BIAISÉ 2
A terme, quand on aura constitué un très grand nombre
d’échantillons représentatifs, la moyenne de leurs
moyennes sera très proche de la moyenne de la
population
Dans un échantillon biaisé, la moyenne aura tendance à être
systématiquement supérieure (ou inférieure) à celle de la
population, et cette tendance persistera même quand on
constituera un grand nombre d’échantillons.
Gile Echantillonnage
8
ERREUR D’ECHANTILLONNAGE ET TAILLE
DE L’ECHANTILLON
On peut réduire la variabilité relative dans l’échantillon en
augmentant sa taille, mais cette réduction est proportionnelle
non pas à l’augmentation de la taille, mais à la racine carrée de
cette augmentation.
Autrement dit, pour la réduire de moitié, il faut multiplier la taille
de l’échantillon par 4. Pour la réduire de 75%, il faut multiplier
la taille de l’échantillon par 16.
Ca n’est pas nécessairement très intéressant, parce que ça peut
être coûteux, sans que cela nous rapproche suffisamment de la
moyenne de la population
C’est pour cela qu’on ne cherche pas, en général, à constituer des
échantillons de plusieurs milliers d’entités
Gile Echantillonnage
9
REDUIRE L’ERREUR D’ECHANTILLONNAGE
On peut aussi améliorer la représentativité d’un échantillon par
des méthodes d’échantillonnage plus précises que le simple
échantillonnage aléatoire sur l’ensemble de la population
Par exemple, si l’on sait que dans une population donnée, il y a
70% de membres d’un groupe ethnique majoritaire A,
20% de membres d’un groupe ethnique minoritaire B
10% de membres d’un groupe ethnique minoritaire C
Dans échantillon aléatoire simple de 100 personnes, tirage au sort
peut aboutir à sur- ou sous-représentation de certains groupes
ethniques, ce qui risque de biaiser les résultats de l’étude
On peut donc choisir délibérément de tirer au sort de manière
aléatoire 70, 20 et 10 personnes de chaque groupe
respectivement
C’est ce qu’on appelle l’« échantillonnage stratifié »
Gile Echantillonnage
10
MAIS S’IL Y TANT D’INCERTITUDE, DES
INFERENCES SONT-ELLES JUSTIFIEES ?
Des calculs mathématiques permettent d’estimer la
probabilité que la moyenne calculée sur l’échantillon
représentatif se trouve à une certaine distance de la
moyenne (non connue) de la population.
Ce n’est qu’une estimation, mais elle a de bonnes chances
d’être vraie.
Une réplication avec un nouvel échantillon devrait
l’améliorer, sans toutefois parvenir à une certitude.
Et ainsi de suite
Gile Echantillonnage
11
COMMENT SAIT-ON QU’UN ECHANTILLON
EST REPRESENTATIF (N’EST PAS BIAISÉ ?)
En éliminant tout risque de biais
Le seul moyen de l’éliminer à coup sûr, c’est de procéder
par échantillonnage aléatoire,
où chaque entité dans la population a la même probabilité
d’être incluse dans l’échantillon.
On peut le faire avec une table de nombres aléatoires, ou par
voie informatique
(l’ordinateur génère une série quasi-aléatoire)
Mais tout « système » humain où intervient un raisonnement
autre que celui de la génération de phénomènes aléatoires
risque d’introduire un biais caché
Gile Echantillonnage
12
ET DANS LA REALITÉ ?
Dans la réalité des sciences humaines et sociales, il est rare de
pouvoir faire de l’échantillonnage aléatoire,
Ne serait-ce que parce qu’on ne dispose que rarement d’une liste
complète de toutes les personnes faisant partie d’une
population
Et que même si on l’avait, on n’aurait pas accès à tout le monde
On a donc recours à un échantillonnage non aléatoire, de
commodité ou de proximité (convenience sampling), ou de
volontariat
Dans ces conditions, on n’est jamais certain que l’échantillon
n’est pas biaisé.
Gile Echantillonnage
13
INCIDENCES ? (1)
Cela n’invalide pas totalement la démarche,
Surtout si on fait de son mieux pour que l’échantillon soit
représentatif
En fonction des connaissances et des hypothèses du
chercheur.
Mais on n’a aucune certitude, et l’évaluation de la fiabilité
des résultats a une part de subjectivité et d’arbitraire
Gile Echantillonnage
14
INCIDENCES ? (2)
La prudence scientifique dicte donc, dans ces conditions,
Une certaine prudence dans les conclusions.
On peut faire des analyses statistiques,
Mais en les présentant,
On rappellera que l’échantillon n’est pas nécessairement
représentatif
Quand on sait que l’échantillon fait partie d’un sousensemble bien défini de la population
(jeunes, originaires de tel pays, étudiants etc.)
il est bon de souligner également que l’on a conscience d’un
éventuel biais propres aux caractéristiques de ce sousensemble.
Gile Echantillonnage
15
INCIDENCES ? (3)
La prudence scientifique dicte donc, dans ces conditions,
Une certaine prudence dans les conclusions.
On peut faire des analyses statistiques,
Mais en les présentant,
On rappellera que l’échantillon n’est pas nécessairement
représentatif
Quand on sait que l’échantillon fait partie d’un sousensemble bien défini de la population
(jeunes, originaires de tel pays, étudiants etc.)
On peut éventuellement généraliser à ce sous-ensemble…
et souligner que l’on a conscience d’un éventuel biais
propres aux caractéristiques de ce sous-ensemble.
Gile Echantillonnage
16
INCIDENCES ? (4)
Autrement dit, à moins que l’échantillon soit véritablement
aléatoire
Toute généralisation ne peut être que provisoire
.. et les résultats d’une seule étude ne démontrent rien
Ce n’est qu’à travers l’accumulation de résultats
convergents
que l’hypothèse d’une généralisabilité gagne de plus en plus
de poids
Gile Echantillonnage
17
ECHANTILLONNAGE ET ETUDES DE CAS
Mais alors, en quoi les études sur échantillons diffèrent-elles
d’études de cas (sur un cas unique) ?
Après tout, l’accumulation de résultats convergents sur des études
de cas n’a-t-elle pas le même effet que
l’accumulation d’études sur échantillons ?
Si, mais les études sur échantillons sont plus puissantes,
puisqu’elles sont susceptibles de réduire la variabilité
par rapport aux études de cas,
La moyenne d’un échantillon étant a priori plus proche
de la moyenne de la population qu’une seule valeur tirée au
hasard
Le problème du biais demeure
Les études de cas demeurent légitimes, et permettent parfois
d’aller plus en profondeur que les études sur échantillon
Gile Echantillonnage
18