Document 7615728

Download Report

Transcript Document 7615728

STT-2000
Échantillonnage
Pierre Duchesne
courriel: [email protected]
téléphone: 343-7267
bureau: 4251
web: www.dms.umontreal.ca/~duchesne
Version: 27 juillet 2014
Plan de cours






2
1.
2.
3.
4.
5.
6.
Structure d’une enquête par sondage.
Méthodes d’échantillonnage.
Utilisation de variables auxiliaires.
Sondages empiriques.
Types d’erreur de sondage.
Méthode de Monte Carlo.
STT-2000;
Échantillonnage
Barême

Le barême proposé est le suivant:
–
–
–
–
Examen intra : 30%.
Examen final : 40%.
Sondage : 7.5%.
Devoirs : 7.5% x 3 = 22.5%.
Ouvrages de référence
Lohr (2009), Sampling : Design and Analysis, Seconde
édition, NY: Duxbury Press.
Särndal, Swensson et Wretman (1992), Model Assisted
Survey Sampling, NY: Springer-Verlag
(Obligatoire)(Fortement
recommandé).
STT-2000;
3
Échantillonnage
Échantillonnage (STT-2000)
Section 1
Structure d’une enquête par sondage.
Qu’est ce qu’un sondage?

Dans la société actuelle, nous avons besoin
d’une grande quantité d’information qui doit
être précise.
–
–
–
5
Préférences, choix.
Besoins.
Comportement des individus.
STT-2000;
Échantillonnage
Qu’est ce qu’un sondage?


La partie la plus visible du grand public sont les
sondages d’opinion.
De manière générale, on peut considérer que
ceux qui ont besoin des sondages sont:
–
–
–
6
Gouvernements.
Entreprises.
Institutions sociales.
STT-2000;
Échantillonnage
Qu’est ce qu’un sondage?


La partie la plus visible du grand public sont les
sondages d’opinion.
De manière générale, on peut considérer que
ceux qui ont besoin des sondages sont:
–
–
–
7
Gouvernements.
Entreprises.
Institutions sociales.
STT-2000;
Échantillonnage
Industries des sondages

Secteur gouvernemental
–

Secteur privé
–

Universités, hôpitaux.
Gestion, affaires
–
8
Gallup, Harris Survey, Reid. Ces agences sondent l’opinion
publique sur des « sujets chauds ».
Recherche
–

Statistique Canada, Institut de la statistique du Québec, U.S.
Bureau of Census
Études de marché, marketing.
STT-2000;
Échantillonnage
Définition d’un sondage
9

Méthode de collecte de l’information sur un
échantillon d’individus (unités). Ces unités
pourraient être des humains, des animaux, des
maisons ou encore des entreprises.

Remarque: l’échantillon n’est qu’une fraction de la population,
contrairement à un recensement où tous les membres de la
population sont étudiés.
STT-2000;
Échantillonnage
Exemples de sondages


10
Exemple 1:Un échantillon de personnes aptes
à voter est questionnée à l’avance sur une
élection pour déterminer comment le public
perçoit un candidat et les résultats.
Exemple 2: Département de la santé publique
veut déterminer la proportion des enfants allant
à l’école primaire qui ont été vaccinés contre les
maladies infentiles (polio, tétanos, etc).
STT-2000;
Échantillonnage
Concentrons-nous sur le second exemple


Pour des raisons administratives: un mois.
Option 1
–
On réunit le personnel nécessaire et on va voir
chaque enfant dans la région/province.


Option 2
–
On choisit un échantillon représentatif, c’est-à-dire un
sous-ensemble de toutes les mesures, la population.

11
Frais du personnel? Temps? Frais de déplacement?
Contraintes de coûts?
Pour une fraction du coût, permet de gagner du temps.
STT-2000;
Échantillonnage
Erreurs lorsque l’on dispose d’un
échantillon (SSW, p. 14; Lohr, p.15)

Erreurs dues à l’échantillonnage.
–

Erreurs non dues à l’échantillonnage.
–

12
Erreurs de mesures; biais de sélection.
Biais de sélection (Lohr; p. 4)
–

Échantillon n’est pas la population.
Représentation exagérée d’une partie de la population; Souscouverture de la population; doubles dans la base de sondage;
interviewer néglige certaines personnes; population cible n’est
pas la population échantillonnée; choix délibéré des personnes
à interviewer; non-réponse.
Avec un recensement, qu’en est-il?
STT-2000;
Échantillonnage
Échantillon versus
recensement

Un échantillon est souvent plus fiable qu’un
recensement!

Il ne faut pas penser strictement en termes
mathématiques!
Il est vrai qu’avec un échantillon, pas d’erreurs
quantitatives dues à l’échantillonnage.
Cependant, les ressources nécessaires pour effectuer
un recensement peuvent être telles que:


–
–
–

13
Besoin de personnel qualifié en quantité suffisante.
Travail bâclé s’il est trop d’envergure.
Jamais à l’abri de la non-réponse pouvant fausser les
résultats.
Avec un échantillon, on peut mobiliser les ressources
afin de contrôler la qualité de l’information recueillie.
STT-2000;
Échantillonnage
Comment choisir l’échantillon?

À l’aveuglette? NON!
–

Parmi les volontaires? NON!
–

Sur les questions sensibles, seulement ceux qui se sentent
concernés sans être compromis sont susceptibles de participer.
NON aux SLOPS! (self-selected opinion polls)
–
–
14
On veut une méthode objective.
Sondages télé où les gens appellent; lignes ouvertes.
Les gens avec des préjugés, fortes opinions (souvent négatives)
s’expriment souvent sur ces questions (avortement, racisme,
etc).
STT-2000;
Échantillonnage
Comment choisir l’échantillon? (suite)


15
On veut une méthode scientifique telle que
chaque personne dans la population possède
une chance mesurable (que l’on peut quantifier)
de sélection.
Commenter l’affirmation suivante: pour
obtenir un échantillon, il faut que chaque unité
possède une chance égale de faire partie de
l’échantillon. (ATTENTION au piège!)
STT-2000;
Échantillonnage
Avantages de la méthode scientifique



16
Avec la méthode scientifique, tout le monde se
voit poser les mêmes questions dans le même
ordre.
On peut projeter les résultats de l’échantillon
sur toute la population.
Le but d’un sondage n’est pas de décrire un
individu en particulier. On veut une image, un
profil, de la population.
STT-2000;
Échantillonnage
Taille de l’échantillon?

C’est quoi le n?
On va y revenir! Il faut introduire des critères.
– De manière générale, cela dépends de la qualité de l’information
que l’on désire.
– Dans les sondages nationaux, souvent n=1000 fait l’affaire.
Si 1000 individus peut refléter plusieurs caractéristiques de la
population qui peut comporter des millions d’individus, cela donne
un poids à l’utilisation des sondages en pratique.
–


17
Remarque: dans une population de 100 000 ou 1 000 000 d’individus, n=1000
fournira une précision comparable. La taille de la population n’est pas une
considération si importante que ça.
STT-2000;
Échantillonnage
Les étapes d’un sondage
1. Sélection d’un échantillon.
 2. Collecte de données.
 3. Vérification et imputation.
 4. Estimation et analyse.
 5. Publication des résultats.

18
STT-2000;
Échantillonnage
Sélection d’un échantillon


On doit procéder à l’identification de la
population cible; population visée?
Construction d’une base de sondage.
–
–
19
Idéalement, on tente de trouver une base de sondage
existante. Sinon, l’on doit en construire une.
Une base de sondage contient la numérotation de
tous les éléments de la population cible; elle contient
des étiquettes.
STT-2000;
Échantillonnage
Base de sondage versus
population visée

Choses à être conscient:

Est que la base de sondage corresponds à la
population visée?
Si on s’intéresse à la population québécoise et
que l’on utilise les listes de téléphone, est-ce
que la population cible = base de sondage?
On peut contourner certaines difficultés?
Conséquences sinon?



20
STT-2000;
Échantillonnage
1. Sélection d’un échantillon



21
Une fois que l’on dispose d’une base de
sondage, on cherche à choisir un échantillon s
dans la population:
 U={1,2,…,k,…,N}.
On aura ainsi que sU.
Pour obtenir l’échantillon, on procède à un
échantillonnage, c’est-à-dire que l’on procède à
une sélection dans U selon un plan
d’échantillonnage p.
STT-2000;
Échantillonnage
2. Collecte des données

On a besoin d’instruments
–
–
–
–

Pour l’enregistrement
–
22
Téléphone (méthode CATI).
Interview personnelle (interviewer qui se déplace à la
maison) (méthode CAPI).
Courrier (mail surveys). Doit retourner un
questionnaire.
Accès Internet.
Papier/crayon versus ordinateur (CATI/CAPI)
STT-2000;
Échantillonnage
Méthode CATI (Computer assisted telephone
interview)





23
L’interviewer a devant lui un ordinateur.
Les questions apparaissent à l’écran.
La personne interviewée réponds et les données sont
immédiatement entrées.
Avantages: ordre dans les questions toujours le même,
rapide, qualité.
Inconvénients: peut être dispendieux à mettre en
œuvre pour les petites boîtes et pour les sondages nonrépétés (occasionnels).
STT-2000;
Échantillonnage
Méthode CAPI (Computer assisted personal
interview)



24
L’interviewer se présente chez les gens avec
un ordinateur portatif (laptop).
L’interviewer ou le répondant peut entrer
directement les réponses.
Exemple: le sondage mensuel CPS (Current
Population Survey) de la population américaine
utilise un mélange des méthodes CAPI/CATI.
STT-2000;
Échantillonnage
Interviewers


Traditionnellement, travail à temps partiel.
De plus en plus, être interviewer est un travail
à plein temps dans les grosses boîtes.
–
–
–
25
Entraînement,
Formation,
Etc.
STT-2000;
Échantillonnage
Questionnaire (Lohr, p.10)



26
Nécessite la présence des « experts du sujet »
(sociologues, psychologues).
Les questions doivent être validées.
Exemple: Aux USA, dans un sondage NBC/Wall Street
J.
– 1. Êtes-vous en faveur de couper dans les
programmes tels la sécurité du revenu, les soins
médicaux, les subventions agricoles afin de réduire
de déficit?
– 2. Êtes-vous en faveur de coupures
gouvernementales afin de réduire le déficit?
STT-2000;
Échantillonnage
Résultats du sondage NBC/Wall
Street J.

Gens qui ont répondus à la première question:
–
–
–

Gens qui ont répondus à la seconde question:
–
–
–
27
Pour: 23%
Contre: 66%
Sans opinion: 11%.
Pour: 61%
Contre: 25%
Sans opinion: 14%.
STT-2000;
Échantillonnage
3. Vérification et analyse

Si pas déjà dans un fichier ordinateur, alors il
faut procéder à une transcription des données.
–

Codification. Parfois les logiciels traitent seulement
l’information chiffrées.
– Variable Sexe; 1=H, 2=F.
Vérification
–
Est-ce que l’information est cohérente?

–
28
Date de naissance: 29/03/90; Permis de conduire: Oui.
Vérification manuelle/automatique.
STT-2000;
Échantillonnage
Imputation (SSW, Chap. 15)

L’information peut être manquante.
–
–
Questionnaire non-rendu.
Trous dans le questionnaire



29
Non-réponse par item (au moins une question est
répondue mais pas toutes)
Non-réponse par unité (la personne ou l’unité ne donne
aucune réponse).
Dans de tels cas, il peut être envisagé de
procéder à de l’imputation. Imputation:
méthodes pour boucher les trous.
STT-2000;
Échantillonnage
Méthodologie dans un recensement

Il est intéressant de noter que si un
recensement est entrepris, beaucoup de la
méthodologie des sondages doit être mise en
œuvre:
–
–
–

30
Base de sondage à créer, valider,
Personnel à former pour les interviews,
Etc.
Rappelons les sources d’erreurs reliées à un
recensement…
STT-2000;
Échantillonnage
4. Estimation et analyse

31
On doit choisir un estimateur pour chaque
paramètre à estimer de la population finie.
Exemples:
1
y
– Moyenne. y

U
U k
N
tyU
y
U k
–
Total.
–
1
2
Variance. S
(
y

y
)

U
Uk
N

1
STT-2000;
2
yU
Échantillonnage
Estimations ponctuelles

Une estimation ponctuelle consiste en un seul
chiffre pour estimer un paramètre.

On pourrait le noter:

Un seul chiffre n’est cependant suffisant pour
apprécier de la qualité de l’estimation. On utile
un estimateur de la variance:
ŷU
 
Vˆ yˆU
32
STT-2000;
Échantillonnage
Estimateurs
33

En fait, le chiffre qui servira à estimer le
paramètre inconnu est un estimateur.

Un estimateur est une variable aléatoire. Pour
chaque échantillon possible, l’estimateur prend
une certaine valeur.

La distribution de l’estimateur est obtenue sur
l’ensemble de tous les échantillons possibles.
STT-2000;
Échantillonnage
V versus V chapeau

Remarque: On aimerait idéalement utiliser la
vraie variance de l’estimateur:
 
ˆU
V y

34
Cependant, cette dernière est inconnue en
pratique.
STT-2000;
Échantillonnage
Estimation par intervalles de confiance

Un intervalle de confiance de niveau 95% pour
le paramètre moyenne est donné par
 
ˆy
ˆU
ˆU
y
1
.96
V

35
Pour que cet intervalle marche, que faut-il?
STT-2000;
Échantillonnage
5. Publication des résultats



La dernière étape du sondage consiste à publier les
résultats.
Cette étape ne doit pas être prise à la légère.
On devrait retrouver:
–
–
–
Conditions de la réalisation du sondage.
Lignes de conduite (dans la précision des résultats).
Discussions des erreurs



Présentation de l’information
–
36
Erreurs non dues à l’échantillonnage.
Erreurs dues à l’échantillonnage.
Tableaux, graphiques, couleurs, etc.
STT-2000;
Échantillonnage