L`analyse de données recueillies au moyen d`enquêtes à plan

Download Report

Transcript L`analyse de données recueillies au moyen d`enquêtes à plan

Programmes de maîtrise et de doctorat en démographie
Modèles de risque et de durée
Cours 3
Séance du 24 janvier 2014
Benoît Laplante, professeur
Plan
 Les mondes de la statistique
 L’analyse de données recueillies au moyen d’enquêtes à plan
complexe
 La relation entre la population, l’échantillon et le modèle en analyse
longitudinale
Les mondes de la statistique
… que doit fréquenter tout chercheur.
 La statistique « tout court »
 La statistique mathématique
 La statistique d’enquête
 La statistique de modélisation
Gustave Flaubert, Bouvard et Pécuchet. Paris: Gallimard :1979 (Folio), p. 205.
Les mondes de la statistique
La statistique « tout court »
Elle consiste à décrire les caractéristiques de l’État.
Elle est essentiellement descriptive.
Elle n’est pas probabiliste.
Au sens premier, la statistique sociale est descriptive,
populationnelle et non probabiliste.
 Elle se fait au moyen de l’arithmétique élémentaire et on peut la
pratiquer sans rien connaître des mathématiques.




Les mondes de la statistique
La statistique mathématique
Le petit Robert
Les mondes de la statistique
La statistique mathématique
 La statistique mathématique comprend elle-même deux mondes :
 la statistique d’enquête (ou d’« échantillonnage ») et
 la statistique de modélisation (ou d’« analyse »).
Les mondes de la statistique
La statistique mathématique
 La statistique d’enquête
 La population est finie.
 On cherche à mesurer un caractère dont la valeur précise existe
nécessairement.
 En principe toute l’imprécision vient de l’erreur d’échantillonnage.
 On peut réduire cette imprécision en tirant des échantillons au sein de
sous-populations relativement homogènes.
 On se trouve ainsi à décomposer l’erreur d’échantillonnage.
Les mondes de la statistique
La statistique mathématique
 La statistique d’enquête
 Le but est de mesurer et de décrire.
 Au mieux, on décrira des sous-populations définies par les modalités
d’un ou plusieurs caractères.
 La théorie des probabilités sert à modéliser l’imprécision de la mesure
due à l’échantillonnage, jamais les processus sociaux.
Les mondes de la statistique
La statistique mathématique
 La statistique de modélisation
 On présume que les unités qui composent le monde sont créées par un
modèle dont une composante est déterministe et l’autre est aléatoire.
 Dans sa version la plus simple, toute la dispersion est générée par la
composante aléatoire du modèle.
 On cherche à estimer les paramètres de ce modèle.
 On présume que l’échantillon dont on dispose est tiré de manière
aléatoire simple de la population infinie que peut générer le modèle.
L’analyse de données recueillies au moyen d’enquêtes à plan
complexe





La notion de superpopulation
L’échantillonnage au sein des populations infinies
L’échantillonnage au sein des populations finies
L’estimation pondérée
L’estimation robuste de la variances des estimations :
 la correction de Kish,
 la méthode d’Huber-White,
 les méthodes de rééchantillonnage.
L’analyse de données recueillies au moyen d’enquêtes à plan
complexe
La notion de superpopulation
 La population finie est générée par le modèle.
 La population finie est un échantillon tiré au sein de la population
infinie que peut générer le modèle.
 L’échantillon de l’enquête est tiré de cette population finie.
 L’échantillon est donc lui-même tiré dans un échantillon.
 Les estimations ponctuelles calculées à partir de cet échantillon (qui
sont des estimations des paramètres de la population finie) sont
également des estimations des paramètres du modèle.
 Les estimations des variances de ces estimations doivent être
calculées en tenant compte du plan de sondage au sein de la
population finie.
L’analyse de données recueillies au moyen d’enquêtes à plan
complexe
Pourquoi utilise-t-on un plan de sondage complexe?
 Parce qu’on ne dispose pas d’un registre de la population dont on
pourrait tirer des échantillons aléatoires simples.
 Pour réduire le coût de la collecte.
 Pour réduire l’imprécision des estimations.
L’analyse de données recueillies au moyen d’enquêtes à plan
complexe
Les éléments d’un plan de sondage complexe
 Les strates
 Leur usage augmente la précision des estimations :
 à taille égale, un échantillon stratifié est plus puissant qu’un
échantillon aléatoire simple.
 Leur usage repose sur une décomposition de la variance analogue à
celle de l’analyse de variance :
 on distingue la variance intra-strates et la variance inter-strates.
 Les grappes
 Leur usage sert à réduire le coût de la collecte.
 Leur usage réduit la puissance de l’échantillon (c.-à-d. qu’il réduit la
précision des estimations) parce que celle-ci dépend du nombre
d’unités d’échantillonnage indépendantes.
L’analyse de données recueillies au moyen d’enquêtes à plan
complexe
L’usage d’un plan de sondage complexe
 On cherche à obtenir des strates dont chacune est homogène du
point de vue social et économique
 de manière à réduire la variance intra-strates.
 Le plan de l’Enquête sur la population active contient ainsi près de
300 strates.
L’analyse de données recueillies au moyen d’enquêtes à plan
complexe
L’estimation en statistique
 En français, on utilise le mot « estimation » pour nommer
 l’action d’estimer et
 le résultat de cette action.
 En anglais, on utilise
 le mot « estimation » pour nommer l’action d’estimer et
 le mot « estimate » pour nommer le résultat de cette action.
 On distingue l’estimation ponctuelle et l’estimation par intervalle.
L’analyse de données recueillies au moyen d’enquêtes à plan
complexe
L’estimation en statistique
 En principe, en statistique, on cherche à estimer la distribution qui a
généré l’échantillon dont on dispose.
 En pratique, on estime le ou les paramètres de cette distribution
dont on pose a priori qu’elle suit une loi de probabilité donnée et
connue,
 c.-à-d. dont on connaît l’expression algébrique des différentes fonctions
et dont les seuls éléments qui ont à être estimés sont les paramètres.
L’analyse de données recueillies au moyen d’enquêtes à plan
complexe
L’estimation en statistique
 On peut chercher à estimer la distribution du revenu.
 On posera par exemple qu’il suit une loi log-normale,
 c.-à-d. que son logarithme suit une loi normale,
 et on cherchera à estimer la moyenne et la variance de cette
distribution.
L’analyse de données recueillies au moyen d’enquêtes à plan
complexe
L’estimation en statistique
 Dans le cas qui nous occupe, on cherche plutôt à estimer la
distribution d’échantillonnage du coefficient d’un modèle linéaire,
 p. ex. la distribution du coefficient associé à une variable indépendante
dans une régression ou
 la distribution du rapport de risque associé à une variable indépendante
dans un modèle de risque.
 On sait que les coefficients des modèles linéaires suivent une loi
normale.
 On cherchera donc à estimer la moyenne et la variance de la
distribution d’échantillonnage de ces coefficients.
L’analyse de données recueillies au moyen d’enquêtes à plan
complexe
L’estimation en statistique
 Il est donc bon de comprendre que
 le coefficient d’un modèle linéaire est un paramètre du modèle qu’on
cherche à estimer,
 mais que ce coefficient est également un paramètre de sa propre
distribution d’échantillonnage.
L’estimation à partir de données recueillies au moyen d’enquêtes
à plan complexe
L’estimation ponctuelle
 L’estimation doit être pondérée dans tous les cas où la fraction
d’échantillonnage n’est pas la même pour toutes les unités
statistiques.
 Le poids d’échantillonnage est (au point de départ) l’inverse de la
fraction d’échantillonnage.
 En principe, il suffit d’utiliser les poids d’échantillonnage pour
obtenir des estimations ponctuelles sans biais.
L’estimation à partir de données recueillies au moyen d’enquêtes
à plan complexe
L’estimation par intervalle
 La chose est plus compliquée lorsqu’on veut estimer un intervalle
de confiance.
 Puisque le coefficient suit une loi normale, on peut construire un
intervalle de confiance si on dispose d’une estimation de son
erreur-type, c.-à-d. de l’écart-type de sa distribution
d’échantillonnage.
L’estimation à partir de données recueillies au moyen d’enquêtes
à plan complexe
L’estimation par intervalle
 Si on dispose d’un échantillon aléatoire
simple,
 le théorème de la limite centrale
s’applique et
 on dispose, pour les coefficients des
modèles linéaires, d’une solution
algébrique analogue à ce qui existe
pour la moyenne.
 Si on utilise des données recueillies au
moyen d’une enquête à plan de
sondage complexe,
 les choses sont plus complexes…
2
2
ˆ
ˆ


ˆ X2  X  X
 n 1
L’estimation à partir de données recueillies au moyen d’enquêtes
à plan complexe
 La correction de Kish
 La méthode dite de la linéarisation
 Les méthodes de rééchantillonnage
L’estimation à partir de données recueillies au moyen d’enquêtes
à plan complexe
L’effet de plan
 L’effet de plan est le rapport entre
 la variance d’une estimation obtenue à partir d’un échantillon à plan
complexe d’une taille donnée et
 la variance de la même estimation obtenue à partir d’un échantillon
aléatoire simple de la même taille.
 Autrement dit,
2

deff  C X2
S X
2

ˆ
et deff  C X2 .
S ˆ X
^
L’estimation à partir de données recueillies au moyen d’enquêtes
à plan complexe
La correction de Kish
 On multiplie la matrice des variances et des covariances obtenue
en présumant que l’échantillon a été tiré en suivant un plan
aléatoire simple par une estimation de l’effet de plan moyen.
 Il s’agit d’une correction approximative utile
 lorsqu’on met au point un modèle et qu’on veut tenir compte de l’effet
de plan sans utiliser une méthode de rééchantillonnage ou encore
 lorsqu’on utilise une enquête de Statistique Canada et qu’on dispose
d’une estimation de l’effet de plan moyen, mais pas de poids de
rééchantillonnage…
L’estimation à partir de données recueillies au moyen d’enquêtes
à plan complexe
La correction de Kish
Division de la statistique sociale et autochtone. Enquête sociale générale, Cycle 25 : Famille, Fichier de microdonnées
à grande diffusion, documentation et guide de l'utilisateur. Ottawa: Statistique Canada: 2013 (12M0025X), p. 25.
L’estimation à partir de données recueillies au moyen d’enquêtes
à plan complexe
La correction de Kish avec Stata


Après l’estimation, on exécute les instructions suivantes:
matrix b = get(_b)
matrix V = get(VCE)
matrix V = V*1.58
ereturn post b V
ereturn display
qui multiplient la matrice des variances et des covariances des estimations
par l’estimation de l’effet de plan moyen (ici, 1,58), affichent les résultats
corrigés et permettent de faire par la suite des tests à partir de la matrice
corrigée.
L’estimation à partir de données recueillies au moyen d’enquêtes
à plan complexe
Une approximation de la correction de Kish
 On peut obtenir un résultat approximativement égal à celui de la
correction de Kish
 en recalculant les poids d’échantillonnage de manière à ce que leur
somme soit le quotient de la taille de l’échantillon et de l’effet de plan.
 Les erreurs-types calculées en présumant un échantillon aléatoire
simple seront proches des erreurs-types corrigées par la méthode de
Kish.
L’estimation à partir de données recueillies au moyen d’enquêtes
à plan complexe
Une approximation de la correction de Kish
 pi   n 
ki     
 P  d 
 où





ki est le poids « corrigé »,
pi, le poids d’échantillonnage conventionnel,
P, la taille de la population et la somme des pi,
n, la taille de l’échantillon et
d, l’effet de plan.
L’estimation à partir de données recueillies au moyen d’enquêtes
à plan complexe
La méthode dite de « la linéarisation »
 La méthode dite de « la linéarisation » est connue sous plusieurs
autres noms :





la méthode de Taylor,
la méthode du sandwich,
la méthode d’Huber,
la méthode de White et
la méthode d’Huber-White.
L’estimation à partir de données recueillies au moyen d’enquêtes
à plan complexe
La méthode dite de « la linéarisation »
On la comprend en examinant l’estimateur de la
variance de la moyenne :
L
nh

nh
ˆ   1 fh 
Xi  Xh

nh  1 i 1
h 1
2
X

2
 où L est le nombre de strates dans la population,
 nh est le nombre d’unités primaires d’échantillonnage dans chaque
strate h, et
 fh est le rapport du nombre de grappes de cette strate et du nombre
total de grappes au sein de cette strate.
L’estimation à partir de données recueillies au moyen d’enquêtes
à plan complexe
La méthode dite de « la linéarisation »
 Pour utiliser la méthode dite de la linéarisation, on doit disposer
d’information détaillée sur le plan de sondage, c.-à-d. de la strate et
des grappes auxquelles appartiennent les unités finales qui ont été
échantillonnées.
L’estimation à partir de données recueillies au moyen d’enquêtes
à plan complexe
La méthode du « bootstrap »
 Pourquoi utiliser une méthode de rééchantillonnage et pourquoi
celle-là ?
 Parce que Statistique Canada n’inclut jamais la grappe et la strate
auxquelles appartiennent les unités finales afin de ne pas permettre
leur identification.
 Parce que, pour garantir la confidentialité, les poids contiennent une
part de « bruit » aléatoire dont la méthode de Taylor ne peut pas tenir
compte.
 Parce que la méthode de Taylor ne peut pas être utilisée lorsqu’on ne
dispose que d’une seule grappe au sein d’une strate, ce qui arrive
lorsqu’on utilise un sous-échantillon.
 Parce que la méthode dite du « jackknife » demande que l’on tire
autant d’échantillons qu’on a d’unités finales d’échantillonnage.
L’estimation à partir de données recueillies au moyen d’enquêtes
à plan complexe
La méthode du « bootstrap »
 On tire plusieurs échantillons de grappes au sein de l’échantillon
original.
 On recalcule les poids finaux dans chacun de ces échantillons de
manière à ce que chacun soit un échantillon isomorphe et
probabiliste de la population finie.
 On estime le modèle à partir de chacun de ces échantillons.
 On calculer la variance et la covariance des estimations obtenues
de cette manière.
L’estimation à partir de données recueillies au moyen d’enquêtes
à plan complexe
Usage de la méthode du « bootstrap » avec Stata
 Normalement, on utilise les poids de « bootstrap » en se servant de
l’instruction –svyset– pour déclarer qu’on utilise des données qui
proviennent d’un échantillon à plan complexe et des poids de
« bootstrap ».
L’estimation à partir de données recueillies au moyen d’enquêtes
à plan complexe
Usage de la méthode du bootstrap avec Stata
 Dans certains cas, il peut être utile d’utiliser deux petits
programmes écrits par le professeur à partir d’un travail original de
Darren Lauzon: les programmes –bts– et –stbts–.
 Ces programmes sont parfois utiles parce que les instructions de
« bootstrap » de Stata
 ne permettent pas d’ajouter des instructions supplémentaires lorsque
nécessaire.
 p.ex. pour orthogonaliser des variables,
 et ne permettent pas de de ne copier en mémoire vive qu’une partie
des poids de « bootstrap »
 ce qui peut être nécessaire lorsque Statcan offre 1 000 poids de
« bootstrap », mais que le système d’exploitation utilisé dans les CDR ne
permet pas d’utiliser plus de 750 Mo de mémoire vive.
L’estimation à partir de données recueillies au moyen d’enquêtes
à plan complexe
Le cœur de -btsmatrix b0 = e(b)'
matrix V = (b0 - b0)*(b0 - b0)'
foreach wname in `rw' {
qui `cmd' `varlist' `if' `in' , `cmdops'
matrix V = V + (e(b)' - b0)*(e(b)' - b0)'
local B = `B' + 1
if mod(`B',10)==0 di in gr "On a utilisé le `B'ème jeu de poids."
}
matrix b0 = b0'
matrix V = (`r'/`B')*V
ereturn post b0 V, dof(`dof')
ereturn display, level(`level') eform(`eform')
La relation entre la population, l’échantillon et le modèle en
analyse longitudinale
 Retour sur cette relation en analyse transversale « vraie »
 L’analyse longitudinale et l’échantillon prospectif
 L’analyse longitudinale et l’échantillon rétrospectif
La relation entre la population, l’échantillon et le modèle en
analyse longitudinale
Le cas de l’analyse transversale « vraie »
 L’échantillon est transversal et l’analyse porte strictement sur les
caractéristiques des individus telles qu’elles se trouvent au moment
de l’échantillonnage.
 Simultanéité: l’échantillon est un « cliché instantané » de la
population dont il est tiré.
 Le principal obstacle à la « représentativité » est le refus complet,
qui n’est généralement pas aléatoire.
La relation entre la population, l’échantillon et le modèle en
analyse longitudinale
Le cas de l’enquête prospective
 Au fil du temps, les unités qui composent la population et
l’échantillon changent
 Naissance, décès, émigration, immigration
 Autres formes d’entrée et de sortie de la population
 Vivre dans une institution (hôpital, prison)
 Au refus complet s’ajoute le problème de l’attrition.
La relation entre la population, l’échantillon et le modèle en
analyse longitudinale
Les solutions générales au problème de l’attrition
 « Rafraîchir l’échantillon »,
 c.-à-d. ajouter de nouveaux individus de manière à le rapprocher de la
population.
 Traiter l’attrition comme un refus complet et
 soit calibrer l’échantillon par poststratification et pondération,
 soit utiliser la méthode du donneur,
 c.-à-d. imputer à ceux qui ne répondent pas les réponses données
par un individu choisi au hasard parmi ceux qui possèdent les
même caractéristiques connues (strate, âge, sexe…) et qui ont
répondu.
La relation entre la population, l’échantillon et le modèle en
analyse longitudinale
L’enquête rétrospective
 L’échantillon de l’enquête rétrospective est un échantillon de
« survivants »:
 un individu est observé s’il est présent dans la population au moment
de l’échantillonnage;
 en conséquence, les individus qui faisaient partie de la population que
l’on cherche à reconstituer mais qui ne sont pas dans la population au
moment de l’échantillonnage sont exclus des états passés de la
population, notamment à cause
 des décès et
 de l’émigration.
 Donc, pas d’attrition, mais refus complet et absence de ceux qui
n’ont pas « survécu ».
La relation entre la population, l’échantillon et le modèle en
analyse longitudinale
L’enquête rétrospective
 En revanche, on peut traiter correctement l’immigration si l’on
connaît le moment de l’immigration :
 il suffit d’exclure les immigrants des calculs qui correspondent
aux moments de l’histoire où ils n’appartenaient pas encore à la
société où ils ont immigré.
La relation entre la population, l’échantillon et le modèle en
analyse longitudinale
L’enquête rétrospective
 La composition de l’échantillon de l’enquête rétrospective selon
l’âge à un âge donné est une fonction de l’âge des cohortes.
 Il n’y a pas d’autre solution que de tenir compte de la cohorte dans
les analyses.