RISCD 2008 Sources de données et méthodes de compilation Thierno Aliou BALDE Division de statistique des Nations unies Atelier régional pour les pays africains sur.

Download Report

Transcript RISCD 2008 Sources de données et méthodes de compilation Thierno Aliou BALDE Division de statistique des Nations unies Atelier régional pour les pays africains sur.

RISCD 2008
Sources de données et
méthodes de compilation
Thierno Aliou BALDE
Division de statistique des Nations unies
Atelier régional pour les pays africains sur la mise en oeuvre des Recommandations
internationales sur les statistiques du commerce de distribution
17-20 juin 2008, Bamako, Mali
Sommaire

Sources de données pour les SCD –
enquêtes statistiques, sources de
données administratives et bases de
sondage

Méthodes de compilation de données

Stratégie de collecte de données
Sources de données pour la
compilation des SCD
Processus de production des SCD – basé sur
des données collectées à partir de plusieurs
sources



Sources de données statistiques – les données
sont collectées spécifiquement à des fins
statistiques
Sources de données administratives – les données
sont crées initialement, à des fins autres que la
production de données statistiques
Sources de données statistiques
Enquêtes statistiques



Recensements économiques – enumération de toutes les unités de la
population; basé sur l’établissement d’un Registre d’entreprises;
permet l’établissement de bases de sondage pour les enquêtes
échantillon
Enquêtes-échantillon – collecte de l’information sur une partie de la
population sélectionnée de manière scientifique
Avantages des enquêtes statistiques sur les sources de données
administratives



Les procédures de planification, d’exécution, de collection de
données et de traitement sont contrôlées par l’office statistique
Les répondants ont moins de raison de donner des réponses
inadéquates car l’ONS garantit la confidentialité
Inconvénients





Utilisent beaucoup de ressources (aussi bien financières
qu’humaines)
Alourdissent fardeau de réponse
Taux élevés de non réponse
Erreurs d’échantillonnage
Recensement des unités du
commerce (1)
Types



Partie d’un recensement à l’échelle de toute l’économie
Recensement au niveau des sous-secteurs/activités du CD
uniquement
Avantages



Tend à fournir une énumération complète, à un point donné
dans le temps, des unités engagées dans l’activité
commerciale, incluant les unités du secteur informel
Permet la collecte de SCD à des niveaux de détail suffisants
pour les longs intervalles de temps
Inconvénients



Limité en terme de contenu des données
La planification, l’organisation et la conversion subséquente
des données du recensement en données SCD



Utilise beaucoup de temps et de ressources
Coûteux, impose un lourd fardeau de réponse aux répondants
Les taux de réponse peuvent être bas, ce qui peut affecter la
qualité de l’information collectée
Recensement des unités du
commerce (2)
Recommandations


La Conduite d’un recensement complet sur les
unités du commerce est recommandée lorsque:




Le pays ne possède pas un registre d’entreprises
statistique à jour
Besoin d’avoir des données statistiques détaillées par
région géographique
Les recensements doivent être suivis autant que
possible par des enquêtes-échantillons périodiques
(annuelles, trimestrielles et mensuelles)
Les recensements des unités du commerce ne
devraient pas être conduits s’il existe d’autres
moyens de collecter et produire des SCD de qualité
suffisante
Enquêtes sur les unités du commerce
(1)
Technique qui consiste à obtenir de
l’information sur toute la population à partir
d’une sous-population (échantillon)
sélectionnée de manière scientifique




Les conclusions (inférence) sur la population sont
faites à partir des estimés obtenus de
l’échantillon
Les enquêtes échantillon sont généralement
moins coûteuses que les recensements
Peuvent être utilisés en conjonction avec des
seuils
Enquêtes sur les unités du commerce
(2)
Enquêtes-échantillon sur le commerce
de gros et de détail



Diverses
Tendance à combiner plusieurs formes,
différenciées par la périodicité et les
caractéristiques des unités


activité, taille, forme légale, type d’opération
et types de variables
Parfois, d’autres caractéristiques telles
l’emplacement géographique, peuvent aussi
être prises en compte
Enquêtes sur les unités du commerce
(3)
Seuils sur la taille



La taille des unités joue un rôle important dans la
détermination de la population cible et, lorsque
nécéssaire, l’échantillon lui-même
La plupart des enquêtes échantillons sont
conduites pour les unités se trouvant au dessus
d’un certain seuil
Raisons à l’utilisation des seuils




Limiter la taille de l’enquête
Réduire le fardeau de réponse
Prise en compte des problèmes reliés à la mise à
jour des registres (pour les petites unités)
Enquêtes sur les unités du
commerce (4)
Seuils appropriés




Pas de recommandation internationale
Laissés au jugement de chaque ONS
Peut varier d’une enquête à une autre selon les
activités couvertes et la périodicité
Les pays sont encouragés à:



Évaluer périodiquement la sous-couverture dûe à
l’introduction de seuils
Inclure la description de tels seuils dans les
métadonnées
Types d’enquêtes sur les SCD (1)
Enquêtes-entreprises



Les unités échantillonales sont les entreprises (ou des unités
statistques appartenant à ces entreprises)
Présuppose la disponibilité d’une base de sondage


Base sous forme de liste – Registre d’entreprises ou liste
provenant de recensement
Base aréolaire – un échantillon de zones est sélectionné et les
entreprises y sont énumérées
Recommandations


Pour les enquêtes-entreprises, la base-liste devrait être
préférée à la base aréolaire



Plus éfficiente en termes de représentativité de l’échantillon et
aussi pour la maintenance de la base
La base aréolaire est inappropriée pour les grandes et moyennes
entreprises opérant dans plusieurs régions géographiques
L’approche de la base aréolaire devrait être utilisée pour les
petites entreprises opérant dans le segment informel (ou
inorganisé) de l’économie
Types d’enquêtes sur les SCD (2)
Enquêtes-ménages (EM)



les ménages sont les unités observées et aussi
les unités de reporting– assure la couverture de
la production des entreprises des ménages qui
sont très petites
Inconvénients


L’échantillon ne reflète pas une couverture
représentative des activités du commerce mais plutôt
une distribution des ménages
La distribution des ménages est différente de celle des
activités du commerce (les activités du commerce ont
tendance à se concentrer dans les zones commerciales)
Recommandations


Les EM sont recommandées pour la couverture
des entreprises non incorporées des ménages qui
ne sont pas reconnues en tant qu’entités légales
séparées de leurs propriétaires
Types d’enquêtes sur les SCD (3)
Enquêtes mixtes ménages-entreprises





Un échantillon de ménages est sélectionné et on demande à
chaque ménage si au moins un de ses membres possède et opère
une entreprise non incorporée
La liste des entreprises ainsi compilée est utilsée comme base à
partir de laquelle des entreprises sont sélectionnées pour fournir
l’information désirée
Par opposition aux enquêtes ménages, ces enquêtes mixtes
collectent l’information sur les entreprises et pas sur les
personnes des ménages comme telles
Inconvénients


Le design d’enquêtes n’est pas efficient
Difficultés de traiter les entreprises ayant des unités de production
dans plus d’un emplacement
Recommandations


Cette approche est préférée aux enquêtes ménages et aux
enquêtes entreprises à bases aréolaires lorsqu’il s’agit de
collecter des données pour estimer la production des petites
unités du commerce qui sont exclues des enquêtes entreprises à
bases de listes
Sources de données administratives (1)




Généralement mises en oeuvre en réponse à une
législation et/ou règlement
Chaque législation résulte en un registre des unités
Les pays doivent utiliser ces sources de données avec
prudence
Sources privées



Données obtenues à partir de fournisseurs du secteur privé
Le transfert de données vers les NSO prend la forme de
contrat moyennant le paiement d’une prime
Recommandations

Les producteurs de SCD doivent identifier et évaluer les SDA
disponibles dans leurs pays et utiliser celles qui sont les plus
appropriées à la compilation des SCD
Sources de données administratives (2)
Avantages






Couverture complète des unités et taux de non-réponse faibles
Evite le fardeau de réponse
Coûte moins cher aux ONS comparativement aux enquêtes
Adapté à la couverture du segment des petites unités de la population
dont la contribution est relativement faible mais qui représente un
pourcentage substantiel du nombre d’unités de la population
Erreurs d’échantillonnage plus faibles que dans les enquêtes, meilleure
précision
inconvénients






Ecart entre les données administratives et les concepts statistiques
Mauvaise adéquation (intégration) avec les autres données du système
statistique
Risque au niveau de la stabilité
Les données peuvent être disponibles mais avec parfois des délais
inacceptables
Contraintes légales sur l’accès et la confidentialité
Registre d’entreprises

Registre d’entreprises (RE) – recommandé comme étant
la source la plus appropriée pour dériver les bases de
sondage des enquêtes du CD



L’organisation et la conduite de toute enquête-entreprise sur les
unités du CD suppose la disponibilité d’une base de sondage
adéquate
Base de sondage – ensemble des unités susceptibles d’être
échantillonnées, avec tous les détails à leur sujet qui pourront
être utilisés à des fins de stratification, d’échantillonnage et de
contact
Registre d’entreprises statistique



Liste détaillée de toutes les entreprises et des autres unités
d’une économie nationale, avec leur caractéristiques
Utilisé pour la conduite des enquêtes, mais aussi utilisé comme
source d’information statistique
Facilite la classification des unités selon des standards
conceptuels établis et acceptés
Registre d’entreprises statistique (1)
Etablissement


Registres administratifs disponibles – forment le
point de départ pour l’établissement du RES



Lorsqu’un seul registre administratif est utilisé, le RES
résultant risque d’être déficient en termes de couverture et
de contenu et par conséquent générera des bases de
sondage inadéquates pour les enquêtes
Les pays sont encouragés à oeuvrer pour une amélioration
de la couverture et du contenu de leurs RES en utilisant
des données provenant de plusieurs sources de données
administratives
Besoin d’un identicateur unique pour chaque entreprise
Maintenance



Le RES doit être à jour
Doit être mis à jour régulièrement pour prendre en
compte les changements dans la dynamique des
entreprises
Registre d’entreprises statistique (2)
Sources pour l’établissement et la maintenance du
RES






Recensement économique- fournit une liste détaillée des
unités et de leurs caractéristiques
Sources de données administratives – TVA et autres
systèmes de taxes, fichiers maintenus par les gouvernemnts
pour la gestion de l’assurance-emploi, la sécurité (ou
assurance) sociale et autres programmes
‘Feedback’ des enquêtes-entreprises – fournit de
l’information nouvelle sur les changements d’adresse, la
fermeture d’entreprises, les changements dans l’activité
économique d’une unité, etc.
Enquêtes du RE – profil des entreprises
Autres sources potentielles - information provenant des
associations commerciales, répertoires téléphoniques ou
‘listings’ spéciaux préparés par les compagnies
téléphoniques, etc.
Profil des entreprises
Groupe d’Entreprises
- ‘holding company’
Entreprise à un
établissement
Unité locale
établissement
‘Holding enterprise’/
établissement servant
principalement à gérer
(contrôler) l’investissement
mainly as control investment
unit
Unité locale 1
établissement
Entreprise à établissements multiples
Unité locale 2
établissement
Unité locale 3
établissement
ancillaire
Méthodes de compilation de données
Processus de compilation de données





C’est plus qu’une simple agrégation des résultats obtenus
dans les cases des questionnaires remplis
En fait, les ONS effectuent de nombreuses opérations de
contrôle, de validation et aussi des procédures
statistiques, afin de rendre les données collectées aptes à
répondre au but statistique final
Les répondants des enquêtes statistiques– sujets à
des erreurs lors du ‘remplissage’ des
questionnaires
Les données sur les SCD collectées à partir des
enquêtes statistiques – affectées par des erreurs
de toutes sortes (erreurs de réponse et non réponse )
Validation des données et vérification
(1)
Fait partie intégrante des opérations de traitement
dans tous les types d’enquêtes statistiques
Servent à résoudre les problèmes de données
manquantes,
invalides
ou
des
réponses
inconsistantes
Vérification





Examen systématique selon des règles prédéterminées,
des données collectées afin d’identifier et éventuellement
corriger les valeurs inadmissibles, douteuses ou
improbables
Processus essentiel pour assurer la qualité de
l’information collectée
Types vérification



Micro-vérification (intrants) – se concentre sur la
vérification des enregistrements individuels
Macro vérification (extrants) – vérifie les données
agrégées
Validation des données et vérification
(2)
Vérification sélective




Consiste à établir un ordre de prorité sur les
enregistrements à vérifier, de sorte à réduire les coûts de
la vérification
Vise seulement les ‘champs’ des micro-données qui
pourraient avoir un impact significatif sur les résultats de
l’enquête sur les SCD
Recommandée pour la vérification des données du
commerce de distribution
Observations influentes



Réponses pour des variables particulières qui ont un
impact considérable sur les principaux estimés
Les efforts de vérification doivent être centrés sur elles
Validation des données et vérification
(3)
Contrôles de détection des erreurs
dans les données sur les SCD





Contrôles de routine – vérifie si toutes les
questions ont été répondues
Contrôles de validation – vérifie si les
réponses sont admissibles
Contrôles de rationalité – vérification
basée sur une analyse statistique des
données fournie par les répondants
Contrôles de plausibilité – utilisée pour
capter les grandes erreurs (aléatoires)
Imputations (1)
Données manquantes



Types de données manquantes

Non-réponse de ‘champ’ (ou partielle)– les données d’un
champ (ou cellule) particulier for a particular data item of
the questionnaire is missing

Non-réponse d’unité (ou totale)- L’unité sélectionnée n’a
pas retourné de questionnaire rempli
Techniques de traitement des données manquantes

Imputations

Repondération (mise à jour des poids d’échantillonage)


Existent dans la plupart des enquêtes statistiques sur le
CD
Posent problème pour la vérification
Imputations (2)
Remplacer une ou plusieurs réponses manquantes
ou erronées d’un enregistrement par des valeurs
plausibles et consistantes
Processus de ‘remplissage’ des cellules vides
Voies et moyens pour produire un questionnaire
complété à partir de valeurs imputées





Utilisée principalement dans le cas de non réponse
partielle
Substitution - Utilisée dans le cas de non réponse totale
lorsque:


Données disponibles sur l’unité dans les précédentes
périodes
Données disponibles sur l’unité à partir de sources
administratives
Imputations (3)
Méthodes d’imputation usuelles









Imputation par la Moyenne/mode
Post-stratification
Substitution
‘Cold deck’ – utilse un ensemble de valeurs
fixes, qui couvrent l’ensemble des variables
pertinentes
‘Hot deck’ – remplace chaque valeur manquante
par celle d’un ‘donneur’ ', i.e. une unité de
l’enquête ayant des caractéristiques similaires
Imputation ‘hot deck’ séquentielle
Imputation par le plus proche voisin ou ‘distance
minimum’
Imputation par la régression (basée sur des
modèles)
Non réponse de champ
Stratégies




Ignorer les questionnaires incomplets et
baser l’analyse sur les questionnaires
complétés
Pas recommandée car on perd les
données valides contenues dans les
questionnaires incomplets
Les données manquantes doivent être
imputées de manière à obtenir une
matrice complète et cohérente
Non réponse d’unité
Causes de la non-réponse d’unité:







Unité non existante ou hors champ (mais qui a été incluse dans
l’enquête)
Le répondant ne connaît pas (ou ne réalise pas) l’importance de
l’étude ou aussi l’importance de sa réponse sur l’enquête
Refus du répondant
Le répondant ne sait pas comment répondre
Manque de ressources
L’information désirée est non disponible
Façons de minimiser la non réponse




Sensibilisation du répondant sur l’importance des enquêtes
Travail de proximité auprès des respondents pour ‘les mettre de
son côté’ (partenariat)
Rappels de suivi, et (dans les cas extrêmes) invocation de la loi
Stratégies pour traiter la non réponse



Repondération – les poids sont mis à jour de façon à ne tenir
compte que des unités répondantes
Diverses formes d’imputation – similaires à celles déjà vues sur la
non-response de champ
Stratégie de collecte de données (1)
Les enquêtes et/ou les sources de données
administratives sur les SCD doivent couvrir toutes les
unités engagées dans des activités économiques
comprises dans le champ du commerce de distribution
(Section G de CITI, Rev.4)


Les unités de toutes tailles et de tous types incluant les
corporations et les unités non incorporées
Stratégie de collecte


Les ONS doivent développer leur propre stratégie de
collecte de données



S’assurant d’avoir une couverture complète des activités
du secteur du CD
Basée sur une approche intégrée et couvrant toutes les
unités et toutes les classes de taille de ces entreprises
Adaptée à leurs circonstances spécifiques tant au niveau
statistique qu’organisationnel
Stratégie de collecte de données (2)
Entreprises publiques incorporées

Un repertoire de ces unités est généralement disponible
dans la plupart des cas
Doivent être couvertes par énumération complète


Entreprises incorporées privées

Grandes unités


Doivent être couvertes si possible, par énumération complète
Autres unités



Significatives en nombre mais relativement homogènes
Doivent être couvertes par enquêtes-échantillon
Petites entreprises



Enquêtes-échantillon – Si elles sont dans le RE ou alors en
utilisant des données administratives (données de taxe sur
les entreprises)
Approche ‘FIRST’ (Fully Integrated Rational Survey
Technique) – si pas de RE disponible pour les entreprises
non incorporées
Stratégie de collecte de données (3)
Population totale des unités
engagées dans les activités de
commerce
Incluses dans le Registre
d’entreprises
(Segment de la base-liste)
Grandes unités
Secteur public
Doivent être
couvertes par
énumeration
complète
Secteur privé
Segment 1:
Les grandes unités
doivent être couvertes
par énumération
complète
Segment 2:
Les unités restantes
doivent être couvertes
par enquêtes échant.
Non incluses dans le
Registre d’entreprises
Avec des
locaux fixes
Petites unités
Couvertes soit
par enquêtes
échantillon
soit par des
données
admin.
Sans locaux
fixes
 1
Base aréolaire
 2
Doivent être couvertes par
enquêtes échantillon
Méthode ‘FIRST’ (1)
Programme d’enquêtes qui capture de manière éfficiente et
intégrée de l’information statistique détaillée sur toutes les
entreprises du CD opérant dans une économie
Mise en oeuvre



Requiert deux ensembles d’information statistique

Énumération complète, un recensement économique de préférence pour pouvoir établir les bases de sondage nécéssaires aux enquêtes
échantillon



Recensement de la population – alternative en l’absence de recensement
économique
Documentation de support sur les zones géographiques/blocs
d’énumération qui vont servir de support à l’énumération de base
Diviser les unités en deux segments


Segment de base-liste – regroupe les ‘grandes unités’, qui sont
généralement en nombre relativement faible et clairement
distinguables des autres unités par leur statut légal
Segment aréolaire – incluant aussi toutes unités restantes qui ne
peuvent être couvertes que par l’approche de base aréolaire
Méthode ‘FIRST’ (2)
Segment de la base-liste



Population peut être hétérogène en termes de taille et
caractéristiques
Les enquêtes dans ce segment utilisent des bases de sondage
tirés de RE ou de répertoires d’unités
Segment aréolaire



Étape 1 – sélectionner un échantillon de zones
Étape 2 – identification (liste) de tous les établissements des
zones sélectionnées dans l’étape 1



Les établissements qui appartiennent au champ des SCD sont classés
par type-d’activité
Sélectionner un échantillon à partir de cette liste d’établissements
Unités mobiles


Tous les établissements de la zone sélectionnée, identifiables et
situés en dehors de la maison des propriétaires et aussi les
entreprises à l’int.rieur de l’habitation (listées par visites de maison à
maison)
Les autres unités n’ayant pas de locaux fixes (vendeurs de rue, etc.)
sont identifiées à partir de questions additionnelles posées lors des
visites d’identification des ménages
Enquêtes sur le CD

Enquêtes annuelles


Doivent fournir des estimés qui couvrent tous les établissements du
commerce de gros et de détail
Les enquêtes détaillées ne sont pas souvent nécéssaires




Enquêtes infra-annuelles (mensuelles, trimestrielles)



Les établissements au dessus d’un certain seuil pourront être énumérés alors
que pour les autres unités, on utilise l’échantillonnage
Toutes les unités de l’échantillin doivent recevoir le questionnaire, mais les
petites unités doivent recevoir une version abrégée
Les estimés pour les petits établissements peuvent être faits à partir de
données administratives ou à partir d’autres approches telles les enquêtes
mixtes ménage-entreprise
Couverture plus restreinte
Petits établissements – couverture sujette à leur importance et aussi à la
disponibilité de données adminstratives
Enquêtes non fréquentes (5-10 ans)


Utilisées pour collecter des données sur des sujets spécifiques ou à des
niveaux de détail élevés
Pas appropriées pour collecter et compiler des statistiques structurelles
sur les SCD
Période de référence
Enquêtes annuelles




Les données se rapportent à une période de 12
mois
De préférence, l’année calendaire
Autres options

Pour certains établissements, les données sont disponible
sur une base fiscale (plutôt que calendaire)


Quelques variables telles que les salaires et émoluments
doivent être collectées aussi bien sur base calendaire que
fiscale pour faciliter la construction de données agrégées
calendaires annuelles
Pour la plupart des établissements, les données sont
disponibles sur la base fiscale (période comptable)
Enquêtes infra-annuelles


Les mois et trimestres calendaires sont
recommandés à titre de période de référence
Merci