RISCD 2008 Sources de données et méthodes de compilation Thierno Aliou BALDE Division de statistique des Nations unies Atelier régional pour les pays africains sur.
Download ReportTranscript RISCD 2008 Sources de données et méthodes de compilation Thierno Aliou BALDE Division de statistique des Nations unies Atelier régional pour les pays africains sur.
RISCD 2008 Sources de données et méthodes de compilation Thierno Aliou BALDE Division de statistique des Nations unies Atelier régional pour les pays africains sur la mise en oeuvre des Recommandations internationales sur les statistiques du commerce de distribution 17-20 juin 2008, Bamako, Mali Sommaire Sources de données pour les SCD – enquêtes statistiques, sources de données administratives et bases de sondage Méthodes de compilation de données Stratégie de collecte de données Sources de données pour la compilation des SCD Processus de production des SCD – basé sur des données collectées à partir de plusieurs sources Sources de données statistiques – les données sont collectées spécifiquement à des fins statistiques Sources de données administratives – les données sont crées initialement, à des fins autres que la production de données statistiques Sources de données statistiques Enquêtes statistiques Recensements économiques – enumération de toutes les unités de la population; basé sur l’établissement d’un Registre d’entreprises; permet l’établissement de bases de sondage pour les enquêtes échantillon Enquêtes-échantillon – collecte de l’information sur une partie de la population sélectionnée de manière scientifique Avantages des enquêtes statistiques sur les sources de données administratives Les procédures de planification, d’exécution, de collection de données et de traitement sont contrôlées par l’office statistique Les répondants ont moins de raison de donner des réponses inadéquates car l’ONS garantit la confidentialité Inconvénients Utilisent beaucoup de ressources (aussi bien financières qu’humaines) Alourdissent fardeau de réponse Taux élevés de non réponse Erreurs d’échantillonnage Recensement des unités du commerce (1) Types Partie d’un recensement à l’échelle de toute l’économie Recensement au niveau des sous-secteurs/activités du CD uniquement Avantages Tend à fournir une énumération complète, à un point donné dans le temps, des unités engagées dans l’activité commerciale, incluant les unités du secteur informel Permet la collecte de SCD à des niveaux de détail suffisants pour les longs intervalles de temps Inconvénients Limité en terme de contenu des données La planification, l’organisation et la conversion subséquente des données du recensement en données SCD Utilise beaucoup de temps et de ressources Coûteux, impose un lourd fardeau de réponse aux répondants Les taux de réponse peuvent être bas, ce qui peut affecter la qualité de l’information collectée Recensement des unités du commerce (2) Recommandations La Conduite d’un recensement complet sur les unités du commerce est recommandée lorsque: Le pays ne possède pas un registre d’entreprises statistique à jour Besoin d’avoir des données statistiques détaillées par région géographique Les recensements doivent être suivis autant que possible par des enquêtes-échantillons périodiques (annuelles, trimestrielles et mensuelles) Les recensements des unités du commerce ne devraient pas être conduits s’il existe d’autres moyens de collecter et produire des SCD de qualité suffisante Enquêtes sur les unités du commerce (1) Technique qui consiste à obtenir de l’information sur toute la population à partir d’une sous-population (échantillon) sélectionnée de manière scientifique Les conclusions (inférence) sur la population sont faites à partir des estimés obtenus de l’échantillon Les enquêtes échantillon sont généralement moins coûteuses que les recensements Peuvent être utilisés en conjonction avec des seuils Enquêtes sur les unités du commerce (2) Enquêtes-échantillon sur le commerce de gros et de détail Diverses Tendance à combiner plusieurs formes, différenciées par la périodicité et les caractéristiques des unités activité, taille, forme légale, type d’opération et types de variables Parfois, d’autres caractéristiques telles l’emplacement géographique, peuvent aussi être prises en compte Enquêtes sur les unités du commerce (3) Seuils sur la taille La taille des unités joue un rôle important dans la détermination de la population cible et, lorsque nécéssaire, l’échantillon lui-même La plupart des enquêtes échantillons sont conduites pour les unités se trouvant au dessus d’un certain seuil Raisons à l’utilisation des seuils Limiter la taille de l’enquête Réduire le fardeau de réponse Prise en compte des problèmes reliés à la mise à jour des registres (pour les petites unités) Enquêtes sur les unités du commerce (4) Seuils appropriés Pas de recommandation internationale Laissés au jugement de chaque ONS Peut varier d’une enquête à une autre selon les activités couvertes et la périodicité Les pays sont encouragés à: Évaluer périodiquement la sous-couverture dûe à l’introduction de seuils Inclure la description de tels seuils dans les métadonnées Types d’enquêtes sur les SCD (1) Enquêtes-entreprises Les unités échantillonales sont les entreprises (ou des unités statistques appartenant à ces entreprises) Présuppose la disponibilité d’une base de sondage Base sous forme de liste – Registre d’entreprises ou liste provenant de recensement Base aréolaire – un échantillon de zones est sélectionné et les entreprises y sont énumérées Recommandations Pour les enquêtes-entreprises, la base-liste devrait être préférée à la base aréolaire Plus éfficiente en termes de représentativité de l’échantillon et aussi pour la maintenance de la base La base aréolaire est inappropriée pour les grandes et moyennes entreprises opérant dans plusieurs régions géographiques L’approche de la base aréolaire devrait être utilisée pour les petites entreprises opérant dans le segment informel (ou inorganisé) de l’économie Types d’enquêtes sur les SCD (2) Enquêtes-ménages (EM) les ménages sont les unités observées et aussi les unités de reporting– assure la couverture de la production des entreprises des ménages qui sont très petites Inconvénients L’échantillon ne reflète pas une couverture représentative des activités du commerce mais plutôt une distribution des ménages La distribution des ménages est différente de celle des activités du commerce (les activités du commerce ont tendance à se concentrer dans les zones commerciales) Recommandations Les EM sont recommandées pour la couverture des entreprises non incorporées des ménages qui ne sont pas reconnues en tant qu’entités légales séparées de leurs propriétaires Types d’enquêtes sur les SCD (3) Enquêtes mixtes ménages-entreprises Un échantillon de ménages est sélectionné et on demande à chaque ménage si au moins un de ses membres possède et opère une entreprise non incorporée La liste des entreprises ainsi compilée est utilsée comme base à partir de laquelle des entreprises sont sélectionnées pour fournir l’information désirée Par opposition aux enquêtes ménages, ces enquêtes mixtes collectent l’information sur les entreprises et pas sur les personnes des ménages comme telles Inconvénients Le design d’enquêtes n’est pas efficient Difficultés de traiter les entreprises ayant des unités de production dans plus d’un emplacement Recommandations Cette approche est préférée aux enquêtes ménages et aux enquêtes entreprises à bases aréolaires lorsqu’il s’agit de collecter des données pour estimer la production des petites unités du commerce qui sont exclues des enquêtes entreprises à bases de listes Sources de données administratives (1) Généralement mises en oeuvre en réponse à une législation et/ou règlement Chaque législation résulte en un registre des unités Les pays doivent utiliser ces sources de données avec prudence Sources privées Données obtenues à partir de fournisseurs du secteur privé Le transfert de données vers les NSO prend la forme de contrat moyennant le paiement d’une prime Recommandations Les producteurs de SCD doivent identifier et évaluer les SDA disponibles dans leurs pays et utiliser celles qui sont les plus appropriées à la compilation des SCD Sources de données administratives (2) Avantages Couverture complète des unités et taux de non-réponse faibles Evite le fardeau de réponse Coûte moins cher aux ONS comparativement aux enquêtes Adapté à la couverture du segment des petites unités de la population dont la contribution est relativement faible mais qui représente un pourcentage substantiel du nombre d’unités de la population Erreurs d’échantillonnage plus faibles que dans les enquêtes, meilleure précision inconvénients Ecart entre les données administratives et les concepts statistiques Mauvaise adéquation (intégration) avec les autres données du système statistique Risque au niveau de la stabilité Les données peuvent être disponibles mais avec parfois des délais inacceptables Contraintes légales sur l’accès et la confidentialité Registre d’entreprises Registre d’entreprises (RE) – recommandé comme étant la source la plus appropriée pour dériver les bases de sondage des enquêtes du CD L’organisation et la conduite de toute enquête-entreprise sur les unités du CD suppose la disponibilité d’une base de sondage adéquate Base de sondage – ensemble des unités susceptibles d’être échantillonnées, avec tous les détails à leur sujet qui pourront être utilisés à des fins de stratification, d’échantillonnage et de contact Registre d’entreprises statistique Liste détaillée de toutes les entreprises et des autres unités d’une économie nationale, avec leur caractéristiques Utilisé pour la conduite des enquêtes, mais aussi utilisé comme source d’information statistique Facilite la classification des unités selon des standards conceptuels établis et acceptés Registre d’entreprises statistique (1) Etablissement Registres administratifs disponibles – forment le point de départ pour l’établissement du RES Lorsqu’un seul registre administratif est utilisé, le RES résultant risque d’être déficient en termes de couverture et de contenu et par conséquent générera des bases de sondage inadéquates pour les enquêtes Les pays sont encouragés à oeuvrer pour une amélioration de la couverture et du contenu de leurs RES en utilisant des données provenant de plusieurs sources de données administratives Besoin d’un identicateur unique pour chaque entreprise Maintenance Le RES doit être à jour Doit être mis à jour régulièrement pour prendre en compte les changements dans la dynamique des entreprises Registre d’entreprises statistique (2) Sources pour l’établissement et la maintenance du RES Recensement économique- fournit une liste détaillée des unités et de leurs caractéristiques Sources de données administratives – TVA et autres systèmes de taxes, fichiers maintenus par les gouvernemnts pour la gestion de l’assurance-emploi, la sécurité (ou assurance) sociale et autres programmes ‘Feedback’ des enquêtes-entreprises – fournit de l’information nouvelle sur les changements d’adresse, la fermeture d’entreprises, les changements dans l’activité économique d’une unité, etc. Enquêtes du RE – profil des entreprises Autres sources potentielles - information provenant des associations commerciales, répertoires téléphoniques ou ‘listings’ spéciaux préparés par les compagnies téléphoniques, etc. Profil des entreprises Groupe d’Entreprises - ‘holding company’ Entreprise à un établissement Unité locale établissement ‘Holding enterprise’/ établissement servant principalement à gérer (contrôler) l’investissement mainly as control investment unit Unité locale 1 établissement Entreprise à établissements multiples Unité locale 2 établissement Unité locale 3 établissement ancillaire Méthodes de compilation de données Processus de compilation de données C’est plus qu’une simple agrégation des résultats obtenus dans les cases des questionnaires remplis En fait, les ONS effectuent de nombreuses opérations de contrôle, de validation et aussi des procédures statistiques, afin de rendre les données collectées aptes à répondre au but statistique final Les répondants des enquêtes statistiques– sujets à des erreurs lors du ‘remplissage’ des questionnaires Les données sur les SCD collectées à partir des enquêtes statistiques – affectées par des erreurs de toutes sortes (erreurs de réponse et non réponse ) Validation des données et vérification (1) Fait partie intégrante des opérations de traitement dans tous les types d’enquêtes statistiques Servent à résoudre les problèmes de données manquantes, invalides ou des réponses inconsistantes Vérification Examen systématique selon des règles prédéterminées, des données collectées afin d’identifier et éventuellement corriger les valeurs inadmissibles, douteuses ou improbables Processus essentiel pour assurer la qualité de l’information collectée Types vérification Micro-vérification (intrants) – se concentre sur la vérification des enregistrements individuels Macro vérification (extrants) – vérifie les données agrégées Validation des données et vérification (2) Vérification sélective Consiste à établir un ordre de prorité sur les enregistrements à vérifier, de sorte à réduire les coûts de la vérification Vise seulement les ‘champs’ des micro-données qui pourraient avoir un impact significatif sur les résultats de l’enquête sur les SCD Recommandée pour la vérification des données du commerce de distribution Observations influentes Réponses pour des variables particulières qui ont un impact considérable sur les principaux estimés Les efforts de vérification doivent être centrés sur elles Validation des données et vérification (3) Contrôles de détection des erreurs dans les données sur les SCD Contrôles de routine – vérifie si toutes les questions ont été répondues Contrôles de validation – vérifie si les réponses sont admissibles Contrôles de rationalité – vérification basée sur une analyse statistique des données fournie par les répondants Contrôles de plausibilité – utilisée pour capter les grandes erreurs (aléatoires) Imputations (1) Données manquantes Types de données manquantes Non-réponse de ‘champ’ (ou partielle)– les données d’un champ (ou cellule) particulier for a particular data item of the questionnaire is missing Non-réponse d’unité (ou totale)- L’unité sélectionnée n’a pas retourné de questionnaire rempli Techniques de traitement des données manquantes Imputations Repondération (mise à jour des poids d’échantillonage) Existent dans la plupart des enquêtes statistiques sur le CD Posent problème pour la vérification Imputations (2) Remplacer une ou plusieurs réponses manquantes ou erronées d’un enregistrement par des valeurs plausibles et consistantes Processus de ‘remplissage’ des cellules vides Voies et moyens pour produire un questionnaire complété à partir de valeurs imputées Utilisée principalement dans le cas de non réponse partielle Substitution - Utilisée dans le cas de non réponse totale lorsque: Données disponibles sur l’unité dans les précédentes périodes Données disponibles sur l’unité à partir de sources administratives Imputations (3) Méthodes d’imputation usuelles Imputation par la Moyenne/mode Post-stratification Substitution ‘Cold deck’ – utilse un ensemble de valeurs fixes, qui couvrent l’ensemble des variables pertinentes ‘Hot deck’ – remplace chaque valeur manquante par celle d’un ‘donneur’ ', i.e. une unité de l’enquête ayant des caractéristiques similaires Imputation ‘hot deck’ séquentielle Imputation par le plus proche voisin ou ‘distance minimum’ Imputation par la régression (basée sur des modèles) Non réponse de champ Stratégies Ignorer les questionnaires incomplets et baser l’analyse sur les questionnaires complétés Pas recommandée car on perd les données valides contenues dans les questionnaires incomplets Les données manquantes doivent être imputées de manière à obtenir une matrice complète et cohérente Non réponse d’unité Causes de la non-réponse d’unité: Unité non existante ou hors champ (mais qui a été incluse dans l’enquête) Le répondant ne connaît pas (ou ne réalise pas) l’importance de l’étude ou aussi l’importance de sa réponse sur l’enquête Refus du répondant Le répondant ne sait pas comment répondre Manque de ressources L’information désirée est non disponible Façons de minimiser la non réponse Sensibilisation du répondant sur l’importance des enquêtes Travail de proximité auprès des respondents pour ‘les mettre de son côté’ (partenariat) Rappels de suivi, et (dans les cas extrêmes) invocation de la loi Stratégies pour traiter la non réponse Repondération – les poids sont mis à jour de façon à ne tenir compte que des unités répondantes Diverses formes d’imputation – similaires à celles déjà vues sur la non-response de champ Stratégie de collecte de données (1) Les enquêtes et/ou les sources de données administratives sur les SCD doivent couvrir toutes les unités engagées dans des activités économiques comprises dans le champ du commerce de distribution (Section G de CITI, Rev.4) Les unités de toutes tailles et de tous types incluant les corporations et les unités non incorporées Stratégie de collecte Les ONS doivent développer leur propre stratégie de collecte de données S’assurant d’avoir une couverture complète des activités du secteur du CD Basée sur une approche intégrée et couvrant toutes les unités et toutes les classes de taille de ces entreprises Adaptée à leurs circonstances spécifiques tant au niveau statistique qu’organisationnel Stratégie de collecte de données (2) Entreprises publiques incorporées Un repertoire de ces unités est généralement disponible dans la plupart des cas Doivent être couvertes par énumération complète Entreprises incorporées privées Grandes unités Doivent être couvertes si possible, par énumération complète Autres unités Significatives en nombre mais relativement homogènes Doivent être couvertes par enquêtes-échantillon Petites entreprises Enquêtes-échantillon – Si elles sont dans le RE ou alors en utilisant des données administratives (données de taxe sur les entreprises) Approche ‘FIRST’ (Fully Integrated Rational Survey Technique) – si pas de RE disponible pour les entreprises non incorporées Stratégie de collecte de données (3) Population totale des unités engagées dans les activités de commerce Incluses dans le Registre d’entreprises (Segment de la base-liste) Grandes unités Secteur public Doivent être couvertes par énumeration complète Secteur privé Segment 1: Les grandes unités doivent être couvertes par énumération complète Segment 2: Les unités restantes doivent être couvertes par enquêtes échant. Non incluses dans le Registre d’entreprises Avec des locaux fixes Petites unités Couvertes soit par enquêtes échantillon soit par des données admin. Sans locaux fixes 1 Base aréolaire 2 Doivent être couvertes par enquêtes échantillon Méthode ‘FIRST’ (1) Programme d’enquêtes qui capture de manière éfficiente et intégrée de l’information statistique détaillée sur toutes les entreprises du CD opérant dans une économie Mise en oeuvre Requiert deux ensembles d’information statistique Énumération complète, un recensement économique de préférence pour pouvoir établir les bases de sondage nécéssaires aux enquêtes échantillon Recensement de la population – alternative en l’absence de recensement économique Documentation de support sur les zones géographiques/blocs d’énumération qui vont servir de support à l’énumération de base Diviser les unités en deux segments Segment de base-liste – regroupe les ‘grandes unités’, qui sont généralement en nombre relativement faible et clairement distinguables des autres unités par leur statut légal Segment aréolaire – incluant aussi toutes unités restantes qui ne peuvent être couvertes que par l’approche de base aréolaire Méthode ‘FIRST’ (2) Segment de la base-liste Population peut être hétérogène en termes de taille et caractéristiques Les enquêtes dans ce segment utilisent des bases de sondage tirés de RE ou de répertoires d’unités Segment aréolaire Étape 1 – sélectionner un échantillon de zones Étape 2 – identification (liste) de tous les établissements des zones sélectionnées dans l’étape 1 Les établissements qui appartiennent au champ des SCD sont classés par type-d’activité Sélectionner un échantillon à partir de cette liste d’établissements Unités mobiles Tous les établissements de la zone sélectionnée, identifiables et situés en dehors de la maison des propriétaires et aussi les entreprises à l’int.rieur de l’habitation (listées par visites de maison à maison) Les autres unités n’ayant pas de locaux fixes (vendeurs de rue, etc.) sont identifiées à partir de questions additionnelles posées lors des visites d’identification des ménages Enquêtes sur le CD Enquêtes annuelles Doivent fournir des estimés qui couvrent tous les établissements du commerce de gros et de détail Les enquêtes détaillées ne sont pas souvent nécéssaires Enquêtes infra-annuelles (mensuelles, trimestrielles) Les établissements au dessus d’un certain seuil pourront être énumérés alors que pour les autres unités, on utilise l’échantillonnage Toutes les unités de l’échantillin doivent recevoir le questionnaire, mais les petites unités doivent recevoir une version abrégée Les estimés pour les petits établissements peuvent être faits à partir de données administratives ou à partir d’autres approches telles les enquêtes mixtes ménage-entreprise Couverture plus restreinte Petits établissements – couverture sujette à leur importance et aussi à la disponibilité de données adminstratives Enquêtes non fréquentes (5-10 ans) Utilisées pour collecter des données sur des sujets spécifiques ou à des niveaux de détail élevés Pas appropriées pour collecter et compiler des statistiques structurelles sur les SCD Période de référence Enquêtes annuelles Les données se rapportent à une période de 12 mois De préférence, l’année calendaire Autres options Pour certains établissements, les données sont disponible sur une base fiscale (plutôt que calendaire) Quelques variables telles que les salaires et émoluments doivent être collectées aussi bien sur base calendaire que fiscale pour faciliter la construction de données agrégées calendaires annuelles Pour la plupart des établissements, les données sont disponibles sur la base fiscale (période comptable) Enquêtes infra-annuelles Les mois et trimestres calendaires sont recommandés à titre de période de référence Merci