La préparation des données

Download Report

Transcript La préparation des données

© Benoit Duguay, 2014
Plan la séance 7
Préparation des données







Processus de préparation des données
Vérification et édition des questionnaires
Codage, transcription et nettoyage des données
Ajustement statistique des données
Stratégie d’analyse des données
Logiciels d’analyse quantitative
Atelier :
 Préparation du guide de codification
© Benoit Duguay, 2014
Processus de préparation des
données
Vérification questionnaires
Édition questionnaires
Codage questions
Transcription données
Nettoyage données
Ajustement statistique données
Stratégie d’analyse données
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Vérification et édition des
questionnaires (1 de 3)
 Ne pas attendre la fin de
la collecte de données
 Réponses très peu
variées (choix des
extrêmes p. ex.)
 Réponses suspectes
(incohérences)
 Réponses difficiles à lire
(questions ouvertes)
 Réponses multiples à une
question à choix unique
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Vérification et édition des
questionnaires (2 de 3)
 Questionnaires
incomplets
 Respect des instructions
 Pages manquantes
 Réception après date
limite
 Répondant non éligible
(âge p. ex.)
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Vérification et édition des
questionnaires (3 de 3)
 Objectif : améliorer
l’exactitude des réponses
 Solutions si trop de manques
sont constatés sur le
questionnaire :
 Gros échantillons : éliminer le
répondant (possibilité de biais)
 Petits échantillons : contacter
le répondant pour effectuer des
corrections OU en sélectionner
un nouveau en respectant la
méthode d’échantillonnage
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Codage des questions
 Transformer les réponses en
données quantifiables
 Identification des variables
 Identification des valeurs
pour chaque variable
 Code plus élevé à valeur la
plus positive :
 oui = 2, non = 1
 Choix d’une ou plusieurs
valeurs pour les données
manquantes (p. ex. 99)
 Voir exemple de guide de
codage ci-contre
Hyperlien :
http://eut4115.uqam.ca/projets/omhl/omhl_questionnaire_
codifie.pdf
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Codage des questions
non structurées (ouvertes)
 Créer des catégories :
 Mutuellement exclusives
 Collectivement exhaustives
 Lire toutes les réponses
 Attribuer une catégorie distincte à
tout élément critique même si
personne n’en fait mention
 Conserver un niveau de détail le
plus élevé possible sans exagérer le
nombre de catégories
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Transcription des données
 Saisie des données
 Construction d’une base de
données (feuille de calcul
Excel)
 Variables :
 À la verticale
 Numérotation
 Une colonne pour chaque
variable
 Questionnaires (répondants) :
 À l’horizontal
 Numérotation
 Une ligne pour chaque
questionnaire (répondant)
 Voir fichier de saisie de
données ci-contre
Hyperlien :
http://mdt8601.uqam.ca/spss/mdt8601_saisie
_donnees.xls
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Exemple de fichier de données
après la saisie
Hyperlien :
http://mdt8601.uqam.ca/spss/mdt8601_exemple_fic
hier_donnees.xls
© Benoit Duguay, 2014
Transcription automatisée
Hyperlien : http://www.abbyy.com/
Hyperlien : http://www.sawtooth.com/
© Benoit Duguay, 2014
Nettoyage des données :
Contrôle d’uniformité
 Vérifier données hors norme
(anormales), p. ex. « 6 » pour
une variable codifiée 1 à 5 :
 Vérifier en triant chaque colonne
 Si non contrôlé à l’étape de la
vérification des questionnaires :
 Réponses très peu variées (choix
des extrêmes p. ex.)
 Réponses suspectes (incohérences)
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Nettoyage des données :
Réponses manquantes (1 de 2)
 Retourner au questionnaire
 Substitution par valeur
manquante (p. ex. 99)
 Substitution par valeur
neutre (p. ex. moyenne) :
 Discutable
 Introduit biais
 Substitution par valeur
imputée (déduction par
rapport autres réponses) :
 Travail considérable mais
procédure statistiques
 Introduit biais
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Nettoyage des données :
Réponses manquantes (2 de 2)
 Suppression du répondant :
 Si nombreuses réponses
manquantes
 Possibilité de biais lié à
l’échantillon
 Suppression appariée :
 Plutôt que de supprimer les
questionnaires qui présentent de
nombreuses réponses manquantes,
retenir seulement réponses valides
pour chaque variable
 Utiliser seulement avec échantillon
de grande taille, réponses
manquantes rares et relations
entre variables faibles
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Ajustement statistique des données
 Pondération :
 Ajuster le rapport
d’importance entre les
catégories de répondants
 Utilisée pour augmenter la
représentativité d’un
échantillon
 Voir exemple diapo
suivante
 Création et transformation
de variables (voir autre
diapo)
 Changement d’échelle (voir
autre diapo)
Source :
http://www.cosmopolitan.fr/,regime-lapriorite-l-equilibrealimentaire,2107,1075877.asp
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Exemple de pondération
Âge (1)
Proportion
échantillon (2)
Proportion
population (3)
Poids
(3/2)
16-25
22%
11%
0,50
26-35
7%
14%
2,00
36-45
20%
18%
0,90
46-55
17%
17%
1,00
56-65
22%
25%
1,14
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Création et transformation de
variables
 Transformation des variables existantes :
 Transformer les catégories pour comparer les données d’une
étude avec celles d’une autre étude
 Équilibrer des données manifestement biaisées
(standardisation - COMPLEXE)
 Création d’une nouvelle variable :
 Calcul d’un indice composé
 Synthèse de plusieurs variables
 Création de catégories (p. ex. âge)
 Fonctions dans SPSS :
 Compute
 Recode
 Voir exemples dans les diapos suivantes
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Création et transformation de
variables
SEI personnel
Valid
Très faible
Faible
Faible
Moyen
Moyen
Fort
Fort
Très fort
Total
Frequency
5
13
21
15
27
34
34
26
175
Percent
2,9
7,4
12,0
8,6
15,4
19,4
19,4
14,9
100,0
Valid Percent
2,9
7,4
12,0
8,6
15,4
19,4
19,4
14,9
100,0
Cumulative
Percent
2,9
10,3
22,3
30,9
46,3
65,7
85,1
100,0
 Estime de soi personnelle (VAR202)
 Addition des réponses de 8 questions parmi les 40 du test CFSEI-2
© Benoit Duguay, 2014
Création de variables muettes
 Variables utilisées pour
représenter différents groupes
dans la population sans utiliser
une échelle ordinale qui aurait
peu de sens
 Utilisées dans les analyses de
régression
 Valeurs les plus fréquentes
sont 0 et 1 (binaire)
 Re-spécification d’une variable
avec K catégories nécessite
l’utilisation de K-1 variables
muettes
 Voir exemple diapo suivante
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Exemple de variables muettes
Allégeance
Codification
originale
Variables muettes
X1
X2
X3
Conservateur
1
1
0
0
Libéral
2
0
1
0
Bloc
3
0
0
1
NPD
4
0
0
0
© Benoit Duguay, 2014
Stratégie d’analyse des données
Schéma d’analyse préliminaire
Types d’échelle de mesure
Technique d’analyse VS objectif
(différences ou dépendance
entre variables, prédiction, etc.)
Expérience et préférence du
chargé d’étude
Stratégie finale d’analyse
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Analyse des fréquences
 Une variable à la fois
 Distribution des réponses
 Mesures de position
centrale :
 Moyenne
 Mode
 Médiane
 Mesures de dispersion :
 Étendue (écart)
 Variance et écart-type
 Mesures de forme :
 Symétrie (skewness)
 Aplatissement (kurtosis)
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Analyse des relations entre les
variables
Deuxième variable
Première
variable
Nominale
ou ordinale
Intervalles ou
proportion
(ratio)
Nominale
ou ordinale
Tris croisés
Comparaison
moyennes
Intervalles ou
proportion
(ratio)
Comparaison
moyennes
Corrélation
ou régression
Tiré de : d’Astous, Alain. 2000. Le projet de recherche en marketing, 2ième éd. Montréal (QC) : Chenelière/McGraw-Hill, p. 267
© Benoit Duguay, 2014
Analyses multivariées
 Tris croisés :
 La plus utile et la plus fréquemment utilisée
 Analyse de la relation existant entre deux variables
(bivariée) ou trois variables (multivariée)
 P. ex., l’influence du sexe sur le choix de destination
 Comparaison moyennes :
 Analyse de la différence existant entre les moyennes de
deux catégories de personnes
 P. ex., la différence entre les 26-45 ans et les 46-65 ans
par rapport au pourcentage de personnes qui achètent
une croisière
© Benoit Duguay, 2014
Analyses multivariées
 Corrélation :
 Analyse de la relation existant entre deux variables
métriques
 Augmentation des valeurs de la première correspondelle à une augmentation, ou à une diminution, des
valeurs de la seconde?
 P. ex., la relation entre l’investissement publicitaire et
les ventes d’un restaurant
 Régression :
 Analyse de la relation de dépendance entre deux
variables métriques
 Utilisation de variables muettes lorsque requis
 P. ex., la relation entre le niveau d’estime de soi et le
choix une résidence luxueuse
© Benoit Duguay, 2014
Tests de comparaison
Type données
Non métriques
(nominal, ordinal)
Métriques
(intervalles, proportion)
Khi deux
Test t
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Tests de comparaison
 Khi deux (X2) :
 Test du niveau de
signification de la relation
entre deux variables (tri
croisé)
 X2 ≥ valeur théorique
 Niveau de signification
usuel de 95% (19 fois sur
20),
 Voir statistique P ≤ 0,05
(95%)
 Test t :
 Permet d’énoncer des
conclusions sur l’existence
de différences
significatives entre les
moyennes de deux
échantillons
 t ≥ 1,98 ou t ≤ -1,98
 Niveau de signification
usuel de 0,05 (95%)
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Logiciels d’analyse quantitative
© Benoit Duguay, 2014
Atelier
 Préparation du guide de
codification