Transcript Diapositive 1
Pr. BOULAHOUAL Adil 1
L'examen de variables uniques est une première lecture nécessaire des résultats mais elle ne présente pas de véritable intérêt en termes d'analyse. Les descriptions faites sur les variables soulèvent toute une série de questions sur leurs relations, qui devront être mises en lumière en les rapprochant deux à deux dans des analyses bivariée. Les tris croisés, par exemple, permettent d'examiner les relations entre deux ou plusieurs variables. Ces relations peuvent être symétriques -l'analyse cherche à mesurer la liaison entre les deux variables et à en tester la signification -, ou dissymétriques - l'analyse cherche à expliquer les variations d'une variable dépendante par les variations d'une variable indépendante. Ce dernier cas appelle des méthodes explicatives (ANOVA, régression, etc.)
2
Les tableaux croisés à deux ou plusieurs modalités sont en général complétés par des mesures d'association qui permettent de démontrer la signification statistique d'une association observée entre les variables. Les tris croisés ont pour objet de rassembler dans un tableau unique les distributions de fréquences ou d'effectifs de deux ou plusieurs variables. Ce premier outil d'analyse des relations entre deux variables, ou relations bivariée, permet de répondre à des questions qui se posent dès l'origine de l'étude (par exemple: « Les hommes dépensent-ils plus que les femmes sur le point de vente? » ; « Le sexe et les revenus ont-ils une influence sur le montant moyen dépensé? ») ou de mettre en lumière des relations dont on soupçonne l'existence à l'issue des traitements réalisés variable par variable.
3
Tests et mesures d'association de deux variables qualitatives
Les tris croisés ne permettent pas de démontrer l'existence d'une association de deux variables du point de vue statistique. Pour mesurer véritablement la relation entre les variables, il est nécessaire de mettre en place des tests de signification statistique de l'association.
Le test très simple du khi-deux pour vérifier l'association de deux variables qualitatives constitue une bonne introduction.
4 Pr. BOULAHOUAL Adil
Existence d'une association significative d'indépendance: le test du Khi-deux
Le test du
Khi-deux
est couramment utilisé. Il cherche à tester si deux variables qualitatives (nominales ou ordinales) sont significativement associées. En réalité, c'est l'indépendance des variables qualitatives, présentées dans un tableau croisé, qui est testée. On cherche à vérifier si l'association des deux variables est suffisamment forte pour que l'hypothèse de leur indépendance puisse être rejetée.
5 Pr. BOULAHOUAL Adil
Le principe est de comparer la distribution observée (Oij)' c'est-à-dire les effectifs que l'on peut lire dans le tableau croisé, à une distribution théorique (Tij) qui correspond à l'hypothèse selon laquelle les deux variables sont indépendantes. Normalement, si les variables étaient indépendantes, l'effectif observé ne devrait dépendre que des effectifs marginaux, c'est-à-dire de l'effectif total de chaque modalité.
6
Hommes Femmes Total Possèdent une carte fidélité Possèdent pas de carte fidélité 100 100 200 300 200 300 Total 200 400 600 7
Possèdent une carte fidélité Possèdent pas de carte fidélité 250 750 Hommes 150 450 Femmes 400 Total 25% des clients possèdent une carte fidélité 1 200 Total 1 000 600 1 600 8
La statistique
2
Le
2
observé sur l'échantillon se calcule de la manière suivante:
Où: 2 i = numéro de la ligne;
i r
1
j c
1
O ij
T ij T ij
2 j = numéro de la colonne; r = nombre de lignes, c'est-à-dire le nombre de modalités de la variable présentée en lignes; c = nombre de colonnes, c'est-à-dire le nombre de modalités de la variable présentée en colonnes .
9
Reprenons le même exemple des clients fidèle sachant que les données collectées auprès de l’échantillon sont les suivantes:
2
i
1
j c r
1
O ij
T ij T ij
2 Hommes Possèdent une carte fidélité T O 250 220 Possèdent pas de carte fidélité T O 750 780 Total 1 000 Femmes T O 150 180 T O 450 420 600 400 1 200 Total 2 220 250 780 250 750 750 180 150 420 150 450 450 2 12 , 8 1 600 10
Procédure de test
On pose l’hypothèse nulle : H 0 : Il n’y a pas de relation entre les deux variables.
H 1 ; Il existe une relation statistiquement significative entre les deux variables.
On rejette l’hypothèse nulle (on conclut que la relation existe dans la population) si : 2 > 2 0,05 [(r-1)(c-1)] 11
La loi du
2
suit une distribution asymétrique dont la forme dépend du nombre de degrés de liberté n. Le nombre de degrés de liberté varie en fonction du nombre de modalités des variables et se calcule de la manière suivante: (r-1)(c -1).
dl=1 dl=2 dl=3 dl=5 Pr. BOULAHOUAL Adil 12
On rejettera l'hypothèse nulle d'indépendance entre les variables si le
2
calculé est supérieur à la valeur de référence du
2
se trouvant dans la table de généralement à 5.
2
pour n degrés de liberté (en lignes dans la table) et pour un (niveau de risque de se tromper en rejetant l'hypothèse nulle donné en colonnes, fixé
2 > 2 0,05 [( r -1)( c -1)]
H0 : Il n’y a pas de relation entre les deux variables.
13
Les logiciels statistiques, dont SPSS, donnent une signification ou p-value, s'interprétant comme le niveau risque de se tromper en rejetant . Ainsi, si elle est inférieure à 5 %, on rejette l'hypothèse d'indépendance entre les deux variables, qui sont alors significativement associées.
Il est important de noter que ce test est assez sensible à la taille de l'échantillon, à la taille du tableau croisé et que, normalement, chaque case du tableau devrait avoir un effectif théorique au moins égal à cinq. Si l'on cherche à établir le profil des clients les plus fidèles en croisant le statut marital et la possession d'une carte de fidélité, par exemple, le test du khi-deux permettra de définir si ces deux variables sont indépendantes.
14 Pr. BOULAHOUAL Adil
Pr. BOULAHOUAL Adil 15
Pr. BOULAHOUAL Adil 16
17
Nous avons créé un tableau croisé dans SPSS selon la procédure présentée plus haut et sélectionné le test du khi-deux dans le menu Statistiques de la boîte de dialogue Tableaux croisés. La valeur du t est à la fois élevée et supérieure à la valeur critique correspondant au seuil de signification statistique de 0,05 (nous obtenons 0,035). Ce résultat nous permet de rejeter l'hypothèse nulle (<< Marital et carte sont indépendantes ») et de conclure qu'il existe bien une relation entre le statut marital et la possession d'une carte de fidélité dans la population observée.
18 Pr. BOULAHOUAL Adil
Indicateurs mesurant la force de l'association
Dans le cas particulier des tableaux carrés 2 x 2 (2 lignes et 2 colonnes), qui comparent deux variables à deux modalités, il est recommandé d'appliquer une correction au l'échantillon, soit:
2 , ou d'utiliser le coefficient phi ( ). Celui-ci correspond à la racine carrée du t divisé par la taille de Le coefficient de contingence (C) peut être appliqué pour des mesures d'association sans contrainte de taille de tableau.
19 Pr. BOULAHOUAL Adil
Le coefficient d'association prédictive (lambda) permet de mesurer dans quelle proportion une variable qualitative indépendante influence une variable qualitative dépendante. C'est donc une mesure dissymétrique qui contrairement aux précédentes - a pour objet une force de prédiction.
On peut mesurer la force de la relation entre les deux variables par le biais de l’indice V de Cramer : n = L = nombre d’observations (total des fréquences) minimum des lignes et des colonnes du tableau 0 < V < 1
20 Pr. BOULAHOUAL Adil
Pr. BOULAHOUAL Adil 21
22