AFC ANALYSE FACTORIELLE DES CORRESPONDANCES Méthode permettant d’étudier la nature de la liaison entre deux variables quelconques (pouvant être qualitatives) Née dans les années 70,

Download Report

Transcript AFC ANALYSE FACTORIELLE DES CORRESPONDANCES Méthode permettant d’étudier la nature de la liaison entre deux variables quelconques (pouvant être qualitatives) Née dans les années 70,

AFC
ANALYSE FACTORIELLE DES
CORRESPONDANCES
Méthode permettant d’étudier la nature de la liaison entre
deux variables quelconques (pouvant être qualitatives)
Née dans les années 70, en France, JP Benzécri
L’AFC est un complément du test du Chi-deux d’indépendance :
- Le test du Chi-deux permet de détecter la dépendance de 2 variables
- L’AFC permet de décrire la nature de cette dépendance
On travaillera sur un « tableau de contingence »
AFC
EXEMPLE
On a demandé à un échantillon de 10000 étudiants la CSP de leur père
et on a présenté les résultats en fonction de leur filière d’étude
Exploitant agricole
Salarié agricole
Patron
Prof. Libérale/Cadre Sup
Cadre moyen
Employé
Ouvrier
Personnel de service
Autres
TOTAL
Droit Sciences Eco Lettres Sciences Médecine Pharmacie Pluridiscip.
80
36
134
99
65
28
11
6
2
15
6
4
1
1
168
74
312
137
208
53
21
470
191
806
400
876
164
45
236
99
493
264
281
56
36
145
52
281
133
135
30
20
166
64
401
193
127
23
28
16
6
27
11
8
2
2
305
115
624
247
301
47
42
1592
639
3093
1490
2005
404
206
n12=36
f12=36/10000
n2 .=39
n. 3=3093
fl12=36/511
n. .=10000
fc12=36/639
IUT
58
4
62
79
87
54
129
8
90
571
TOTAL
511
39
1035
3031
1552
850
1131
80
1771
10000
AFC
PROFILS LIGNES
EAGR
SAGR
PAT
PLCS
CMOY
EMP
OUV
SER
AUT
On détermine le tableau des profils lignes
DR
15,66%
15,38%
16,23%
15,51%
15,21%
17,06%
14,68%
20,00%
17,22%
ECO
7,05%
5,13%
7,15%
6,30%
6,38%
6,12%
5,66%
7,50%
6,49%
LET
26,22%
38,46%
30,14%
26,59%
31,77%
33,06%
35,46%
33,75%
35,23%
SCI
19,37%
15,38%
13,24%
13,20%
17,01%
15,65%
17,06%
13,75%
13,95%
MED
12,72%
10,26%
20,10%
28,90%
18,11%
15,88%
11,23%
10,00%
17,00%
PHAR
5,48%
2,56%
5,12%
5,41%
3,61%
3,53%
2,03%
2,50%
2,65%
PLUR
2,15%
2,56%
2,03%
1,48%
2,32%
2,35%
2,48%
2,50%
2,37%
IUT TOTAL
11,35%
1
10,26%
1
5,99%
1
2,61%
1
5,61%
1
6,35%
1
11,41%
1
10,00%
1
5,08%
1
et celui des profils colonnes
PROFILS COLONNES
EAGR
SAGR
PAT
PLCS
CMOY
EMP
OUV
SER
AUT
TOTAL
DR
5,03%
0,38%
10,55%
29,52%
14,82%
9,11%
10,43%
1,01%
19,16%
1
ECO
5,63%
0,31%
11,58%
29,89%
15,49%
8,14%
10,02%
0,94%
18,00%
1
LET
4,33%
0,48%
10,09%
26,06%
15,94%
9,09%
12,96%
0,87%
20,17%
1
SCI
6,64%
0,40%
9,19%
26,85%
17,72%
8,93%
12,95%
0,74%
16,58%
1
MED
3,24%
0,20%
10,37%
43,69%
14,01%
6,73%
6,33%
0,40%
15,01%
1
PHAR
6,93%
0,25%
13,12%
40,59%
13,86%
7,43%
5,69%
0,50%
11,63%
1
PLUR
5,34%
0,49%
10,19%
21,84%
17,48%
9,71%
13,59%
0,97%
20,39%
1
IUT
10,16%
0,70%
10,86%
13,84%
15,24%
9,46%
22,59%
1,40%
15,76%
1
AFC
L’AFC sera une double ACP :
une sur le tableau des profils lignes
et
une sur le tableau des profils colonnes
avec une métrique particulière
La métrique du c²
2
n
i' j 
n
..  nij
dc 2(i,i') 


n.j  ni.
ni. 
2
d c 2 (i, i' )  
2
  flij  fli ' j 

f. j

2



AFC
Pourquoi la métrique du c2 ?
Pour donner une importance comparable à toutes les modalités
Pour qu’un regroupement de lignes ou de colonnes ne change
pas les distances
Les résultats de cette double ACP seront portés sur un seul graphique
On commentera la proximité entre profils lignes
On commentera la proximité entre profils colonnes
On commentera avec prudence la proximité entre profils lignes et
profils colonnes
AFC
Combien d’axes faut-il retenir ?
On retiendra des axes
tant que les valeurs propres correspondantes
sont significativement non nulles
AFC
Vc
Vc ddl
c²
Nombre
d’axes
0
n.. x Sl
475 7x8 74.5
1
n.. x (Sl  l1
77 6x7 58.1
2
n.. x (Sl l1l2
23 5x6 43.8
3
n.. x (Sll1l2l3
11 4x5 31.4
Somme des valeurs propres restantes dont on teste la nullité simultanée