D-3 Interprétation des axes

Download Report

Transcript D-3 Interprétation des axes

CH2 : Analyse en composantes principales
(ACP)
A- Généralités
B- analyse directe
C- Analyse duale
D- Interprétation
E- Limites de la méthode
F- ACP sous R
A- Généralités
1- Objectifs
2- Decomposition factorielle
3- Les étapes d’une ACP
4- definitions
A- 1 Objectifs d’une Analyse en
Composantes Principales (ACP)
• ACP=méthode d’analyse descriptive multidimensionnelle pour
des tableaux X de type individus-variables, dont les variables
sont quantitatives.
• Deux objectifs :
Evaluer et visualiser la ressemblance / dissemblance entre
les individus de X : deux individus se ressemblent d’autant
plus qu’ils ont des valeurs proches sur l’ensemble des
variables.
Evaluer et visualiser les liaisons entre les variables de X :
les liaison entre deux variables sont mesurée par la
covariance (ACP centrée) ou le coefficient de corrélation
(ACP normée).
A- 1 Objectifs …
Difficulté à mettre en évidence les relations
globales entre variables dès que p>3, en particulier
parce qu’elles sont impossibles à visualiser
condenser l’information de manière à
retirer les relations vraiment caractéristiques, ceci
en limitant la perte d’information.

A- 1 Objectifs …
En pratique :
 Approximation du tableau X ( n*p) par un tableau C
( n*q, q <p) (dans l’idéal, q=2 ou 3), restituant la
majeure partie de l’information contenue dans X. Les
variables de C sont obtenues comme combinaisons
linéaires des variables d’origine . Elles sont appelées
les composantes principales.
 Visualisation des nuages de points associés au tableau
X dans le nouveau repère constitué par les directions
des composantes principales.
A-2 Décomposition factorielle d’un
nuage de points
• déterminer un sous-espace de faible dimension q<p, de préférence q=1
ou q=2, qui soit « compréhensible » par l’œil, appelé espace factoriel
du nuage, sur lequel projeter les nuages de points relatifs au tableau X.
• La projection étant une opération déformante, il faut choisir
convenablement le sous-espace de manière à ce que la déformation
subie soit la plus faible possible et ainsi récupérer les liens les plus
significatifs contenus dans le tableau.
A-2 Décomposition factorielle d’un
nuage de points
Construction de l’espace factoriel : défini par un repère de dimension q,
dont les axes seront construits de la façon suivante :
• On effectue un changement de repère, du repère défini par les p
variables à un repère de dimension p le moins déformant possible pour
le nuage. Les p axes du nouveau repère sont appelés axes factoriels.
• On retient ensuite les q premiers axes du nouveau repère, ce qui nous
donnera l’espace factoriel de dimension q.
X1
C2
X2
G
C1
A-2 Décomposition factorielle d’un
nuage de points
Détermination des axes factoriels (séquentielle):
• Détermination de l’axe (premier axe factoriel) sur lequel le nuage se
déforme le moins possible en projection.
• Détermination d’un second axe sur lequel le nuage se déforme le
moins en projection, après le premier axe, tout en étant orthogonal au
premier.
• Réitération du processus jusqu’à obtention de p axes.
A-2 Décomposition factorielle d’un
nuage de points
 Dans le nouveau repère, les axes ne véhiculent pas la même
information selon leur rang : leur capacité à « résumer » le nuage se
détériore au fur et à mesure que l’on observe des axes de rang plus
élevé.
 Chaque axe factoriel représente une nouvelle variable, appelée
composante principale
 La coordonnée d’un point sur cet axe correspond à la valeur de la
composante principale prise par ce point.
A-3 Les étapes d’une ACP
 ACP= décomposition factorielle des nuages de points
associés à un tableau individus*variables.
 Plusieurs types d’ACP selon la métrique choisie pour
mesurer la distance entre deux individus:
 ACP centrée: Décomposition factorielle du tableau centré
(variables homogènes, même unité de mesure)
 ACP normée: Décomposition factorielle du tableau réduit (donne
aux variables la même influence sur le calcul de la distance entre
individus)
Individu
X1
e1
x11
x12
e2
x 21
x 22
ei
x i1
xi 2
en
x n1
X2
xn 2
Xj
Xp
x1 j
x2 j
x1 p
x2 p
xij
x nj
x ip
xnp
A-3 Les étapes d’une ACP





Centrage (ACP centrée) ou réduction (ACP normée) de X
Analyse directe : décomposition factorielle du nuage de pointsindividus associé au tableau X ou X , les individus étant pondérés
r
c
par une matrice de poids P, la distance
entre deux individus étant
mesurée par la distance Euclidienne.
Analyse duale : déduction de la décomposition factorielle du nuage de
points-variables
Interprétation de ces analyses : choix du nombre d’axes q à retenir,
construction des nuages de points projetés sur ces axes, interprétation
des axes principaux et étude des proximités entre points.
Synthèse des résultats, construction éventuelle du tableau C réduit
(tableau des composantes principales) et visualisation des nuages de
points associés.
A-4 Définitions préalables
• On appelle matrice d’inertie associée à X la matrice
S  X ' PX
 Lorsque X est centré S=V
 Lorsque X est centré-réduit, S=R
A-4 Définitions préalables
• Le carré de la P-norme d’une variable centrée est sa variance
2
X
 X ' PX  2( X )
jP
j
j
j
• Le carré de la P-norme d’une variable centrée réduite est égal à 1
• Le P-produit scalaire entre deux variables est leur covariance
X ' PX  Cov( X , X )
j k
j k
• Le P-produit scalaire entre deux variables centrées réduites est leur
coefficient de corrélation
X ' PX  r ( X , X )
j k
j k
B- Analyse directe
•
•
•
•
1- Réduction de X
2- Recherche du premier axe
3- recherche des axes de rang >
4- conclusion
B-1 Analyse directe : Réduction de X
• Les axes « les plus informatifs » passent forcement par le
centre d’inertie du nuage de points. Le nouveau repère aura
pour origine G.  On travaille toujours sur le nuage
centré.
• Un axe étant déterminé par un point et un vecteur directeur
(une direction de l’espace), il suffit de rechercher les
directions des p axes factoriels.
• On note X le tableau centré, ei ses vecteurs lignes (pointsindividus) et X j ses vecteurs colonnes (points-variables).
B-2 Analyse directe : Recherche du
premier axe factoriel
 Il passe par G
 Vecteur directeur : u1 normé t.q. le nuage de points projeté sur u1
subit une déformation minimale
I est maximale
1
sous la contrainte : u 1
1
(P)
Où
I
1
est l’inertie du nuage projeté
I I
1
On dispose de 6 variables représentant les taux de différents délits commis pour 100000 habitants dans 20 Etats
des Etats-unis. Ces données peuvent être mises dans un tableau individu*variable
ETAT
Alabama
Alaska
Arizona
Arkansas
California
Colorado
Connecticut
Delaware
Florida
Georgia
Hawaii
Idaho
Illinois
Indiana
Iowa
Kansas
Kentucky
Louisiana
Maine
Maryland
Meurtre
14.2
10.8
9.5
8.8
11.5
6.3
4.2
6.0
10.2
11.7
7.2
5.5
9.9
7.4
2.3
6.6
10.1
15.5
2.4
8.0
Rapt
25.2
51.6
34.2
27.6
49.4
42.0
16.8
24.9
39.6
31.1
25.5
19.4
21.8
26.5
10.6
22.0
19.1
30.9
13.5
34.8
vol
96.8
96.8
138.2
83.2
287.0
170.7
129.5
157.0
187.9
140.5
128.0
39.6
211.3
123.2
41.2
100.7
81.1
142.9
38.7
292.1
attaque
278.3
284.0
312.3
203.4
358.0
292.9
131.8
194.2
449.1
256.5
64.1
172.5
209.0
153.5
89.8
180.5
123.3
335.5
170.0
358.9
viol
1135.5
1331.7
2346.1
972.6
2139.4
1935.2
1346.0
1682.6
1859.9
1351.1
1911.5
1050.8
1085.0
1086.2
812.5
1270.4
872.2
1165.5
1253.1
1400.0
larcin
1881.9
3369.8
4467.4
1862.1
3499.8
3903.2
2620.7
3678.4
3840.5
2170.2
3920.4
2599.6
2828.5
2498.7
2685.1
2739.3
1662.1
2469.9
2350.7
3177.7
nuage des points-individus
nuage de points réduits
30
25
60
20
15
30
20
10
rapt
réduit
rapt
50
40
G
5
0
-10
10
0
-5
-5 0
-10
0
5
10
meurtre
15
20
-15
-20
m eurtre réduit
5
10
B-2 Analyse directe : Recherche du
premier axe factoriel
• On montre que
I1  u1 ' Ru1
u1 ' Ru1 est maximale
sous la contrainte : u1  1
Solution : u1 est le vecteur propre unitaire de R associé à la plus grande
valeur propre 
1
Ik  
• On montre que :
• le vecteur des coordonnées du nuage de points projeté sur le premier
C1  Xu1
axe est
k
B-2 Analyse directe : Recherche des axes
factoriels de rang supérieurs
• Même méthode : le deuxième axe factoriel est l’axe
associé à la valeur propre de rang 2 (2° plus grande valeur
propre de R), que l’on pourra choisir orthogonal au premier
axe (car R est une matrice orthogonale), et ainsi de suite,
jusqu’au p° axe.
• la k° composante principale est
• L’inertie de l’axe k est
Ik  k
Ck  Xuk
B-3 Analyse directe : Conclusion
• L’analyse directe passe par les étapes suivantes :
• Diagonalisation de R (R est définie positive d’ordre p, elle
n’a pas de valeurs propres nulles et il y a donc p
directions).
• Classement des valeurs propres par ordre décroissant (elles
sont toutes <=1)
• les vecteurs propres associés déterminent les axes du
nouveau repère.
C- Analyse duale
• 1- Decomposition
• 2- recherche des axes factoriels
• 3- Coordonnees des points-variables
C-1 Analyse duale : Décomposition factorielle
du nuage de points-variables
On peut montrer qu’il n’y a pas lieu de réitérer l’ensemble des
calculs faits précédemment et que :
• les axes factoriels dans l’analyse duale se déduisent des
axes factoriels trouvés lors de l’analyse directe
•
l’inertie (représentant l’information restituée) est
identique pour des axes de même rang dans les deux
analyses.
C-2 Analyse duale : Relation entre les axes
factoriels
• Pour des raisons de symétrie, les axes factoriels du nuage de
points-variables passent par l’origine et ont pour vecteurs
directeurs les vecteurs propres P-unitaires de la matrice XX’P.
On montre que :
X ' Pvk
Xuk
uk 
vk 
k
k
• On montre que XX’P a p valeurs propres non nulles et n-p nulles
, donc seulement p axes sont informatifs. Les valeurs propres
non nulles sont les mêmes que celles de R. Les valeurs propres
non nulles et donc l’inertie sont identiques pour des axes de
rang homologues.
I k  k
C-4 Analyse duale : Coordonnées des pointsvariables sur les axes
Dk Le vecteur de dim p des coordonnées des p
Soit
variables sur le k axe. On a
Dk  k uk
Dk 
X ' PCk
k
Ck 
XDk
k
Résumé de la décomposition factorielle
Analyse directe
ei = (ci1 ,...,cik ,...cip )'
e1
u1
I   pi d ²(ei , G )  p   k
X1
G
X2
G
ei
xij
cik
Xj
ei
en
Xp
ei  ( xi1 ,...xij ,...xip )'
u2
uk
up
Ruk  k uk ,
uk  1, 1  ..  p
Ck  Xuk , Ck  (c1k ,.., cik ,..., cnk )'
I k  k  Var (Ck )
Résumé de la décomposition factorielle
Analyse duale
X j  ( x1 j ,..., xij ,.., xnj )'
X j  (d1 j ,..., dij ,...d pj )
v1
e1
X1
Xj
G
Xj
xij
Xp
e2
ei
en
d jk  X ' j P k  r (Ck , X j )
dij
vk 
Xuk
k
,1 k  p
Dk  k uk 
X ' PCk
I k  k   d jk ²
k
vi
vp
, Dk  (d1k ,..d pk )'
Remarques
Conclusion de la décomposition
factorielle
L’ACP normée permet donc de construire de nouvelles variables
(les composantes principales), Ck  Xuk combinaison linéaire
des variables d’origine.
Les composantes principales sont



centrées (les variables d’origine le sont)
non corrélées
Cov(Ck ,Cl )  C'k PCl  0
de variance maximale. C 2  Var(C )  λ
k p
k
k
Nous pouvons en sélectionner une partie pour construire le tableau
C, résumant l’information contenue dans le tableau initial, et
tenter de leur donner une signification.
Conclusion de la décomposition
factorielle
D- interprétation d’une ACP
•
•
•
•
•
1- choix du nombre d’axes
2- représentation graphique
3- interprétation des axes
4- Qualité de représentation
5- Synthèse
D-INTERPRETATION DES ANALYSES
FACTORIELLES
 Décomposition précédente faite par des logiciels statistiques (R ,
SAS….).
 Non automatique (interprétation des résultats):
 choisir le nombre d’axes factoriels (ou de composantes
principales) à retenir pour obtenir un résumé suffisamment
précis de l’information contenue dans le tableau initial
 Dessiner les nuages projetés
 Evaluer la qualité de ce résumé
 Interpréter les résultats : donner une signification aux
nouveaux axes.
D-1 Choix du nombre d’axes (ou nombre
de composantes principales) à retenir

Trois critères empiriques pour sélectionner le nombre q d’axes
à retenir :
 Critère du coude : décrochement de l’inertie
 Critère du Scree-test : différences secondes <0 ( un peu large)
 Critère de Kaiser: on ne retient que les axes dont l’inertie est
supérieure à l’inertie moyenne = I/p (> 1 en ACP normée)
 En ACP normée, on ne retiendra que les
axes associés à des valeurs propre supérieures à 1
(risque de sélectionner un nombre d’axes insuffisant).
 Dans la pratique, on retient en fait les q axes que l’on sait
interpréter
D-1 Choix du nombre d’axes à retenir (ou
du nombre de composantes principales)
On dispose de 6 variables représentant les taux de différents délits commis pour 100000 habitants dans 20 Etats
des Etats-unis. Ces données peuvent être mises dans un tableau individu*variable
ETAT
Alabama
Alaska
Arizona
Arkansas
California
Colorado
Connecticut
Delaware
Florida
Georgia
Hawaii
Idaho
Illinois
Indiana
Iowa
Kansas
Kentucky
Louisiana
Maine
Maryland
Meurtre
14.2
10.8
9.5
8.8
11.5
6.3
4.2
6.0
10.2
11.7
7.2
5.5
9.9
7.4
2.3
6.6
10.1
15.5
2.4
8.0
Rapt
25.2
51.6
34.2
27.6
49.4
42.0
16.8
24.9
39.6
31.1
25.5
19.4
21.8
26.5
10.6
22.0
19.1
30.9
13.5
34.8
vol
96.8
96.8
138.2
83.2
287.0
170.7
129.5
157.0
187.9
140.5
128.0
39.6
211.3
123.2
41.2
100.7
81.1
142.9
38.7
292.1
attaque
278.3
284.0
312.3
203.4
358.0
292.9
131.8
194.2
449.1
256.5
64.1
172.5
209.0
153.5
89.8
180.5
123.3
335.5
170.0
358.9
viol
1135.5
1331.7
2346.1
972.6
2139.4
1935.2
1346.0
1682.6
1859.9
1351.1
1911.5
1050.8
1085.0
1086.2
812.5
1270.4
872.2
1165.5
1253.1
1400.0
larcin
1881.9
3369.8
4467.4
1862.1
3499.8
3903.2
2620.7
3678.4
3840.5
2170.2
3920.4
2599.6
2828.5
2498.7
2685.1
2739.3
1662.1
2469.9
2350.7
3177.7
D-1 Choix du nombre d’axes à retenir (ou
du nombre de composantes principales)
Application à l’exemple 1 : Pour notre exemple, regardons les sorties fournies par le logiciel SAS :
1
2
3
4
5
6
Eigenvalue
Difference
Proportion
Cumulative
3.48593061
1.42185301
0.47278388
0.29433667
0.21866564
0.10643019
2.06407759
0.94906914
0.17844721
0.07567102
0.11223546
0.5810
0.2370
0.0788
0.0491
0.0364
0.0177
0.5810
0.8180
0.8968
0.9458
0.9823
1.0000
La première colonne indique le rang de l’axe factoriel considéré (ici, p= 6 axes
factoriels), la deuxième colonne donne les valeurs propres de la matrice R associées à
chaque axe, la troisième colonne donne les différences entre deux valeurs propres
consécutives, la quatrième colonne donne le taux d’inertie expliqué par l’axe et la
dernière le taux d’inertie cumulé (c'est-à-dire expliqué par le sous-espace constitué par
l’axe et les précédents).
critère de Kaiser : on choisit les deux premiers axes, expliquant 82% de
l’inertie totale.
D-1 Choix du nombre d’axes à retenir (ou
du nombre de composantes principales)
 Critère du coude: Décrochement au troisième axe, puis
décroissance régulière des taux d’inertie à partir du troisième axe :
seuls les deux premiers axes présentent un éventuel intérêt.
rang de l'axe
taux d'inertie des axes
5
3
1
0
0,2
0,4
taux d'inertie de l'axe
0,6
0,8
D-1 Choix du nombre d’axes à retenir (ou
du nombre de composantes principales)
 Critère du scree-test : on est amené à sélectionner 3 axes
(représentent 90% de l’inertie).
Diff1
k
2,06407759
0,94906914
0,17844721
0,07567102
Diff 2  k
1,11500845
0,77062193
0,10277619
-0,03656444
D-1 Choix du nombre d’axes à retenir (ou
du nombre de composantes principales)
Conclusion :
 Le premier axe conserve 58% de l’inertie du nuage. Il est peu probable
qu’il soit dû au hasard. Il existe une structuration importante des
données qui va se manifester sur le premier axe (1/2 au lieu de 1/6).
 Le second axe conserve une part importante de l’inertie totale, 24%.
 La chute est importante dès le troisième axe qui ne conserve plus que
7% de l’inertie totale (<seuil moyen 1/6=17%)
On peut décider de ne retenir que les deux premiers
axes (le premier plan factoriel) car il compréhensible
par l’œil (c’est un plan) et ne déforme pas trop le nuage
(il explique 82% de l’inertie du nuage)
D-2 Construction des nuages de points
projetés
•
Chaque nuage de points (variables et individus) est construit en
projection sur les plans factoriels : un plan factoriel est un
repère du plan défini par deux des q axes factoriels retenus.
Ex : Si l’on retient 3 axes, on tracera 3 graphiques pour chaque nuage: le
nuage projeté sur le plan (axe1, axe2), celui projeté sur le plan (axe1,
axe3), celui projeté sur le plan (axe2,axe3).
• L’examen des plans factoriels permettra de visualiser les
corrélations entre les variables et d’identifier les groupes
d’individus prenant des valeurs proches sur certaines variables.
• Attention : seules les proximités les variables et les individus
bien représentés sur les axes pourront être interprétées
visuellement (cf D4)
D-2 Construction des nuages de points
projetés
D-3 Interprétation des axes
 L’interprétation des axes factoriels se fait
séquentiellement : on commence par interpréter
chaque axe séparément .
 L’interprétation de chaque axe factoriel retenu se fait
à l’aide des contributions des points (individus et
variables) à l’inertie de cet axe.
 Chaque nuage sera d’abord regardé séparément, puis
on recoupe les deux analyses
D-3 Interprétation des axes : nuage des
individus
•
Si les individus ne sont pas anonymes, on regarde, pour chaque axe
retenu, les contributions des individus à l’inertie de l’axe. Ce sont les
individus dont la contribution est élevée qui permettent de lui donner
un sens
Contribution de l’individu à l’inertie de l’axe k :
Somme des contributions des individus = 100%.
•
pi c 2
ik
CTR (ei ) 
k
k
En pratique: On retient pour l’interprétation les individus dont la
contribution est > à la contribution moyenne (=1/n), le sens de la
contribution dépend du signe de cik.
CP (poids égaux ): les individus contribuent d’autant + que |cik| grand
Individus retenus :
c  λ
ik
k
D-3 Interprétation des axes : nuage des
points variables
• On regarde, pour chaque axe retenu, les contributions des
variables à l’inertie de l’axe. Ce sont les variables dont la
contribution est le plus élevé qui permettent d’expliquer l’axe
Contribution de la variable j à l’inertie de l’axe k :
Somme=100%
d2
jk
CTR ( X j ) 
u ²
k
jk
k
•En pratique: On retient pour l’interprétation les variables dont la contribution
est > à la contribution moyenne (=1/p), le sens de la contribution dépend du
signe de ujk. Variables retenues :
u jk  1/ p
D-3 Interprétation des axes : synthèse
 L’interprétation finale d’un axe se fait en rapprochant les
conclusions tirées sur les deux nuages. On peut aussi pour
illustrer ce résultat retourner aux données d’origine en extrayant
du tableau de base les éléments, individus et variables, mis en
évidence sur l’axe.
 NB : une contribution trop importante d’un des points à un axe
doit être regardé avec prudence (~25% d’inertie)
D-3 Interprétation des axes : exemple
• Interprétation de l’axe 1 : Contribution des individus
Etat
c
i1
 λ1  1,86
Iowa
Maine
Kentucky
Idaho
Connecticut
Arkansas
Indiana
Kansas
Alabama
Illinois
Hawaii
Georgia
Delaware
Louisiana
Alaska
Maryland
Colorado
Arizona
Florida
California
Prin1
Prin2
-3.08934
-2.34364
-2.17767
-1.91969
-1.47135
-1.35301
-1.07052
-1.04117
-0.46221
-0.15469
0.00534
0.11528
0.29111
0.71862
1.33963
1.87662
1.91888
2.39884
2.79934
3.61964
-1.08465
-0.98693
1.24149
-0.31927
-0.94414
1.09825
0.15404
-0.32997
2.11791
0.54064
-1.93088
1.28686
-1.38315
2.17636
0.59409
0.28145
-1.22840
-1.48610
0.03244
0.16998
D-3 Interprétation des axes : exemple
• Il n’y a aucune contribution supérieure à ¼, donc aucun état n’est
atypique.
• Toutes les masses sont égales, donc on cherche les états tels que
(on compare les valeurs de Prin1 à =1,867).
c
i1
 λ1  1,86
-
+
Iowa, Maine, Kentuky, Idaho
Californie, Floride Arizona,
Maryland, Colorado
Conclusion : L’axe 1 oppose les états de Iowa, Maine, Kentuky, Idaho
(qui contribuent négativement à la formation de l’axe 1), à ceux de
Californie, Floride Arizona, Maryland, Colorado (qui y contribuent
positivement).
D-3 Interprétation des axes : exemple
Interprétation de l’axe 1 : Contribution des variables
Eigenvectors
Meurtre
Rapt
Viol
Attaque
Vol
Larcin
Prin1
0.268358
0.474074
0.421853
0.445704
0.429817
0.376675
Prin2
0.648880
0.134920
0.045097
0.287959
-.411955
-.553255
u jk  1/ p  0,408
D-3 Interprétation des axes : exemple
Contribution des variables :
• Il n’y a aucune contribution supérieure à ¼, donc aucun délit n’est
atypique.
• Toutes les masses sont égales, donc on cherche les délits tels que
(on compare les valeurs de Prin1 à =0,408).
-
u jk  1/ p  0,408
+
rapt, attaque, vol et viol
Conclusion : L’axe 1 isole les délits rapt, attaque, vol et viol. En réalité,
isole l’ensemble des variables sur sa partie positive : effet taille
D-3 Interprétation des axes : exemple
Conclusion sur l’axe 1 :
L’axe 1 est un axe caractérisant le taux de délits: il oppose les
états de Iowa, Maine, Kentuky, Idaho aux états de
Californie, Floride Arizona, Maryland, Colorado, marqués
par une forte proportion de délits.
D-3 Interprétation des axes : exemple
• Interprétation de l’axe 2 : Contribution des individus
c
i2
 λ2  1,19
Etat
Iowa
Maine
Kentucky
Idaho
Connecticut
Arkansas
Indiana
Kansas
Alabama
Illinois
Hawaii
Georgia
Delaware
Louisiana
Alaska
Maryland
Colorado
Arizona
Florida
California
Prin1
Prin2
-3.08934
-2.34364
-2.17767
-1.91969
-1.47135
-1.35301
-1.07052
-1.04117
-0.46221
-0.15469
0.00534
0.11528
0.29111
0.71862
1.33963
1.87662
1.91888
2.39884
2.79934
3.61964
-1.08465
-0.98693
1.24149
-0.31927
-0.94414
1.09825
0.15404
-0.32997
2.11791
0.54064
-1.93088
1.28686
-1.38315
2.17636
0.59409
0.28145
-1.22840
-1.48610
0.03244
0.16998
D-3 Interprétation des axes : exemple
• Il n’y a pas d’individus atypiques
-
+
Hawaii, Delaware,
Colorado, Arizona
Kentuky, Alabama, Géorgie,
Louisiane
D-3 Interprétation des axes : exemple
Interprétation de l’axe 2 : Contribution des variables
Eigenvectors
Meurtre
Rapt
Viol
Attaque
Vol
Larcin
Prin1
0.268358
0.474074
0.421853
0.445704
0.429817
0.376675
Prin2
0.648880
0.134920
0.045097
0.287959
-.411955
-.553255
u jk  1/ p  0,408
D-3 Interprétation des axes : exemple
• Il n’y a pas de variables atypiques
-
+
Vol larcin
Meurtre
D-3 Interprétation des axes : exemple
Interprétation de l’axe 2:
• L’axe 2 est un axe de gravité des délits: il oppose les états
d’Hawaii, Delaware Colorado et Arizona, caractérisés par un
taux élevé de délits mineurs aux états de Kentuky, Alabama
Géorgie et Louisiane, marqués par un taux relativement élevé de
meutres.
D-4 Etude des proximités entre points
 Projection d’un nuage sur un axe = opération déformante.
 Avant d’interpréter les proximités entre points observées sur les axes, il faut
savoir si elles correspondent à la réalité (et non artificiellement créées par
l’opération de projection).
 Si l’élément est proche de sa projection sur l’axe, on dit qu’il est bien
représenté sur l’axe. S’il est éloigné, on dit qu’il est mal représenté.
 Il existe des éléments qui ne contribuent pas fortement à l’inertie de
l’axe, mais qui sont bien représentés par cet axe, c'est-à-dire qui
présentent des caractéristiques propres à l’axe.
D-4 Etude des proximités entre points
 Qualité de représentation de l’individu i sur l’axe k:
cik ²
qltk (ei )  cos ²(ik ) 
ei ²
p
ei ²   cik ²
k 1
 Lorsque l’angle est proche de 0, c'est-à-dire que
l’individu est bien représenté, le cosinus est proche de 1.
Dans le cas inverse, l’angle est proche de 90° et le cosinus
est proche de 0.
D-4 Etude des proximités entre points
 Qualité de représentation de la variable j sur l’axe k:
qltk ( X j )  cos ²( kj ) 
 En ACP normée,
d jk ²
Xj ²
qltk ( X j )  d ² jk  r ²(Ck , X j )
 une variable est d’autant mieux représentée sur un axe qu’elle est
proche du bord du cercle des corrélations et de l’axe, d’autant
plus mal représentée qu’elle est proche de l’origine.
Remarque : En ACP normée, les variables qui contribuent le plus à
l’axe sont aussi celles qui sont le mieux représentées et
inversement.
D-4 Etude des proximités entre points
 La proximité dans l’espace entre deux individus traduit la ressemblance
de ces deux individus du point de vue des valeurs prises par les
variables. Lorsque la qualité de représentation de deux individus est
bonne, leur proximité observée sur l’axe retrace leur proximité réelle
(dans l’espace).
 La proximité entre deux variables sur un axe donne, si les deux
variables sont bien représentées sur l’axe ( proches de l’axe et du bord
du cercle en ACP normée) , une approximation de leur corrélation.
– Deux variables proches sont corrélées positivement
– Deux variables qui s’opposent sont corrélées négativement
– Deux variables orthogonales sont non corrélées.
D-4 Etude des proximités entre points
 On peut enfin chercher à interpréter les proximités lues sur les
plans factoriels. Permet de mettre en évidence des proximités
éventuelles que l’on a pas remarquées avec l’analyse
séquentielle des axes. On interprète les proximités d’éléments
bien représentés sur le plan factoriel:
 Individus : Le cosinus carré est est additif sur des sous-espaces
orthogonaux. La qualité de représentation sur le plan défini par les
axes k et l est égale à
qlt jk (ei )  qltk (ei )  qltl (ei )
 Variables: on interprète les proximités de variables bien
représentées sur le plan i.e. proches du bord du cercle de
corrélations
D-5 Synthèse
 L’analyse des qualités de représentation permet éventuellement
de corriger l’interprétation qu’on a fait des axes : on ne peut pas
interpréter en fonction de points mal représentés
 On regarde globalement les nuages de points sur les axes
factoriels. Pour cela on se sert des qualités de représentation sur
les plans
 On peut aussi construire le tableau « réduit » C de dimension
n*q : ses lignes sont les valeurs prises par les n individus sur les
q composantes principales retenues. La k° composante
principale aura la même signification que le k° axe.
D-6 Exemple
ETAT
Iowa
Maine
Kentucky
Idaho
Connecti
Arkansas
Indiana
Kansas
Alabama
Illinois
Hawaii
Georgia
Delaware
Louisian
Alaska
Maryland
Colorado
Arizona
Florida
Californ
Prin1
Prin2
QLT1
QLT2
-3.08934
-2.34364
-2.17767
-1.91969
-1.47135
-1.35301
-1.07052
-1.04117
-0.46221
-0.15469
0.00534
0.11528
0.29111
0.71862
1.33963
1.87662
1.91888
2.39884
2.79934
3.61964
-1.08465
-0.98693
1.24149
-0.31927
-0.94414
1.09825
0.15404
-0.32997
2.11791
0.54064
-1.93088
1.28686
-1.38315
2.17636
0.59409
0.28145
-1.22840
-1.48610
0.03244
0.16998
0.85597
0.73178
0.71555
0.86602
0.59764
0.54374
0.75524
0.90431
0.03970
0.01044
0.00000
0.00694
0.03901
0.08889
0.31012
0.50093
0.65410
0.59333
0.86745
0.93149
0.10551
0.12977
0.23256
0.02395
0.24608
0.35826
0.01564
0.09083
0.83364
0.12747
0.62744
0.86522
0.88054
0.81527
0.06099
0.01127
0.26806
0.22771
0.00012
0.00205
D-6 Exemple
Retour sur l’axe 1 :
 Les individus contribuant le plus fortement à l’inertie des axes sont tous assez
bien représentés donc l’interprétation faite initialement est OK
 Les individus Indiana et Kansas, bien que ne contribuant pas fortement à la
formation de l’axe 1 y sont bien représentés: ils ont des profils similaires,
situés près du centre d’inertie avec une proportion de délits en tous genre
moyenne.
 Nous sommes en ACP normée donc les variables les mieux représentées sont
aussi celles qui contribuent le plus à la formation de l’axe
 Conclusion: L’axe 1 oppose les états de Iowa, Maine, Kentuky, Idaho à ceux de
Californie, Floride Arizona, Maryland, Colorado, marqués par une forte proportion
de délits; les états de Indiana et Kansas sont biens représentés sur l’axe et sont
proches de l’individu .
D-6 Exemple
Retour sur l’axe2 :
 Les états du Colorado et de l’Arizona sont mal représentés. On devrait
les supprimer de l’interprétation de l’axe 2
 Sinon ce sont les mêmes pays qui contribuent et sont bien représentés
 Conclusion: L’axe 2 oppose les états d’Hawaii, Delaware, caractérisés
par un taux élevé de délits mineurs aux états de Kentuky, Alabama
Géorgie et Louisiane, marqués par un taux relativement élevé de
meurtres.
D-6 Exemple
Qualité de représentation des individus sur le plan principal
Iowa
Maine
Kentucky
Idaho
Connecti
Arkansas
Indiana
Kansas
Alabama
Illinois
Hawaii
Georgia
Delaware
Louisian
Alaska
Maryland
Colorado
Arizona
Florida
Californ
0,85597
0,73178
0,71555
0,86602
0,59764
0,54374
0,75524
0,90431
0,0397
0,01044
0
0,00694
0,03901
0,08889
0,31012
0,50093
0,6541
0,59333
0,86745
0,93149
0,10551
0,12977
0,23256
0,02395
0,24608
0,35826
0,01564
0,09083
0,83364
0,12747
0,62744
0,86522
0,88054
0,81527
0,06099
0,01127
0,26806
0,22771
0,00012
0,00205
0,96148
0,86155
0,94811
0,88997
0,84372
0,902
0,77088
0,99514
0,87334
0,13791
0,62744
0,87216
0,91955
0,90416
0,37111
0,5122
0,92216
0,82104
0,86757
0,93354
D-6 Exemple
D-6 Exemple
On peut noter des regroupement particuliers de points, autres qu’à
proximité des axes, ce qui a déjà été analysé: (Californie,
Floride) . D’où
3 groupes :
 Californie, Floride : attaque, rapt, viol (californie, floride)
 Colorado, Arizona: larcin,vol
 Louisiane, Alabama Georgie, kentuky: meurtre
D-6 Exemple
• Tableau C
Etat
Iowa
Maine
Kentucky
Idaho
Connecticut
Arkansas
Indiana
Kansas
Alabama
Illinois
Hawaii
Georgia
Delaware
Louisiana
Alaska
Maryland
Colorado
Arizona
Florida
California
Prin1
Prin2
-3.08934
-2.34364
-2.17767
-1.91969
-1.47135
-1.35301
-1.07052
-1.04117
-0.46221
-0.15469
0.00534
0.11528
0.29111
0.71862
1.33963
1.87662
1.91888
2.39884
2.79934
3.61964
-1.08465
-0.98693
1.24149
-0.31927
-0.94414
1.09825
0.15404
-0.32997
2.11791
0.54064
-1.93088
1.28686
-1.38315
2.17636
0.59409
0.28145
-1.22840
-1.48610
0.03244
0.16998
E- Limites
Une des principales faiblesses de cette techniques est la forte sensibilité
aux points extrêmes :
 Ce manque de robustesse est notamment lie au rôle central qu'y joue la
corrélation de Bravais-Pearson : les points extrêmes, en perturbant les
moyennes et corrélations, polluent fortement l'analyse - on peut
cependant envisager de les déplacer en point supplémentaire.
 D'autre part, l'ACP est inadaptée aux phénomènes non linéaires en
grande dimension. Pour ce genre de problème, d'autres méthodes ont
été développées, comme l'ACPN (Analyse en Composantes Principales
par Noyau).
E- Limites
F- 1 ACP sous R: princomp(« stats »)
• princomp
package:stats
Principal Components Analysis
•
R Documentation
Description: 'princomp' performs a principal components analysis on
the given numeric data matrix and returns the results as an object of
class 'princomp'.
• Usage: princomp(x, ...)
• Arguments:
x: a numeric matrix or data frame which provides the data for the principal
components analysis.
cor: a logical value indicating whether the calculation should use the
correlation matrix or the covariance matrix.
scores: a logical value indicating whether the score on each principal
component should be calculated.
F-1 ACP sous R: princomp(« stats »)
##
Examples:
>crime=read.table("crime.txt", header=T,row.names=1)
>princomp(x=crime, cor = TRUE)
Call:
princomp(x = x, cor = T)
k
Standard deviations
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6
1.8670647 1.1924148 0.6875928 0.5425280 0.4676170 0.3262364
6 variables and 20 observations.
F-1 ACP sous R: princomp(« stats »)
> summary(acp<-princomp(crime, cor = TRUE))
Importance of components:
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
Standard deviation
1.8670647 1.1924148 0.68759281 0.54252803 0.46761698
Proportion of Variance 0.5809884 0.2369755 0.07879731 0.04905611 0.03644427
Cumulative Proportion 0.5809884 0.8179639 0.89676125 0.94581736 0.98226164
Comp.6
Standard deviation 0.32623640
Proportion of Variance 0.01773836
Cumulative Proportion 1.00000000
k
Ik
F-1 ACP sous R: princomp(« stats »)
>loadings(acp)
Loadings:
uk
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6
Meurtre -0.268 0.649 0.269 0.599 0.150 -0.232
Rapt
-0.474 0.135 0.301 -0.245 -0.764 0.149
viol
-0.422 -0.876 0.185 -0.137
Attaque -0.446 0.288
-0.656 0.537
vol
-0.430 -0.412 0.204 0.336 0.291 0.637
larcin
-0.377 -0.553 0.169
-0.719
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6
SS loadings
1.000 1.000 1.000 1.000 1.000 1.000
Proportion Var 0.167 0.167 0.167 0.167 0.167 0.167
Cumulative Var 0.167 0.333 0.500 0.667 0.833 1.000
F-1 ACP sous R: princomp(« stats »)
> acp$scores
c
Comp.1 Comp.2
Comp.3 Comp.4
Comp.5
ik
Alabama 0.47421533 2.17292554 0.491274280 0.36690798 0.569339519
Alaska -1.37443010 0.60952764 1.383696674 -0.57728208 -1.199624829
Arizona -2.46115288 -1.52470179 1.005513852 0.41303753 0.802039585
Arkansas 1.38815961 1.12678123 0.219480169 -0.29979717 -0.330233705
California -3.71367458 0.17439369 -0.611213633 0.26601608 -0.425546920
Colorado -1.96872562 -1.26030699 0.236035848 -0.48098019 -0.372267715
Connecticut 1.50957496 -0.96866341 -0.686613377 0.10404155 0.048142778
Delaware -0.29867735 -1.41908466 -0.268773295 0.25293681 0.127685148
Florida -2.87206179 0.03328554 0.217223412 -0.80305229 0.728682057
…….
F-1 ACP sous R: princomp(« stats »)
>plot(acp) #dessine un scree-plot
>biplot(acp)
F-1 ACP sous R: princomp(« stats »)
Remarques :
tracer du cercle de corrélations
>a=seq(0,2*pi,length=100)
>plot( cos(a), sin(a), type='l', lty=3,
main="Cercle des corrélations" )
>v =t(acp$loadings)[1:2,]
>arrows(0,0, v[1,], v[2,], col='red')
>text(v[1,], v[2,],colnames(v))
xlab='comp 1', ylab='comp 2',
F-1 ACP sous R: princomp(« stats »)
Calcul des qualités de représentation des individus
>a=(acp$scores^2/apply(acp$scores^2,1,sum))[,1:2]
> colnames(a)=c("qlt1","qlt2")
> cbind(a,qlt12=a[,1]+a[,2])
F- 2 décomposition factorielle sous R à la main
> r=cor(crime)
> eigen(r)
$values
[1] 3.4859306 1.4218530 0.4727839 0.2943367 0.2186656 0.1064302
$vectors
[,1]
[,2]
[,3]
[,4]
[,5]
[,6]
[1,] -0.2683577 0.6488797 0.268611143 0.59881631 0.15006166 0.231706427
[2,] -0.4740738 0.1349197 0.301365134 -0.24473498 -0.76433206 -0.148765080
[3,] -0.4218529 0.0450971 -0.875663710 0.18541466 -0.13691520 0.009750984
[4,] -0.4457038 0.2879586 0.006955968 -0.65570696 0.53680881 0.016256037
[5,] -0.4298167 -0.4119546 0.204363647 0.33583392 0.29098675 -0.637439235
[6,] -0.3766750 -0.5532552 0.168603946 0.06640164 0.04117336 0.719369838
F- 2 décomposition factorielle sous R à la main
>cr=(crime-(matrix(rep(1,20),20,1)%*%mean(crime))%*%diag(1/sd(crime))
>C=cr%*%v$vector
[,1]
[,2]
[,3]
[,4]
[,5]
Alabama 0.462207929 2.11790584 0.47883494 0.35761766 0.554923521
Alaska -1.339628754 0.59409405 1.34866069 -0.56266497 -1.169249650
Arizona -2.398835102 -1.48609548 0.98005367 0.40257919 0.781731489
…..
>v=C/sqrt(v$value)
[,1]
[,2]
[,3]
[,4]
[,5]
Alabama 0.24755860 3.08017448 1.023989618 0.19154005 0.807052532…….
Alaska -1.12345869 1.09504766 4.133998208 -0.47187018 -2.155187521……..
Arizona -3.48874371 -3.17801861 0.524916823 0.58549069 1.671734592
……
>D=sqrt(v$value)*v$vector
[,1]
[,2]
[,3]
[,4]
[,5]
[,6]
[1,] -0.5010412 1.21150038 0.501514384 1.11802879 0.28017482 0.432610891
[2,] -0.5652926 0.16088028 0.359352241 -0.29182561 -0.91140084 -0.177389680
…..