Analyse en Composantes Principales A.C.P.
Download
Report
Transcript Analyse en Composantes Principales A.C.P.
Analyse en Composantes Principales
A.C.P.
M. Rehailia
Laboratoire de Mathématiques de
l’Université de Saint Etienne
(LaMUSE).
Introduction
L’ACP, introduite par K. Pearson et Thurston (années
20), est une technique des statistiques descriptives
destinée à l’analyse des données
multidimensionnelles.
Elle permet de réduire la dimension de l’espace des
descripteurs.
On cherche à réduire le nombre de descripteurs
(variables) avec le minimum de perte d’information
et préservant les relations existant déjà avec entre
les différents descripteurs.
Position du Problème
On a observé p variables sur n individus.
Dans la pratique cela représente un tableau
à np entrées qu’il est difficile, voire
impossible à lire, pour extraire les
informations les plus pertinentes.
Exemple artificiel : Supposons qu’on a
observé le jeu de données suivant :
Exemple (suite)
descrip-teur
D1
D2
D3
D4
-11
-12
-15
-14
-14,5
-13
-60
-62
-80
-75
-82
-72
110
93
113
94
100
102
40
25
39
25
30
32
Sujet
S1
S2
S3
S4
S5
S6
Rappels
Matrice de variance-covariance : mesure la liaison entre les
différents descripteurs
Σ=
covX , X
i
j
i, j
où cov(Xi, Xi) = Var(Xi).
Matrice de corrélation : même chose que Σ sauf qu’il s’agit
d’un paramètre sans dimension
R = (Rij)i,j
Matrice de corrélation
1
0,970
-0,064
0,094
--
1
-0,102
0,037
--
--
1
0,986
--
--
--
1
Commentaires
Le tableau 1 est difficile à lire (en particulier
lorsqu’on a plusieurs variables et sujets).
Par conséquent les relations entre les
différents descripteurs sont indécelables à
première vue.
La matrice de corrélation (matrice de liaison
sans dimension) montre que la variable 1 est
fortement corrélée avec la variable 2 ; il en
est de même pour les variables 3 et 4.
Comment se fait la réduction de la
dimension tout en préservant les liaisons
entre les différents descripteurs ?
Les variables de départ sont remplacées par « des
vecteurs propres » de la matrice Σ ou de la matrice
R, appelés Composantes principales.
Y-a-t-il un critère d’arrêt ? généralement on
s’arrête quand au moins 75% de la variance est
expliquée par la variance cumulée par les CP.
Qu’est-ce qu’un vecteur propre ?
est une valeur propre de la matrice A si et seulement si
Av = v
Le vecteur v dans la relation ci-dessus est appelé vecteur
associé à
Les valeurs propres s’obtiennent en résolvant le système
d’équations det(A- I) = 0.
Le nombre de valeurs propres, 1> … > p, est égal au nombre
de lignes = nombre de colonnes de la matrice A
Important : La somme des valeurs propres de A est égale à la
variance contenue dans l’ensemble des données.
Expression des composantes
principales
D’un point de vue pratique les composantes
principales s’écrivent
Fj = 1X1+….+ pXp
c’est-à-dire que Fj est une combinaison linéaire des
variables initiales X1,… , Xp.
En plus de cet aspect calculatoire on doit pouvoir
faire des affirmations sur la qualité de la réduction et
la qualité de la représentation graphique.
Représentation graphique
Lorsque les différentes CP ont été trouvées on peut représenter les différentes variables et
les différents individus dans le plan CP1, CP2 comme illustré ci-dessous
Interprétation
Chaque valeur propre représente la variance prise en compte
par la composante principale correspondante.
Pour l’exemple on obtient :
Ici les deux premières composantes rendent compte de
0,5003+0,4917 = 0,9920 = 99,2 % de la variance totale.
Ce qui veut dire que les 4 descripteurs peuvent être remplacés
par les 2 premières composantes tout en préservant la quasitotalité de l’information (réduction).
Résultats des calculs
Scores des individus : il s’agit des valeurs
prises par les composantes principales sur
les individus.
Ici
Résultats (suite I)
Saturations des variables : il s’agit des
coefficients de corrélation entre les variables
et les composantes principales.
La première composante est surtout corrélée
avec les deux derniers descripteurs
Résultats (suite II)
Contribution (relative) d’un individu à la
formation d’une composante principale :
0,07712
0,64%
2
2
0,0771 ... 0,0556
CTR(sujet 1, CP1)=
Qualité de la représentation :
pour sujet 1 et CP2
2,75152
0,998
2
2
QLT = 0,0771 ... 0,0166
Résultats (suite II)
Qualité de la représentation d’une variable à la
formation d’une CP : contribution de la première variable
à la formation de la première composante principale
CTR =
0,62882
0,1976
2
2
2
0,6288 0,6651 ... 0,7129
Interprétation
Scores et saturations ne sont pas exprimés
dans la même unité de mesure.
Interpréter chaque axe : part de la variance sont il
rend compte, variables avec lesquelles il est corrélé.
Individus proches de l’origine : ils ont peu
contribué à l’inertie.
Interpréter plutôt les oppositions marquées entre
individus.
Exemple
Analyser les données Budget-temps
(voir feuilles de TD)
MERCI de votre attention !