Analyse en Composantes Principales A.C.P.

Download Report

Transcript Analyse en Composantes Principales A.C.P.

Analyse en Composantes Principales
A.C.P.
M. Rehailia
Laboratoire de Mathématiques de
l’Université de Saint Etienne
(LaMUSE).
Introduction



L’ACP, introduite par K. Pearson et Thurston (années
20), est une technique des statistiques descriptives
destinée à l’analyse des données
multidimensionnelles.
Elle permet de réduire la dimension de l’espace des
descripteurs.
On cherche à réduire le nombre de descripteurs
(variables) avec le minimum de perte d’information
et préservant les relations existant déjà avec entre
les différents descripteurs.
Position du Problème


On a observé p variables sur n individus.
Dans la pratique cela représente un tableau
à np entrées qu’il est difficile, voire
impossible à lire, pour extraire les
informations les plus pertinentes.
Exemple artificiel : Supposons qu’on a
observé le jeu de données suivant :
Exemple (suite)
descrip-teur
D1
D2
D3
D4
-11
-12
-15
-14
-14,5
-13
-60
-62
-80
-75
-82
-72
110
93
113
94
100
102
40
25
39
25
30
32
Sujet
S1
S2
S3
S4
S5
S6
Rappels

Matrice de variance-covariance : mesure la liaison entre les
différents descripteurs
Σ=
covX , X 
i
j
i, j
où cov(Xi, Xi) = Var(Xi).

Matrice de corrélation : même chose que Σ sauf qu’il s’agit
d’un paramètre sans dimension
R = (Rij)i,j
Matrice de corrélation
1
0,970
-0,064
0,094
--
1
-0,102
0,037
--
--
1
0,986
--
--
--
1
Commentaires
Le tableau 1 est difficile à lire (en particulier
lorsqu’on a plusieurs variables et sujets).
 Par conséquent les relations entre les
différents descripteurs sont indécelables à
première vue.
 La matrice de corrélation (matrice de liaison
sans dimension) montre que la variable 1 est
fortement corrélée avec la variable 2 ; il en
est de même pour les variables 3 et 4.
Comment se fait la réduction de la
dimension tout en préservant les liaisons
entre les différents descripteurs ?

Les variables de départ sont remplacées par « des
vecteurs propres » de la matrice Σ ou de la matrice
R, appelés Composantes principales.

Y-a-t-il un critère d’arrêt ? généralement on
s’arrête quand au moins 75% de la variance est
expliquée par la variance cumulée par les CP.
Qu’est-ce qu’un vecteur propre ?





 est une valeur propre de la matrice A si et seulement si
Av = v
Le vecteur v dans la relation ci-dessus est appelé vecteur
associé à 
Les valeurs propres s’obtiennent en résolvant le système
d’équations det(A- I) = 0.
Le nombre de valeurs propres, 1> … > p, est égal au nombre
de lignes = nombre de colonnes de la matrice A
Important : La somme des valeurs propres de A est égale à la
variance contenue dans l’ensemble des données.
Expression des composantes
principales

D’un point de vue pratique les composantes
principales s’écrivent
Fj = 1X1+….+ pXp
c’est-à-dire que Fj est une combinaison linéaire des
variables initiales X1,… , Xp.
En plus de cet aspect calculatoire on doit pouvoir
faire des affirmations sur la qualité de la réduction et
la qualité de la représentation graphique.
Représentation graphique

Lorsque les différentes CP ont été trouvées on peut représenter les différentes variables et
les différents individus dans le plan CP1, CP2 comme illustré ci-dessous
Interprétation




Chaque valeur propre représente la variance prise en compte
par la composante principale correspondante.
Pour l’exemple on obtient :
Ici les deux premières composantes rendent compte de
0,5003+0,4917 = 0,9920 = 99,2 % de la variance totale.
Ce qui veut dire que les 4 descripteurs peuvent être remplacés
par les 2 premières composantes tout en préservant la quasitotalité de l’information (réduction).
Résultats des calculs


Scores des individus : il s’agit des valeurs
prises par les composantes principales sur
les individus.
Ici
Résultats (suite I)

Saturations des variables : il s’agit des
coefficients de corrélation entre les variables
et les composantes principales.

La première composante est surtout corrélée
avec les deux derniers descripteurs
Résultats (suite II)

Contribution (relative) d’un individu à la
formation d’une composante principale :
0,07712
 0,64%
2
2
0,0771  ... 0,0556

CTR(sujet 1, CP1)=

Qualité de la représentation :
pour sujet 1 et CP2
2,75152
 0,998
2
2
QLT = 0,0771  ...  0,0166
Résultats (suite II)

Qualité de la représentation d’une variable à la
formation d’une CP : contribution de la première variable
à la formation de la première composante principale
CTR =
0,62882
 0,1976
2
2
2
0,6288  0,6651  ... 0,7129
Interprétation




Scores et saturations ne sont pas exprimés
dans la même unité de mesure.
Interpréter chaque axe : part de la variance sont il
rend compte, variables avec lesquelles il est corrélé.
Individus proches de l’origine : ils ont peu
contribué à l’inertie.
Interpréter plutôt les oppositions marquées entre
individus.
Exemple

Analyser les données Budget-temps
(voir feuilles de TD)
MERCI de votre attention !