Procédure d`inscription en ligne

Download Report

Transcript Procédure d`inscription en ligne

Analyse en composantes principales
Gilles Gasso, Stéphane Canu
INSA Rouen - Département ASI
Laboratoire LITIS 1
17 septembre 2014
1.
Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy
Gilles Gasso, Stéphane Canu
Analyse en composantes principales
1 / 22
Plan
1
Introduction
2
ACP
Principe
Formulation mathématique et résolution
3
Algorithme
4
Propriétés
Des axes factoriels
De l’ACP
Réduction de dimension
Gilles Gasso, Stéphane Canu
Analyse en composantes principales
2 / 22
Introduction
Introduction
Objectifs
{xi ∈ RD }i=1,··· ,N : ensemble de N points décrits par D attributs.
Objectifs de l’analyse en composantes principales
1
représentation (graphique) des points dans un sous-espace de dimension
d (d << D) telle que la déformation du nuage de points soit minimale
2
réduction de la dimension, ou approximation des points à partir de d
variables (d ≤ D).
Notations
Observation : xi ∈ RD avec xi = xi,1 xi,2 · · ·
xi,D
>
Variable (attribut) : x j
Gilles Gasso, Stéphane Canu
Analyse en composantes principales
3 / 22
Introduction
Les données : description
Données
Soit X la matrice des données (xi ∈ RD ) :

  > 
x1,1 x1,2 . . . x1,D
x1
 ..
  .. 
.
.
X = .
. = . =
xN,1 xN,2 . . . xN,D
xN>
x1 x2 . . . xN
Statistiques sommaires : moyenne et variance
>
Moyenne x¯ = x¯1 x¯2 . . . x¯D
avec x¯j =
Variance des variables var(x j ) =
Gilles Gasso, Stéphane Canu
1
N
PN
i=1 (xi,j
1
N
>
PN
i=1 xi,j ,
− x¯j )2
Analyse en composantes principales
4 / 22
Introduction
Covariance et Matrice de covariance
Covariance entre variables j et k
cov(x j , x k ) =
N
1 X
(xi,j − x¯j )(xi,k − x¯k )
N
i=1
Si covariance grande (en valeur absolue) =⇒ variables j et k
dépendantes. Covariance nulle =⇒ variables indépendantes
Matrice de covariance Σ ∈ RD×D
Σ est une matrice symétrique de terme général Σj,k = cov(x j , x k ) :
N
1 X
Σ=
(xi − x¯) (xi − x¯)>
N
i=1
données centrées : Σ =
Gilles Gasso, Stéphane Canu
1
N
PN
>
i=1 xi xi ,
ou encore
Σ=
Analyse en composantes principales
1 >
NX X
5 / 22
ACP
Principe
Analyse en Composantes Principales
Principe
Soit xi ∈ RD , i = 1, · · · , N des données centrées.
Objectif : trouver un sous-espace de dimension d ≤ D où projeter les
xi de façon à perdre le moins d’informations possibles
Trouver une “meilleure base orthonormale”
de représentation des données par
combinaison linéaire de la base originale.
6
5
Points
Moyenne
Axe 1
Axe 2
4
3
p1 , p2 : vecteurs orthonormés (axes 1 et 2).
Projeter les données sur l’espace engendré
par p1 et p2 =⇒ changement de base
2
1
0
−1
−2
−2
−1
0
1
2
3
4
5
Gilles Gasso, Stéphane Canu
6
Quel est le meilleur sous-espace de
dimension 1 ?
Analyse en composantes principales
6 / 22
ACP
Principe
Analyse en Composantes Principales
Objectifs et hypothèses
X ∈ RN×D : matrice de données centrées.
Objectif ACP : trouver un sous-espace de dimension d ≤ D qui
permet d’avoir une représentation réduite de X .
Comment ?
Projection linéaire de xi ∈ RD sur ti ∈ Rd
ti = P > xi
avec
P = p1 · · ·
pd ,
pi ∈ RD
P ∈ RD×d : matrice de transformation linéaire
Contrainte : P > P = I
Les vecteurs de la nouvelle base sont orthogonaux 2 à 2 c’est-à-dire
pj> pi = 0 ∀ i 6= j
Gilles Gasso, Stéphane Canu
Analyse en composantes principales
7 / 22
ACP
Principe
Analyse en Composantes Principales
Reconstruction de xi à partir de ti
Si d = D, la matrice P est orthogonale
ti = P > xi
=⇒
Pti = PP > xi
=⇒
xi = Pti
Dans ce cas, pas de réduction de dimension, juste un changement de
base et donc pas de perte d’information
d < D (réduction de dimension)
Reconstruction de xi par l’approximation
xˆi = Pti
ou
xˆi = PP > xi
Problématique
Construire P de sorte que l’erreur kxi − xˆi k2 entre le vrai xi et sa
reconstruction xˆi soit minimale et ceci pour tous les points xi , i = 1, · · · , N
Gilles Gasso, Stéphane Canu
Analyse en composantes principales
8 / 22
ACP
Formulation mathématique et résolution
Minimisation d’erreur/maximisation variance
Soit Je (P) l’erreur quadratique d’estimation. On a :
Je (P)
=
N
N
1 X
1 X
kxi − xˆi k2 =
(xi − PP > xi )> (xi − PP > xi )
N
N
=
N
1 X >
(xi xi − 2xi> PP > xi + xi> PP > PP > xi )
N
i=1
i=1
i=1
N
N
N
N
1 X >
1 X > >
1 X >
1 X >
=
xi xi −
xi PP xi =
xi xi −
ti ti
N
N
N
N
i=1
i=1
i=1
i=1
!
!
N
N
N
N
1 X > 1X > >
1X >
1X >
xi xi −
ti ti = trace
xi xi −
P xi xi P
= trace
N
N
N
N
i=1
i=1
i=1
i=1
Je (P) = trace (Σ) − trace P > ΣP
pour des données xi centrées
minJe (P) revient à maximiser par rapport à P la variance P > ΣP des
points projetés.
Gilles Gasso, Stéphane Canu
Analyse en composantes principales
9 / 22
ACP
Formulation mathématique et résolution
Axes factoriels et composantes principales
Soit X la matrice des données et p ∈ RD tq kpk = 1. Soit le vecteur
>
de RN , c1 = Xp1 = x1> p1 . . . xN> p1 .
On appelle premier axe factoriel de X le vecteur p1 tel que la variance
de Xp1 soit maximale. Le vecteur c1 est appelé première composante
principale.
Le kième axe factoriel est le vecteur pk unitaire (kpk k = 1) tel que la
variance de ck = Xpk soit maximale et que pk soit orthogonal aux k − 1
premiers axes factoriels.
Gilles Gasso, Stéphane Canu
Analyse en composantes principales
10 / 22
ACP
Formulation mathématique et résolution
Minimisation de l’erreur quadratique d’estimation
Premier axe factoriel
On cherche le sous espace engendré par p1 tq p1> p1 = 1.
Problème d’optimisation sous contrainte égalité :
N
N
1 X >
1 X >
min Je (p1 ) =
xi xi −
xi p1 p1> xi
p1
N
N
i=1
avec p1> p1 = 1
i=1
Simplification de Je (p1 )
Je (p1 ) = −p1>
N
1 X >
xi xi
N
!
p1 = −p1> Σp1
i=1
Le lagrangien s’écrit
L(p1 , λ1 ) = −p1> Σp1 + λ1 (p1> p1 − 1)
Gilles Gasso, Stéphane Canu
Analyse en composantes principales
11 / 22
ACP
Formulation mathématique et résolution
Minimisation de l’EQE
Optimisation
Conditions d’optimalité
∇p1 L = 0 = −2Σp1 + 2λ1 p1
=⇒ Σp1 = λ1 p1
et ∇λ1 L = 0 = p1> p1 − 1
et
p1> Σp1 = λ1
Interprétation
1
(λ1 , p1 ) représente la paire (valeur propre, vecteur propre) de la
matrice de covariance Σ
2
Je (p1 ) = −λ1 est la fonctionnelle que l’on cherche à minimiser
Solution
Le premier axe factoriel p1 est le vecteur propre associé à la plus grande
valeur propre de Σ.
Gilles Gasso, Stéphane Canu
Analyse en composantes principales
12 / 22
ACP
Formulation mathématique et résolution
k-ième axe factoriel
Lemme
Le sous-espace de dimension k minimisant l’erreur quadratique d’estimation
des données contient nécessairement le sous-espace de dimension k − 1.
Calcul du 2e axe factoriel p2 sachant que p1 est connu
min
p2
Je (p2 ) = −p2> Σp2
tel que p2> p2 = 1,
p2> p1 = 0
Interprétation : on cherche un vecteur unitaire p2 qui maximise la
variance p2> Σp2 et qui soit orthogonal au vecteur p1
Exercice
Montrer que p2 est le vecteur propre associé à λ2 , la seconde plus grande
valeur propre de Σ
Gilles Gasso, Stéphane Canu
Analyse en composantes principales
13 / 22
Algorithme
Algorithme
1
Centrer les données : {xi ∈ RD }N
¯ ∈ RD }N
i=1 −→ {xi = xi − x
i=1
2
Calculer la matrice de covariance Σ =
3
Calculer la décomposition en valeurs propres {pj ∈ RD , λj ∈ R}D
j=1 de Σ
4
Ordonner les valeurs propres λj par ordre décroissant
5
Nouvelle base de représentation des données :
1 >
NX X
avec X > = x1
···
xN
P = (p1 , · · · , pd ) ∈ RD×d
{p1 , · · · , pd } sont les d vecteurs propres associés aux d plus grandes λj .
6
Projection de tous les points via P s’obtient matriciellement :
C = XP = c1 · · · cd
Note : la projection d’un point quelconque x est donnée par t = P > (x − x¯)
Gilles Gasso, Stéphane Canu
Analyse en composantes principales
14 / 22
Propriétés
Des axes factoriels
Propriétés des axes factoriels
Les valeurs propres de Σ sont positives car Σ est une matrice
semi-definie positive
Le nombre d’axes factoriels est égal au nombre de valeurs propres
non-nulles de Σ.
La variance expliquée par l’axe factoriel pk (homogène à une inertie)
s’écrit Ik = pk> Σpk = pk> λk pk = λk .
La variance totale des axes factoriels est I =
Pd
k=1 λk
Pourcentage de variance expliquée par les d premiers axes
Pd
λk
· 100
Pk=1
D
k=1 λk
Gilles Gasso, Stéphane Canu
Analyse en composantes principales
15 / 22
Propriétés
Des axes factoriels
Propriétés des axes factoriels
Choix de la dimension d du sous-espace
Validation croisée
Détection "d’un coude" sur le graphique des valeurs propres
On choisit d de sorte qu’un pourcentage fixé (par exemple 95%) de la
variance soit expliqué
Spectre de la matrice de variance−covariance
0.8
Pourcentage de variance cumulee
100
90
0.7
80
0.6
70
0.5
60
50
0.4
40
0.3
30
0.2
20
0.1
10
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15
Gilles Gasso, Stéphane Canu
0
0
5
10
Analyse en composantes principales
15
16 / 22
Propriétés
De l’ACP
Propriétés de l’ACP
Les composantes principales {ci }i=1,··· ,D sont centrées et
non-corrélées ie
cov(ci , ck ) = 0 si i 6= k
cov(ci , ck ) =
1 >
1
ci ck = pi> X > Xpk = pi> Σpk = pi> (pk λk ) = 0
N
N
Soit ck = Xpk , le vecteur représentant la projection de X sur le k-ième
axe pk . La variance de la composante principale ck est
1 >
1
ck ck = pk> X > Xpk = pk> Σpk = pk> λk pk = λk
N
N
Gilles Gasso, Stéphane Canu
Analyse en composantes principales
17 / 22
Propriétés
De l’ACP
Exemple des données iris : xi ∈ R4
Représentation 3D
Corrélation entre les variables
0.5
8
6
1
1
0.8
1.5
0.6
2
0.4
2.5
4
0.2
3
2
0
3.5
0
5
−0.2
4
8
4
−0.4
4.5
1
7
2
3
4
6
3
2
5
4
Projection en 2D par ACP
Composante principale 2
1.5
1
0.5
0
−0.5
−1
−1.5
−4
Gilles Gasso, Stéphane Canu
−2
0
2
Composante principale 1
4
Analyse en composantes principales
18 / 22
Propriétés
Réduction de dimension
Réduction de la dimensionalité
ACP ≡ représenter les données dans un espace de dim. réduite.
La nouvelle base de représentation est donnée par la matrice P.
Chaque vecteur de cette base est combinaison linéaire des vecteurs de
la base originale. P vérifie P > P = I .
C = XP : matrice des composantes principales qui est en fait la
matrice de projections de tous les xi sur les axes factoriels.
Reconstruction des xi à partir des composantes principales
xi est reconstruit par xˆi = Pti + x¯ avec ti = P > xi .
On déduit que la matrice des données reconstruites est
ˆ = CP > + 1N ⊗ x¯>
X
ou
xˆi =
d
X
Ci,k pk + x¯
k=1
Note : un point quelconque projeté t est reconstruit par xˆ = Pt + x¯
Gilles Gasso, Stéphane Canu
Analyse en composantes principales
19 / 22
Propriétés
Réduction de dimension
Réduction de la dimensionalité
Si q = d , c’est à dire que le nouveau sous-espace de représentation
est égale à l’espace original alors
ˆ =X
X
Erreur d’approximation sur un sous-espace vectoriel de dimension d
Eq =
N
D
X
1 X
(d)
||xi − xˆi ||2 =
λi
N
i=1
i=d+1
L’analyse en composantes principale est un outil de visualisation des
données ...
... et permet de faire de la reduction de la dimensionalité.
Gilles Gasso, Stéphane Canu
Analyse en composantes principales
20 / 22
Propriétés
Réduction de dimension
Exemple : données USPS
Caractères manuscripts sous forme d’images 16 × 16
Chaque image est transformée en un vecteur de dimension 256
On a pris ici des ”3” et des ”8” (quelques exemples ci-dessous)
Moyenne
Corrélation entre les variables
1
2
2
2
2
2
4
4
4
4
4
6
6
6
6
6
50
0.5
8
8
8
8
8
10
10
10
10
10
100
150
0
200
12
12
12
12
12
14
14
14
14
14
16
16
5 10 15
16
5 10 15
16
5 10 15
250
−0.5
50
100
150
200
250
16
5 10 15
Gilles Gasso, Stéphane Canu
5 10 15
Analyse en composantes principales
21 / 22
Propriétés
Réduction de dimension
Exemple : données USPS
2
2
2
2
2
2
2
2
4
4
4
4
4
4
4
4
6
6
6
6
6
6
6
6
8
8
8
8
8
8
8
8
10
10
10
10
10
10
10
10
12
12
12
12
12
12
12
12
14
14
14
14
14
14
14
14
16
16
16
16
16
16
16
5
10
15
5
10
15
5
10
15
Figure: Reconstruction
avec d = 2 composantes
5
10
15
5
10
15
5
10
15
16
5
10
15
5
10
15
Figure: Reconstruction
avec d = 50 composantes
Projection en 2D par ACP
Composante principale 2
10
3
8
5
0
−5
−10
−10
Gilles Gasso, Stéphane Canu
−5
0
5
10
Composante principale 1
Analyse en composantes principales
22 / 22