Télécharger - El Merouani

Download Report

Transcript Télécharger - El Merouani

Analyse des données
S6, Option : Gestion
Prof. Mohamed El Merouani
Qualités et défauts de l’analyse en composantes principales :
L’analyse en composantes principales est essentiellement une méthode de description et
d’exploration qui permet de révéler des regroupements de faits et suggérer des idées. C’est un
outil confortable pour résumer un vaste tableau de données difficilement accessible à
l’analyse descriptive habituelle. Les facteurs nés de l’analyse ont la mission de proposer des
variables permettant d’élaborer des modèles économétriques de sens traditionnel.
lM
®E
D’un point de vue technique, ce procédé a pour objet l’étude de la structure de la matrice des
variances-covariances ou de la matrice des corrélations (des variables). Cette prospection se
fait par l’utilisation des ordinateurs et des logiciels de statistique. Mais, le procédé est
imparfait dans la mesure que le nuage est déformé par la projection, même si cette dernière est
la plus idéale possible. Certains points sont plus altérés que d’autres par la transformation.
ero
L’inconvénient majeur réside dans l’interprétation des axes. Parfois, l’explication est évidente
et fait que l’analyse en composantes principales soit redondante ; ou bien elle est contingente
pour l'analyste et dans ce dernier cas elle n'apporte pas des renseignements très convaincant es
pour l'analyse économétrique postérieure. Néanmoins, l’analyse des données a toujours un
rôle essentiel à jouer dans certains problèmes dans certaines limites.
Nombre d’axes à retenir :
ni
ua
L’analyse en composantes principales a pour objet de réduire le nombre de données du
phénomène à étudier et de conserver ainsi le moins d’axes possibles. Il faut pour cela que les
variables de départ soient raisonnablement corrélées entre elles.
Les critères les plus utilisables sont les suivantes :
FP
1°) Interprétation des axes : On retient que les axes que l’on peut attribuer une forme
d’interprétation économique, par exemple, soit directement, soit en terme des variables avec
lesquelles ils sont très corrélés.
Te
2°) Critère de Kaiser (variables centrées et réduites) : On ne retient que les axes associés à
valeurs propres supérieurs à 1, c'est-à-dire dont la variance est supérieure à celle des variables
d’origine.
tou
Une autre interprétation est que la moyenne des valeurs propres étant 1, on ne garde que celles
qui sont supérieures à cette moyenne.
3°) Éboulis des valeurs propres :
an
18
www.elmerouani.jimdo.com
Analyse des données
S6, Option : Gestion
Prof. Mohamed El Merouani
On cherche un « coude » dans le graphe des valeurs propres et on ne conserve que les valeurs
jusqu’au ce « coude ».
Compléments du cours :
Multiplicateurs de Lagrange :
Optimisation classique avec contraintes: Cas de deux variables.
Soit une fonction à deux variables f(x, y) soumise à une seule contrainte de la forme
lM
®E
g(x, y) = b, avec b une constante réelle.
La méthode des multiplicateurs de Lagrange consiste à construire une fonction auxiliaire
L(x, y, λ), appelée Lagrangien, définie ainsi :
L(x, y,λ) = f(x, y)+λ[g(x, y)-b]
Où λ appelé multiplicateur de Lagrange est une inconnue.
ero
Il faut ensuite annuler ses premières dérivées partielles (condition nécessaire) :
ni
ua
 ∂L ∂f
∂g
 ∂x = ∂x + λ ∂x = 0
 ∂L ∂f
∂g

=
+λ
=0

∂
y
∂
y
∂
y

 ∂L = g ( x, y ) − b = 0
 ∂λ
FP
Les points candidats s’obtiennent en résolvant ce système de trois équations à trois
inconnues (x, y, λ).
Te
Mentionnons que la troisième équation de ce système ∂L/∂λ = g(x, y) -b=0 n’est rien
d’autre que la contrainte ! Les points candidats satisfont par conséquent cette contrainte.
Condition suffisante:
On pose:
2
∂2L
∂2L
> 0 et
> 0 , on a un minimum
∂x 2
∂y 2
an
1. Si ∆>0 ,
∂2L ∂2L  ∂2L 

∆ = 2 ⋅ 2 − 
∂x ∂y  ∂x∂y 
tou
La solution des trois équations ci-dessus fournit les points candidats de la fonction sous
contrainte. Ces points candidats satisfont la contrainte mais il reste à déterminer leur
nature ;
∂2L
∂2L
<
0
et
< 0 , on a un maximum
∂x 2
∂y 2
3. Si ∆<0, pas d’extremum.
2. Si ∆>0 ,
4. Si ∆=0, on ne peut pas conclure.
19
www.elmerouani.jimdo.com
Analyse des données
S6, Option : Gestion
Prof. Mohamed El Merouani
Rappel sur la distance :
Définition d’une distance :
Soit E un sous-ensemble de IRn.
Une distance sur E est une application
suivantes :
∀ x, y ∈ E ;
∀ x, y ∈ E ;
∀ x, y, z ∈ E ;
possédant
les
propriétés
d ( x, y ) = 0 ⇒ x = y
d ( x, y ) = d ( y , x )
d ( x, y ) ≤ d ( x, z ) + d ( z , y )
lM
®E
i.
ii.
iii.
d : E × E → IR +
Exemple : « La distance euclidienne »
Pour x = (x1 , x 2 , L , x n ) , y = ( y1 , y 2 , L , y n )∈ E ⊂ IR n , la distance euclidienne entre x et y est
définie par : d ( x, y ) = ( x1 − y1 ) 2 + ( x 2 − y 2 ) 2 + L + ( x n − y n ) 2 .
ero
On peut vérifier facilement les propriétés i, ii, et iii précédentes pour la distance euclidienne.
Rappel sur la matrice des variances-covariances et la matrice des corrélations :
ua
1) La matrice des variances-covariances V de X=(x1,x2,…, xq) est définie par :
L Cov( x1 , x q ) 

L Cov( x 2 , x q ) 
 = E ( XX ′ ) − E ( X ) E ( X ) ′
O
M


L
σ q2

ni

Cov( x1 , x 2 )
σ 12

σ 22
 Cov( x 2 , x1 )
V =
M

 Cov( x , x )
L
1
q

FP
C’est une matrice carrée symétrique d’ordre q.
Si les variables xi sont réduites, V s’identifie avec la matrice des corrélations :
Te
L ρ1q 

L ρ 2q 
.
O M 

L 1 
tou
ρ12
1

 ρ 21 1
Γ=
M

ρ
 q1 L
 x11

 x 21
X =
M

x
 p1
x12
x 22
x p2
an
2) Lorsque l’on observe les valeurs numériques de q variables sur p individus, on se
trouve en présence d’un tableau X à p lignes et q colonnes :
L x1q 

L x2 q 
O M 

L x pq 
xij est la valeur prise par la variable n° j sur l’ième individu.
Le tableau des données centrés Y est :
20
www.elmerouani.jimdo.com
Analyse des données
 x11 − x1

 x 21 − x1
Y =
M

x − x
 p1 1
S6, Option : Gestion
x12 − x 2
x 22 − x 2
x p 2 − x2
Prof. Mohamed El Merouani
L x1q − x q 

L x2q − xq 

O
M

L x pq − x q 
La matrice des variances-covariances des q variables est :
L σ 1q 

L σ 2q 

O M 
L σ q2 
lM
®E
 σ 12 σ 12

σ 22
σ
V =  21
 M
σ
 q1 L
où σ kl =
1 p
(xik xil − xk xl ) est telle que V = 1 Y ′Y
∑
p i =1
p
ero
La matrice des corrélations entre les q variables prises deux à deux est :
L ρ1q 

L ρ 2q 
O M 

L 1 
ni
ua
ρ12
1

 ρ 21 1
Γ=
M

ρ
 q1 L
Γ est identique à V des données centrées et réduites.
Γ résume la structure des dépendances linéaires entre les q variables.
FP
Le tableau des données centrées et réduites Z est :
x12 − x 2
σ2
x 22 − x 2
σ2
σ2
Alors
Γ=
Si σ j = 1 , alors
an
avec σ j =
1 p
(xij − x j )2
∑
p i =1
tou
x p 2 − x2
x1q − x q 

σq 
x2q − xq 

L
σq 

O
M
x pq − x q 

L
σ q 
L
Te
 x11 − x1

 σ1
x −x
 21 1
Z =  σ1

M
x −x
 p1 1
 σ
1

1
Z ′Z
p
V=
1
1
Y ′Y = Z ′Z = Γ
p
p
21
www.elmerouani.jimdo.com
Analyse des données
S6, Option : Gestion
Prof. Mohamed El Merouani
Exercices de TD :
Exercice 1 :
On considère la matrice X de type (2,3) suivante :
 − 1 0 1
 .
X = 
 0 − 1 1
ero
lM
®E
1. Calculer le produit matriciel. X ′ × X .
s’assurer que c’est une matrice carrée et symétrique
2. Chercher les valeurs propres λi et les sous-espaces propres associés Fi . Donner le
vecteur unitaire u i de chaque sous-espace. Ecrire la matrice diagonale Λ semblable à
X’X et sa matrice de passage A
3. Calculer et vérifier que tr ( X ′X ) = tr (Λ). .
Exercice 2 :
Soit la matrice des données suivante :
On note C1 et C2 les vecteurs colonnes de X. Centrer et normer les variables C1 et C2.
Déterminer la matrice V des variances-covariances et la matrice Γ des corrélations.
Diagonaliser ces matrices. On note λi leurs valeurs propres.
Déterminer les espaces propres Fi associés aux valeurs propres λi .
Exercice 3 :
FP
1.
2.
3.
4.
ni
ua
4 5


X = 6 7
8 0


Te
Réaliser l’ACP de la matrice suivante, à partir de sa matrice de dispersion (données centrées
mais non réduites) :
an
22
2

2
4

4 
tou
2

6
6

10

www.elmerouani.jimdo.com