Análise de Componentes Principais

Download Report

Transcript Análise de Componentes Principais

Universidade Federal Rural do Rio de Janeiro
Pós-Graduação em Agronomia Ciência do Solo: CPGA-CS
Carlos Alberto Alves Varella
Doutor em Engenharia Agrícola
Novembro 2011
Introdução
 É a técnica mais conhecida da estatística multivariada;
 Pode ser utilizada para geração de índices e agrupamento
de indivíduos;
 Cada componente principal é uma combinação linear de
todas as variáveis originais;
 São independentes entre si;
 É importante ter uma visão conjunta de todas ou quase
todas as técnicas da estatística multivariada para resolver
a maioria dos problema práticos.
Construção da matriz de dados
(Matriz X)
 Matriz de dados para ‘p’ variáveis e ‘n’ indivíduos;
 Características observadas são : X1, X2, X3, ..., Xp;
 A matriz é de ordem n x p.
 x11

 x21
X   x31



 xn1
x12
x22
x32

x
 x1 p 

x23  x2 p 
x33  x3 p 


 

xn 3  xnp 
x13
Matriz de Covariância, S
 Obtida a partir da matriz X de dados de ordem ‘n x p’;
 É uma estimativa da matriz de covariância Σ da população
π;
 A matriz S é simétrica e de ordem ‘p x p’.
Vˆar( x1 )

Cˆ ov( x2 x1 )

S  Cˆ ov( x3 x1 )



ˆ
Cov( x p x1 )
Cˆ ov( x1 x2 ) Cˆ ov( x1 x3 )  Cˆ ov( x1 x p ) 

Vˆar( x2 )
Cˆ ov( x2 x3 )  Cˆ ov( x2 x p )

Cˆ ov( x3 x2 ) Vˆar( x3 )
 Cˆ ov( x3 x p ) 




 

Cˆ ov( x p x2 ) Cˆ ov( x p x3 )  Vˆar( x p ) 

Padronização dos dados
 Média zero e variância 1
z ij 
x ij  x j
s(x j )
, i  1, 2, , n e
j  1, 2, , p
 Média qualquer e variância 1
z ij 
x ij
s( x j )
, i  1, 2, , n e
j  1, 2, , p
Variáveis Padronizadas
 A matriz Z é igual a matriz de correlação R da matriz de
dados X;
 z11

 z 21
Z   z 31



 z n1
z12
z 22
z32

zn2
z13  z1 p 

z 23  z 2 p 
z 33  z3 p 


 

z n 3  z np 
Considerações sobre a
padronização
 Normalmente partimos da matriz padronizada;
 O resultado a partir da matriz S pode ser diferente do
resultado a partir da matriz R.
 A padronização só dever ser feita quando as unidades das
variáveis observadas não são as mesmas.
Determinação dos
Componentes Principais
 Os componentes principais são determinados resolvendo-se a
equação característica da matriz S ou R, isto é:
detR  I   0 ou
R  I  0
Autovalores da matriz R
 λ1, λ2, λ3, ..., λp são as raízes da equação característica da
matriz R ou S, então:
 λ1, λ2, λ3, ..., λp podem se autovalores da matriz R ou S;
r ( x1 x2 ) r ( x1 x3 )
1

1
r ( x2 x3 )
r ( x2 x1 )
R  r ( x3 x1 ) r ( x3 x2 )
1






r ( x p x1 ) r ( x p x2 ) r ( x p x3 )
 r ( x1 x p ) 

 r ( x2 x p ) 
 r ( x3 x p ) 


 


1 
Autovetores
 Para cada autovalor λi existe um autovetor:
ai1

a
i2

~
ai 


aip






Componente principal Yi
 Sendo o autovalor = λi , então o i-ésimo componente
principal é dado por:
Yi  ai1 X1 + ai2 X2 +  + aip Xp
Propriedades dos Componentes
Principais
 A variância do componente principal Yi é igual ao valor do
autovalor λi:
Vˆ ar(Y i )  i
 O primeiro componente é o que apresenta maior
variância e assim por diante:
Vˆar(Y1 ) > Vˆar(Y2 ) >  > Vˆar(Yp )
Propriedades dos Componentes
Principais
 Total de variância das variáveis originais = somatório dos
autovalores = total de variância dos componentes
principais:
ˆ
V
 ar(Xi ) 
i 
ˆ
V
 ar(Y i )
 Os componentes principais não são correlacionados entre
si:
Cˆov(Yi , Yj ) 0
Importância de cada
componente principal
 Medida pela porcentagem de variância de cada
componente em relação ao total
Ci 
Vˆ ar(Yi )
p
Vˆar(Yi )
i 1
100 
i
p

i 1
i
100 
i
traço(S )
100
Número de componentes
 Não existe um modelo estatístico;
 O número de ser aquele que acumula 70% ou mais de
proporção da variância total.
Vˆar(Y 1 ) +  Vˆ ar(Y k )
100  70% onde k < p
k
Vˆar(Yi )
i 1
Interpretação dos componentes
 Verifica-se o Grau de influência que cada variável Xj tem
sobre o componente Yi.
Corr(X j, Y1 )  rXj Y 1  a1 j 
Vˆar(Y1
)
Vˆar X j )

1 
a1 j
)
Var(X j )
Interpretação dos componentes
 Verifica-se o peso ou loading de cada variável sobre o
componente
w1 
a11
a12
a1 p
, w2  )
,  wp  )
)
Var(X1 )
Var(X 2 )
Var(X p )
Escores dos componentes
 Organização dos dados
Trat
(Indiv)
Escores dos componentes
principais
Variáveis
X1
X2
...
Xp
Y1
Y2
...
Yk
1
X11
X12
...
X1p
Y11
Y12
...
Y1k
2
X21
X22
...
X2p
Y21
Y22
...
Y2k
n
Xn1
Xn2
Xnp
Yn1
Yn2
...
Ynk
Escores do primeiro componente
para ‘n’ tratamentos e ‘p’ variáveis
 O escore é o valor da cominação linear;
 Yn1=componente 1 do tratamento n para p variáveis.
Y11  a11X11 + a12 X12 +  + a1p X1p
Y21  a11X 21 + a12 X 22 +  + a1p X 2p
Yn1  a11X n1 + a12 X n 2 +  + a1p X np
Exemplo de Aplicação
 Variáveis originais observadas (X1 e X2) e padronizados
(Z1 e Z2). Duas variáveis para cinco tratamentos (k=5).
Tratamentos
Variáveis originais
Variáveis padronizadas
X1
X2
Z1
Z2
1
102
96
24,3827
6,9554
2
104
87
24,8608
6,3033
3
101
62
24,1436
4,4920
4
93
68
22,2313
4,9268
5
100
77
23,9046
5,5788
Variância
17,50
190,50
1
1
Padronização da Variância
 Os dados serão padronizados para variância 1:
Zij 
X ij
s(X j )
 Z12 
104
17,5
 24,8608
Matriz de Correlação
 Elementos da diagonal principal igual a 1. Significa a
correlação entre mesmas variáveis;
 Elementos fora da diagonal principal igual a 0,5456.
Significa a correlação entre as variáveis (X1,X2).
1 0,5456
R

0,5456 1
Autovalores da matriz de
correlação
 São os elementos fora da diagonal principal da matriz.
Significa a variância de cada componente principal.
λ1 = 1,5456 e λ2 = 0,4544
1 0,5456
R

0,5456 1
Traço da matriz de correlação
 Somatório dos elementos da diagonal da matriz. Significa
o total de variância.
Traço(R) = 1+1=2
1 0,5456
R

0,5456 1
Primeiro autovetor da matriz
de correlação
 São os coeficientes das variáveis padronizadas Z1, Z2.
a 11 
1 1 0,7071
~
a1    




a
1
0
,
7070
2 

 12 
 Y1 é a combinação linear de Z1, Z2 que denominamos de
primeiro componente principal
Y1  0,7071Z1 + 0,7070Z 2
Resultados da análise
 Variância, ponderação, correlação, % de variância e % de
variância acumulada dos componentes principais.
CP
Variância Ponderação
(λ)
Correlação
entre Zj eYi
%
de
variância
Z1
Z2
Z1
Z2
0,707
0,879
0,879 77,28
Y1
1,5456
0,707
Y2
0,4544
-0,707 0,707
-0,476 0,476 22,72
% de
variância
acumulada
dos Yi
77,28
100,00
Escores dos componentes
principais
Componentes principais
Tratamentos
Y1
Y2
1
22,16
-12,32
2
22,04
-13,12
3
20,25
-13,90
4
19,20
-12,24
5
20,85
-12,96
Gráfico de dispersão
 Permite visualizar se os componentes principais (Yis) são
Primeiro componente (Y1)
capazes de discriminar indivíduos da população ()
utilizando características (Xi).
23
22
21
20
19
-14
-13.5
-13
-12.5
Segundo componente (Y2)
-12
Aula prática com o programa
computacional SAS
Material didático:
http://www.ufrrj.br/institutos/it/deng/varella/multivariada.htm
Disciplina: Análise Multivariada Aplicada as Ciências Agrárias.
Aula prática: 14-17 com SAS.