Análise de Componentes Principais
Download
Report
Transcript Análise de Componentes Principais
Universidade Federal Rural do Rio de Janeiro
Pós-Graduação em Agronomia Ciência do Solo: CPGA-CS
Carlos Alberto Alves Varella
Doutor em Engenharia Agrícola
Novembro 2011
Introdução
É a técnica mais conhecida da estatística multivariada;
Pode ser utilizada para geração de índices e agrupamento
de indivíduos;
Cada componente principal é uma combinação linear de
todas as variáveis originais;
São independentes entre si;
É importante ter uma visão conjunta de todas ou quase
todas as técnicas da estatística multivariada para resolver
a maioria dos problema práticos.
Construção da matriz de dados
(Matriz X)
Matriz de dados para ‘p’ variáveis e ‘n’ indivíduos;
Características observadas são : X1, X2, X3, ..., Xp;
A matriz é de ordem n x p.
x11
x21
X x31
xn1
x12
x22
x32
x
x1 p
x23 x2 p
x33 x3 p
xn 3 xnp
x13
Matriz de Covariância, S
Obtida a partir da matriz X de dados de ordem ‘n x p’;
É uma estimativa da matriz de covariância Σ da população
π;
A matriz S é simétrica e de ordem ‘p x p’.
Vˆar( x1 )
Cˆ ov( x2 x1 )
S Cˆ ov( x3 x1 )
ˆ
Cov( x p x1 )
Cˆ ov( x1 x2 ) Cˆ ov( x1 x3 ) Cˆ ov( x1 x p )
Vˆar( x2 )
Cˆ ov( x2 x3 ) Cˆ ov( x2 x p )
Cˆ ov( x3 x2 ) Vˆar( x3 )
Cˆ ov( x3 x p )
Cˆ ov( x p x2 ) Cˆ ov( x p x3 ) Vˆar( x p )
Padronização dos dados
Média zero e variância 1
z ij
x ij x j
s(x j )
, i 1, 2, , n e
j 1, 2, , p
Média qualquer e variância 1
z ij
x ij
s( x j )
, i 1, 2, , n e
j 1, 2, , p
Variáveis Padronizadas
A matriz Z é igual a matriz de correlação R da matriz de
dados X;
z11
z 21
Z z 31
z n1
z12
z 22
z32
zn2
z13 z1 p
z 23 z 2 p
z 33 z3 p
z n 3 z np
Considerações sobre a
padronização
Normalmente partimos da matriz padronizada;
O resultado a partir da matriz S pode ser diferente do
resultado a partir da matriz R.
A padronização só dever ser feita quando as unidades das
variáveis observadas não são as mesmas.
Determinação dos
Componentes Principais
Os componentes principais são determinados resolvendo-se a
equação característica da matriz S ou R, isto é:
detR I 0 ou
R I 0
Autovalores da matriz R
λ1, λ2, λ3, ..., λp são as raízes da equação característica da
matriz R ou S, então:
λ1, λ2, λ3, ..., λp podem se autovalores da matriz R ou S;
r ( x1 x2 ) r ( x1 x3 )
1
1
r ( x2 x3 )
r ( x2 x1 )
R r ( x3 x1 ) r ( x3 x2 )
1
r ( x p x1 ) r ( x p x2 ) r ( x p x3 )
r ( x1 x p )
r ( x2 x p )
r ( x3 x p )
1
Autovetores
Para cada autovalor λi existe um autovetor:
ai1
a
i2
~
ai
aip
Componente principal Yi
Sendo o autovalor = λi , então o i-ésimo componente
principal é dado por:
Yi ai1 X1 + ai2 X2 + + aip Xp
Propriedades dos Componentes
Principais
A variância do componente principal Yi é igual ao valor do
autovalor λi:
Vˆ ar(Y i ) i
O primeiro componente é o que apresenta maior
variância e assim por diante:
Vˆar(Y1 ) > Vˆar(Y2 ) > > Vˆar(Yp )
Propriedades dos Componentes
Principais
Total de variância das variáveis originais = somatório dos
autovalores = total de variância dos componentes
principais:
ˆ
V
ar(Xi )
i
ˆ
V
ar(Y i )
Os componentes principais não são correlacionados entre
si:
Cˆov(Yi , Yj ) 0
Importância de cada
componente principal
Medida pela porcentagem de variância de cada
componente em relação ao total
Ci
Vˆ ar(Yi )
p
Vˆar(Yi )
i 1
100
i
p
i 1
i
100
i
traço(S )
100
Número de componentes
Não existe um modelo estatístico;
O número de ser aquele que acumula 70% ou mais de
proporção da variância total.
Vˆar(Y 1 ) + Vˆ ar(Y k )
100 70% onde k < p
k
Vˆar(Yi )
i 1
Interpretação dos componentes
Verifica-se o Grau de influência que cada variável Xj tem
sobre o componente Yi.
Corr(X j, Y1 ) rXj Y 1 a1 j
Vˆar(Y1
)
Vˆar X j )
1
a1 j
)
Var(X j )
Interpretação dos componentes
Verifica-se o peso ou loading de cada variável sobre o
componente
w1
a11
a12
a1 p
, w2 )
, wp )
)
Var(X1 )
Var(X 2 )
Var(X p )
Escores dos componentes
Organização dos dados
Trat
(Indiv)
Escores dos componentes
principais
Variáveis
X1
X2
...
Xp
Y1
Y2
...
Yk
1
X11
X12
...
X1p
Y11
Y12
...
Y1k
2
X21
X22
...
X2p
Y21
Y22
...
Y2k
n
Xn1
Xn2
Xnp
Yn1
Yn2
...
Ynk
Escores do primeiro componente
para ‘n’ tratamentos e ‘p’ variáveis
O escore é o valor da cominação linear;
Yn1=componente 1 do tratamento n para p variáveis.
Y11 a11X11 + a12 X12 + + a1p X1p
Y21 a11X 21 + a12 X 22 + + a1p X 2p
Yn1 a11X n1 + a12 X n 2 + + a1p X np
Exemplo de Aplicação
Variáveis originais observadas (X1 e X2) e padronizados
(Z1 e Z2). Duas variáveis para cinco tratamentos (k=5).
Tratamentos
Variáveis originais
Variáveis padronizadas
X1
X2
Z1
Z2
1
102
96
24,3827
6,9554
2
104
87
24,8608
6,3033
3
101
62
24,1436
4,4920
4
93
68
22,2313
4,9268
5
100
77
23,9046
5,5788
Variância
17,50
190,50
1
1
Padronização da Variância
Os dados serão padronizados para variância 1:
Zij
X ij
s(X j )
Z12
104
17,5
24,8608
Matriz de Correlação
Elementos da diagonal principal igual a 1. Significa a
correlação entre mesmas variáveis;
Elementos fora da diagonal principal igual a 0,5456.
Significa a correlação entre as variáveis (X1,X2).
1 0,5456
R
0,5456 1
Autovalores da matriz de
correlação
São os elementos fora da diagonal principal da matriz.
Significa a variância de cada componente principal.
λ1 = 1,5456 e λ2 = 0,4544
1 0,5456
R
0,5456 1
Traço da matriz de correlação
Somatório dos elementos da diagonal da matriz. Significa
o total de variância.
Traço(R) = 1+1=2
1 0,5456
R
0,5456 1
Primeiro autovetor da matriz
de correlação
São os coeficientes das variáveis padronizadas Z1, Z2.
a 11
1 1 0,7071
~
a1
a
1
0
,
7070
2
12
Y1 é a combinação linear de Z1, Z2 que denominamos de
primeiro componente principal
Y1 0,7071Z1 + 0,7070Z 2
Resultados da análise
Variância, ponderação, correlação, % de variância e % de
variância acumulada dos componentes principais.
CP
Variância Ponderação
(λ)
Correlação
entre Zj eYi
%
de
variância
Z1
Z2
Z1
Z2
0,707
0,879
0,879 77,28
Y1
1,5456
0,707
Y2
0,4544
-0,707 0,707
-0,476 0,476 22,72
% de
variância
acumulada
dos Yi
77,28
100,00
Escores dos componentes
principais
Componentes principais
Tratamentos
Y1
Y2
1
22,16
-12,32
2
22,04
-13,12
3
20,25
-13,90
4
19,20
-12,24
5
20,85
-12,96
Gráfico de dispersão
Permite visualizar se os componentes principais (Yis) são
Primeiro componente (Y1)
capazes de discriminar indivíduos da população ()
utilizando características (Xi).
23
22
21
20
19
-14
-13.5
-13
-12.5
Segundo componente (Y2)
-12
Aula prática com o programa
computacional SAS
Material didático:
http://www.ufrrj.br/institutos/it/deng/varella/multivariada.htm
Disciplina: Análise Multivariada Aplicada as Ciências Agrárias.
Aula prática: 14-17 com SAS.