GENEGEO_02 - ecoevol

Download Report

Transcript GENEGEO_02 - ecoevol

GENÉTICA GEOGRÁFICA:
Estatistica Espacial em Genética de
Populações e da Paisagem
JOSÉ ALEXANDRE FELIZOLA DINIZ FILHO
LABORATORIO DE ECOLOGIA TEÓRICA & SÍNTESE
Departamento de Ecologia, ICB,
Universidade Federal de Goiás, Brasil
([email protected])
ABORDAGENS
ESPACIAIS
ESPACIALMENTE
IMPLICITAS
Ecologia &
Genética
ESPACIALMENTE
EXPLICITAS
Matriz quadrada (n * n),
simétrica e com zero na diagonal
principal
Relação
genética entre
as populações
FST (e estatísticas
relacionadas) par-apar
Distâncias genéticas
Outras matrizes de
similaridade
http://www.uwyo.edu/dbmcd/molmark/gendisteqns.pdf
Nei’s genetic distances
D = -ln (I)
Where
I = Σxiyi / (Σxi2 Σyi2)0.5
Masatoshi Nei
A identidade de Nei é,
portanto, a correlação de
Pearson
entre
as
populações “ao longo” das
frequencias alélicas...
Wright’s FST
Análise de Variância de Frequencias Alélicas (P)
AMOVA RST
Holsinger’s Bayesian ST
GST
QST (fenótipo)
Valores “para-par” (n * n,
simétrica)
Distância Euclidiana (ca. distância de Rogers 1972)

2
d ij   ( xik  x jk ) 
 k 1

p
Quando existem apenas dois descritores, essa equação resulta no
valor da hipotenusa:
2
2
d ij  {( xi1  x j1 )  ( xi 2  x j 2 ) }
Xj2
j
Alelo X2
Xi2
i
população
dij
população
Xi1
Xj1
Alelo X1
A distância Euclidiana não apresenta um limite superior, ou seja, o
valor aumenta indefinidamente com o aumento do número de
descritores. Assim, podemos calcular a distância Euclidiana média:
d AB
 p
2
  ( x Ak  xBk ) /
 k 1
A distância de Rogers usa p = 2

p

Cavalli-Sforza’s & Edward (1967)
chord distance
Populations are conceptualised as existing as points in a m-dimensional
Euclidean space which are specified by m allele frequencies (i.e. m
equals the total number of alleles in both populations).
C(1, 2)



 21 



p
y
y2 j
p
p
j 1
j 1
j 1
1j
2
2
y
y
 1j  2 j







Chord Distance Matrix
0.35
0.4
0.45
0.5
0.55
0.6 0.65 0.7 0.75
Nei Distance Matrix
0.8
0.85
0.9
0.95
1
1.05
Rogers Distance Matrix
0.3
0.5
0.6
0.7
0.8
0.9
1
1.1
1.2
Nei Distance Matrix
1.3
1.4
1.5
1.6
1.7
Coeficientes de SIMILARIDADE para
dados binários
Transformar frequencias alélicas em dados 0/1 (ou seja,
presença ou ausência do alelo ou haplótipo)
Tabela de Freqüência 2 X 2
População 1
População 2
1
0
1 a
b a +b
0 c
d c +d
a +c b +d
1
0
1 a
b a +b
0 c
d c +d
a +c b +d
Uma maneira simples de calcular a similaridade entre os dois
objetos envolve a contagem dos números de descritores que
codificam estes objetos do mesmo modo e a posterior divisão pelo
número total de descritores p (a+b+c+d):
ad
S1 
p
S1 = Coincidência simples (“simple matching”)
Local A
Local B
Y 1 Y 2 Y 3 Y 4 Y 5 Y 6 Y 7 Y 8 Y 9 Y 10
1 1 0 1 0 1 1 0 0 1
1 0 0 1 0 1 1 1 0 0
1
0
1 a
b a +b
0 c
d c +d
a +c b +d
ad
S1 
p
B
4
2
6
A
1
3
4
5
5
10
43
S1 
 0,7
10
(0 = baixa similaridade e 1 = alta similaridade)
Coeficientes de similaridade para dados binários: modo Q
(Coeficientes assimétricos)
1
0
1 a
b a +b
0 c
d c +d
a +c b +d
Jaccard
a
S7 
abc
Sørensen
2a
S8 
2a  b  c
A idéia é desdobrar a (dis)similaridade em diferentes
componentes, incluindo turnover e riqueza de alelos
“Turnover” (substituição)
Riqueza alélica
Para o Baru, o componente de turnover
representa 69% da similaridade, mas o
interessante
é
que
apenas
o
componente de riqueza possui
padrão espacial
E agora, José?
Com n objetos (unidades amostrais) vamos ter uma matriz com:
[n  (n – 1)/2] valores
(e.g. se n = 25  300 valores)
Como podemos representar eficientemente o padrão de similaridade
entre esses objetos?
As relações entre as n populações estão
definidas em um espaço p-dimensional
(onde p é o numero de alelos)
e.g., Quais as relações entre os 6 objetos a
partir dessa matriz de distancias?
A
B
C
D
E
F
A
0.00
0.67
1.41
2.12
0.79
2.49
B
0.00
0.74
1.47
0.67
1.84
C
D
E
F
0.00
0.77 0.00
1.09 1.62 0.00
1.13 0.37 1.96 0.00
Agrupamento &
Ordenações
Classificação das técnicas de agrupamentos
Algumas propriedades das técnicas:
Aglomerativos: Os grupos são formados, sucessivamente, até
reunir todos os objetos em um único grande grupo, ou;
Divisivos: Subdivide os grupos até o isolamento de cada objeto (e.g.
chaves de taxonomia);
Hierárquicos: elementos de um determinado grupo são agrupados dentro
de grupos em níveis maiores, ou;
Não-hierárquicos: Produzem uma única divisão que maximiza a
homogeneidade dentro de grupos;
Análise de Classificação
Y1
i
D
is
tâ
n
c
ia(D
)
i,j
j
Y
2
..
.
U.A. n
C
.C
.C
.
U.U.AA..12
U.U.AA..34
U.A.5
B
T
S
(nx
p
) (nx
p
) (nx
n
)
Distância
Análise de Agrupamentos (SAHN)
C
(nx
n
)
Vários métodos de agrupamento:
Aplicação da técnica de agrupamento:
Construção do dendrograma
(método médias das distâncias, UPGMA)
A
B
C
D
E
F
A
0.00
0.67
1.41
2.12
0.79
2.49
B
0.00
0.74
1.47
0.67
1.84
C
D
E
F
0.00
0.77 0.00
1.09 1.62 0.00
1.13 0.37 1.96 0.00
Primeiro passo:
Unir D e F (0,37)
Distância de
ligação
0,37
D F
Segundo passo:
Calcular as distância em relação ao novo grupo
A
B
C
D
E
F
A
0.00
0.67
1.41
2.12
0.79
2.49
B
0.00
0.74
1.47
0.67
1.84
C
D
E
F
0.00
0.77 0.00
1.09 1.62 0.00
1.13 0.37 1.96 0.00
Neste ponto,
vamos verificar
qual o par com
menor distância
(2,12+2,49)/2
E assim,
sucessivamente,
para esta linha
B
C
E
DF
A
B
C
E
0.67
1.41 0.74
0.79 0.67 1.09
2.30 1.66 0.95 1.79
Terceiro passo:
Unir A e B (0,67)
Distância de
ligação
A B
D F
Quarto passo:
Calcular as distância em relação ao novo grupo
C
E DF
E 1.09
DF 0.95 1.79
AB 1.08 0.73 1.98
A
B
C
D
E
F
A
0.00
0.67
1.41
2.12
0.79
2.49
B
0.00
0.74
1.47
0.67
1.84
C
D
E
Vamos agrupar:
(E) com (AB)
d (DF, AB)  d ( D, A)  d ( D, B)  D( F , A)  d ( F , B)/ 4
d (DF, AB)  (2,12  1,47  2,49  1,84) / 4  1,98
F
0.00
0.77 0.00
1.09 1.62 0.00
1.13 0.37 1.96 0.00
Quinto passo:
Unir E e AB (0,73)
Distância de
ligação
A B E
D F
Demais passos:
Calcular as distância em relação ao novo grupo
DF
ABE
C
0.95
1.08
DF
1.92
Agrupar (CDF) com (ABE)
ABE
CDF
1.64
Shortcut to ABE x CDF.lnk
A B E C
D F
Resultado do NTSYS
Para os dados das 25 populações de Baru
(UPGMA), a partir do FST par-a-par...
?
Subp.
Local de coleta
1
Cocalinho-MT
2
Água Boa-MT
3
Pirenópolis-GO
4
Sonora-MS
5
Alcinópolis-MS
6
Alvorada-TO
7
São Miguel do Araguaia-GO
8
Luziânia-GO
9
Icém-SP
10
Monte Alegre de Minas-MG
11
Estrela do Norte-GO
12
Santa Terezinha-GO
13
Arinos-MG
14
Pintópolis-MG
15
Paraíso-MS (Chapadão do Sul)
16
Paraíso/Camapuã-MS (Camapuã)
17
Camapuã-MS
18
Indiara-GO
19
Araguaia-MT (Barra do Garça)
20
Araguaia-GO (Aragarças)
21
Jandaia-GO
22
Natividade-TO
23
Arraias-TO
24
Aquidauana- MS
25
Cáceres- MT
Subp.
Local de coleta
1
Cocalinho-MT
2
Água Boa-MT
3
Pirenópolis-GO
4
Sonora-MS
5
Alcinópolis-MS
6
Alvorada-TO
7
São Miguel do Araguaia-GO
8
Luziânia-GO
9
Icém-SP
10
Monte Alegre de Minas-MG
11
Estrela do Norte-GO
12
Santa Terezinha-GO
13
Arinos-MG
14
Pintópolis-MG
15
Paraíso-MS (Chapadão do Sul)
16
Paraíso/Camapuã-MS (Camapuã)
17
Camapuã-MS
18
Indiara-GO
19
Araguaia-MT (Barra do Garça)
20
Araguaia-GO (Aragarças)
21
Jandaia-GO
22
Natividade-TO
23
Arraias-TO
24
Aquidauana- MS
25
Cáceres- MT
VISUALIZANDO OS PADRÕES NO ESPAÇO...
Y1
i
D
is
tâ
n
c
ia(D
)
i,j
j
Y
2
..
.
U.A. n
C
.C
.C
.
U.U.AA..12
U.U.AA..34
U.A.5
Distância
B
T
S
(nx
p
) (nx
p
) (nx
n
)
C
(nx
n
)
O dendrograma representa adequadamente a
matriz de distância original?
Matriz Cofenética
A
A
B
C
D
E
F
0.67
1.64
1.64
0.73
1.64
B
C
Matriz Original
D
E
A
B
C
D
E
F
1.64
1.64 0.95
0.73 1.64 1.64
1.64 0.95 0.37 1.64
0.67
1.41
2.12
0.79
2.49
X Y

X Y 
i
r
A
F
i i
n
i
2
2




(
X
)
(
Y
)


i
i
2
2
 Xi 
  Yi 





n
n



B
C
D
E
F
0.74
1.47 0.77
0.67 1.09 1.62
1.84 1.13 0.37 1.96
Coeficiente de Correlação
Cofenética CCC)
CCC=0,75
Bom ou Ruim?
Diagrama de Shepard: diagrama de dispersão que relaciona distâncias em
um espaço com dimensão reduzida com a distâncias originais (mais
adequado para técnicas de ordenação):
No caso do Baru, o CCC foi igual a 0.845
Problemas com a Análise de Agrupamentos
(i) Resultados são dependentes dos protocolos utilizados;
D
istâ
n
c
iaE
u
c
lid
ia
n
a
U
P
G
M
A
7
6
5
4
3
2
D
istâ
n
c
iaE
u
c
lid
ia
n
a
W
P
G
M
A
1
7
4
6
5
3
2
1
(ii) discretizar um processo que pode ser, na verdade, contínuo, de
modo que;
(iii) O número de grupos é dependente do nível de corte;
(iv) Dificuldade de interpretação
..
.
U.A. n
U.U.AA..12
U.U.AA..34
U.A.5
Distância
Métodos para determinação do nível de corte
Maximizar diferenças entre grupos
Minimizar diferenças dentro de grupos
Zero para quando u.a. estão em
grupos iguais definidos pelo nível
de corte
1 para quando u.a. estão em
diferentes grupos definidos pelo
nível de corte
Nível 1
Nível 2
Bini, L. M. & Diniz Filho, J. A. F. (1995)
Spectral Decomposition in cluster analysis
with applications to limnological data. Acta
Limnologica Brasiliensia, 7: 35-40.
Matriz Modelo
(Nível de corte 1)
Matriz Modelo
(Nível de corte 2)
CCC
Matriz de distância
Original
Nível de Corte
u.a.
A
B
C
D
E
F
G
H
I
J
Y1
0
-1
-0
0.7
0
1.8
1.4
-1
0.9
-0
Y2
0.2
-2
-0
0.3
1.4
-0
0.9
-0
-1
0.3
B
I
F
E
G
D
J
H
C
A
(v) Mesmo com um conjunto aleatório de dados é possível encontrar
“grupos”.
“Model-based” Clustering: STRUCTURE
-Pressupostos (H-W, equilibrio de ligação)
-Maximizar a probabilidade de individuos pertencerem a grupos (que são
desconhecidos)
-Vários dados (marcadores) e modelos de evolução
-Associar com outras caracteristicas dos individuos (inclusive “espaço”)
- Abordagem Bayesiana (MCMC)
-11000
-------------------------------------------Estimated Ln Prob of Data = -8723.8
Mean value of ln likelihood = -8313.4
Variance of ln likelihood = 820.8
Mean value of alpha
= 0.0405
P_DK
-10000
-9000
-8000
0
5
10
15
K
20
25
Subp.
Local de coleta
1
Cocalinho-MT
2
Água Boa-MT
3
Pirenópolis-GO
4
Sonora-MS
5
Alcinópolis-MS
6
Alvorada-TO
7
São Miguel do Araguaia-GO
8
Luziânia-GO
9
Icém-SP
10
Monte Alegre de Minas-MG
11
Estrela do Norte-GO
12
Santa Terezinha-GO
13
Arinos-MG
14
Pintópolis-MG
15
Paraíso-MS (Chapadão do Sul)
16
Paraíso/Camapuã-MS (Camapuã)
17
Camapuã-MS
18
Indiara-GO
19
Araguaia-MT (Barra do Garça)
20
Araguaia-GO (Aragarças)
21
Jandaia-GO
22
Natividade-TO
23
Arraias-TO
24
Aquidauana- MS
25
Cáceres- MT
1
0.026
0.007
0.007
0.12
0.069
0.013
0.011
0.009
0.009
0.022
0.009
0.014
0.008
0.006
0.096
0.01
0.015
0.005
0.018
0.018
0.011
0.007
0.009
0.033
0.94
2
0.01
0.095
0.013
0.145
0.692
0.009
0.018
0.015
0.032
0.021
0.02
0.041
0.01
0.017
0.5
0.811
0.807
0.145
0.157
0.285
0.014
0.008
0.009
0.049
0.008
3
0.078
0.086
0.056
0.017
0.018
0.128
0.583
0.347
0.232
0.028
0.436
0.024
0.011
0.092
0.137
0.027
0.061
0.058
0.173
0.068
0.389
0.81
0.667
0.171
0.007
CLUSTERS
4
0.012
0.013
0.017
0.53
0.081
0.061
0.012
0.124
0.59
0.034
0.021
0.038
0.014
0.029
0.017
0.015
0.063
0.034
0.183
0.09
0.104
0.036
0.142
0.484
0.009
5
0.753
0.167
0.31
0.014
0.012
0.089
0.301
0.045
0.034
0.509
0.323
0.516
0.058
0.016
0.022
0.043
0.011
0.035
0.03
0.03
0.063
0.019
0.1
0.061
0.007
6
0.03
0.525
0.547
0.017
0.056
0.016
0.015
0.398
0.024
0.036
0.045
0.034
0.024
0.012
0.066
0.016
0.013
0.676
0.348
0.129
0.356
0.022
0.024
0.139
0.005
7
0.073
0.092
0.032
0.054
0.023
0.094
0.044
0.044
0.051
0.015
0.077
0.122
0.854
0.811
0.077
0.011
0.014
0.01
0.043
0.025
0.014
0.012
0.021
0.047
0.008
8
0.017
0.014
0.018
0.103
0.05
0.589
0.016
0.018
0.029
0.335
0.068
0.211
0.021
0.016
0.085
0.067
0.017
0.036
0.048
0.356
0.049
0.086
0.028
0.016
0.014
n
32
32
32
31
32
32
32
32
31
32
12
12
32
32
13
13
13
13
27
37
32
12
15
31
30
BEST
5
6
6
4
2
8
3
6
3
5
3
5
7
7
2
2
2
6
6
8
3
3
3
4
1
p2
0.581
0.329
0.400
0.331
0.497
0.384
0.433
0.299
0.408
0.376
0.308
0.331
0.734
0.668
0.296
0.665
0.660
0.485
0.215
0.239
0.296
0.666
0.477
0.292
0.884
Subp.
Local de coleta
1
Cocalinho-MT
2
Água Boa-MT
3
Pirenópolis-GO
4
Sonora-MS
5
Alcinópolis-MS
6
Alvorada-TO
7
São Miguel do Araguaia-GO
8
Luziânia-GO
9
Icém-SP
10
Monte Alegre de Minas-MG
11
Estrela do Norte-GO
12
Santa Terezinha-GO
13
Arinos-MG
14
Pintópolis-MG
15
Paraíso-MS (Chapadão do Sul)
16
Paraíso/Camapuã-MS (Camapuã)
17
Camapuã-MS
18
Indiara-GO
19
Araguaia-MT (Barra do Garça)
20
Araguaia-GO (Aragarças)
21
Jandaia-GO
22
Natividade-TO
23
Arraias-TO
24
Aquidauana- MS
25
Cáceres- MT
Case: 21
grupo
Longitude: -50.201 Latitude: -16.912
8
grupo: 3
Case: 18
7.5
7
6.5
6
5.5
5
4.5
4
3.5
3
2.5
2
1.5
1
p2
Longitude: -49.973 Latitude: -17.162
p2: 0.485
0.88
0.86
0.84
0.82
0.8
0.78
0.76
0.74
0.72
0.7
0.68
0.66
0.64
0.62
0.6
0.58
0.56
0.54
0.52
0.5
0.48
0.46
0.44
0.42
0.4
0.38
0.36
0.34
0.32
0.3
0.28
0.26
0.24
0.22
Os 8 grupos do
STRUCTURE no
espaço geográfico
8
6
3
3
5
1
8
6
3
7
6
4
2
5
4
3
8
6
3
3
5
1
8
6
3
7
6
4
2
5
4
3
8
6
3
3
5
1
8
6
3
7
6
4
2
5
4
3
8
6
3
3
85
1
6
1
8
3
6
35
6
2
4
4
2
5
3
7
7
8
6
3
3
85
1
6
1
8
3
6
35
6
4
2
4
4
2
5
3
7
7
TÈCNICAS DE ORDENAÇÃO
Representar a variação p-dimensional em um espaço (eixos)
contínuo que “compacte” essa variação variação em um
numero com m > p de dimensões (normalmente 1, 2 ou 3)
MAPAS SINTÉTICOS baseados em
Análise de Componentes Principais (ACP)
-Eliminar estrutura de correlação entre variáveis
transformando-as em eixos ortogonais (os componentes
principais);
-Interpretar os eixos principais como conseqüência de
processos microevolutivos.
Hotteling, H. 1933. Analysis of a complex of
statistical variables into principal componentes.
Journal of Educational Psychology. v. 24, p. 417441.
Em resumo, na ACP três matrizes são importantes
1) Autovalores – importância de cada eixo;
2) Autovetores – coeficientes das variáveis nos eixos;
3) Escores – componentes principais (eixo)
Análise de Componentes Principais (PCA)
(Principal Component Analysis)
Pearson, K. 1901. On lines and planes of closest fit to a system of points in space. Phylosophical
magazine. v. 2, p. 557-572.
Hotteling, H. 1933. Analysis of a complex of statistical variables into principal componentes. Journal
of Educational Psychology. v. 24, p. 417-441.
Etapas:
-Interpretação geométrica;
-Procedimentos matemáticos;
-Interpretação de dados reais;
-Aplicações
Matematicamente, o objetivo da PCA é encontrar uma combinação linear de
variáveis de tal forma que a variância entre os indivíduos seja a maior possível
(1o componente principal):
Z1  a11 X1  a12 X 2  ... a1 p X p
Os coeficientes a são os autovetores. São obtidos de tal forma a maximizar a
variância de Z1 (var(Z1)), com a seguinte condição:
a  a  ... a  1
2
11
2
12
2
1p
Esta condição garante que a var(Z1) não aumente com a simples adição de
qualquer um dos valores de a1j .
O segundo componente principal:
Z2  a21 X1  a22 X 2  ... a2 p X p
É calculado de tal forma que a var(Z2) seja a maior possível (a segunda
principal direção da variância). A mesma condição anterior é requerida:
a  a  ... a  1
2
21
2
22
2
2p
Além disso, estes autovetores são calculados de tal maneira que Z2 não seja
correlacionado com Z1 (componentes independentes).
Eixos independentes ou ortogonais:
X1
X1
X2
X1
X2
X2
O terceiro componente principal:
Z3  a31 X1  a32 X 2  ... a3 p X p
É calculado de tal forma que a var(Z3) seja a maior possível. A mesma
condição anterior é requerida:
a  a  ... a  1
2
31
2
32
2
3p
Além disso, estes autovetores são calculados de tal maneira que Z3 não seja
correlacionado com Z2 e Z1 (componentes independentes).
Por exemplo, se temos 5 variáveis podemos extrair 5
componentes principais, tal como definido anteriormente.
De forma mais geral, o número possível de componente é
igual a p (variáveis).
No entanto, como foi demonstrado, sucessivos componentes
principais apresentam uma variância cada vez menor. Esse
resultado será útil para a redução da dimensionalidade dos
dados.
As variâncias dos componentes principais são os autovalores () de uma
matriz de covariância ou correlação (com dados previamente estandardizados).
var(Zi )  λi
Os autovetores (a) são os coeficientes das combinações lineares e informam
quais as variáveis que apresentam o maior poder de discriminação das u.a.
(maximizam a dispersão das unidades amostrais ao longo do espaço).
Zi  ai1 X1  ai 2 X 2  ... ai p X p
CP 1
X1
CP3
CP 2
X3
X2
Autovalores e Autovetores
C=
Y1
Y2
Y3
Y4
Y5
Y1
Y2
Y3
Y4
1
2
3
4
5
6
7
8
9
10 . . .
Ca = a
Y5
Autovalores e Autovetores
R=
Y1
Y2
Y3
Y4
Y5
Y1
Y2
Y3
Y4
1
2
3
4
5
6
7
8
9
10 . . .
Ra = a
Y5
Exemplo numérico
u1
u2
u3
u4
u5
X1 X2 X1P X2P
2 0 -0.24 -0.63
5 3 0.47 0.32
5 4 0.47 0.63
3 2 0.00 0.00
0 1 -0.71 -0.32
Matriz de correlação entre variáveis:
0,82
 1
R

0,82 1 
(R-I)a=0
Cuja equação característica:
|R- I|=0
0 ,82 1 0
 1
R  λI  
 λ


0 ,82 1  0 1
0 ,82  λ 0
 1




0 ,82 1  0 λ 
1  λ 0 ,82

0

0 ,82 1  λ 
Determinante de uma matriz 2 x 2:
a b 
 c d   (ad ) - (bc)


1  λ 0,82
0,82 1  λ   0


 (1  λ)  (0,82)
2
2
 λ  2 λ  0,33  0
2
o primeiro termo ao quadrado,
menos duas vezes o produto dos
dois termos mais o quadrado do
segundo)
b
a
c
 λ  2 λ 0,33  0
2

λ  b 
2a
2
  b  4ac
 2  (2 )  4(0,33)  2  1.64
λ

2
2
 2  1.64
λI 
 1,82 (Ignore o sinal)
2
 2  1.64
(Ignore o sinal)
λ II 
 0,18
2
2
% de explicação do CP 1
= I/  = 1,82/2 = 91 %
% de explicação do CP 2
= II/  = 0,18/2 =
Total = 100 %
9%
Autovetores:
Ra = a
O autovetor associado com I=1,82 é:
 a1,I 
 1 0,82  a1,I 
0,82 1  a   1,82a 

  2, I 
 2, I 
1a1, I  0,82a2, I  1,82a1, I
0,82a1, I  1a2, I  1,82a2, I
Arranjando:
1,0a1, I  1,82a1, I  0,82a2, I  0
0,82a1, I  1,0a2, I  1,82a2, I  0
 0,82 a1, I  0,82 a2, I  0
0,82 a1, I  0,82 a2, I  0
Para resolver essa equação, o valor a1,I
é, arbitrariamente, fixado como 1 e o
resultado de a2,I é encontrado:
Para resolver essa equação, 0 valor a1,I é,
arbitrariamente, fixado como 1 e o
resultado de a2,I é encontrado:
 0,82 a 2 ,I  0,82
Assim, a2,1= 1
 0,82 a 2 ,I  0,82
Assim, o autovetor associado com o 1 é:
 1
aI   
 1
Similarmente, para 2 :
 1
a II   
 1
Para que a condição :
a  a 1
2
i1
2
i2
seja atendida, o autovetor deve ser normalizado através de um fator, dado por:
ki 
1
kI 
p
a
q 1
iq
kII 
1
1 1
1
2
2
 12  12
 0,707
 0,707
Posteriormente, cado autovetor é multiplicado pelo seu respectivo fator:
 1 0,707
a I  0,707   

 1 0,707
  1  0,707
a II  0,707   

 1  0,707 
Note que:
a  a 1
2
i1
2
i2
De posse dos autovetores podemos criar as combinações lineares e, deste
modo, encontrar os escores das unidades amostrais através da substituição das
variáveis originais nestas combinações lineares:
u1
u2
u3
u4
u5
X1P
-0.24
0.47
0.47
0.00
-0.71
Z1  0,707X 1  0,707X 2
X2P
-0.63
Z 2  0,707X 1  0,707X 2
0.32
0.63 Z1  (0,707)(0,24)  0,707(0,63)  0,62
0.00 Z 2  (0,707)(0,24)  0,707(0,63)  0.28
-0.32
Para as demais unidades amostrais
Z1  0,707X 1  0,707X 2
Z 2  0,707X 1  0,707X 2
u1
u2
u3
u4
u5
X1P
-0.24
0.47
0.47
0.00
-0.71
X2P
-0.63
0.32
0.63
0.00
-0.32
Z1
-0.62
0.56
0.78
0.00
-0.73
Z2
-0.28
-0.11
0.11
0.00
0.28
Z2
0.5
0.4
0.3
0.2
0.1
0.0
-0.1
-0.2
-0.3
-0.4
-0.5
-1.0
U.5
U.3
U.4
U.2
U.1
-0.6
-0.2
Z1
0.2
0.6
1.0
Escores = posição das novas u.a. nas novas variáveis denominadas
CPs
A correlação (“loading”, coeficiente de estrutura) das variáveis originais com
os componentes é dada pela correlação linear de Pearson entre as variáveis
originais e os escores ou:
ri  ai λ i
0,707
0,95
rI  
1,82  


0,707
0,95
0,707
 0,30
rII  
0,18  


0,707
 0,30 
0.5
u.a.
0.4
X
2
U.5
variáveis
0.3
0.2
U.3
0.1
0.0
U.2
U.4
-0.1
-0.2
X1
U.1
-0.3
-0.4
-0.5
-1.0 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4
Z1
Para a realização da PCA, em conjuntos reais de dados, p deve ser sempre
maior que 3, para fins de ordenação e redução da dimensionalidade dos
dados (com 3 dimensões basta fazer um diagrama tridimensional).
Deste modo, quando p >>> 3, por exemplo, p = 10, é possível obter 10
combinações lineares. Assim, é necessário um critério de parada.
Em outras palavras, precisamos de um critério para verificar quais são os
componentes principais interpretáveis.
Se interpretamos um número muito grande de componente voltamos para
o problema da análise univariada e não conseguimos o objetivo principal:
redução da dimensionalidade do problema.
Critérios de Parada
Jackson, D. A. 1993. Stopping rules in principal components analysis: a
comparison of heuristical and statistical approaches. Ecology 74:2204-2214.
-Critério de Kaiser-Guttman ( > 1);
-Proporção da variância total (e.g. 95%);
-”Scree plot”;
-Teste de esferecidade de Bartlett;
-Modelo de Broken-Stick;
Regras de Parada: Scree plot
4.0
Assim, neste exemplo, somente o 1o CP seria
interpretável.
3.5
Autovalores
3.0
2.5
Os componentes “residuais” tendem a
estar em uma linha reta.
2.0
1.5
1.0
0.5
0.0
0
1
2
3
4
Ordem dos componentes
5
6
Regras de Parada: Esferidade de Bartlett
CP 1
X1
CP3
CP 2
X2
X3
Regras de Parada: Broken Stick
4.0
Observado
3.5
Autovalores
3.0
2.5
2.0
Broken-Stick
1.5
1.0
0.5
0.0
0
1
2
3
4
Ordem dos componentes
5
6
Um exemplo clássico...
Considerem os dados obtidos por Bumpus (1898):
-49 pardais (21 vivos e 29
mortos, após uma tempestade);
-5 medidas morfométricas
(landmarks);
X1
X1
X2
X3
X4
X5
X2
X3
X4
1
0.73
1
0.66 0.67
1
0.65 0.77 0.76
1
0.61 0.53 0.53 0.61
X5
1
Passer domesticus
***** PRINCIPAL COMPONENTS ANALYSIS -- pardais in medidas space **********
PC-ORD, Version 3.0
VARIANCE EXTRACTED, FIRST 5 AXES
--------------------------------------------------------------Broken-stick
AXIS
Eigenvalue % of Variance Cum.% of Var. Eigenvalue
--------------------------------------------------------------1
3.616
72.320
72.320
2.283
2
.532
10.630
82.950
1.283
3
.386
7.728
90.678
.783
4
.302
6.031
96.709
.450
5
.165
3.291
100.000
.200
---------------------------------------------------------------
Latent Vectors (Eigenvectors)
1
2
3
4
5
X1 0.452 -0.051 -0.690 -0.420 -0.374
X2 0.462
0.300 -0.341
0.548
0.530
X3 0.451
0.325
0.454 -0.606
0.343
X4 0.471
0.185
0.411
0.388 -0.652
X5 0.398 -0.876
0.178
0.069
0.192
Z1  0.452X1  0.462X 2  0.451X 2  0,471X 4  0,389X 5
-0.3
Factor 1
1.00
0.96
0.92
-0.1
0.88
0.1
0.84
0.80
0.7
0.76
0.72
0.68
0.64
0.60
Factor 2
0.9
X5
0.5
0.3
X1
X4
X3 X2
5
vivos
mortos
4
3
Seleção estabilizadora?
CP 2
2
1
0
-1
-2
-3
-3
-2
-1
0
CP 1
1
Eixo de tamanho (72,3 %)
2
3
Nature Genetics 35: 311313, 2003
Dados do Baru (1 locus – DA20)
Case: 14
Principal Component 1
Longitude: -45.166 Latitude: -16.061 Principal Component 1: 2.309
Case: 23
Principal Component 2
Longitude: -46.863 Latitude: -12.99 Principal Component 2: -0.939
OUTRAS TÉCNICAS DE ORDENAÇÃO
ANALISE DE COORDENADAS PRINCIPAIS
(PCOA)
- resolve o problema do PCA de poucas populações, pois extrai os
autovetores de uma matriz de distâncias (transformada)
- Pode utilizar qualquer métrica de distância (incluindo distancias de Nei,
FST, etc)
ESCALONAMENTO MULTIDIMENSIONAL NÃO-MÉTRICO
(NMDS)
-Técnica de otimização não-linear para espaço com m dimensões (medida
de “stress”)
-Pode iniciar com a PCOA e melhorar a configuração
PCOA
CCC = 0.907
NMDS
Final STRESS1 = 0.07954
CCC = 0.968
PCOA
CCC = 0.907
NMDS
Final STRESS1 = 0.07954
CCC = 0.968