Análise Discriminante

Download Report

Transcript Análise Discriminante

ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS
PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS
Carlos A. A. Varella

Segundo KHATTREE & NAIK (2000) é uma
técnica da estatística multivariada que
estuda a separação de objetos de uma
população em duas ou mais classes.

A discriminação ou separação é a primeira
etapa, sendo a parte exploratória da análise e
consiste em se procurar características
capazes de serem utilizadas para alocar
objetos em diferentes grupos previamente
definidos.

A classificação ou alocação pode ser definida
como um conjunto de regras que serão
usadas para alocar novos objetos (JOHNSON
& WICHERN, 1999).


A função que separa objetos pode também
servir para alocar, e, o inverso, regras que
alocam objetos podem ser usadas para
separar.
Normalmente, discriminação e classificação se
sobrepõem na análise, e a distinção entre
separação e alocação é confusa.



Segundo REGAZZI (2000), o problema da
discriminação entre dois ou mais grupos, visando
posterior classificação, foi inicialmente abordado
por Fisher (1936).
Funções matemáticas capazes de classificar um
indivíduo X em uma de várias populações i;
Com base em medidas de um número p de
características, buscando minimizar a
probabilidade de má classificação, isto é,
minimizar a probabilidade de classificar
erroneamente um indivíduo em uma população i,
quando realmente pertence a população j.

Regiões de alocação são conjunto de valores
separados por uma fronteira definida por
uma função discriminante qualquer.
Função Linear
Função Quadrática



Uma boa regra de classificação deve resultar
em pequenos erros;
Deve haver pouca probabilidade de má
classificação;
Segundo JOHNSON & WICHERN (1999) para
que isso ocorra a regra de classificação deve
considerar as probabilidades a priori e os
custos de má classificação.




As regras de classificação devem considerar
se as variâncias das populações são iguais ou
não;
Quando as variâncias são iguais as funções
discriminantes são lineares;
Quando são diferentes as funções
discriminantes são quadráticas;
Redes neurais e lógica fuzzy geram planos
não-lineares de separação.

É uma combinação linear de características
originais que se caracteriza por produzir
separação máxima entre duas populações

Demonstra-se que a função linear do vetor
aleatório X que produz separação máxima
entre duas populações é dada por:
D X   L ' X  1  2  '  1  X
L
X


=
=
=
=
vetor discriminante;
vetor aleatório de características das populações;
vetor de médias p-variado;
matriz comum de covariâncias das populações 1 e 2;

O valor da função discriminante de Fisher
para uma dada observação é:
'
1
Dxo   1  2     xo
O ponto médio entre as duas médias
populacionais univariadas µ1 e µ1 é:
1
m  1  2 '  1  1  2 
2
1
m  D1   D2 
2

A regra de classificação baseada na função
discriminante de Fisher é:
Alocar xo em 1 se D xo   1   2 '   xo  m
1
Alocar xo em 2 se Dxo   1  2 '   xo < m
1
nS121c2

Assumimos que as populações 1 e 2 têm a
mesma matriz de covariâncias .




n1  1
n2  1
Sc  
 S1  
 S2


 n1  1  n2  1
 n1  1  n2  1
Sc
n1
n2
S1
S2
= estimativa da matriz comum de covariâncias ;
= número de observações da população 1;
= número de observações da população 2;
= estimativa matriz de covariâncias da população 1;
= estimativa matriz de covariâncias da população 2;

É obtida substituindo-se os parâmetros µ1, µ2
e  pelas respectivas quantidades amostrais:
x2
'
ˆ


D x  L  x  x
x1
1
Sc
'

 x S
2
1
c
x
D x  = função discriminante linear amostral de Fisher;
Lˆ '
x1
x2
=
estimativa do vetor disriminante;
=
média amostral da população 1;
=
média amostral da população 2.

Vamos considerar os dados de duas raças de
insetos (Quadro 1), apresentados por HOEL
(1966) e citado por REGAZZI (2000).
Número médio de cerdas primordiais (X1) e número médio de
cerdas distais (X2) em duas raças de insetos
Raça A
Raça B
X1
X2
X1
X2
6,36
5,24
6,00
4,88
5,92
5,12
5,60
4,64
5,92
5,36
5,64
4,96
6,44
5,64
5,76
4,80
6,40
5,16
5,96
5,08
6,56
5,56
5,72
5,04
6,64
5,36
5,64
4,96
6,68
4,96
5,44
4,88
6,72
5,48
5,04
4,44
6,76
5,60
4,56
4,04
6,72
5,08
5,48
4,20
5,76
4,80

Raça A, características 1 e 2
 x A1  6,46545 
A     

 x A2  5,32364 

Raça B, características 1 e 2
 xB1  5,55000 
B     

x
4
,
72667

 B2  

Raça A
0,091287 0,011258 
SA  

0,011258 0,052625 

Raça B
0,160327 0,107418 
SB  

0,107418 0,111661 

Assumindo-se que:
 A  B  




11  1
12  1
Sc  
 S1  
 S2


 11  1  12  1
 n1  1  n2  1
0,12745 0,06162 
Sc  

0
,
06162
0
,
08354




A matriz inversa é calculada com MATLAB
Função: inv(sc)
12,1960015
S 
 8,995464
1
c
 8,995964 

18,604583 

O vetor discriminante é dado por:
Lˆ ' X A  X B  ' SC1
6,46545 5,55000  0,91545
XA  XB  





5,32364  4,72667 0,59697
'
X A  X B   0,91545 0,59697
12,1960015
S 
 8,995464
1
c
 8,995964 
18,604583 
ˆ
'
1
ˆ
L
L'  X A  X B   SC  '  5,794819 2,871023
12,1960015  8.995964
 0,91545 0,59697 

 8,995464 18,6004583
Lˆ '  X A  X B  ' SC1  5,794819 2,871023
𝐿′ = 5,794819 2,871023
'
ˆ
D X   L  X
𝑋1
𝐷 𝑋 = 5,794819 2,871023 ∙
𝑋2
𝐷 𝑋 = 5,794819 ∙ 𝑋1 2,871023 ∙ 𝑋2

Ponto médio da Raça A
1
mˆ  Dx A   DxB 
2
Dx A   Lˆ ' x A  5,794819
6,46545 
2,871023   

5
,
32364


DxA   52,750405

Ponto médio da Raça B
DxB   Lˆ ' xB  5,794819
5,55000 
2,871023   

4
,
72667


DxB   45,731624

Ponto médio das populações
1
ˆ   52,750405  45,731624   49,241
m
2
ˆ  49,241
m


Tendo-se um novo indivíduo Xo.
Alocar em Raça A se
Dxo   49,241

Alocar em Raça B se
Dxo  < 49,241
ˆ  49,241
m
 Determina
se será usada a matriz comum ou
não na análise discriminante. Se for
pool=yes, o SAS usa a matriz comum para
calcular as distâncias entre grupos e o
resultado é uma função discriminante linear.
Se pool=no, o SAS usa as matrizes de
covariância de cada grupo individualmente
para o cálculo das distâncias. Neste caso
obtemos funções discriminantes quadráticas.
O padrão do SAS é POOL=YES.