Análise Discriminante
Download
Report
Transcript Análise Discriminante
ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS
PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS
Carlos A. A. Varella
Segundo KHATTREE & NAIK (2000) é uma
técnica da estatística multivariada que
estuda a separação de objetos de uma
população em duas ou mais classes.
A discriminação ou separação é a primeira
etapa, sendo a parte exploratória da análise e
consiste em se procurar características
capazes de serem utilizadas para alocar
objetos em diferentes grupos previamente
definidos.
A classificação ou alocação pode ser definida
como um conjunto de regras que serão
usadas para alocar novos objetos (JOHNSON
& WICHERN, 1999).
A função que separa objetos pode também
servir para alocar, e, o inverso, regras que
alocam objetos podem ser usadas para
separar.
Normalmente, discriminação e classificação se
sobrepõem na análise, e a distinção entre
separação e alocação é confusa.
Segundo REGAZZI (2000), o problema da
discriminação entre dois ou mais grupos, visando
posterior classificação, foi inicialmente abordado
por Fisher (1936).
Funções matemáticas capazes de classificar um
indivíduo X em uma de várias populações i;
Com base em medidas de um número p de
características, buscando minimizar a
probabilidade de má classificação, isto é,
minimizar a probabilidade de classificar
erroneamente um indivíduo em uma população i,
quando realmente pertence a população j.
Regiões de alocação são conjunto de valores
separados por uma fronteira definida por
uma função discriminante qualquer.
Função Linear
Função Quadrática
Uma boa regra de classificação deve resultar
em pequenos erros;
Deve haver pouca probabilidade de má
classificação;
Segundo JOHNSON & WICHERN (1999) para
que isso ocorra a regra de classificação deve
considerar as probabilidades a priori e os
custos de má classificação.
As regras de classificação devem considerar
se as variâncias das populações são iguais ou
não;
Quando as variâncias são iguais as funções
discriminantes são lineares;
Quando são diferentes as funções
discriminantes são quadráticas;
Redes neurais e lógica fuzzy geram planos
não-lineares de separação.
É uma combinação linear de características
originais que se caracteriza por produzir
separação máxima entre duas populações
Demonstra-se que a função linear do vetor
aleatório X que produz separação máxima
entre duas populações é dada por:
D X L ' X 1 2 ' 1 X
L
X
=
=
=
=
vetor discriminante;
vetor aleatório de características das populações;
vetor de médias p-variado;
matriz comum de covariâncias das populações 1 e 2;
O valor da função discriminante de Fisher
para uma dada observação é:
'
1
Dxo 1 2 xo
O ponto médio entre as duas médias
populacionais univariadas µ1 e µ1 é:
1
m 1 2 ' 1 1 2
2
1
m D1 D2
2
A regra de classificação baseada na função
discriminante de Fisher é:
Alocar xo em 1 se D xo 1 2 ' xo m
1
Alocar xo em 2 se Dxo 1 2 ' xo < m
1
nS121c2
Assumimos que as populações 1 e 2 têm a
mesma matriz de covariâncias .
n1 1
n2 1
Sc
S1
S2
n1 1 n2 1
n1 1 n2 1
Sc
n1
n2
S1
S2
= estimativa da matriz comum de covariâncias ;
= número de observações da população 1;
= número de observações da população 2;
= estimativa matriz de covariâncias da população 1;
= estimativa matriz de covariâncias da população 2;
É obtida substituindo-se os parâmetros µ1, µ2
e pelas respectivas quantidades amostrais:
x2
'
ˆ
D x L x x
x1
1
Sc
'
x S
2
1
c
x
D x = função discriminante linear amostral de Fisher;
Lˆ '
x1
x2
=
estimativa do vetor disriminante;
=
média amostral da população 1;
=
média amostral da população 2.
Vamos considerar os dados de duas raças de
insetos (Quadro 1), apresentados por HOEL
(1966) e citado por REGAZZI (2000).
Número médio de cerdas primordiais (X1) e número médio de
cerdas distais (X2) em duas raças de insetos
Raça A
Raça B
X1
X2
X1
X2
6,36
5,24
6,00
4,88
5,92
5,12
5,60
4,64
5,92
5,36
5,64
4,96
6,44
5,64
5,76
4,80
6,40
5,16
5,96
5,08
6,56
5,56
5,72
5,04
6,64
5,36
5,64
4,96
6,68
4,96
5,44
4,88
6,72
5,48
5,04
4,44
6,76
5,60
4,56
4,04
6,72
5,08
5,48
4,20
5,76
4,80
Raça A, características 1 e 2
x A1 6,46545
A
x A2 5,32364
Raça B, características 1 e 2
xB1 5,55000
B
x
4
,
72667
B2
Raça A
0,091287 0,011258
SA
0,011258 0,052625
Raça B
0,160327 0,107418
SB
0,107418 0,111661
Assumindo-se que:
A B
11 1
12 1
Sc
S1
S2
11 1 12 1
n1 1 n2 1
0,12745 0,06162
Sc
0
,
06162
0
,
08354
A matriz inversa é calculada com MATLAB
Função: inv(sc)
12,1960015
S
8,995464
1
c
8,995964
18,604583
O vetor discriminante é dado por:
Lˆ ' X A X B ' SC1
6,46545 5,55000 0,91545
XA XB
5,32364 4,72667 0,59697
'
X A X B 0,91545 0,59697
12,1960015
S
8,995464
1
c
8,995964
18,604583
ˆ
'
1
ˆ
L
L' X A X B SC ' 5,794819 2,871023
12,1960015 8.995964
0,91545 0,59697
8,995464 18,6004583
Lˆ ' X A X B ' SC1 5,794819 2,871023
𝐿′ = 5,794819 2,871023
'
ˆ
D X L X
𝑋1
𝐷 𝑋 = 5,794819 2,871023 ∙
𝑋2
𝐷 𝑋 = 5,794819 ∙ 𝑋1 2,871023 ∙ 𝑋2
Ponto médio da Raça A
1
mˆ Dx A DxB
2
Dx A Lˆ ' x A 5,794819
6,46545
2,871023
5
,
32364
DxA 52,750405
Ponto médio da Raça B
DxB Lˆ ' xB 5,794819
5,55000
2,871023
4
,
72667
DxB 45,731624
Ponto médio das populações
1
ˆ 52,750405 45,731624 49,241
m
2
ˆ 49,241
m
Tendo-se um novo indivíduo Xo.
Alocar em Raça A se
Dxo 49,241
Alocar em Raça B se
Dxo < 49,241
ˆ 49,241
m
Determina
se será usada a matriz comum ou
não na análise discriminante. Se for
pool=yes, o SAS usa a matriz comum para
calcular as distâncias entre grupos e o
resultado é uma função discriminante linear.
Se pool=no, o SAS usa as matrizes de
covariância de cada grupo individualmente
para o cálculo das distâncias. Neste caso
obtemos funções discriminantes quadráticas.
O padrão do SAS é POOL=YES.