Liniowa analiza dyskryminacyjna

Download Report

Transcript Liniowa analiza dyskryminacyjna

T. Hastie, R. Tibshirani, J. Friedman
„The Element of Statistical Learning”
Chapter 4
Linear Methods of Classification
Metody klasyfikacji liniowej
Wyznaczanie liniowej funkcji dyskryminacyjnej dla każdej z klas:
• Regresja liniowa
• Liniowa analiza dyskryminacyjna
• Regresja logistyczna
Wyznaczanie liniowych hiperpłaszczyzn rozdzielających klasy:
• ‘Separating Hyperplanes’
Funkcja dyskryminacyjna k(x)
• Postać funkcji dyskryminacyjnej k(x):
W zależności od modelu: regresja liniowa
analiza dyskryminacyjna
regresja logistyczna
• Hiperpłaszczyzna rozgraniczająca klasy k oraz l:
x :  k ( x)  l ( x)
• Nowa obserwacja zaklasyfikowana do grupy o największej
wartości k(x)
Regresja liniowa
• Estymacja modelu liniowego (MNK):


1
ˆ     T 

1 T
T
     ˆ
T
(1)
(2)
• Wartości funkcji dla nowej obserwacji (K wektor):


ˆf x   1, x 
ˆT
(3)
• Reguła dyskryminacyjna:
Gˆ x  argmaxkG fˆk x
(4)
Maskowanie klas
• Gdy K > 2 istnieje niebezpieczeństwo maskowania klas.
• Estymacja za pomocą funkcji kwadratowej, zamiast liniowej.
• Generalnie, dla k klas wymagany wielomian stopnia k-1.
• Duża złożoność obliczeniowa.
Liniowa analiza dyskryminacyjna
• Liniowa i kwadratowa analiza dyskryminacyjna
• ‘Regularized discriminant analysis’
• ‘Reduced-rank linear discriminant’
Reguła Bayesa
• Funkcja gęstości (wiarygodność):
Pr X  x / G  k   f k x
• Prawdopodobieństwo a priori:
k
K

oraz
i 1
i
1
• Prawdopodobieństwo a posteriori:
PrG  k / X  x  
f k ( x)   k
(5)
K
 f ( x)
i 1
i
i
Funkcja gęstości
• Zmienne mają łącznie wielowymiarowy rozkład normalny.
f k ( x) 
1
p
2
(2 )  k
1
2
e

1
 x   k T  k 1 ( x   k )
2
(6)
• Wspólna macierz wariancji i kowariancji  dla wszystkich klas.
 Pr(G  k / X  x)

x : Pr(G  k / X  x)  Pr(G  l / X  x)  log
 0
Pr(G  l / X  x)




f k ( x)
k
  x : log
 log  0
f l ( x)
l




k 1
T 1
T 1
  x : log  k  l   k  l   x  k  l   0
l 2


(7)
Estymacja parametrów
ˆk 
• Prawdopodobieństwo a piori:
Nk
N
ˆ k  g k xi N
• Wektor wartości średnich:
i
k
(8)
(9)
• Macierz wariancji i kowariancji:
ˆ  k 1 g k
K
i
T
ˆ
ˆ
xi  k xi  k 
( N  K ) (10)
Dyskryminacja liniowa a regresja
• Klasyfikacja binarna: hiperpłaszczyzny są równoległe.
• Więcej niż dwie klasy: różnica pomiędzy rozwiązaniami.
• Nie występuje problem maskowania klas
[Hastie et al, 1994].
Dyskryminacja kwadratowa
• Dwa podejścia:
• Brak założenia o równości macierzy wariancji i kowariancji.
• Zwiększenie wymiaru przestrzeni cech:
X1, X2  X1, X2, X1X2 , X12, X22
• Podobne rezultaty.
‘Regularized discriminant analysis’
• Kompromis pomiędzy dyskryminacją liniową a kwadratową
[Friedman, 1989].
• Postać macierzy kowariancji:
ˆ k    
ˆ k  1   
ˆ

  0,1
(11)
‘Reduced-rank linear discriminant’
• Redukcja wymiaru przestrzeni cech pozwala na lepszą
identyfikację istotnych różnic między klasami.
• Redukcja ta jest możliwa dopóki liczba cech P  K-1.
• Analiza głównych składowych.
Regresja logistyczna
• Liniowe logarytmy ilorazów wiarygodności:
P r(G  1 / X  x)
log
 10  1T x
P r(G  K / X  x)
P r(G  2 / X  x)
log
  20   2T x
P r(G  K / X  x)

(12)
P r(G  K  1 / X  x)
log
  ( K 1) 0   KT 1 x
P r(G  K / X  x)
• Rozwiązanie:
Pr(G  k / X  x) 
exp( k 0   kT x)

1  l 1 exp l 0   x
Pr(G  K / X  x) 
K 1
1

T
l

1  l 1 exp l 0   x
K 1
T
l
k  1,, K  1
,

,
(13)
(14)
Estymacja parametrów 
• Metoda największej wiarygodności
  10 , 1,, K 10 ,  K 1
• Funkcja wiarygodności:
l ( )   pk ( xi ; )
N
i 1
(15)
• Logarytm funkcji wiarygodności (względy obliczeniowe):
L( )  log l ( )  i 1 log pk xi ; 
N
• Szukamy maksimum L().
(16)
Przykład: klasyfikacja binarna
• Wskaźnik y = 1 dla klasy 1 oraz y = 0 dla klasy 2
• Prawdopodobieństwo a posteriori: p1(x; ) = p(x;)
p2(x;) = 1-p(x;)
• Logarytm funkcji wiarygodności:
L( )  i 1 yi log p( xi ;  )  1  yi log 1  pxi ;  
N


 i 1 yi  xi  log 1  e
N
T
 T xi

(17)
Obliczanie 
L(  )
N
 i 1 xi yi  pxi ;    0

(18)
• P+1 równań nieliniowych względem 
• Iteracyjna metoda wyznaczania  - algorytm Newton-Raphson:

new

  L   L 

 
T 
   
2
old
1
(19)
Dyskryminacja liniowa:
P r(G  k / X  x)
k 1
T 1
log
 log  k   K   k   K 
P r(G  K / X  x)
l 2
 xT  1 k   K  
  k 0   kT x
(20)
Regresja logistyczna:
log
Pr(G  k / X  x)
  k 0   kT x
Pr(G  K / X  x)
(21)
‘Separating Hyperplanes’
• Metoda perceptronowa [Rosenblatt, 1958]
• ‘Optimal Separating Hyperplanes’
Metoda perceptronowa Rosenblatta
• Kryterium perceptronowe: Minimalizacja odległości pomiędzy źle
sklasyfikowanymi obiektami a hiperpłaszczyzną.
min D(  ,  0 )  iM yi ( x    0 )
T
i
(22)
• Algorytm: metoda najszybszego spadku
 
 yi xi 
       

 0   0 
 yi 
(23)
Wady
• Zadania liniowo separowalne: wiele rozwiązań w zależności
od punktu startowego.
• Algorytm może zbiegać w bardzo długim czasie.
• Zadania nieseparowalne liniowo: algorytm nie jest zbieżny.
‘Optimal Separating Hyperplane’
• Kryterium: Maksymalizacja odległości pomiędzy
hiperpłaszczyzną a najbliższymi obiektami.
• Jedno rozwiązanie.
• Lepsza klasyfikacja elementów zbioru testowego.
W skrócie...
• Regresja liniowa i problem maskowania klas
• Dyskryminacja liniowa z założeniem normalnego rozkładu
funkcji gęstości
• Regresja logistyczna
• ‘Separating Hyperplanes’