Liniowa analiza dyskryminacyjna
Download
Report
Transcript Liniowa analiza dyskryminacyjna
T. Hastie, R. Tibshirani, J. Friedman
„The Element of Statistical Learning”
Chapter 4
Linear Methods of Classification
Metody klasyfikacji liniowej
Wyznaczanie liniowej funkcji dyskryminacyjnej dla każdej z klas:
• Regresja liniowa
• Liniowa analiza dyskryminacyjna
• Regresja logistyczna
Wyznaczanie liniowych hiperpłaszczyzn rozdzielających klasy:
• ‘Separating Hyperplanes’
Funkcja dyskryminacyjna k(x)
• Postać funkcji dyskryminacyjnej k(x):
W zależności od modelu: regresja liniowa
analiza dyskryminacyjna
regresja logistyczna
• Hiperpłaszczyzna rozgraniczająca klasy k oraz l:
x : k ( x) l ( x)
• Nowa obserwacja zaklasyfikowana do grupy o największej
wartości k(x)
Regresja liniowa
• Estymacja modelu liniowego (MNK):
1
ˆ T
1 T
T
ˆ
T
(1)
(2)
• Wartości funkcji dla nowej obserwacji (K wektor):
ˆf x 1, x
ˆT
(3)
• Reguła dyskryminacyjna:
Gˆ x argmaxkG fˆk x
(4)
Maskowanie klas
• Gdy K > 2 istnieje niebezpieczeństwo maskowania klas.
• Estymacja za pomocą funkcji kwadratowej, zamiast liniowej.
• Generalnie, dla k klas wymagany wielomian stopnia k-1.
• Duża złożoność obliczeniowa.
Liniowa analiza dyskryminacyjna
• Liniowa i kwadratowa analiza dyskryminacyjna
• ‘Regularized discriminant analysis’
• ‘Reduced-rank linear discriminant’
Reguła Bayesa
• Funkcja gęstości (wiarygodność):
Pr X x / G k f k x
• Prawdopodobieństwo a priori:
k
K
oraz
i 1
i
1
• Prawdopodobieństwo a posteriori:
PrG k / X x
f k ( x) k
(5)
K
f ( x)
i 1
i
i
Funkcja gęstości
• Zmienne mają łącznie wielowymiarowy rozkład normalny.
f k ( x)
1
p
2
(2 ) k
1
2
e
1
x k T k 1 ( x k )
2
(6)
• Wspólna macierz wariancji i kowariancji dla wszystkich klas.
Pr(G k / X x)
x : Pr(G k / X x) Pr(G l / X x) log
0
Pr(G l / X x)
f k ( x)
k
x : log
log 0
f l ( x)
l
k 1
T 1
T 1
x : log k l k l x k l 0
l 2
(7)
Estymacja parametrów
ˆk
• Prawdopodobieństwo a piori:
Nk
N
ˆ k g k xi N
• Wektor wartości średnich:
i
k
(8)
(9)
• Macierz wariancji i kowariancji:
ˆ k 1 g k
K
i
T
ˆ
ˆ
xi k xi k
( N K ) (10)
Dyskryminacja liniowa a regresja
• Klasyfikacja binarna: hiperpłaszczyzny są równoległe.
• Więcej niż dwie klasy: różnica pomiędzy rozwiązaniami.
• Nie występuje problem maskowania klas
[Hastie et al, 1994].
Dyskryminacja kwadratowa
• Dwa podejścia:
• Brak założenia o równości macierzy wariancji i kowariancji.
• Zwiększenie wymiaru przestrzeni cech:
X1, X2 X1, X2, X1X2 , X12, X22
• Podobne rezultaty.
‘Regularized discriminant analysis’
• Kompromis pomiędzy dyskryminacją liniową a kwadratową
[Friedman, 1989].
• Postać macierzy kowariancji:
ˆ k
ˆ k 1
ˆ
0,1
(11)
‘Reduced-rank linear discriminant’
• Redukcja wymiaru przestrzeni cech pozwala na lepszą
identyfikację istotnych różnic między klasami.
• Redukcja ta jest możliwa dopóki liczba cech P K-1.
• Analiza głównych składowych.
Regresja logistyczna
• Liniowe logarytmy ilorazów wiarygodności:
P r(G 1 / X x)
log
10 1T x
P r(G K / X x)
P r(G 2 / X x)
log
20 2T x
P r(G K / X x)
(12)
P r(G K 1 / X x)
log
( K 1) 0 KT 1 x
P r(G K / X x)
• Rozwiązanie:
Pr(G k / X x)
exp( k 0 kT x)
1 l 1 exp l 0 x
Pr(G K / X x)
K 1
1
T
l
1 l 1 exp l 0 x
K 1
T
l
k 1,, K 1
,
,
(13)
(14)
Estymacja parametrów
• Metoda największej wiarygodności
10 , 1,, K 10 , K 1
• Funkcja wiarygodności:
l ( ) pk ( xi ; )
N
i 1
(15)
• Logarytm funkcji wiarygodności (względy obliczeniowe):
L( ) log l ( ) i 1 log pk xi ;
N
• Szukamy maksimum L().
(16)
Przykład: klasyfikacja binarna
• Wskaźnik y = 1 dla klasy 1 oraz y = 0 dla klasy 2
• Prawdopodobieństwo a posteriori: p1(x; ) = p(x;)
p2(x;) = 1-p(x;)
• Logarytm funkcji wiarygodności:
L( ) i 1 yi log p( xi ; ) 1 yi log 1 pxi ;
N
i 1 yi xi log 1 e
N
T
T xi
(17)
Obliczanie
L( )
N
i 1 xi yi pxi ; 0
(18)
• P+1 równań nieliniowych względem
• Iteracyjna metoda wyznaczania - algorytm Newton-Raphson:
new
L L
T
2
old
1
(19)
Dyskryminacja liniowa:
P r(G k / X x)
k 1
T 1
log
log k K k K
P r(G K / X x)
l 2
xT 1 k K
k 0 kT x
(20)
Regresja logistyczna:
log
Pr(G k / X x)
k 0 kT x
Pr(G K / X x)
(21)
‘Separating Hyperplanes’
• Metoda perceptronowa [Rosenblatt, 1958]
• ‘Optimal Separating Hyperplanes’
Metoda perceptronowa Rosenblatta
• Kryterium perceptronowe: Minimalizacja odległości pomiędzy źle
sklasyfikowanymi obiektami a hiperpłaszczyzną.
min D( , 0 ) iM yi ( x 0 )
T
i
(22)
• Algorytm: metoda najszybszego spadku
yi xi
0 0
yi
(23)
Wady
• Zadania liniowo separowalne: wiele rozwiązań w zależności
od punktu startowego.
• Algorytm może zbiegać w bardzo długim czasie.
• Zadania nieseparowalne liniowo: algorytm nie jest zbieżny.
‘Optimal Separating Hyperplane’
• Kryterium: Maksymalizacja odległości pomiędzy
hiperpłaszczyzną a najbliższymi obiektami.
• Jedno rozwiązanie.
• Lepsza klasyfikacja elementów zbioru testowego.
W skrócie...
• Regresja liniowa i problem maskowania klas
• Dyskryminacja liniowa z założeniem normalnego rozkładu
funkcji gęstości
• Regresja logistyczna
• ‘Separating Hyperplanes’