Transcript LDA

Analiza dyskryminacji
Analiza dyskryminacji
• Zbiór metod mających na celu jak najlepsze (w
zdefiniowanym sensie) opisanie różnic
pomiędzy klasami (populacjami).
• Zagadnienia analizy dyskryminacyjnej
obejmują m.in.:
• Klasyfikację pod nadzorem np. chaid
• Analizę skupień
Linear Discriminant Analysis (LDA)
• Metoda zaproponowana przez R.A. Fischera w
1936 r., rozwinięta przez R.C. Rao w 1948 r.
• W wersji oryginalnej:
• Założenie, że X jest macierzą obserwacji z pwymiarowej przestrzeni euklidesowej (faktyczne pole
zastosowań znacznie szersze);
• Zmienna objaśniana: klasa przynależności obserwacji
(jedna z dwóch – bo fisher założył że mamy tylko 2 ale
może być więcej);
• Celem reguła decyzyjna oparta na funkcji liniowej.
LDA Fischera (przypadek dwóch klas)
• Zadanie Fishera sprowadza się do znalezienia
takiego kierunku a w przestrzeni X, który
najlepiej rozdziela dwie klasy.
• Konstrukcja LDA opiera się na informacji o
wskaźnikach położenia i rozproszenia dla
obserwacji z dwóch klas:
• Estymatora wartości oczekiwanej E(X|g=i); - położenia
• Estymatora macierzy kowariancji Cov(X|g=i) rozproszenia.
LDA Fischera (przypadek dwóch klas)
• Estymator wartości oczekiwanej X
1
𝑛
𝑥𝑘 =
k = 1, 2.
𝑖=1 𝑥𝑘𝑖 ,
𝑛
𝑘
𝑘
• Estymator macierzy kowariancji dla każdej
klasy
1
𝑊=
𝑛−2
2
𝑘=1
1
𝑛𝑘 − 1 𝑆𝑘 =
𝑛−2
2
𝑛𝑘
𝑥𝑘𝑖 − 𝑥𝑘 𝑥𝑘𝑖 − 𝑥𝑘
𝑘=1 𝑖=1
𝑇
LDA Fischera (przypadek dwóch klas)
• Ponieważ w ogólności mamy:
𝑉𝑎𝑟 𝑎𝑇 𝑋 = 𝑎𝑇 𝐶𝑜𝑣 𝑥 𝑎
• Próbkową miarą zmienności
wewnątrzgrupowej wzdłuż kierunku a jest:
𝑎𝑇 𝑊𝑎
LDA Fischera (przypadek dwóch klas)
LDA Fischera (przypadek dwóch klas)
• Rozwiązanie:
𝑎∗ ∝ 𝑊 −1 𝑥2 − 𝑥1
• a* - pierwszy wektor kanoniczny
• a*Tx – pierwsza zmienna kanoniczna
odpowiadająca wektorowi X.
LDA Fischera (przypadek dwóch klas)
Uogólnienie na przypadek g klas
• Problem:
𝑎𝑇 𝐵𝑎
𝑎𝑇 𝑊𝑎
gdzie:
1
𝐵=
𝑔−1
1
𝑊=
𝑛−𝑔
𝑔
𝑔
𝑛𝑘 𝑥𝑘 − 𝑥 𝑥𝑘 − 𝑥
𝑘=1
𝑇
𝑛𝑘
𝑛𝑘 − 1
𝑘=1
,
𝑥𝑘𝑖 − 𝑥𝑘 𝑥𝑘𝑖 − 𝑥𝑘
𝑖=1
𝑇
Uogólnienie na przypadek g klas
• B – macierz wariancji międzygrupowej
• W – macierz wariancji wewnątrzgrupowej
• Można pokazać, że:
𝑇 = 𝑛−𝑔 𝑊+ 𝑔−1 𝐵
• Gdzie:
𝑇 = 𝑛−1 𝑆
Uogólnienie na przypadek g klas
• Rozwiązanie:
a* (wektor maksymalizujący wariancję
międzygrupową) jest wektorem własnym
macierzy W-1B, odpowiadającym największej
wartości własnej tej macierzy.
• W praktyce problem rozwiązuje się poprzez
𝑔
rozwiązanie
problemów dla dwóch klas.
2
Uogólnienie na przypadek g klas
Uogólnienie na przypadek g klas
• Związki pomiędzy LDA a analizą kanoniczną.
• Uchylenie założenia o jednakowych
macierzach kowariancji.
• UWAGA: metoda została opracowana dla zmiennych
mierzonych na skali interwałowej (dla których sensowna jest
metryka euklidesowa), ale sprawdza się również dla
zmiennych o charakterze porządkowym czy nominalnym.
Literatura
•
•
•




Fisher R.A., „The Use of Multiple Measurements in Taxonomic Problems”,
Annals of Eugenics, 7 (2): 179-188.
Rao R.C., „The utilization of multiple measurements in problems of biological
classification”, Journal of the Royal Statistical Society, Series B 10 (2): 159–203.
Koronacki J., Ćwik J., Statystyczne systemy uczące się, Wydawnictwo Naukowo
Techniczne, Warszawa 2005.
Hastie T., R.Tibshirani, J.Friedman, The Elements of Statistical Learning.
Springer (zwłaszcza rozdz. 4) → poszukać wersji elektronicznej pdf
M.Krzyśko, W.Wołyński, T.Górecki,M.Skorzybut: Systemy uczące się. +
wcześniejsze prace M.Krzyśko o analizie dyskryminacyjnej
McLachlan, G. J. (2004). Discriminant Analysis and Statistical Pattern
Recognition. Wiley.
Duda, R. O.; Hart, P. E.; Stork, D. H. (2000). Pattern Classification (2nd ed.).
Wiley