Transcript LDA
Analiza dyskryminacji Analiza dyskryminacji • Zbiór metod mających na celu jak najlepsze (w zdefiniowanym sensie) opisanie różnic pomiędzy klasami (populacjami). • Zagadnienia analizy dyskryminacyjnej obejmują m.in.: • Klasyfikację pod nadzorem np. chaid • Analizę skupień Linear Discriminant Analysis (LDA) • Metoda zaproponowana przez R.A. Fischera w 1936 r., rozwinięta przez R.C. Rao w 1948 r. • W wersji oryginalnej: • Założenie, że X jest macierzą obserwacji z pwymiarowej przestrzeni euklidesowej (faktyczne pole zastosowań znacznie szersze); • Zmienna objaśniana: klasa przynależności obserwacji (jedna z dwóch – bo fisher założył że mamy tylko 2 ale może być więcej); • Celem reguła decyzyjna oparta na funkcji liniowej. LDA Fischera (przypadek dwóch klas) • Zadanie Fishera sprowadza się do znalezienia takiego kierunku a w przestrzeni X, który najlepiej rozdziela dwie klasy. • Konstrukcja LDA opiera się na informacji o wskaźnikach położenia i rozproszenia dla obserwacji z dwóch klas: • Estymatora wartości oczekiwanej E(X|g=i); - położenia • Estymatora macierzy kowariancji Cov(X|g=i) rozproszenia. LDA Fischera (przypadek dwóch klas) • Estymator wartości oczekiwanej X 1 𝑛 𝑥𝑘 = k = 1, 2. 𝑖=1 𝑥𝑘𝑖 , 𝑛 𝑘 𝑘 • Estymator macierzy kowariancji dla każdej klasy 1 𝑊= 𝑛−2 2 𝑘=1 1 𝑛𝑘 − 1 𝑆𝑘 = 𝑛−2 2 𝑛𝑘 𝑥𝑘𝑖 − 𝑥𝑘 𝑥𝑘𝑖 − 𝑥𝑘 𝑘=1 𝑖=1 𝑇 LDA Fischera (przypadek dwóch klas) • Ponieważ w ogólności mamy: 𝑉𝑎𝑟 𝑎𝑇 𝑋 = 𝑎𝑇 𝐶𝑜𝑣 𝑥 𝑎 • Próbkową miarą zmienności wewnątrzgrupowej wzdłuż kierunku a jest: 𝑎𝑇 𝑊𝑎 LDA Fischera (przypadek dwóch klas) LDA Fischera (przypadek dwóch klas) • Rozwiązanie: 𝑎∗ ∝ 𝑊 −1 𝑥2 − 𝑥1 • a* - pierwszy wektor kanoniczny • a*Tx – pierwsza zmienna kanoniczna odpowiadająca wektorowi X. LDA Fischera (przypadek dwóch klas) Uogólnienie na przypadek g klas • Problem: 𝑎𝑇 𝐵𝑎 𝑎𝑇 𝑊𝑎 gdzie: 1 𝐵= 𝑔−1 1 𝑊= 𝑛−𝑔 𝑔 𝑔 𝑛𝑘 𝑥𝑘 − 𝑥 𝑥𝑘 − 𝑥 𝑘=1 𝑇 𝑛𝑘 𝑛𝑘 − 1 𝑘=1 , 𝑥𝑘𝑖 − 𝑥𝑘 𝑥𝑘𝑖 − 𝑥𝑘 𝑖=1 𝑇 Uogólnienie na przypadek g klas • B – macierz wariancji międzygrupowej • W – macierz wariancji wewnątrzgrupowej • Można pokazać, że: 𝑇 = 𝑛−𝑔 𝑊+ 𝑔−1 𝐵 • Gdzie: 𝑇 = 𝑛−1 𝑆 Uogólnienie na przypadek g klas • Rozwiązanie: a* (wektor maksymalizujący wariancję międzygrupową) jest wektorem własnym macierzy W-1B, odpowiadającym największej wartości własnej tej macierzy. • W praktyce problem rozwiązuje się poprzez 𝑔 rozwiązanie problemów dla dwóch klas. 2 Uogólnienie na przypadek g klas Uogólnienie na przypadek g klas • Związki pomiędzy LDA a analizą kanoniczną. • Uchylenie założenia o jednakowych macierzach kowariancji. • UWAGA: metoda została opracowana dla zmiennych mierzonych na skali interwałowej (dla których sensowna jest metryka euklidesowa), ale sprawdza się również dla zmiennych o charakterze porządkowym czy nominalnym. Literatura • • • Fisher R.A., „The Use of Multiple Measurements in Taxonomic Problems”, Annals of Eugenics, 7 (2): 179-188. Rao R.C., „The utilization of multiple measurements in problems of biological classification”, Journal of the Royal Statistical Society, Series B 10 (2): 159–203. Koronacki J., Ćwik J., Statystyczne systemy uczące się, Wydawnictwo Naukowo Techniczne, Warszawa 2005. Hastie T., R.Tibshirani, J.Friedman, The Elements of Statistical Learning. Springer (zwłaszcza rozdz. 4) → poszukać wersji elektronicznej pdf M.Krzyśko, W.Wołyński, T.Górecki,M.Skorzybut: Systemy uczące się. + wcześniejsze prace M.Krzyśko o analizie dyskryminacyjnej McLachlan, G. J. (2004). Discriminant Analysis and Statistical Pattern Recognition. Wiley. Duda, R. O.; Hart, P. E.; Stork, D. H. (2000). Pattern Classification (2nd ed.). Wiley