SİU 2009 Sınıflandırıcılarda Hata Ölçülmesi ve Karşılaştırılması için İstatistiksel Yöntemler Ethem Alpaydın Boğaziçi Üniversitesi [email protected] http://www.cmpe.boun.edu.tr/~ethem Giriş Sorular: Bir sınıflandırıcının hatasını nasıl ölçebiliriz? İki sınıflandırıcının hatasını nasıl karşılaştırabiliriz? Öğrenme/geçerleme/deneme kümeleri Yeniden.
Download ReportTranscript SİU 2009 Sınıflandırıcılarda Hata Ölçülmesi ve Karşılaştırılması için İstatistiksel Yöntemler Ethem Alpaydın Boğaziçi Üniversitesi [email protected] http://www.cmpe.boun.edu.tr/~ethem Giriş Sorular: Bir sınıflandırıcının hatasını nasıl ölçebiliriz? İki sınıflandırıcının hatasını nasıl karşılaştırabiliriz? Öğrenme/geçerleme/deneme kümeleri Yeniden.
SİU 2009 Sınıflandırıcılarda Hata Ölçülmesi ve Karşılaştırılması için İstatistiksel Yöntemler Ethem Alpaydın Boğaziçi Üniversitesi [email protected] http://www.cmpe.boun.edu.tr/~ethem Giriş Sorular: Bir sınıflandırıcının hatasını nasıl ölçebiliriz? İki sınıflandırıcının hatasını nasıl karşılaştırabiliriz? Öğrenme/geçerleme/deneme kümeleri Yeniden örnekleme: K-kat çapraz geçerleme Parametrik ve parametrik olmayan testler İkiden çok sınıflandırıcının karşılaştırılması Tek/çok veri kümesi Hata dışındaki ölçütlerin karşılaştırılması 2 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 Yöntemlerin Karşılaştırılması Kıstaslar (Uygulamaya bağlı olarak): Sınıflandırma hatası (Risk, kayıp fonksiyonları) Öğrenme zaman/bellek karmaşıklığı Deneme zaman/bellek karmaşıklığı Yorumlanabilirlik Kolay programlanabilme Masraf (karmaşıklık) duyarlı öğrenme 3 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 Öğrenme, Ezberleme, Genelleme Öğrenme Kümesi Geçerleme Kümesi Deneme Kümesi Çapraz geçerleme 4 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 Yeniden Örnekleme K-Kat Çapraz Geçerleme Birden çok öğrenme/gerçekleme kümesi yaratmak için {Xi,Vi}i: kat i X, K parçaya ayırılıyor: Xi,i=1,...,K V1 X1 T 1 X2 X3 X K V2 X2 T 2 X1 X 3 X K VK X K T K X1 X2 X K 1 K-2 parça ortak Sınıf olasılıklarının korunması 5 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 5×2 Çapraz Geçerleme 5 kere 2 kat çapraz geçerleme (Dietterich, 1998) T 1 X11 V1 X12 T 2 X12 V2 X11 T 3 X 21 V3 X 22 T 4 X 22 V4 X 21 T 9 X51 2 T 10 X5 V9 X52 1 V10 X5 6 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 Aralık Kestirimi X = { xt }t , xt ~ N ( μ, σ2) m ~ N ( μ, σ2/N) N m ~ Z P 1.96 P m 1.96 P m z / 2 N m 1.96 0.95 m 1.96 0.95 N N m z / 2 1 100(1- α) % N N güven aralığı 7 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 Tek taraflı güven aralığı m P N 1.64 0.95 P m 1.64 0.95 N P m z 1 N 8 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 σ2 bilinmediğinde: S x m / N 1 2 t 2 t N m ~ t N 1 S S S P m t / 2,N 1 m t / 2,N 1 1 N N 9 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 Hipotez Testleri Sıfır hipotezi H0 Örneğin, H0: μ = μ0 vs. H1: μ ≠ μ0 Eğer μ0 , 100(1- α) güven aralığına düşmüyorsa H0 reddedilir X = { xt }t , xt ~ N ( μ, σ2) N m 0 z / 2 , z / 2 Çift taraflı test 10 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 Tek taraflı test: H0: μ ≤ μ0 vs. H1: μ > μ0 H0 reddedilmez eğer N m 0 , z Varyans bilinmiyorsa; z yerine t dağılımı H0: μ = μ0 reddedilmez eğer N m 0 t / 2,N 1 ,t / 2,N 1 S 11 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 Testin hata tipleri ve gücü Karar Gerçek Kabul Red H0 Doğru Doğru karar Birinci tip hata () H0 Yanlış İkinci tip hata ( b) Doğru karar (Güç) 12 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 Hata Ölçülmesi: H0: p ≤ p0 vs. H1: p > p0 Tek öğrenme/geçerleme kümesi: Binom Testi Hata olasılığı p0 ise, en az e hata yapma olasılığı çok küçükse reddet: 13 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 Normal Approximation to the Binomial Hata sayısı X yaklaşık olarak N (Np0 , Np0(1p0)) X Np 0 ~Z Np0 1 p 0 X = e için bu değer > zα ise reddet 1- α 14 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 Birden çok Öğrenme/Geçerleme xti = 1 eğer kat i’de örnek t yanlış sınıflandırılırsa N Kat i’de hata: xt pi t 1 i N H0: p ≤ p0 vs. H1: p > p0 reddederiz, eğer K m p0 ~ t K 1 > tα,K-1 S 15 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 Sınıflandırıcıların Karşılaştırılması: H0: μ1 = μ2 vs. H1: μ1 ≠ μ2 K-kat Çapraz Geçerleme Eşlenmiş t testi pi1, pi2: Sınıflandırıcı 1 ve 2’nin kat i’deki hataları pi = pi1 – pi2 : Kat i’deki eşlenmiş fark Sıfır hipotezimiz pi ‘in beklenen değeri 0’dır: H 0 : 0 vs. H 0 : 0 i 1 pi K m K K m 0 s 2 p m i 1 i K s2 K 1 K m ~ t K 1 Reddet t / 2, K 1 , t / 2, K 1 s 16 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 5×2 Çapraz Geçerleme Eşlenmiş t Testi (Dietterich, 1998) 5×2 çapraz geçerleme ile 5 tekrarda 2 kat öğrenme/geçerleme kümesi oluşturulur pi(j) : sınıflandırıcılar 1 ve 2’nin kat j=1, 2 tekrar i=1,...,5’deki farkı 1 2 pi pi pi / 2 2 i 1 s pi pi p11 2 s i 1 i / 5 5 p 2 2 i pi 2 ~ t5 Çift taraflı : Reddet H0: μ1 = μ2 eğer (-tα/2,5,tα/2,5) Tek taraflı: Reddet H0: μ1 ≤ μ2 eğer > tα,5 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 17 5×2 Çapraz Geçerleme Eşlenmiş F Testi (Alpaydın, 1999) p 2 s j 5 2 i 1 i j 1 5 2 i 1 i 2 ~ F10,5 Çift taraflı test: Reddet H0: μ1 = μ2 eğer > Fα,10,5 18 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 L>2 Sınıflandırıcı: Varyans Analizi (Anova) H0 : 1 2 L L sınıflandırıcının K kattaki hataları X ij ~ N j , 2 , j 1,...,L, i 1,...,K Reddedilirse ikili testler 19 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 Anova tablosu Değişkenli ğin Karelerin toplamı Serbestli derecesi Gruplar arası L-1 Grup içi L(K-1) Toplam LK-1 Ortalama Kare F0 20 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 Çoklu Anakütle Testleriyle İlgili Bonferroni düzeltmesi: Eğer m test sonunda bir karara varılacaksa, sonuç karar hassasiyetinin α olabilmesi için, her bir testin hassasiyetinin α/m olması gerekir. Kontrastlar 21 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 MultiTest Yöntemiyle Sınıflandırıcıların Sıralanması (Yıldız ve Alpaydın, 2006) L sınıflandırıcı ön bir karmaşıklık ölçütüne göre sıralanır: i<j olmak üzere ikili testlerle çizge oluşturulur: Eğer H0: μi <= μj reddedilirse, (i,j) eklenir, Topolojik olarak sıralanır 22 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 23 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 24 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 Parametrik olmayan testler İşaret testi Sıralama (rank) testleri: Kruskal-Wallis testi Friedman sıralama testi Kullanımı: Birden çok veritabanı üzerinde karşılaştırma Sınıflandırma hatası dışındaki ölçütlerin (hız, bellek, vs) karşılaştırılması 25 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 Başarı Ölçütleri Öngörü Gerçek Artı Eksi Artı TP FN Eksi FP TN Hata = (FN+FP) / N Recall = bulunan artılar/ toplam artılar = TP / (TP+FN) = sensitivity = hit rate Precision = bulunan artılar / bulunanlar = TP / (TP+FP) Specificity = TN / (TN+FP) False alarm rate = FP / (FP+TN) = 1 - Specificity 26 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 ROC Eğrisi 27 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 28 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 Sonuçlar Güven aralıkları <=> Örnek kümesi büyüklüğü Öğrenme, ezberleme, genelleme Deney tasarımı 29 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009 Kaynaklar M. Aytaç (2004) “Matematiksel İstatistik,” Ezgi Yayınevi. 30 SİU 2009 Eğitim semineri E Alpaydın Nisan 2009