SİU 2009 Sınıflandırıcılarda Hata Ölçülmesi ve Karşılaştırılması için İstatistiksel Yöntemler Ethem Alpaydın Boğaziçi Üniversitesi [email protected] http://www.cmpe.boun.edu.tr/~ethem Giriş Sorular: Bir sınıflandırıcının hatasını nasıl ölçebiliriz? İki sınıflandırıcının hatasını nasıl karşılaştırabiliriz? Öğrenme/geçerleme/deneme kümeleri Yeniden.
Download
Report
Transcript SİU 2009 Sınıflandırıcılarda Hata Ölçülmesi ve Karşılaştırılması için İstatistiksel Yöntemler Ethem Alpaydın Boğaziçi Üniversitesi [email protected] http://www.cmpe.boun.edu.tr/~ethem Giriş Sorular: Bir sınıflandırıcının hatasını nasıl ölçebiliriz? İki sınıflandırıcının hatasını nasıl karşılaştırabiliriz? Öğrenme/geçerleme/deneme kümeleri Yeniden.
SİU 2009
Sınıflandırıcılarda Hata
Ölçülmesi ve Karşılaştırılması
için İstatistiksel Yöntemler
Ethem Alpaydın
Boğaziçi Üniversitesi
[email protected]
http://www.cmpe.boun.edu.tr/~ethem
Giriş
Sorular:
Bir sınıflandırıcının hatasını nasıl ölçebiliriz?
İki sınıflandırıcının hatasını nasıl
karşılaştırabiliriz?
Öğrenme/geçerleme/deneme kümeleri
Yeniden örnekleme: K-kat çapraz geçerleme
Parametrik ve parametrik olmayan testler
İkiden çok sınıflandırıcının karşılaştırılması
Tek/çok veri kümesi
Hata dışındaki ölçütlerin karşılaştırılması
2
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
Yöntemlerin Karşılaştırılması
Kıstaslar (Uygulamaya bağlı olarak):
Sınıflandırma hatası (Risk, kayıp
fonksiyonları)
Öğrenme zaman/bellek karmaşıklığı
Deneme zaman/bellek karmaşıklığı
Yorumlanabilirlik
Kolay programlanabilme
Masraf (karmaşıklık) duyarlı öğrenme
3
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
Öğrenme, Ezberleme, Genelleme
Öğrenme
Kümesi
Geçerleme
Kümesi
Deneme
Kümesi
Çapraz geçerleme
4
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
Yeniden Örnekleme
K-Kat Çapraz Geçerleme
Birden çok öğrenme/gerçekleme kümesi yaratmak için
{Xi,Vi}i: kat i
X, K parçaya ayırılıyor: Xi,i=1,...,K
V1 X1
T 1 X2 X3 X K
V2 X2
T 2 X1 X 3 X K
VK X K T K X1 X2 X K 1
K-2 parça ortak
Sınıf olasılıklarının korunması
5
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
5×2 Çapraz Geçerleme
5 kere 2 kat çapraz geçerleme (Dietterich, 1998)
T 1 X11
V1 X12
T 2 X12
V2 X11
T 3 X 21
V3 X 22
T 4 X 22
V4 X 21
T 9 X51
2
T 10 X5
V9 X52
1
V10 X5
6
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
Aralık Kestirimi
X = { xt }t , xt ~ N ( μ, σ2)
m ~ N ( μ, σ2/N)
N
m ~ Z
P 1.96
P m 1.96
P m z / 2
N
m 1.96 0.95
m 1.96
0.95
N
N
m z / 2
1 100(1- α) %
N
N
güven aralığı
7
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
Tek taraflı güven aralığı
m
P N
1.64 0.95
P m 1.64
0.95
N
P m z
1
N
8
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
σ2 bilinmediğinde:
S x m / N 1
2
t
2
t
N m
~ t N 1
S
S
S
P m t / 2,N 1
m t / 2,N 1
1
N
N
9
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
Hipotez Testleri
Sıfır hipotezi H0
Örneğin, H0: μ = μ0 vs. H1: μ ≠ μ0
Eğer μ0 , 100(1- α) güven aralığına düşmüyorsa
H0 reddedilir
X = { xt }t , xt ~ N ( μ, σ2)
N m 0
z / 2 , z / 2
Çift taraflı test
10
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
Tek taraflı test: H0: μ ≤ μ0 vs. H1: μ > μ0
H0 reddedilmez eğer
N m 0
, z
Varyans bilinmiyorsa; z yerine t dağılımı
H0: μ = μ0 reddedilmez eğer
N m 0
t / 2,N 1 ,t / 2,N 1
S
11
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
Testin hata tipleri ve gücü
Karar
Gerçek
Kabul
Red
H0 Doğru
Doğru karar
Birinci tip hata
()
H0 Yanlış
İkinci tip hata
( b)
Doğru karar
(Güç)
12
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
Hata Ölçülmesi:
H0: p ≤ p0 vs. H1: p > p0
Tek öğrenme/geçerleme kümesi: Binom Testi
Hata olasılığı p0 ise, en az e hata yapma
olasılığı çok küçükse reddet:
13
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
Normal Approximation to the
Binomial
Hata sayısı X yaklaşık olarak N (Np0 , Np0(1p0))
X Np 0
~Z
Np0 1 p 0
X = e için bu değer
> zα ise reddet
1- α
14
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
Birden çok Öğrenme/Geçerleme
xti = 1 eğer kat i’de örnek t yanlış sınıflandırılırsa
N
Kat i’de hata:
xt
pi
t 1
i
N
H0: p ≤ p0 vs. H1: p > p0 reddederiz, eğer
K m p0
~ t K 1 > tα,K-1
S
15
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
Sınıflandırıcıların Karşılaştırılması:
H0: μ1 = μ2 vs. H1: μ1 ≠ μ2
K-kat Çapraz Geçerleme Eşlenmiş t testi
pi1, pi2: Sınıflandırıcı 1 ve 2’nin kat i’deki hataları
pi = pi1 – pi2 : Kat i’deki eşlenmiş fark
Sıfır hipotezimiz pi ‘in beklenen değeri 0’dır:
H 0 : 0 vs. H 0 : 0
i 1 pi
K
m
K
K m 0
s
2
p
m
i 1 i
K
s2
K 1
K m
~ t K 1 Reddet t / 2, K 1 , t / 2, K 1
s
16
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
5×2 Çapraz Geçerleme Eşlenmiş
t Testi (Dietterich, 1998)
5×2 çapraz geçerleme ile 5 tekrarda 2 kat
öğrenme/geçerleme kümesi oluşturulur
pi(j) : sınıflandırıcılar 1 ve 2’nin kat j=1, 2 tekrar
i=1,...,5’deki farkı
1
2
pi pi pi
/ 2
2
i
1
s pi pi
p11
2
s
i 1 i / 5
5
p
2
2
i
pi
2
~ t5
Çift taraflı : Reddet H0: μ1 = μ2 eğer (-tα/2,5,tα/2,5)
Tek taraflı: Reddet H0: μ1 ≤ μ2 eğer > tα,5
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
17
5×2 Çapraz Geçerleme Eşlenmiş
F Testi (Alpaydın, 1999)
p
2 s
j
5
2
i 1
i
j 1
5
2
i 1 i
2
~ F10,5
Çift taraflı test: Reddet H0: μ1 = μ2 eğer > Fα,10,5
18
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
L>2 Sınıflandırıcı: Varyans
Analizi (Anova)
H0 : 1 2 L
L sınıflandırıcının K kattaki hataları
X ij ~ N j , 2 , j 1,...,L, i 1,...,K
Reddedilirse ikili testler
19
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
Anova tablosu
Değişkenli
ğin
Karelerin
toplamı
Serbestli
derecesi
Gruplar
arası
L-1
Grup içi
L(K-1)
Toplam
LK-1
Ortalama
Kare
F0
20
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
Çoklu Anakütle Testleriyle İlgili
Bonferroni düzeltmesi: Eğer m test sonunda bir
karara varılacaksa, sonuç karar hassasiyetinin α
olabilmesi için, her bir testin hassasiyetinin α/m
olması gerekir.
Kontrastlar
21
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
MultiTest Yöntemiyle
Sınıflandırıcıların Sıralanması (Yıldız
ve Alpaydın, 2006)
L sınıflandırıcı ön bir karmaşıklık ölçütüne göre
sıralanır:
i<j olmak üzere ikili testlerle çizge oluşturulur:
Eğer H0: μi <= μj reddedilirse, (i,j) eklenir,
Topolojik olarak sıralanır
22
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
23
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
24
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
Parametrik olmayan testler
İşaret testi
Sıralama (rank) testleri: Kruskal-Wallis
testi
Friedman sıralama testi
Kullanımı:
Birden çok veritabanı üzerinde
karşılaştırma
Sınıflandırma hatası dışındaki ölçütlerin
(hız, bellek, vs) karşılaştırılması
25
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
Başarı Ölçütleri
Öngörü
Gerçek
Artı
Eksi
Artı
TP
FN
Eksi
FP
TN
Hata = (FN+FP) / N
Recall
= bulunan artılar/ toplam
artılar
= TP / (TP+FN)
= sensitivity = hit rate
Precision
= bulunan artılar /
bulunanlar
= TP / (TP+FP)
Specificity = TN / (TN+FP)
False alarm rate = FP /
(FP+TN) = 1 - Specificity
26
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
ROC Eğrisi
27
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
28
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
Sonuçlar
Güven aralıkları <=> Örnek kümesi büyüklüğü
Öğrenme, ezberleme, genelleme
Deney tasarımı
29
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009
Kaynaklar
M. Aytaç (2004) “Matematiksel İstatistik,” Ezgi Yayınevi.
30
SİU 2009 Eğitim semineri E Alpaydın Nisan 2009