P(  i | x)

Download Report

Transcript P(  i | x)

3(+1) osztályozó
a Bayes világból
febr. 27.
Előző előadás
• Bayes döntéselmélet
• Bayes osztályozó
P(j | x) = P(x | j ) · P (j ) / P(x)
• Ha feltesszük, hogy a posterior ismert
normális eloszlást követ
• Paraméterbecslési módszerek ha
paraméteres eloszlást feltételezünk és
tanító adatbázis rendelkezésre áll
Példa adatbázis
kor
hitelkeret
havi bev.
elhagy?
<21
nincs
< 50K
igen
21-50
van
50K-200K
igen
50<
van
50K-200K
nem
21-50
van
200K<
nem
50<
nincs
200K<
?
Naϊve Bayes osztályozó
Naϊve Bayes osztályozó
Bayes osztályozó ahol feltesszük, hogy a jellemzők
egymástól feltételesen függetlenek egy adott osztály
mellett
d
P( x |  j )   P( xi |  j )
i 1
Legyen két osztály, valamint x = [x1, x2, …, xd ]t ahol
minden xi bináris, az alábbi valószínűségekkel:
pi = P(xi = 1 | 1)
qi = P(xi = 1 | 2)
Diszkriminancia-függvény (modell):
d
g ( x )   wi xi  w0
i 1
ahol:
pi (1  qi )
wi  ln
qi (1  pi )
i  1,...,d
és :
1  pi
P(1 )
w0   ln
 ln
1  qi
P(2 )
i 1
d
válasszuk1 - et, ha g(x)  0 és 2 - t, ha g(x)  0
Naive Bayes tanítása - MLE
• pi = P(xi = 1 | 1 ) és qi = P(xi = 1 | 2 )
becslése N darab tanító példából
• tfh. p és q binomiális eloszlást követ
(visszatevéses mintavétel modellezése)
• Maximum-likelihood módszerrel:
pi   MLE 
N xi 1
N
Naive Bayes tanítása –
Bayes becslés
tfh. a becslési prior Beta eloszlásból jön
X ~ Beta(a,b)
E [X]=1/(1+b/a)
Naive Bayes tanítása –
Bayes becslés
• az eredeti pi likelihood binomiális eloszlást követ
• a becslésre egy Beta(a,b)-t használunk
… a Bayes becslés 2 lépése …
pi   BE
ab
N

EBeta (a, b) 
 MLE
ab N
ab N
Naive Bayes tanítása –
Bayes becslés (m-becslés)
• Ugyanez átjelöléssel:
(így egyszerűbb a gyakorlatban)
m  ab
p  EBeta (a, b) 
–
–
–
–
1
b
1
a
m
N N xi 1
pi   BE 
p
mN
mN N
N xi 1  m p

N m
0 likelihood/posteriori elkerülése
m és p konstansok (paraméterek)
p a priori becslés pi-re
m az „ekvivalens mintaszám”
Naϊve Bayes osztályozó
a gyakorlatban
•
•
•
•
•
nem is olyan naív 
nagyon gyors, párhuzamosítható
kis memóriaigény
irreleváns jellemzők „kiátlagolódnak”
jó megoldás ha
– nagyon sok,
– egyenlően fontos jellemzőnk van
Példa
P()
kor
hitelkeret
havi bev.
elhagy
<21
nincs
< 50K
igen
21-50
van
50K-200K
igen
50<
van
50K-200K
nem
21-50
van
200K<
nem
50<
nincs
200K<
?
P(kor>50|  =igen) = (0+mp) / 2+m
P(nincs|  =igen) P(200K<|  =igen)
Generatív vs. Diszkriminatív
osztályozók
• Generatív:
• Egy rejtett állapota a rendszernek
generálja a megfigyeléseinket
• Likelihood P(x | j ) és apriori P(j )
becslése

x1
x2
• Diszkriminatív:
• Cél az egyes osztályok elkülönítése
• Közvetlenül az a posteriori P(j | x)
valószínűségek becslése

x1
x2
x3
x3
Logisztikus Regresszió
(Maximum Entrópia Osztályozó)
Két osztály esetén:
1
P(1 | x ) 
d
 wi xi  w0
1  e i 1
d
g ( x )   wi xi  w0
i 1
válasszuk1 - et, ha g(x)  0 és 2 - t, ha g(x)  0
Nem paraméteres
osztályozások
16
Nem paraméteres eljárások
Nem paraméteres eljárások
alkalmazhatók tetszőleges eloszlásnál,
anélkül, hogy bármit feltételeznénk a
sűrűségfgvek alakjáról
Likelihood P(x | j ) becslése vagy közvetlenül
az a posteriori P(j | x) valószínűségek
becslése
Sűrűség becslése
17
– Legye p(x) a becsülni kívánt sűrűségfüggvény
– Annak valószínűsége, hogy egy pont az R-be esik:
– Ha n elemű mintánk van, akkor az R–be eső pontok számának
várható értéke k
E(k) = nP
Pattern Classification, Chapter 2 (Part 1)
Sűrűség becslése
18
Maximum likelihood becsléssel: k
P
n
p(x) folytonos, és ha R elég kicsi, akkor p
nem változik lényegesen R-en:
k /n
p( x ) 
V
Ahol x R –beli pont, és V az R térfogata.
Iteratív becslési folyamat
19
• A V-nek mindenképpen nullához kell tartania,
ha ezt a becslést használni akarjuk
a pontszerű x-hez tartozó p(x)-re
• V a gyakorlatban nem lehet nagyon kicsi,
mert a minták száma korlátozott
• A k/n hányadosoknál el kell fogadni egy kis
bizonytalanságot…
Sűrűség becslés
aszimptotikus tulajdonságai
Három szükséges feltétele van, hogy
pn ( x )  p( x )
1 ) lim Vn  0
n
2 ) lim k n  
n
3 ) lim k n / n  0
n
n
20
21
Parzen ablakok
• fix méretű és alakú R régiókkal
dolgozunk
• V állandó
• p(x)-et egy kérdéses x pontban
az R-be eső pontok száma
alapján becsüljük
(azaz leszámoljuk k-t)
k /n
p( x ) 
V
23
Parzen ablakok - hiperkocka
R egy d-dimenziós hiperkocka
V  h d ( h :  élhossza)
Legyen (u) a következő ablakfüggvény :
1

j  1,..., d
1 u j 
 (u)  
2
0 különben
( (x-xi)/hn ) akkor 1, ha xi az x
középpontú V hiperkockába esik, 0
különben. (-t kernelnek nevezzük)
24
Parzen ablakok - hiperkocka
minták száma ebben a hiperkockában:
 x  xi 

k    
i 1
 hn 
i n
behelyettesítve:
1 i n 1  x  xi 
pn ( x )   
n i 1 V  h 
Általános eset
pn(x) úgy becsüli p(x)-et, mint az átlaga
valamilyen távolságnak az x pont és az (xi) (i
= 1,… ,n) minták közt
 tetszőleges fgv-e lehet két pont
távolságának
26
Parzen ablakok - példa
p(x) ~ N(0,1) esete
Legyen (u) = (1/(2) exp(-u2/2) és hn = h1/n (n>1)
1
1  x  xi 

pn ( x )    
n i 1 hn  hn 
i n
olyan normális sűrűségek átlaga, melyek
középpontjai xi-kben vannak.
27
28
29
Analóg eredmények kaphatók két dimenzióban is:
30
31
p(x) ?
32
p(x) = 1U(a,b) + 2T(c,d)
(egyenletes és háromszög eloszlás keveréke)
Osztályozás a Parzen
ablakok módszerével
• Minden osztálynál becsüljük a likelihood
sűrűségeket (aprioiri egyszerűen
közelítendő), aztán a maximális a
posteriori valószínűségnek megfelelően
osztályozunk
• A Parzen-ablakokhoz tartozó döntési
tartományok az ablak-függvény
választásától függenek
33
34
k legközelbbi szomszéd becslés
35
Az ismeretlen “legjobb” ablak
függvény problémájának megoldása:
• Legyen V a mintaelemek számának
függvénye
• Az x legyen középpontja egy cellának,
növeljük addig, amíg k mintát (k = f(n))
tartalmaz
• Az így kapott mintákat nevezzük az x k
legközelebbi szomszédjának
k/n
p( x ) 
V
36
© Ethem Alpaydin: Introduction to Machine Learning. 2nd edition (2010)
k legközelbbi szomszéd osztályozó
37
k nearest neighbour (knn)
P(i | x) közvetlen becslése n címkézett minta
segítségével
– Vegyünk egy cellát x körül ami k elemet tartalmaz
– Ha ki db minta (a k közül) tartozik i –hez:
pn(x, i) = ki /(nV)
pn ( x, i ) ki
pn (i | x ) 

pn ( x )
k
38
k legközelbbi szomszéd osztályozó
• Itt ki/k azon minták aránya, amelyek
címkéje i
• A minimális hibaarány eléréséhez a
cellában kiválasztjuk a leggyakrabban
reprezentált kategóriát (osztályt)
• Ha k nagy akkor a hatékonyság közelíti a
lehető legjobbat
39
Példa
kor
hitelkeret
havi bev.
elhagy
<21
nincs
< 50K
igen
21-50
van
50K-200K
igen
50<
van
50K-200K
nem
21-50
van
200K<
nem
50<
nincs
200K<
?
k=3
Távolság metrika = diszkrét érték egyezik
Nem paraméteres
osztályozók
• van paraméterük!
• Bayes osztályozóból vannak levezetve úgy
hogy a valószínűségi becslésekre nem
paraméteres eloszlásokat használnak
• Parzen-ablak osztályozó
– kernel és h ablakméret
– likelihood becslésére
• K-legközelebbi szomszéd osztályozó
– távolság metrika és k szomszédszám
– Posteriori becslésére
Távolság metrikák
érzékenysége
Összefoglalás
Bayes osztályozó megvalósítások a gyakorlatban
Likelihood becslése
(generatív)
Paraméteres
Nem paraméteres
Naive Bayes
Parzen ablak osztályozó
d
P( x |  j )   P( xi |  j )
i 1
Posteriori becslése
(diszkriminatív)
Logisztikus Regresszió
P(1 | x ) 
1
d
 wi xi  w0
1  e i 1
1 i n 1  x  xi 
pn ( x )   
n i 1 V  h 
k legközelebbi szomszéd
osztályozó
ki
pn (i | x ) 
k