Transcript P( i | x)
3(+1) osztályozó a Bayes világból febr. 27. Előző előadás • Bayes döntéselmélet • Bayes osztályozó P(j | x) = P(x | j ) · P (j ) / P(x) • Ha feltesszük, hogy a posterior ismert normális eloszlást követ • Paraméterbecslési módszerek ha paraméteres eloszlást feltételezünk és tanító adatbázis rendelkezésre áll Példa adatbázis kor hitelkeret havi bev. elhagy? <21 nincs < 50K igen 21-50 van 50K-200K igen 50< van 50K-200K nem 21-50 van 200K< nem 50< nincs 200K< ? Naϊve Bayes osztályozó Naϊve Bayes osztályozó Bayes osztályozó ahol feltesszük, hogy a jellemzők egymástól feltételesen függetlenek egy adott osztály mellett d P( x | j ) P( xi | j ) i 1 Legyen két osztály, valamint x = [x1, x2, …, xd ]t ahol minden xi bináris, az alábbi valószínűségekkel: pi = P(xi = 1 | 1) qi = P(xi = 1 | 2) Diszkriminancia-függvény (modell): d g ( x ) wi xi w0 i 1 ahol: pi (1 qi ) wi ln qi (1 pi ) i 1,...,d és : 1 pi P(1 ) w0 ln ln 1 qi P(2 ) i 1 d válasszuk1 - et, ha g(x) 0 és 2 - t, ha g(x) 0 Naive Bayes tanítása - MLE • pi = P(xi = 1 | 1 ) és qi = P(xi = 1 | 2 ) becslése N darab tanító példából • tfh. p és q binomiális eloszlást követ (visszatevéses mintavétel modellezése) • Maximum-likelihood módszerrel: pi MLE N xi 1 N Naive Bayes tanítása – Bayes becslés tfh. a becslési prior Beta eloszlásból jön X ~ Beta(a,b) E [X]=1/(1+b/a) Naive Bayes tanítása – Bayes becslés • az eredeti pi likelihood binomiális eloszlást követ • a becslésre egy Beta(a,b)-t használunk … a Bayes becslés 2 lépése … pi BE ab N EBeta (a, b) MLE ab N ab N Naive Bayes tanítása – Bayes becslés (m-becslés) • Ugyanez átjelöléssel: (így egyszerűbb a gyakorlatban) m ab p EBeta (a, b) – – – – 1 b 1 a m N N xi 1 pi BE p mN mN N N xi 1 m p N m 0 likelihood/posteriori elkerülése m és p konstansok (paraméterek) p a priori becslés pi-re m az „ekvivalens mintaszám” Naϊve Bayes osztályozó a gyakorlatban • • • • • nem is olyan naív nagyon gyors, párhuzamosítható kis memóriaigény irreleváns jellemzők „kiátlagolódnak” jó megoldás ha – nagyon sok, – egyenlően fontos jellemzőnk van Példa P() kor hitelkeret havi bev. elhagy <21 nincs < 50K igen 21-50 van 50K-200K igen 50< van 50K-200K nem 21-50 van 200K< nem 50< nincs 200K< ? P(kor>50| =igen) = (0+mp) / 2+m P(nincs| =igen) P(200K<| =igen) Generatív vs. Diszkriminatív osztályozók • Generatív: • Egy rejtett állapota a rendszernek generálja a megfigyeléseinket • Likelihood P(x | j ) és apriori P(j ) becslése x1 x2 • Diszkriminatív: • Cél az egyes osztályok elkülönítése • Közvetlenül az a posteriori P(j | x) valószínűségek becslése x1 x2 x3 x3 Logisztikus Regresszió (Maximum Entrópia Osztályozó) Két osztály esetén: 1 P(1 | x ) d wi xi w0 1 e i 1 d g ( x ) wi xi w0 i 1 válasszuk1 - et, ha g(x) 0 és 2 - t, ha g(x) 0 Nem paraméteres osztályozások 16 Nem paraméteres eljárások Nem paraméteres eljárások alkalmazhatók tetszőleges eloszlásnál, anélkül, hogy bármit feltételeznénk a sűrűségfgvek alakjáról Likelihood P(x | j ) becslése vagy közvetlenül az a posteriori P(j | x) valószínűségek becslése Sűrűség becslése 17 – Legye p(x) a becsülni kívánt sűrűségfüggvény – Annak valószínűsége, hogy egy pont az R-be esik: – Ha n elemű mintánk van, akkor az R–be eső pontok számának várható értéke k E(k) = nP Pattern Classification, Chapter 2 (Part 1) Sűrűség becslése 18 Maximum likelihood becsléssel: k P n p(x) folytonos, és ha R elég kicsi, akkor p nem változik lényegesen R-en: k /n p( x ) V Ahol x R –beli pont, és V az R térfogata. Iteratív becslési folyamat 19 • A V-nek mindenképpen nullához kell tartania, ha ezt a becslést használni akarjuk a pontszerű x-hez tartozó p(x)-re • V a gyakorlatban nem lehet nagyon kicsi, mert a minták száma korlátozott • A k/n hányadosoknál el kell fogadni egy kis bizonytalanságot… Sűrűség becslés aszimptotikus tulajdonságai Három szükséges feltétele van, hogy pn ( x ) p( x ) 1 ) lim Vn 0 n 2 ) lim k n n 3 ) lim k n / n 0 n n 20 21 Parzen ablakok • fix méretű és alakú R régiókkal dolgozunk • V állandó • p(x)-et egy kérdéses x pontban az R-be eső pontok száma alapján becsüljük (azaz leszámoljuk k-t) k /n p( x ) V 23 Parzen ablakok - hiperkocka R egy d-dimenziós hiperkocka V h d ( h : élhossza) Legyen (u) a következő ablakfüggvény : 1 j 1,..., d 1 u j (u) 2 0 különben ( (x-xi)/hn ) akkor 1, ha xi az x középpontú V hiperkockába esik, 0 különben. (-t kernelnek nevezzük) 24 Parzen ablakok - hiperkocka minták száma ebben a hiperkockában: x xi k i 1 hn i n behelyettesítve: 1 i n 1 x xi pn ( x ) n i 1 V h Általános eset pn(x) úgy becsüli p(x)-et, mint az átlaga valamilyen távolságnak az x pont és az (xi) (i = 1,… ,n) minták közt tetszőleges fgv-e lehet két pont távolságának 26 Parzen ablakok - példa p(x) ~ N(0,1) esete Legyen (u) = (1/(2) exp(-u2/2) és hn = h1/n (n>1) 1 1 x xi pn ( x ) n i 1 hn hn i n olyan normális sűrűségek átlaga, melyek középpontjai xi-kben vannak. 27 28 29 Analóg eredmények kaphatók két dimenzióban is: 30 31 p(x) ? 32 p(x) = 1U(a,b) + 2T(c,d) (egyenletes és háromszög eloszlás keveréke) Osztályozás a Parzen ablakok módszerével • Minden osztálynál becsüljük a likelihood sűrűségeket (aprioiri egyszerűen közelítendő), aztán a maximális a posteriori valószínűségnek megfelelően osztályozunk • A Parzen-ablakokhoz tartozó döntési tartományok az ablak-függvény választásától függenek 33 34 k legközelbbi szomszéd becslés 35 Az ismeretlen “legjobb” ablak függvény problémájának megoldása: • Legyen V a mintaelemek számának függvénye • Az x legyen középpontja egy cellának, növeljük addig, amíg k mintát (k = f(n)) tartalmaz • Az így kapott mintákat nevezzük az x k legközelebbi szomszédjának k/n p( x ) V 36 © Ethem Alpaydin: Introduction to Machine Learning. 2nd edition (2010) k legközelbbi szomszéd osztályozó 37 k nearest neighbour (knn) P(i | x) közvetlen becslése n címkézett minta segítségével – Vegyünk egy cellát x körül ami k elemet tartalmaz – Ha ki db minta (a k közül) tartozik i –hez: pn(x, i) = ki /(nV) pn ( x, i ) ki pn (i | x ) pn ( x ) k 38 k legközelbbi szomszéd osztályozó • Itt ki/k azon minták aránya, amelyek címkéje i • A minimális hibaarány eléréséhez a cellában kiválasztjuk a leggyakrabban reprezentált kategóriát (osztályt) • Ha k nagy akkor a hatékonyság közelíti a lehető legjobbat 39 Példa kor hitelkeret havi bev. elhagy <21 nincs < 50K igen 21-50 van 50K-200K igen 50< van 50K-200K nem 21-50 van 200K< nem 50< nincs 200K< ? k=3 Távolság metrika = diszkrét érték egyezik Nem paraméteres osztályozók • van paraméterük! • Bayes osztályozóból vannak levezetve úgy hogy a valószínűségi becslésekre nem paraméteres eloszlásokat használnak • Parzen-ablak osztályozó – kernel és h ablakméret – likelihood becslésére • K-legközelebbi szomszéd osztályozó – távolság metrika és k szomszédszám – Posteriori becslésére Távolság metrikák érzékenysége Összefoglalás Bayes osztályozó megvalósítások a gyakorlatban Likelihood becslése (generatív) Paraméteres Nem paraméteres Naive Bayes Parzen ablak osztályozó d P( x | j ) P( xi | j ) i 1 Posteriori becslése (diszkriminatív) Logisztikus Regresszió P(1 | x ) 1 d wi xi w0 1 e i 1 1 i n 1 x xi pn ( x ) n i 1 V h k legközelebbi szomszéd osztályozó ki pn (i | x ) k