Strojové učenie - People(dot)tuke(dot)sk

Download Report

Transcript Strojové učenie - People(dot)tuke(dot)sk

Strojové učenie
Jožo Kováč
7SEGMENTS s.r.o.
[email protected]
Agenda
• Úplné základy strojového učenia
• Predtým ako sa pustíme do učenia ...
• Rozhodovacie stromy – CART, CHAID
• Boosting, Bagging, AdaBoost, Random Forrests
• Iné aplikácie strojového učenia
• Hodnotenie zručnosti v hrách
• ELO / True Skill / Multiplayer Matchmaking Rating
• Product Recommendation systémy
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Základy strojového učenia
Algoritmy strojového učenia:
• Učenie s učiteľom (supervised)
• Učenie bez učiteľa (unsupervised)
A taktiež:
• Učenie odmenou a trestom (Reinforcement learning)
• Recommendation systémy
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Učenie s učiteľom
• Klasifikácia
• Zadeľovanie objektov do dvoch (binárna) alebo viacerých
tried
• Kúpi si Jano paušál v Orange?
• {áno, nie}
• Ktorý z troch paušálov si Jano kúpi?
• {X, Y, Z, ..}
• Regresia
• Predikcia celočíselnej hodnoty
• Koľko Jano zaplatí za svoj paušál budúci rok? ( € )
• Koľko paušálov predá Orange budúci rok? ( # )
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Príklad: Ceny nehnuteľností
Plocha
domu
(feets^2)
2104
1416
1534
852
…
Počet izieb
Počet
poschodí
Predá sa do
30 dní?
Predajná
cena
(tisíce $)
5
3
3
2
…
1
2
2
1
…
Yes
No
No
Yes
…
460
232
315
178
…
Predajná cena = b0 + b1 . Plocha + b2 * Izby + b3 * Poschodia
Úloha A – určiť b0 až b3 tak, aby rovnica sedela na dáta
Úloha B – vybrať minimálny set atribútov, ktoré postačujú pre
kvalitnú predikciu ( nepoužiť všetky )
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Predtým ako sa pustíme do učenia ...
... stanovíme pravidla hry
• Vyhráva najpresnejší algoritmus. Ako merať presnosť?
A: “ algoritmus má úspešnosť 80% “
B: “ algoritmus je o 400% lepší ako náhodný výber ”
C: “ algoritmus dokonale zachytáva všetky pozitívne prípady ”
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Predtým ako sa pustíme do učenia ...
... stanovíme pravidla hry
Letisko v Iraku: 10 z 10 000 pasažierov sú teroristi.
A: “ algoritmus má úspešnosť 80% “
Lenže pravidlo: nikto nie je terorista má 99,9%.
B: “ algoritmus je o 400% lepší ako náhodný výber ”
Náhodne je zo 1000 zadržaných 1 terorista. Takto 4 z 1000. Stačí?
C: “ algoritmus dokonale zachytáva všetky pozitívne prípady ”
To aj pravidlo: každý je terorista? Nezavrieme radšej letisko?
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Ešte k očakávaniam
Študentovo očakávanie
Tvrdá realita
x2
x1
Strojové učenie pomáha riešiť ťažké problémy, riešenie
nebýva dokonalé, len je lepšie ako existujúce prístupy.
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Vyhodnocovanie kvality modelov
• Regresia
• korelačný koeficient R^2
• Vyjadruje ako dobre sedí funkcia na dát, t.j. akú kvalitnú
predikciu môžeme očakávať
• chybová funkcia RSME (root square mean error)
• Klasifikácia
• Zle: Úspešnosť = správne / (správne + nesprávne) [%]
• Lepšie: Presnosť a návratnosť
Presnosť =
Presnosť
1
0.5
true positives
no. of predicted positive
Návratnosť =
true positives
0.5
no. of actual positive
Návratnosť
1
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Ďalšie kritéria úspešnosti
• Úspešnosť, presnosť, návratnosť
• Lift
• GINI index
• Kolmogorov-Smirnov štatistika
• Informačný zisk
• Chybová funkcia (RMSE, ...)
Prezradí viac
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Vyhodnotenie kvality klasifikácie
true positives
Presnosť =
no. of predicted positive
true positives
Chi kvadrát= Očakávané vs. Skutočné
Chi test – je skutočnosť odlišná od očakávania?
Návratnosť =
no. of actual positive
F1 score =
Čím je skutočnosť odlišnejšia, tým lepší model.
p – pravdepodobnosť, že skutočnosť je odlišná od očakávania
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Tvorba modelov
• Štatisticky prístup
• Majme funkciu (predpokladaný “tvar” dát) a poďme nájsť,
ako dobre sa dá napasovať na naše dáta
• Lineárna regresia, polynomiálna, logistická ....
“TESTOVANIE HYPOTÉZ”
• Data-miningový prístup
• Nemáme žiadne predpoklady o tvare dát a učíme sa
čisto z pozorovaní
• Rozhodovacie stromy, neurónové siete, ...
“IDE O VÝSLEDKY, NIE O MODEL”
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Logistická regresia
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Logistická regresia ... je tiež jednoduchá
Šanca = P (true) / P (false)
samozrejme : P (false) = 1 - P(true)
… pridajme logaritmus …
… ten ma lineárny vzťah k prediktorom ...
... odstránime logaritmus e^...
... vyjadríme pravdepodobnosť ...
... a máme výsledok:
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
CART – Classification And Regression Tress
• Neparametrická metóda, samovalidačný (train/validation/test)
• Automatický výber prediktorov, kritérium GINI
• Binárny split
• Strom rastie do hĺbky
• Výsledky sú invariantné lineárnym transformáciám atribútov
napr. x’=Log(x); nie je citlivý na extrémne hodnoty
• Samoorezávanie (minimálna chyba na validačnej množine)
• Nevýhody
• Nestabilný, malá zmena v dátach – celkom iný strom
• Rozdeľuje iba cez jeden atribút, oproti stromom, ktoré dokážu
rozdeľovať cez kombináciu napr. (b0 + b1 X + b2 Y)
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
CHi-squared Automatic Interaction Detection
• Rozdeľovacím kritérium:
• ChiSquare pri klasifikácií
• F-test pri regresii
• Väčšina vlastností podobná s CART
• Numerické atribúty diskretizuje do N (napr. 10) binov
• Spája diskrétne hodnoty, ak sa spojením nestratí sila
• Vytvára viac-cestné splity (vs. binárne)
• Strom rastie do šírky, jednoduchšie na interpetáciu
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Random Forests
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Cesta za najlepším algoritmom
• Bagging
• Bootstrap aggregating – vytváranie nových prediktorov
výberom s opakovaním
• Boosting
• Adaboost – v tom čase najlepší, ale konverguje? Nie
vždy
• Prvý model na celej populácií, potom upravuje váhy a trénuje
ďalšie
• RandomForest – Bagging + náhodný výber prediktorov
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Random Forests
Parametre:
- M je celkový počet premenných v trénovacej množine
- N je celkový počet prípadov v trénovacej množine
1. Náhodne sa vyberie m premenných z M; m=odmocnina(M)
2. Príklady do trénovacej množiny sa vyberú n-násobným
výberom s opakovaním z N (bootstraping). Na zvyšnej 1/3
prípadov sa otestuje chyba stromu.
3. Nechá sa narásť celý rozhodovací strom (neorezávať)
Pri hodnotení nového príkladu sa vypočíta výsledok každého
stromu a rozhodne sa hlasovaním jednotlivých stromov.
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Random Forests
• Jeden z najpresnejších algoritmov v súčasnosti
• Dá sa použiť na veľmi veľké datasety
• Nepotrebujú testovaciu množinu ani krížovú validáciu,
samé pri učení vypočítavajú odhad skutočnej chyby
• Nie je to black-box; významnosť atribútov sa vypočítava
permutáciou hodnôt atribútu a otestovaním, ako veľmi sa
zmenili výsledky
• Náhrada chýbajúcich hodnôt: medián triedy, modus triedy
• Nevýhodou je na prvý pohľad zložitosť a niekedy aj
náchylnosť na preučenie
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Správa od p. Breimana
Ani najmúdrejší algoritmus nedokáže nahradiť ľudskú
inteligenciu a nerozumie dátam tak, ako im rozumie človek.
Berte výstupy náhodných stromov nie ako absolútnu pravdu,
ale ako inteligentný počítačom generovaný odhad, ktorý
môže napomôcť hlbšiemu porozumeniu.
[Leo Breiman]
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Nekontrolované učenie - Segmentácia
• K-Means;
• podla vzdialenosti
• Hierarchické zhlukovanie
• Dendogram
• Pravdepodobnostné zhlukovanie (EM)
• Použitie?
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Recommendation systémy
• Kolaboratívne filtrovanie
Netflix 1M$ cena za zlepšenie
odporúčania filmov (2008)
http://www.netflixprize.com/
Yahoo KDD cup – hodnotenie
hudby (2011)
http://kddcup.yahoo.com/
Radio.FM + Kaggle (2012)
http://labrosa.ee.columbia.edu/
millionsong/
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Algoritmy pre kolaboratívne filtrovanie
• vi,j= hlas používateľa i pre položku j
• Ii = položky ktoré používateľ i už ohodnotil
• Priemerné hodnotenie i je
• Odhadovaný hlas pre používateľa a je vážená suma
Rozdiel priemeru a
hodnotenia tejto
položky
priemerné hodnotenie používateľa a
normalizátor
váha n-podobných používateľov
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Ako vybrať “podobných” používateľov
• K-nearest neighbor
1 if i  neighbors(a)
w(a, i)  
else
0
• Pearson correlation coefficient
• Cosine distance (from IR)
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Player Skill Rating
• Systémy pre hodnotenie schopností hráčov / tímov
• Spravodlivo prideľujú body pri výhre / prehre
• aj pokiaľ ide o súboje Dávida s Goliášom
• Umožňujú
• robiť rebríčky (ladder boards)
• vytvárať vyrovnané zápasy pri zohľadnení zručností X hráčov
• predikovať šance na výhru
$10,000 prize to be awarded to the team that submits the most
accurate predictions; http://www.kaggle.com/c/chessratings2
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Triviálne systémy
• Výhra +X bodov , prehra –Y
• Viac zápasov, viac bodov, nevyjadruje priamo zručnosť
• Príklad: tenis WTA, ATP, hokejová liga
• Nevhodné pre balancovanie zápasov
• Otázna schopnosť predikovať víťaza
• (HC Košice prehrali s HK Nitra 2:3, Košice vyhrali ligu s 110
bodmi, Nitra je posledná s 52)
Week
Tourn
Change Played
Rank, Name & Nationality
Points
1 Djokovic, Novak (SRB)
12,670
0
19
2 Nadal, Rafael (ESP)
10,175
0
20
3 Federer, Roger (SUI)
9,350
0
20
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
ELO
• známy zo šachu, vhodný pre 1 vs. 1
• o 200 bodov vyššie skóre dosiahne priemerne o 75% win-rate
(0.75 bodu v šachu, 0 prehra, 1 výhra, 0.5 remíza)
Očakávané skóre
hráča A – znova raz
logistická regresia
Nové body:
Ra – rating hráča A
Ea – očakávanie
Sa – výsledok
K – násobiteľ zmeny
•
5839 players had an active rating between 2200 and 2299, and are usually associated with the Candidate Master title.
•
2998 players had an active rating between 2300 and 2399, and are usually associated with the FIDE Master title.
•
1382 players had an active rating between 2400 and 2499, most of whom had either the International Master or
the International Grandmaster title.
•
587 players had an active rating between 2500 and 2599, most of whom had the International Grandmaster title
•
178 players had an active rating between 2600 and 2699, all but one of whom had the International Grandmaster title
•
42 players had an active rating between 2700 and 2799
•
4 active players had a rating over 2800: Magnus Carlsen, Viswanathan Anand, Vladimir Kramnik and Levon Aronian.
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
True Skill
• Microsoft Research, použitý v X-Box Live
u – priemerný skill hráča
sigma – stupeň istoty, že naozaj má
tento skill
Rýchlejšie sa dostanem na skutočný
skill a tam +- ostanem 
viac hier, vyššia istota, menšia sigma
http://research.microsoft.com/en-us/projects/trueskill/details.aspx
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
MMR – Multiplayer Matchmaking Rating
• Hra 10 hráčov v 2 teamoch, median skóre 1600, nováčik 1500
• Pred zápasom sa zráta šanca na výhru
• Čím horšie šance, tým viac bodov sa dá získať
• Autobalancing
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika
Ďakujem za pozornosť!
Ing. Jozef Kováč, KKUI TU Košice, odbor: Hospodárska informatika