Zpracování informací a znalostí Cíle a základní metody dobývání znalostí z databází Doc.
Download ReportTranscript Zpracování informací a znalostí Cíle a základní metody dobývání znalostí z databází Doc.
Slide 1
Zpracování informací a znalostí
Cíle a základní metody dobývání znalostí z databází
Doc. RNDr. Jan Rauch, CSc.
Katedra informačního a znalostního inženýrství
Slide 2
Dobývání znalostí z databází - Literatura
Jan Rauch: Systém LISp-Miner. Studijní materiál pro posluchače
kurzů Metod zpracování informací, 2005, viz soubor
LM_SKRPT.pdf
http://lispminer.vse.cz/
Petr Berka: Dobývání znalostí z databází ACADEMIA 2003, 366 stran
(pro zájemce o hlubší studium)
http://kdnuggets.com (pro zájemce o hlubší studium)
2
Slide 3
Dobývání znalostí z databází
Úvod
Úlohy a metody
Metodologie CRISP
Rozhodovací stromy
Asociační pravidla (viz též otázka 9)
Metoda GUHA (viz též otázka 9)
3
Slide 4
Úvod – příčiny vzniku DZD
Zjištění, že lze získat z uchovávaných dat více než proč byly ukládány
Potřeba předpovídat budoucí trendy a chování
Obavy ze ztráty konkurenceschopnosti
Snaha o získání konkurenčních výhod
…
4
Slide 5
Úvod – hlavní zdroje pro DZD
Statistika
• kontingenční tabulky
• regresní analýza
• diskriminační analýza
• shluková analýza
•…
DZD
Databáze
Strojové učení
• relační databáze
• datové sklady
• OLAP
•…
• rozhodovací stromy
• neuronové sítě
• ...
5
Slide 6
Úvod – současný stav
široce aplikováno
desítky firem nabízejí software a služby
výuka na vysokých školách
rozsáhlý výzkum
rozvoj nových směrů (text mining, relational data mining, complex
data mining, web mining, … )
integrace s jinými disciplinami (např. se znalostním inženýrstvím)
řada mezinárodních konferencí
http://kdnuggets.com
…
6
Slide 7
Dobývání znalostí z databází
Úvod
Úlohy a metody
Metodologie CRISP
Rozhodovací stromy
Asociační pravidla (viz též otázka 9)
Metoda GUHA (viz též otázka 9)
7
Slide 8
DZD – základní typy úloh
klasifikace / predikce
po
naučení na trénovací množině chceme zařazení
(ohodnocení) neznámých objektů
deskripce
chceme
získat popis vlastností množiny objektů jako
celku
hledání „nugetů“
chceme
zjistit zajímavosti, výjimky od normálu
8
Slide 9
DZD – příklady úloh
rozpoznání problémových nebo vysoce bonitních klientů banky
analýza klientů pojišťovny
analýza nákupních košíků
predikce spotřeby elektřiny (vody, plynu)
analýza poruchovosti automobilů
analýza dat o pacientech
analýza příčin změny mobilních operátorů
analýza chování zákazníků internetových obchodů (clickstreamy)
text mining
…
9
Slide 10
DZD – vybrané metody
Asociační pravidla (viz též otázka 9)
Klasifikace / predikce
Rozhodovací stromy
Rozhodovací pravidla
Neuronové sítě
Statistické metody
Kontingenční tabulky
Regresní analýza
Diskriminační analýza
Shluková analýza (viz též otázka 4)
…
GUHA (viz též otázka 9)
…
10
Slide 11
Dobývání znalostí z databází
Úvod
Úlohy a metody
Metodologie CRISP
Rozhodovací stromy
Asociační pravidla (viz též otázka 9)
Metoda GUHA (viz též otázka 9)
11
Slide 12
CRoss Industry Standard Process for Data Mining
http://www.crisp-dm.org/
CRISP-DM
P o ro zu m ě n í
p ro b le m a tice
P o ro zu m ě n í
d a tů m
T ra n sfo rm a ce
dat
V yu žití
výsle d k ů
DATA
A n a lytické
p ro ce d u ry
In te rp re ta ce
výsle d k ů
12
Slide 13
Dobývání znalostí z databází
Úvod
Úlohy a metody
Metodologie CRISP
Rozhodovací stromy
Příklad rozhodovacího stromu
Obecný algoritmus pro tvorbu rozhodovacích stromů
Asociační pravidla (viz též otázka 9)
Metoda GUHA (viz též otázka 9)
13
Slide 14
Příklad rozhodovacího stromu (1)
Dáno: známá data
Úloha:
• dán nový, neznámý klient
• půjčit nebo nepůjčit?
14
Slide 15
Příklad rozhodovacího stromu (2)
Způsob řešení
Daná (trénovací) data
Proces učení
Nový, neznámý klient
Vhodná forma
znalosti
úvěr:
ano/ne
15
Slide 16
Příklad rozhodovacího stromu (3)
Způsob řešení
Vhodná forma znalosti – rozhodovací strom:
Daná (trénovací) data
příjem
vysoký
nízký
ano
konto
nízké
vysoké
ano
střední
ne
nezaměstnaný
ano
ne
ne
ano
16
Slide 17
Příklad rozhodovacího stromu (4)
Nový klient
• příjem: nízký
• konto: střední
• nezaměstnaný: ne
Půjčit: ?
Aplikace rozhodovacího stromu: Ano!
17
Slide 18
Příklad rozhodovacího stromu (5)
Nový klient
• příjem: nízký
• konto: nízké
Půjčit: ?
Aplikace rozhodovacího stromu: Ne!
18
Slide 19
Obecný algoritmus pro tvorbu rozhodovacích stromů
Dáno:trénovací data
Výstup: rozhodovací strom
Algoritmus TDIDT
1.
Zvol jeden atribut jako kořen dílčího stromu
2.
Rozděl data v tomto uzlu na podmnožiny podle hodnot zvoleného atributu a přidej uzel
pro každou podmnožinu
3.
Existuje-li uzel, pro který nepatří všechna data do téže třídy, opakuj pro tento uzel
postup od bodu 1., jinak skonči
TDIDT = Top down induction of decision tree
metoda „rozděl a panuj“
využití teorie informace a pravděpodobnosti
19
Zpracování informací a znalostí
Cíle a základní metody dobývání znalostí z databází
Doc. RNDr. Jan Rauch, CSc.
Katedra informačního a znalostního inženýrství
Slide 2
Dobývání znalostí z databází - Literatura
Jan Rauch: Systém LISp-Miner. Studijní materiál pro posluchače
kurzů Metod zpracování informací, 2005, viz soubor
LM_SKRPT.pdf
http://lispminer.vse.cz/
Petr Berka: Dobývání znalostí z databází ACADEMIA 2003, 366 stran
(pro zájemce o hlubší studium)
http://kdnuggets.com (pro zájemce o hlubší studium)
2
Slide 3
Dobývání znalostí z databází
Úvod
Úlohy a metody
Metodologie CRISP
Rozhodovací stromy
Asociační pravidla (viz též otázka 9)
Metoda GUHA (viz též otázka 9)
3
Slide 4
Úvod – příčiny vzniku DZD
Zjištění, že lze získat z uchovávaných dat více než proč byly ukládány
Potřeba předpovídat budoucí trendy a chování
Obavy ze ztráty konkurenceschopnosti
Snaha o získání konkurenčních výhod
…
4
Slide 5
Úvod – hlavní zdroje pro DZD
Statistika
• kontingenční tabulky
• regresní analýza
• diskriminační analýza
• shluková analýza
•…
DZD
Databáze
Strojové učení
• relační databáze
• datové sklady
• OLAP
•…
• rozhodovací stromy
• neuronové sítě
• ...
5
Slide 6
Úvod – současný stav
široce aplikováno
desítky firem nabízejí software a služby
výuka na vysokých školách
rozsáhlý výzkum
rozvoj nových směrů (text mining, relational data mining, complex
data mining, web mining, … )
integrace s jinými disciplinami (např. se znalostním inženýrstvím)
řada mezinárodních konferencí
http://kdnuggets.com
…
6
Slide 7
Dobývání znalostí z databází
Úvod
Úlohy a metody
Metodologie CRISP
Rozhodovací stromy
Asociační pravidla (viz též otázka 9)
Metoda GUHA (viz též otázka 9)
7
Slide 8
DZD – základní typy úloh
klasifikace / predikce
po
naučení na trénovací množině chceme zařazení
(ohodnocení) neznámých objektů
deskripce
chceme
získat popis vlastností množiny objektů jako
celku
hledání „nugetů“
chceme
zjistit zajímavosti, výjimky od normálu
8
Slide 9
DZD – příklady úloh
rozpoznání problémových nebo vysoce bonitních klientů banky
analýza klientů pojišťovny
analýza nákupních košíků
predikce spotřeby elektřiny (vody, plynu)
analýza poruchovosti automobilů
analýza dat o pacientech
analýza příčin změny mobilních operátorů
analýza chování zákazníků internetových obchodů (clickstreamy)
text mining
…
9
Slide 10
DZD – vybrané metody
Asociační pravidla (viz též otázka 9)
Klasifikace / predikce
Rozhodovací stromy
Rozhodovací pravidla
Neuronové sítě
Statistické metody
Kontingenční tabulky
Regresní analýza
Diskriminační analýza
Shluková analýza (viz též otázka 4)
…
GUHA (viz též otázka 9)
…
10
Slide 11
Dobývání znalostí z databází
Úvod
Úlohy a metody
Metodologie CRISP
Rozhodovací stromy
Asociační pravidla (viz též otázka 9)
Metoda GUHA (viz též otázka 9)
11
Slide 12
CRoss Industry Standard Process for Data Mining
http://www.crisp-dm.org/
CRISP-DM
P o ro zu m ě n í
p ro b le m a tice
P o ro zu m ě n í
d a tů m
T ra n sfo rm a ce
dat
V yu žití
výsle d k ů
DATA
A n a lytické
p ro ce d u ry
In te rp re ta ce
výsle d k ů
12
Slide 13
Dobývání znalostí z databází
Úvod
Úlohy a metody
Metodologie CRISP
Rozhodovací stromy
Příklad rozhodovacího stromu
Obecný algoritmus pro tvorbu rozhodovacích stromů
Asociační pravidla (viz též otázka 9)
Metoda GUHA (viz též otázka 9)
13
Slide 14
Příklad rozhodovacího stromu (1)
Dáno: známá data
Úloha:
• dán nový, neznámý klient
• půjčit nebo nepůjčit?
14
Slide 15
Příklad rozhodovacího stromu (2)
Způsob řešení
Daná (trénovací) data
Proces učení
Nový, neznámý klient
Vhodná forma
znalosti
úvěr:
ano/ne
15
Slide 16
Příklad rozhodovacího stromu (3)
Způsob řešení
Vhodná forma znalosti – rozhodovací strom:
Daná (trénovací) data
příjem
vysoký
nízký
ano
konto
nízké
vysoké
ano
střední
ne
nezaměstnaný
ano
ne
ne
ano
16
Slide 17
Příklad rozhodovacího stromu (4)
Nový klient
• příjem: nízký
• konto: střední
• nezaměstnaný: ne
Půjčit: ?
Aplikace rozhodovacího stromu: Ano!
17
Slide 18
Příklad rozhodovacího stromu (5)
Nový klient
• příjem: nízký
• konto: nízké
Půjčit: ?
Aplikace rozhodovacího stromu: Ne!
18
Slide 19
Obecný algoritmus pro tvorbu rozhodovacích stromů
Dáno:trénovací data
Výstup: rozhodovací strom
Algoritmus TDIDT
1.
Zvol jeden atribut jako kořen dílčího stromu
2.
Rozděl data v tomto uzlu na podmnožiny podle hodnot zvoleného atributu a přidej uzel
pro každou podmnožinu
3.
Existuje-li uzel, pro který nepatří všechna data do téže třídy, opakuj pro tento uzel
postup od bodu 1., jinak skonči
TDIDT = Top down induction of decision tree
metoda „rozděl a panuj“
využití teorie informace a pravděpodobnosti
19