Zpracování informací a znalostí Cíle a základní metody dobývání znalostí z databází Doc.

Download Report

Transcript Zpracování informací a znalostí Cíle a základní metody dobývání znalostí z databází Doc.

Slide 1

Zpracování informací a znalostí
Cíle a základní metody dobývání znalostí z databází

Doc. RNDr. Jan Rauch, CSc.
Katedra informačního a znalostního inženýrství


Slide 2

Dobývání znalostí z databází - Literatura
Jan Rauch: Systém LISp-Miner. Studijní materiál pro posluchače
kurzů Metod zpracování informací, 2005, viz soubor
LM_SKRPT.pdf

http://lispminer.vse.cz/
Petr Berka: Dobývání znalostí z databází ACADEMIA 2003, 366 stran
(pro zájemce o hlubší studium)
http://kdnuggets.com (pro zájemce o hlubší studium)

2


Slide 3

Dobývání znalostí z databází


Úvod



Úlohy a metody



Metodologie CRISP



Rozhodovací stromy



Asociační pravidla (viz též otázka 9)



Metoda GUHA (viz též otázka 9)

3


Slide 4

Úvod – příčiny vzniku DZD







Zjištění, že lze získat z uchovávaných dat více než proč byly ukládány
Potřeba předpovídat budoucí trendy a chování
Obavy ze ztráty konkurenceschopnosti
Snaha o získání konkurenčních výhod

4


Slide 5

Úvod – hlavní zdroje pro DZD
Statistika

• kontingenční tabulky
• regresní analýza
• diskriminační analýza
• shluková analýza
•…

DZD

Databáze

Strojové učení

• relační databáze
• datové sklady
• OLAP
•…

• rozhodovací stromy
• neuronové sítě
• ...
5


Slide 6

Úvod – současný stav


široce aplikováno



desítky firem nabízejí software a služby



výuka na vysokých školách



rozsáhlý výzkum



rozvoj nových směrů (text mining, relational data mining, complex
data mining, web mining, … )



integrace s jinými disciplinami (např. se znalostním inženýrstvím)



řada mezinárodních konferencí



http://kdnuggets.com




6


Slide 7

Dobývání znalostí z databází


Úvod



Úlohy a metody



Metodologie CRISP



Rozhodovací stromy



Asociační pravidla (viz též otázka 9)



Metoda GUHA (viz též otázka 9)

7


Slide 8

DZD – základní typy úloh


klasifikace / predikce
 po

naučení na trénovací množině chceme zařazení
(ohodnocení) neznámých objektů



deskripce
 chceme

získat popis vlastností množiny objektů jako

celku


hledání „nugetů“
 chceme

zjistit zajímavosti, výjimky od normálu

8


Slide 9

DZD – příklady úloh


rozpoznání problémových nebo vysoce bonitních klientů banky



analýza klientů pojišťovny



analýza nákupních košíků



predikce spotřeby elektřiny (vody, plynu)



analýza poruchovosti automobilů



analýza dat o pacientech



analýza příčin změny mobilních operátorů



analýza chování zákazníků internetových obchodů (clickstreamy)



text mining





9


Slide 10

DZD – vybrané metody




Asociační pravidla (viz též otázka 9)
Klasifikace / predikce


Rozhodovací stromy
 Rozhodovací pravidla
 Neuronové sítě


Statistické metody









Kontingenční tabulky
Regresní analýza
Diskriminační analýza
Shluková analýza (viz též otázka 4)


GUHA (viz též otázka 9)

10


Slide 11

Dobývání znalostí z databází


Úvod



Úlohy a metody



Metodologie CRISP



Rozhodovací stromy



Asociační pravidla (viz též otázka 9)



Metoda GUHA (viz též otázka 9)

11


Slide 12

CRoss Industry Standard Process for Data Mining
http://www.crisp-dm.org/

CRISP-DM
P o ro zu m ě n í
p ro b le m a tice

P o ro zu m ě n í
d a tů m

T ra n sfo rm a ce
dat
V yu žití
výsle d k ů

DATA
A n a lytické
p ro ce d u ry

In te rp re ta ce
výsle d k ů

12


Slide 13

Dobývání znalostí z databází


Úvod



Úlohy a metody



Metodologie CRISP



Rozhodovací stromy


Příklad rozhodovacího stromu



Obecný algoritmus pro tvorbu rozhodovacích stromů



Asociační pravidla (viz též otázka 9)



Metoda GUHA (viz též otázka 9)
13


Slide 14

Příklad rozhodovacího stromu (1)
Dáno: známá data

Úloha:
• dán nový, neznámý klient
• půjčit nebo nepůjčit?
14


Slide 15

Příklad rozhodovacího stromu (2)
Způsob řešení
Daná (trénovací) data

Proces učení

Nový, neznámý klient

Vhodná forma
znalosti

úvěr:

ano/ne
15


Slide 16

Příklad rozhodovacího stromu (3)
Způsob řešení

Vhodná forma znalosti – rozhodovací strom:

Daná (trénovací) data

příjem
vysoký

nízký

ano

konto

nízké

vysoké
ano

střední

ne

nezaměstnaný
ano
ne

ne
ano

16


Slide 17

Příklad rozhodovacího stromu (4)
Nový klient
• příjem: nízký
• konto: střední
• nezaměstnaný: ne

Půjčit: ?

Aplikace rozhodovacího stromu: Ano!

17


Slide 18

Příklad rozhodovacího stromu (5)
Nový klient
• příjem: nízký
• konto: nízké
Půjčit: ?

Aplikace rozhodovacího stromu: Ne!

18


Slide 19

Obecný algoritmus pro tvorbu rozhodovacích stromů
Dáno:trénovací data

Výstup: rozhodovací strom

Algoritmus TDIDT
1.

Zvol jeden atribut jako kořen dílčího stromu

2.

Rozděl data v tomto uzlu na podmnožiny podle hodnot zvoleného atributu a přidej uzel
pro každou podmnožinu

3.

Existuje-li uzel, pro který nepatří všechna data do téže třídy, opakuj pro tento uzel
postup od bodu 1., jinak skonči



TDIDT = Top down induction of decision tree



metoda „rozděl a panuj“



využití teorie informace a pravděpodobnosti

19