DuomGavyba_5 - Šiaulių universitetas
Download
Report
Transcript DuomGavyba_5 - Šiaulių universitetas
DUOMENŲ GAVYBA
Paskaita 5. Klasifikavimas
Kęstutis Žilinskas
Šiaulių universitetas, 2013
Klasifikavimas
Klasifikavimas – paprasčiausias ir
populiariausias DG uždavinys.
Klasifikavimas – sisteminis
tyrinėjamų objektų išskirstymas
pagal tam tikrus požymius.
Klasifikavimas – pradinių sąvokų
grupavimas ir jų išdėstymas tam
tikra tvarka, nusakančia panašumo
laipsnį.
Klasifikavimas
Klasifikavimas – sutvarkyta pagal
tam tikrą principą aibė objektų,
turinčių panašius kvalifikacinius
požymius (vieną ar keletą savybių),
parinktus panašumo arba
skirtingumo tarp objektų
nustatymui.
Klasifikavimo taisyklės
Kiekviename skirstymo žingsnyje
turi būti taikoma tik viena savybė;
Skirstymas turi būti visuotinis,
bendras tūris lygus skirstinių tūriui;
Skirstymo nariai tarpusavyje
nesuderinami, skirstymų tūriai turi
nesikirsti;
Skirstymas turi būti nuoseklus.
Klasifikavimo rūšys
Pagalbinis (dirbtinis) klasifikavimas,
vykdomas pagal išorinį požymį,
leidžiantis suteikti objektų aibei tam
tikrą tvarką;
Natūralusis klasifikavimas,
vykdomas pagal esminius
požymius, apibūdinančius objektų
vidinį bendrumą.
Klasifikavimo rūšys
Paprastoji – skirstymas tik pagal
požymį ir tik vieną kartą visoms
objektų rūšims.
Dichotomija (A ir ne A).
Sudėtingoji – skirstymas pagal kelis
požymius ir šių paprastųjų
skirstymų sintezė.
Periodinė cheminių elementų lentelė.
Klasifikavimas
Klasifikavimas – objekto (įvykio,
reiškinio) priskyrimas vienai iš anksto
žinomai klasei.
Klasifikavimas – dėsningumas,
leidžiantis daryti išvadą apie
konkrečios grupės (klasės) požymius.
Klasifikavimas – tai strategija
„mokymas su mokytoju“ (supervised
learning), kontroliuojamas arba
valdomas mokymas.
Klasifikavimo uždavinys
Kategoriškai priklausomo kintamojo
numatymas, remiantis tolydinių
ir/arba kategorinių kintamųjų
parinkimu.
Galima numatyti, kas iš firmos klientų
yra potencialūs tam tikros prekės
pirkėjai, o kas – ne.
Turime binarinį klasifikavimą, kai
priklausomas kintamasis gali turėti tik
dvi reikšmes.
Klasifikavimas
Kitas klasifikavimo variantas –
priklausomas kintamasis gali turėti
reikšmes iš tam tikros iš anksto
nustatytų klasių aibės.
Reikia nustatyti, kokios markės
automobilį klientas nori pirkti.
Nagrinėjama priklausomojo kintamojo
klasių aibė.
Klasifikavimo rūšys
Vienmatis klasifikavimas (pagal
vieną požymį).
Daugiamatis klasifikavimas (pagal
du ar daugiau požymių).
Biologinių organizmų klasifikavimas, kai
organizmai skirstomi į porūšius
priklausomai nuo jų fizinių parametrų
matavimo rezultatų.
Pavyzdys
Tegul turime turistinės agentūros
klientų duomenų bazę.
Joje yra informacija apie klientų
amžių ir mėnesines pajamas.
Turima dviejų rūšių reklama:
brangesnis ir komfortiškesnis poilsis
(1) bei pigus jaunatviškas poilsis
(2).
Apibrėžtos dvi atitinkamos klientų
klasės.
Duomenų bazė
Lentelė 1. Turizmo agentūros klientai
Kliento
kodas
Amžius
Pajamos
Klasė
1
18
25
1
2
22
100
1
3
30
70
1
4
32
120
1
5
24
15
2
6
25
22
1
7
32
50
2
8
19
45
2
9
22
75
1
10
40
90
2
Užduotis
Nustatyti, kuriai klasei priklauso
naujas klientas ir kurios rūšies
reklamą jam verta siųsti.
Grafinis duomenų vaizdas
Oranžinė spalva – 1 klasė, pilka – 2.
Uždavinio tikslas – nustatyti, kuriai klasei
priklauso naujas klientas (balta spalva).
Klasifikavimo procesas
Klasifikavimo proceso tikslas –
sukurti modelį, kuris ima
prognozuojamus atributus kaip
įeinančiuosius parametrus ir gauna
priklausomo atributo reikšmę.
Klasifikavimo proceso esmė –
suskaidyti objektų aibę į klases
pagal tam tikrą kriterijų.
Klasifikatorius leidžia nustatyti
pagal objekto požymių vektorių
kuriai iš anksto apibrėžtai klasei
priklauso šis objektas.
Klasifikuojant matematiniais
metodais reikia turėti formalųjį
objekto aprašymą, kuriuo galima
operuoti panaudojant klasifikavimo
matematinį aparatą.
Mūsų atveju toks aprašas –
duomenų bazė.
Kiekvieno objekto (duomenų bazės
įrašo) kiekviename lauke –
informacija apie tam tikrą objekto
savybę.
Pradiniai duomenys (arba jų imtis)
skaidomi į apmokančiuosius ir
testinius.
Apmokančioji aibė
Apmokančioji aibė (training set) –
aibė, apimanti duomenis, kurių
pagalba apmokomas
(konstruojamas) modelis.
Aibę sudaro įeinantieji ir išeinantieji
(tikslo) parametrai.
Išeinantieji parametrai (jų
reikšmės) skirti modelio
apmokymui.
Testinė aibė
Testinė aibė (test set) – duomenys,
nepatekę į apmokamąją aibę.
Ją taip pat sudaro įeinantieji ir
išeinantieji parametrai.
Išeinančiųjų parametrų reikšmės
leidžia patikrinti modelio
veiksmingumą.
Klasifikavimo procesas
Klasifikavimo procesą sudaro du
etapai:
Modelio konstravimas;
Modelio panaudojimas.
Modelio konstravimas
- iš anksto apibrėžtų klasių
aprašymas:
Kiekvienas duomenų rinkinio pavyzdys
priskiriamas vienai iš klasių;
Šiame etape apmokančioje aibėje
konstruojamas modelis;
Gautas modelis pateikiamas
klasifikavimo taisyklėmis, sprendimų
medžiu arba matematine formule.
Modelio naudojimas
- naujų arba nežinomų reikšmių
klasifikavimas:
Modelio teisingumo (tikslumo)
įvertinimas.
Žinomos testinio pavyzdžio reikšmės
palyginamos su gauto modelio
panaudojimo rezultatais.
Tikslumo lygis – teisingai klasifikuotų
testinės aibės pavyzdžių procentas.
Testinė aibė negali priklausyti nuo
apmokamosios aibės.
Jei modelio tikslumas priimtinas,
modelį galima naudoti naujų
pavyzdžių, kurių klasė
nežinoma, klasifikavime.
Modelio konstravimas
Modelio panaudojimas
Klasifikavimo metodai
K. sprendimų medžiais.
Bajeso (naivusis) K.
K. dirbtiniais neuroniniais tinklais.
K. atraminiais vektoriais.
Tiesinė regresija.
K. artimiausio kaimyno metodu.
K. CBR-metodu.
K. genetiniais algoritmais.
Klasifikavimas tiesine regresija
Klasifikavimas sprendimu medžiu
if X > 5 then grey
else if Y > 3 then orange
else if X > 2 then grey
else orange
Klasifikavimas neuroniniu tinklu
Klasifikavimo tikslumas
Klasifikavimo tikslumo įvertinimas
galimas kryžminiu patikrinimu
(Cross-validation).
Tai kvalifikavimo patikrinimas
testinės aibės duomenimis.
Testinės aibės klasifikavimo tikslumas
palyginamas su apmokančiosios aibės
klasifikavimo tikslumu.
Jei abu tikslumai beveik lygūs,
modelis praėjo kryžminį patikrinimą.
Duomenų skaidymas į
apmokančiąją ir testinę aibes tam
tikra proporcija.
Pvz.: apmokančioji aibė 2/3 duomenų,
testinė – 1/3.
Jei imtis maža, galima taikyti
specialius metodus, leidžiančius
šioms aibėms dalinai kirstis.
Klasifikavimo metodų įvertinimas
Metodus galima įvertinti pagal šias
charakteristikas:
Greitis;
Robastiškumas;
Interpretuojamumas;
Apimtis.
Patikimumas.
Greitis
Laikas reikalingas modelio
sukūrimui bei jo panaudojimui.
Robastiškumas
Nepriklausomumas nuo kokių nors
pradinių prielaidų netikslumų.
Užtikrina galimybę dirbti su
duomenimis „su triukšmu“ bei
praleistomis duomenų reikšmėmis.
Interpretuojamumas
Įgalina analitiką suprasti gautą
modelį.
Apimtis
Sprendimų medžio dydis.
Klasifikavimo taisyklių
kompoktiškumas.
Patikimumas
Metodais veikia, jei duomenų
rinkinyje yra triukšmai ar
netikslumai.