DuomGavyba_1 - Šiaulių universitetas

Download Report

Transcript DuomGavyba_1 - Šiaulių universitetas

DUOMENŲ GAVYBA
Paskaita 1. Įvadas
(Duomenų gavybos tikslai, pritaikymai,
uždaviniai, sistemos, metodai)
Leonidas Sakalauskas
Kęstutis Žilinskas
Šiaulių universitetas, 2013
Kas yra duomenų gavyba?



Pastaruoju metu, kai verslas vis labiau
siekia efektyvumo ir pelno, kuriant
duomenų bazes vis dažniau taikomos
skaitmeninės informacijos apdorojimo
priemonės.
Kartu atsirado ir šio aktyvumo šalutinis
poveikis – kalnai surinktų duomenų.
Ir vis dažniau paaiškėja, kad šie kalnai
pilni aukso.
Kas yra duomenų gavyba?



Anksčiau kalnakasyboje aukso išgavimo
procesą sudarė žemės ploto parinkimas bei
daugkartinis žemės praplojimas arba sijojimas.
Kartais aukso ieškotojas rasdavo keletą
vertingų grynuolių arba aptikdavo aukso gyslą.
Tačiau dažniausiai jis visiškai nieko nerasdavo
ir persikeldavo į kitą „daug žadančią vietą“
arba aplamai mesdavo aukso paiešką,
nuspręsdamas, kad tai tiesiog laiko
švaistymas.
Kas yra duomenų gavyba?



Šiandien naudojami nauji mokslo
metodai bei specializuoti instrumentai,
kas pavertė kalnakasybą tikslesne ir
efektyvesne.
Duomenų gavyba atsirado panašiai.
Seni matematikų ir statistikų naudoti
metodai reikalaudavo daug laiko
sąnaudų, kol iš gausybės duomenų buvo
išgaunama konstruktyvi ir naudinga
informacija.
Kas yra duomenų gavyba?

Šiandien programinės produkcijos
rinkoje yra daugybė instrumentų,
naudojančių įvairiausius metodus,
kurie pavertė duomenų gavybą
pelninga veikla, vis dažniau
prieinama daugumai kompanijų (ar
net įmonių).
Kas yra duomenų gavyba?

Terminas duomenų gavyba (Data
Mining) kilo iš dviejų sąvokų:



vertingos informacijos paieška didelėje
duomenų (data) bazėje,
kalnų rūdos gavybos (mining).
Abu procesai reikalauja arba didelio
žaliavinės medžiagos „prasijojimo“,
arba ieškomų vertybių protingo
tyrimo ir paieškos.
Kas yra duomenų gavyba?

Terminas Data Mining turi keletą
vertimų:





duomenų gavyba,
informacijos išgavimas,
intelektuali duomenų analizė,
dėsningumų paieškos priemonė,
duomenų išgavyba,
Kas yra duomenų gavyba?





šablonų analizė,
žinių paieška duomenų bazėse,
duomenų informacinis apdorojimas,
duomenų praplovimas.
Terminas duomenų aptikimas
duomenų bazėse (Knowledge
Discovery in Databases) taip pat
laikytinas duomenų gavybos
sinonimu.
Kas yra duomenų gavyba?



Terminas Data Mining atsirado 1978 m. ir
tapo labai populiarus šiuolaikine prasme
nuo devyniasdešimtųjų metų pirmosios
pusės.
Anksčiau duomenų apdorojimu ir analize
rūpinosi taikomoji statistika, kuri nagrinėjo
iš esmės tik nedideles duomenų bazes.
Termino populiarumą patvirtina ir toks
faktas, kad Google paieškos sistema
terminui Data Mining pateikia daugiau nei
186 milijonus nuorodų.
Kas yra duomenų gavyba?

Duomenų gavyba – tarpdalykinė
sritis, iškilusi ir besivystanti keleto
mokslų bazėje:







Duomenų bazių teorija;
Statistika;
Dirbtinis intelektas;
Mašininis mokymas;
Algoritmų teorija;
Vizualicacija;
Vaizdų atpažinimas.
Statistika



Statistika – mokslas apie duomenų
surinkimo, jų apdorojimo ir analizės
metodus, siekiant išgauti nagrinėjamą
reiškinį apibūdinančius dėsningumus.
Šie metodai apima eksperimento
planavimą, duomenų surinkimą, jų tinkamą
pateikimą ir apibendrinimą bei analizę,
išvadų gavimą šių duomenų pagrindu.
Statistikos objektas – duomenys, gaunami
stebėjimuose arba eksperimentuose.
Mašininis mokymas




Vieningo mašininio mokymo termino kol
kas nėra.
Mašininis mokymas – naujų žinių gavimo
programoje procesas.
Mašininis mokymas – mokslas,
nagrinėjantis kompiuterinius algoritmus,
automatiškai gerinančius save darbo
metu.
Populiariausias mašininio mokymo
algoritmas šiuo metu yra neuroniniai
tinklai.
Dirbtinis intelektas



Dirbtinis intelektas – mokslo kryptis,
kurioje keliami aparatinio arba programinio
žmogaus intelektualinės veiklos
modeliavimo uždaviniai.
Terminas intelektas nusako protą, išmonę,
žmogaus mąstymo gebėjimus.
Dirbtinis intelektas (AI, Artificial
Intelligence) nusakomas, kaip automatinių
sistemų savybė atlikti atskiras žmogaus
intelekto funkcijas, kurios tradiciškai
būdingos tik žmogui.
Galima palyginti anksčiau
apibūdintas sritis

Statistika:
Daugiau nei duomenų gavyba remiasi
teorijomis;
 Labiau domisi hipotezių tikrinimu.


Mašininis mokymas:
Daugiau euristinis;
 Labiau domisi apmokymo agentų darbo
gerinimu.

Duomenų gavybos atsiradimo
prielaidos




Duomenų bazių aparatinio ir
programinio aprūpinimo
tobulėjimas;
Duomenų užrašymo ir saugojimo
technologijų tobulėjimas;
Didelio kiekio retrospektyvių
duomenų susikaupimas;
Informacijos apdorojimo algoritmų
tobulėjimas.

Duomenų gavyba:



Integruoja teoriją ir euristikas,
Domisi vieningu duomenų analizės
procesu (duomenų gryninimas,
mokymas, rezultatų integravimas ir
vizualizacija).
Duomenų gavyba tampriai susijusi su
duomenų bazių technologijomis ir
duomenų sąvoka.
Kas yra duomenų gavyba?

Duomenų gavyba – sprendimų
priėmimo procesas, pagrįstas
paslėptų dėsningumų (informacijos
šablonų) paieška duomenyse.
Kas yra duomenų gavyba?
Pateikiame "Gartner Group" apibrėžimą:
 Duomenų gavyba yra prasmingų
šablonų (patterns), dėsningumų,
modelių ir tendencijų radimo procesas
dideliuose informacijos kiekiuose,
pasinaudojant modelių atpažinimo,
statistiniais bei matematiniais metodais.
Kas yra duomenų gavyba?
Dažnai naudojamas toks DG apibrėžimas (G.
Piatecki-Shapiro).
Duomenų gavyba yra “žalių”, neapdorotų
duomenų (raw data) tyrinėjimo procesas
žinioms nustayti, kurios yra
 naujos, prieš tai nežinotos;
 netrivialios;
 praktiškai naudingos;
 interpretuotinos;
 būtinos sprendimams priimti pasirinktoje
veiklos srityje.


Neakivaizdžios (paslėptos) –
neaptinkamos standartiniais
informacijos apdorojimo metodais
arba ekspertiniu būdu.
Objektyvios – būtinai atitinkančios
tikrovę, skirtingai nuo ekspertų
išvadų, kurios visada subjektyvios.
Kas yra duomenų gavyba?



Duomenų gavyba – duomenų išskyrimo iš
neaiškios ir/arba nestruktūrizuotos informacijos
procesas bei jų pateikimas praktiniam pritaikymui
naudingu pavidalu.
Duomenų gavyba – didelių duomenų kiekių
išskyrimas, tyrimas ir modeliavimas, siekiant rasti
nežinomas struktūras (patterns), padedančias
turėti pranašumą versle.
Duomenų gavyba – procesas, kurio tikslas aptikti
didelio saugomų duomenų kiekio naujas ryškias
koreliacijas, šablonus ir tendencijas, naudojant
šablonų atpažinimo metodikas bei taikant
statistinius ir matematinius metodus.
Kas yra duomenų gavyba?


Duomenų gavybos technologijos
pagrindas šablonų koncepcija.
Šablonai – dėsningumai, būdingi
duomenų imtims, kurie gali būti
pateikti žmogui suprantama forma.
Dėsningumų paieškos tikslas –
duomenų pateikimas ieškomus
procesus atspindinčiu pavidalu bei
prognozavimo modelių kūrimas.
Kas yra duomenų gavyba?

„Mining“ reiškia „naudingų iškasenų
paieška“, o dėsningumų paieška
milžiniškuose duomenų bazių
duomenų kiekiuose tikrai analogiška
šiam procesui.
DG pritaikymai
Šiuolaikinė duomenų analizė pasižymi
tokia specifika:
 duomenų apimtis yra beveik neaprėžta;
 duomenys yra įvairialyčiai (kiekybiniai,
tekstiniai, video, audio, ...);
 tačiau analizės išvados turi būti
konkrečios ir aiškios;
 analizės priemonės turi būti paprastos
naudoti.
DG pritaikymai
DG taikymo sritys apima dvi kryptis:
 verslo
pritaikymai,
 unikalūs
tyrimai (bioinžinerija,
genetika, socialinės sistemos, ir
pan.).
Pritaikymai komercijoje




vartotojojo „krepšelio“ tyrimas (strategijai,
prekių planavimui ir pan.), skirtas paslaugų
derinių, kurias vartotojai linkę įsigyti kartu,
paieškai;
laiko nuoseklumų tyrimas padeda prekeiviams
priimti sprendimus apie atsargų kaupimą;
prognozavimas leidžia prekeiviams nustatyti
skirtingų vartotojų grupių poreikius
rinkos tyrimas DG metodais leidžia efektyviau
organizuoti reklamos kampanijas, kryžminius
pardavimus ir pan.
Bankai, kredito įstaigos




sukčiavimų nustatymas (tiriant įvykusių
sukčiavimų šablonus);
klientų klasifikavimas (tokiu būdu
marketingo politika tampa labiau tiksli ir
rezultatyvi);
klientų būklės prognozė (leidžia prognozuoti
klientų vertę);
pinigų plovimo prevencija.
Telekomunikacijos




iškvietimų analizė (skambučių analizė)
leidžia nustatyti klientų su panašiais
poreikiais kategorijas;
vartotojų lojalumo didinimas – klientų
nustatymas, kurie ir toliau naudosis
kompanijos paslaugomis;
nemokumo prognozavimas;
tinklo apkrovos tyrimas.
Duomenų gavyba pramonėje




produkcijos išeigos didinimas;
sunaudojamų išteklių mažinimas;
technologinių procesų gedimų aptikimas;
rinkos tyrimas.
Intelektinis interneto naršymas



tinklapių turinio tyrimas;
tinklo struktūros tyrimas;
naršymo šablonų tyrimas.
Draudimas


sukčiavimų analizė (tiriant įvykusių
sukčiavimų šablonus);
rizikos analizė (nustatant tam tikrus
panašumus tarp klientų grupių).
Nuotolinis mokymas






individualių mokymo stilių nustatymas ir
tyrimas
personalizuotas mokymas;
plagiato aptikimas;
mokymosi diagramų tyrimas;
mokymosi krepšelių tyrimas;
mokymosi tinklų apkrovos tyrimas
Kompiuterių tinklai
intruzijų tyrimas;
spamo tyrimas ir prevencija;
apkrovos tyrimas.
Medicina, genetika, bioinžinerija


šablonų ieškojimas tam tikrų susirgimų
srityje (vaistų pirkimų tyrimai,….);
genetiniai tyrimai.
Duomenų gavybos uždaviniai
Duomenų gavyba apima dvi plačias tyrimų
uždavinių kategorijas:

Priklausomybių tyrimo duomenų gavyba

Prognozuojanti duomenų gavyba
Priklausomybių tyrimas



grupavimas,
sąryšių (susietumų) tyrimas,
dažnių tyrimas.
Prognozuojanti duomenų gavyba



klasifikavimas
reikšmių prognozavimas
laiko nuoseklumų prognozavimas
DG uždaviniai
DG uždaviniui išspręsti taikomi keli metodai
iš eilės ar net sudėtingi jų deriniai.
Duomenų gavybos algoritmai pasižymi
įvairove.
Nė vienas jų nėra universalus ar
nepriekaištingas. Parenkant algorimus
atsižvelgiama į jų operacinį ir loginį
sudėtingumą, sunaudojamą tyrimui
kompiuterio laiką bei atmintį, tyrimo
išvadų patikimumą.
Duomenų gavybos metodai










Neuroniniai tinklai (tiesiaeigio sklidimo, Saimono
tinklai)
Klasteriavimas
Statistinis klasifikavimas
Atraminių vektorių regresija ir klasifikavimas
Daugialypė ir logistinė regresija
Loginių taisyklių paieška
Sprendimų medžiai
Esminių kintamųjų ir faktorių tyrimas
Evoliuciniai ir genetiniai algoritmai
Duomenų vaizdavimas.
Duomenų gavybos sistemos
Išskirkiamos tokios DG sistemų klases:



1) Dalykinės analizės sistemos
2) Statistiniai programų paketai (SPSS,
SAS, STATISTICA)
3) DG paketai
Dalykinės srities analizės
programos




Remiasi tos dalykinės srities empiriniais
duomenimis – pvz., statybininkai žino viską apie
betoną, medikai apie ligas ir vaistus, ir pan.).
Jos dažnai naudoja paprastą statistinį aparatą,
bet maksimaliai įvertina susiklosčiusią srityje
specifiką.
Šios sistemos gali būti labai įvairios. Pvz., tokios
sistemos dažnai naudojamos finansinių rinkų
tyrimuose.
Specializuota rinkos analizės sistema yra
sudaryta iš finansinių indeksų sekų dinamikos
analizės ir investicijų portfelio planavimo
metodų.
Statistinės analizės paketai




(SPSS, StatGraphics, SAS, STATISTICA, R
Statistical package)
Beveik visų žinomų statistinių paketų
paskutinėse versijose kartu su tradiciniais
statistiniais metodais įtraukiami ir DG metodai.
Tačiau pagrindinis dėmesys juose skiriamas
klasikiniams metodams – koreliacinei, regresinei,
faktorinei analizei ir pan.
Tokių sistemų trūkumu laikoma specialaus
vartotojo paruošimo būtinybė.
Duomenų gavybos paketai


Daugelis programinės įrangos korporacijų kuria ir
platina atskirus produktus, skirtus DB duomenų
gavybai.
Lietuvoje tokią įranga platina Oracle, IBM DM
Technology, SONEX, irk t.
Išvada


Duomenų gavybos taikymas nesibaigia
“teisingo algoritmo” parinkimu.
Čia svarbūs visi etapai:





problemos identifikavimas,
kokybiški duomenys, kurių pagrindu bus
atliekama analizė,
modelio parinkimas ir realizavimas,
gautų rezultatų interpretavimas.
Šioje srityje ypač reikalingas vartotojų
išprusimas, nes nė viena sistema negali
tapti "stebuklingu mygtuku", išspręsiančiu
visas problemas.
Literatūra


M. Dunham. Data Mining. Introduction
and Advanced topics
L.Sakalauskas. Duomenų gavyba.