DuomGavyba_3 - Šiaulių universitetas

Download Report

Transcript DuomGavyba_3 - Šiaulių universitetas

DUOMENŲ GAVYBA

Paskaita 3.

Duomen ų gavybos etapai ir metodai

Kęstutis Žilinskas Šiaulių universitetas, 2013

Pagrindinė duomenų gavybos ypatybė   Plataus matematinio aparato (nuo klasikinės statistinės analizės iki naujausių kibernetinių metodų) ir paskutinių informacinių technologijų pasiekimų derinimas.

Duomenų gavybos technologijoje harmoningai derinami griežtai formalūs metodai ir neformaliosios analizės metodai, kiekybinė ir kokybinė duomenų analizė.

Duomenų gavybos metodai ir algoritmai        Dirbtiniai neuroniniai tinklai.

Sprendimų medžiai.

Simbolinės taisyklės.

Artimiausio kaimyno ir k-artimiausio kaimyno metodai.

Atraminių vektorių metodas.

Bajeso tinklai.

Tiesinė regresija.

Duomenų gavybos metodai ir algoritmai        Koreliacinė-regresinė analizė.

Klasterinės analizės metodai.

Asociatyvių taisyklių paieškos metodai.

Evoliucinis programavimas.

Genetiniai algoritmai.

Vizualizavimo metodai.

...

Metodas ir algoritmas  Metodas – norma arba taisyklė, nustatytas kelias arba būdas, teorinės, praktinės, pažintinės arba valdymo užduoties sprendimo būdas.

 Algoritmas – tikslus nuoseklių veiksmų arba žingsnių aprašymas, pertvarkantis pradinius duomenis į ieškomą rezultatą.

Duomenų gavybos etapai 1.

2.

3.

Dėsningumų išsiaiškinimas bei validavimas arba tikroviškumo patikrinimas (laisvoji paieška).

Rast dėsningumų pritaikymas nežinomų reikšmių numatymui (prognostinis modeliavimas).

Anomalijų dėsningumuose išaiškinimas ir paaiškinimas (išimčių analizė).

Laisvoji paieška (Discovery)    Vykdomas duomenų rinkinio tyrimas siekiant rasti paslėptus dėsningumus.

Išankstinės hipotezės apie dėsningumus nekuriamos.

Dėsningumas (law) – esminis ir pastoviai pasikartojantis ryšys, nusakantis proceso etapus ir formas, įvairių reikškinių ar procesų vyksmą.

Laisvoji paieška   Duomenų gavybos sistema šiame etape nustato šablonus.

Laisvosios paieškos veiksmai:  Sąlyginės logikos dėsningumų išaiškinimas (conditional logic);   Asociatyvios logikos dėsningumų išaiškinimas (associations & affinities); Trendų ir svyravimų išaiškinimas (trends & variations).

Pavyzdys   Tegul turime įdarbinimo agentūros duomenų bazę su duomenimis apie profesiją, stažą, amžių ir geidžiamą atlygį.

Analitikas savarankiškų užklausų pagalba gali gauti tokį apytikslį rezultatą:  25-35 m. amžiaus specialisto vidutinis pageidaujamas atlygis 2400 Lt.

Pavyzdys  Laisvosios paieškos etape DG sistema pati ieško dėsningumų, tereikia nurodyti tikslą – kintamąjį.

 Paieškos rezultatas – suformuotas loginių taisyklių „jei ..., tai ...“ rinkinys.

Pavyzdys   Gali būti rasti tokie dėsningumai:   Jei amžius < 20 m. ir geidžiamas atlygis > 1400 Lt, tai 75% atvejų žmogus ieško programuotojo darbo.

Jei amžius > 35 m. ir geidžiamas atlygis > 2400 Lt, tai 90% atvejų žmogus ieško vadovaujančio darbo.

Užduodant kitą paieškos kintamąjį gautume:  Jei žmogus ieško vadovaujančio darbo ir jo stažas > 15 m., tai 65% atvejų jo amžius > 35 m.

Laisvoji paieška  Paieškos veiksmai vykdomi:    Indukuojant sąlyginės logikos taisykles (klasifikavimo ir klasterizavimo uždaviniai – artimų ar panašių objektų grupių aprašymas); Indukuojant asociatyvios logikos taisykles (asociacijos ir nuoseklumo uždaviniai – atitinkamos informacijos radimas); Trendų ir svyravimų nustatymas (prognozavimo uždavinio pradinis etapas).

Laisvoji paieška   Čia turi būti vykdoma ir dėsningumų validacija – dėsningumų tikroviškumo patikrinimas su tais duomenimis, kurie nebuvo imtyje, t.y. nedalyvavo dėsningumo formavime.

Duomenų išskyrimas į apmokomuosius ir tikrinamuosius dažnai naudojamas neuroniniuose tinkluose ir sprendimų medžiuose.

Prognostinis modeliavimas (Predective Modeling)    Laisvosios paieškos etape gauti dėsningumai naudojami prognozavimui.

Prognostinio modeliavimo veiksmai:  Nežinomų reiškinių numatymas (outcome prediction);  Procesų vyksmo prognozavimas (forecasting).

Prognostiniame modeliavime sprendžiami klasifikavimo ir prognozavimo uždaviniai.

Klasifikavimo uždaviniai  Pirmojo etapo rezultatai (indukuotos taisyklės) taikomi naujo objekto priskyrimui su tam tikru patikimumu kuriai nors žinomai klasei žinomų reikšmių pagrindu.

Prognozavimo uždaviniai  Pirmojo etapo rezultatai (nustatyti trendai ir svyravimai) taikomi ieškomo kintamojo (kintamųjų) nežinomų (praleistų arba būsimų) reikšmių numatymui.

Pavyzdžio tęsinys  Žinant, kad žmogus ieško vadovaujančio darbo ir jo stažas >15 m., tai su 65% tikimybe galima tikėtis, kad jo amžius > 35 m.

 Jei žmogaus amžius > 35 m. ir geidžiamas atlygis > 2400 Lt, tai su 90% tikimybe galima tikėtis, kad jis ieško vadovaujančio darbo.

Laisvosios paieškos ir prognostinio modeliavimo palyginimas     Laisvoji paieška atranda bendruosius dėsningumus.

Ji logikos požiūriu induktyvi.

Dėsningumai formuojami nuo atskirojo prie bendrojo.

Rezultatas – gaunamas bendras žinojimas apie objektų klasę, pagrįstas klasės objektų dalies tyrimu.

Laisvosios paieškos ir prognostinio modeliavimo palyginimas   Taisyklė:  Jei amžius < 20 m. ir geidžiamas atlygis > 1400 Lt, tai 75% atvejų žmogus ieško programuotojo darbo.

Atskirojo pagrindu, t.y. informacijos apie kai kurias klasės savybes „amžius < 20 m.“ ir „geidžiamas atlygis > 1400 Lt“ pagrindu, darome bendrąją išvadą, „ žmogus ieško programuotojo darbo“.

Laisvosios paieškos ir prognostinio modeliavimo palyginimas    Prognostinis modeliavimas – deduktyvus.

Gauti dėsningumai formuojami nuo bendrojo prie atskirojo ir vienetinio.

Čia gaunamos naujos žinios apie objektą arba objektų grupę, nes žinomos:  Klasės, kurioms priklauso tiriami objektai;  Bendrosios taisyklės, veikiančios šioje objektų klasėje.

Laisvosios paieškos ir prognostinio modeliavimo palyginimas   Žinome, kad jei žmogus ieško vadovaujančio darbo ir jo stažas > 15 m., tai su 65% tikimybe jam > 35 m.

Bendrųjų taisyklių („tikslas – vadovaujantis darbas“ ir „stažas > 15 m.“) pagrindu darome atskirąją išvadą (apie vienetinį objektą) – „amžius – 35 m.“.

Išimčių analizė (forensic analysis)    Šiame etape analizuojamos išimtys arba anomalijos, išryškėjusios rastuose dėsningumuose.

Išimčių analizės veiksmas – nukrypimų išaiškinimas (deviation detection).

Tikslas – būtina nustatyti dėsningumų, rastų laisvojoje paieškoje, normą.

Pavyzdžio tęsinys    Rasta taisyklė:  Jei žmogaus amžius > 35 m. ir geidžiamas atlygis > 2400 Lt, tai su 90% tikimybe galima tikėtis, kad jis ieško vadovaujančio darbo.

Klausimas – kaip elgtis su 10% likusių atvejų?

Galimi du variantai:   Egzistuoja loginis paaiškinimas, kurį galima suformuoti taisyklės pavidalu; Tai pradinių duomenų klaida. Šiuo atveju reikalingas duomenų valymas.

Duomenų gavybos metodų klasifikavimas  DG metodus galima skirstyti pagal darbo su pradiniais duomenimis principą (duomenys išsaugojami arba distiliuojami prieš naudojimą):   Tiesioginis duomenų naudojimas arba duomenų išsaugojimas; Formalizuotų dėsningumų išaiškinimas ir panaudojimas arba šablonų distiliavimas

Tiesioginis duomenų naudojimas arba duomenų išsaugojimas    Duomenys saugomi detaliu pavidalu ir tiesiogiai naudojami prognostinio modeliavimo ir/arba išimčių analizėje.

Šių metodų problema – labai didelių duomenų bazių analizės sudėtingumas.

Metodai:  Klasterinė analizė, artimiausio kaimyno ir k-artimiausio kaimyno metodai, analogijos metodai.

Formalizuotų dėsningumų išaiškinimas ir panaudojimas arba šablonų distiliavimas    Šioje technologijoje iš pradinių duomenų ištraukiamas vienas informacijos šablonas ir pertvarkomas į tam tikras formalias konstrukcijas, kurių pobūdis priklauso nuo metodo.

Šis procesas vykdomas laisvosios paieškos etape.

Kituose etapuose naudojami rezultatai kompaktiškesni už pačias duomenų bazes.

Formalizuotų dėsningumų išaiškinimas ir panaudojimas arba šablonų distiliavimas  Naudojami metodai:     Loginiai metodai; Vizualizavimo metodai; „Kros-tabuliacijos“ metodai; Metodai, besiremiantys lygtimis.

Loginiai arba loginės indukcijos metodai     Užklausos ir jų analizės.

Simbolinės taisyklės.

Sprendimų medžiai.

Genetiniai algoritmai.

„Kros-tabuliacijos“ metodai    Agentai.

Bajeso tinklai.

Kros-tabuliacinė vizualizacija.

 Šie metodai lengviausiai interpretuojami – rasti dėsningumai pateikiami labai akivaizdžia forma.

Metodai paremti matematinėmis lygtimis   Statistiniai metodai:     Koreliacinė-regresinė analizė; Dinamikos sekų koreliacija; Dinaminių sekų tendencijų tyrimas; Harmoninė analizė.

Neuroniniai tinklai.

 DG metodai gali būti skirstomi ir skirtingų matematinių modelių apmokymo būdų pagrindu:   Statistiniai metodai; Kibernetiniai metodai.

Statistiniai metodai     Duomenų analizė ir aprašymas.

Ryšių analizė (koreliacinė, regresinė, faktorinė, dispersinė analizės).

Daugiamatė statistinė analizė (komponentinė, diskriminantinė, daugiamatė regresinė analizės).

Laiko sekų analizė (dinaminiai modeliai ir prognozavimas).

Kibernetiniai metodai     Dirbtiniai neuroniniai tinklai (atpažinimas, klasterizavimas, prognozė).

Evoliucinis programavimas (argumentų grupinės įtakos metodo algoritmai).

Genetiniai algoritmai (optimizavimas).

Neryškioji (nedvimatė) logika.

Kibernetiniai metodai    Asociatyvi atmintis (analogų, prototipų paieška).

Sprendimų medžiai.

Ekspertinių žinių apdorojimo sistemos.

  DG metodus galima skirstyti pagal DG uždavinius:  Segmentavimo metodai (klasterizavimas, klasifikavimas),  Prognozavimo metodai.

arba  Aprašomųjų rezultatų gavimo metodai (šablonų radimas),  Prognozuojančiųjų rezultatų gavimo metodai.