Transcript Lecture_2

DUOMENŲ GAVYBOS TECHNOLOGIJOS

Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

    didelio kiekio įvairialytė informacija platus vartotojų ratas gilesnių įžvalgų duomenyse poreikis techninė IT pažanga

    a) reti ar atsitiktiniai vartotojai b) vartotojai, kuriems periodiškai reikia nustatytų ataskaitų c) vartotojai, kuriems reikalinga dinaminė išsami informacija d) verslo analitikai-profesionalai a) ir b) vartotojams pakanka standartinių užklausų.

Duomenų saugyklos architektūra

   Duomenys DS kaupiami skirtingais pavidalais: tiesioginiai transakcijų duomenys ( on-line transaction programs data - OLTP ); operatyvinių duomenų saugyklos ( data stores ODS); duomenų vitrinos ( datamarts ).

operational c) ir d) kategorijų vartotojų poreikiams tenkinti kuriamos specialios duomenų bazių saugyklos, vadinamos duomenų vitrinomis ( data mart )

Užduotys atliekamos OLTP sistemoje, yra optimizuotos dialogo režimui ir yra skirtos vykdyti daugybę kasdieninių transakcijų su palyginus nedideliu duomenų kiekių.

Tokios užduotys reikalauja didelio paketinio našumo serverių gausioms sumavimo, perskaičiavimo ir užklausų operacijoms atlikti. Kai duomenų yra nedaug, transakcijoms atlikti realiu laiku ir jų analizei pakanka tradicinių reliacinių duomenų bazių valdymo sistemų (RDBVS).

OLTP duomenų bazės pritaikytos tam, kad galėtų palaikyti daug vienu metu į jas besikreipiančių vartotojų, kurie intensyviai įterpia bei keičia duomenis. Paprastai tokios duomenų bazės turi sudėtingą struktūrą (didelė normalizacija), o duomenys jose atspindi esamą įmonės situaciją, tačiau ne istoriją.

Jose esančių duomenų analizei pakanka įprastų užklausų, parašytų SQL kalba.

Operatyviųjų duomenų saugykla (ODS) vadinami integruoti atnaujinami duomenys, naudojami įmonės taktiniams sprendimams priimti. Šioje saugykloje laikomi „žali“ duomenys (o ne jų atvaizdai) ir joje taip pat laikomas minimalus istorinių duomenų kiekis.

   ODS yra orientuota į subjektą. Ji yra sukonstruota ir sukaupta apie svarbius organizacijos objektus, tokius kaip negali būti specifinės programos ar funkcijos, tokios kaip klientas ar produktas užsakymo įvedimas ar . Šiais objektais gautinos sumos .

ODS yra integruota. Ji parodo su objektu susijusių duomenų integruotą vaizdą. Pvz, jei įtrauktas objektas yra klientas , tai visa kliento turima įmonėje, laikoma ODS dalimi.

informacija, ODS laiko tik esamasias operatyvines reikšmes. ODS neturi turėti kelių einamųjų reikšmių „atvaizdų“. Istoriniai duomenys turi būti archyvuojami arba perkeliami į duomenų saugyklą.

 ODS yra kintanti. Informacija joje keičiama tokiu periodiškumu, kuriuo buvo apibrėžtos „einamosios“ reikšmės. ODS atspindi sistemas, iš kurių gauna duomenis, lyg tikra OLTP sistema. Taigi, vienodos užklausos skirtingu metu, greičiausiai, duos skirtingus rezultatus, nes pasikeitė duomenys.

 ODS yra detali. Detalumas priklauso nuo problemų, kurioms sprėsti sukurta ODS. Duomenų išskaidymo gylis gali būti toks pats arba labiau apibendrintas negu yra duomenų šaltinyje.

Tokios ODS savybės kaip orientaciją į subjektą, integracija ir detalumas, daro ją labai patrauklią duomenų gavybai, tačiau vien tik to nepakanka, nes ODS nekaupia istorinių duomenų.

     Duomenų vitrinoje ( data marts pritaikyti specifiniam verslo objektui, uždaviniui arba taikomajai programai. ) laikomi duomenys, Pagrindiniai duomenų vitrinos tikslai: laikyti sugrupuotą informaciją kontroliuoti vartotojų prieigą prie informacijos Suteikti greitą priėjimą prie informacijos specifiniams poreikiams ar vartotojų grupei sukurti vartotojo ir duomenų saugyklos duomenų sąsają sukurti daugiamatį reliacinį duomenų vaizdą.

  Kuriant duomenų vitrinas, svarbu žinoti: duomenų vitrinos yra DS išplėtimai, bet ne jų alternatyva. Visi duomenys, esantys duomenų vitrinoje, turi būti ir duomenų saugykloje.

duomenų vitrina turėtų būti kuriama vienam poreikiui patenkinti. Turi būti surastas kompromisąs tarp projektavimo paprastumo, greitaveikos bei administravimo kaštų, administruojant ir aptarnaujant daug duomenų vitrinų.

Daugelį vartotojų problemų gali išspręsti analitinio apdorojimo realiu laiku (OLAP) sistemos. Tokiu atveju darbinėse reliacinėse duomenų bazėse ar duomenų saugyklose saugomi pradiniai duomenys transformuojami, ir sukuriamos optimizuotos duomenų saugojimo struktūros – OLAP duomenų kubai (

data cubes

), kurie specialiai pritaikyti greitai duomenų analizei.

  Analitinio apdorojimo realiu laiku – On-Line Analytical Processing (OLAP) sistemos yra skirtus visapusiškai analizuoti verslo informaciją realiu laiku. Sąveika su tokiomis sistemomis vyksta interaktyviai, atsakymai, net į daug skaičiavimų reikalaujančias užklausas, gaunami per kelias sekundes. Galutinė informacija gali būti pateikta ne tik skaičiais, bet ir lengviau vartotojui suvokiamu grafiniu pavidalu.

Dauguma OLAP produktų pasižymi draugiška vartotojui aplinka, o kreipiantis į duomenų šaltinius reikiamą verslo informaciją galima gauti net ir nežinant, kaip rašyti sudėtingas užklausas.

   OLAP kubuose didelė tarpinių skaičiavimų dalis atliekama iš anksto. Vienąkart atliktų tarpinių skaičiavimų rezultatais gali pasinaudoti visi prieigos teises turintys DS vartotojai.

Kadangi OLAP duomenų bazės saugo tarpines agregatines reikšmes pagal duomenų kubo įgyvendinimo būdą, duomenų pasikeitimai ar naujų duomenų įkėlimas į OLAP duomenų bazę gali pareikalauti atnaujinti ar pertvarkyti kubo informaciją (turi būti perskaičiuotos kai kurios agregatinės reikšmės).

OLAP duomenų bazėje sukaupta informacija vienu metu naudojasi daug vartotojų (naudojamas kliento ir serverio modelis), todėl tokiose programose dažniausiai numatyti ir įvairaus lygio saugumo apribojimai skirtingas priėjimo prie duomenų teises turintiems vartotojams.

     Panagrinėkime OLAP FASMI apibrėžimą (Fast Analysis of Shared Multidimensional Information – Bendros Multidimensinės Informacijos Greitoji Analizė, 1995 m.: FAST (vatotojas gauna atsakymą per 5 sekundes ir labai retai atsakymas užtrunka daugiau 20 sek. ANALYSIS (atlieka visus tyrimus, reikalingus vartotojui ar aplikacijai) SHARED ( konfidencialumas, duomenų saugumas ir patikimumas dirbant vienu metu daugeliui vartotojų) MULTIDIMENSIONAL (daugiamatis duomenų vaizdavimas ir hierarchijų palaikymas) INFORMATION – (tai duomenys ir išvestinė informacija, kuriais operuoja OLAP sistema)

        Metaduomenys tai repozitoriumas, t.y. DS vadovas žinynas. Metaduomenys: struktūrizuoja duomenų saugyklos informaciją į kategorijas, temas, grupes, hierarchijas ir t.t. orientuoti į subjektą, paaiškina duomenų transformacijas duomenis, nurodo duomenų sąsajas.

leidfžia įvertinti atsako laiką.

saugo suskaičiuotus laukus bei skaičiavimų formuluotes.

 Metaduomenų vartotojai tai:   verslo vartotojai  techniniai vartotojai, kuriems reikalingi: techniniai metaduomenys verslo   Metaduomenų šaltiniai – formalūs neformalūs.

Metaduomenys

Integruota duomenų gavyba

       suformuluoti aiškius tyrimų tikslus surinkti tinkamus duomenis parengti duomenis tyrimui parinkti analizės metodus Parinkti programinės įrangos priemones korektiškai atlikti analizę padaryti išvadas bei iūlyti sprendimus

    Duomenų parengimo DG etapai: ( duomenų išskleidimas ir suspaudimas extraction/propagation ), ( duomenų transformacija ir gryninimas transformation/cleansing ), duomenų valymas ( data refining ), duomenų pateikimas ( presentation ).