ANALITIČKE BAZE PODATAKA
Download
Report
Transcript ANALITIČKE BAZE PODATAKA
Uvod u
Data Warehousing i OLAP
OLTP (On-Line Transaction
Processing) sistemi
Skladištenje podataka (Data
Warehousing)
Razvoj skladišta podataka
Arhitektura dimenzionog modela
OLAP (OnPoslovni
Line
Analytical Processing)
17.7.2015
informacioni sistemi
sistemi
1
Pregled sadržaja
• Uvod u Data Warehousing (DW):
– razumevanje DW sistema je veoma bitno kada se projektuju i
implementiraju sistemi za podršku odlučivanju
• Projektovanje Data Warehouse:
– pre nego što se kreira OLAP baza podataka, neophodno je
razumeti komponente DW koje se koriste pri izgradnji OLAP
baze podataka
• Definisanje OLAP rešenja:
– alternativna tehnologija za relacionu DB
– nudi brzi i fleksibilan pregled, analizu i navigaciju podataka
• Razumevanje OLAP modela i primena OLAP kocke:
– kako primeniti koncepte projektovanja DW da bi se projektovali
i kreirali OLAP modeli
– opisuju se osnove OLAP kocke za demonstriranje metoda za
vizuelizaciju multidimenzionalnih baza podataka
17.7.2015
Poslovni informacioni sistemi
2
Sirovi podaci vs. poslovne informacije
• Kompanija svakodnevno prikuplja velike količine sirovih podataka
• Primeri sirovih podataka:
– lanac prodavnica u Beogradu prodao robu vrednosti 10.000
evra u Junu 2008.
– Goran M. podigao 50 evra sa svog računa jutros u Amsterdamu.
• Primeri izvedene informacije:
– Kako vrednost prodate robe u 2008. godini iznosio 15.000 evra, a
postavljen cilj za 2009. godinu je bio 20.000 evra, očigledno lanac
prodavnica u Beogradu nije ispunio željeni cilj. Analiza poslovanja
treba da odredi posledice pada prodaje.Ključna pitanja su: Koji se
proizvodi prodaju, a koji ne?, Koji je efekat promocije
proizvoda?.
– Goran M. živi u Beogradu, ali je u proteklih pet meseci podizao novac
u Londonu, Oslu, Stockolmu, znači da često putuje po Evropi.
Verovatno bi bio zainteresovan za specijalnu kreditnu karticu za
neograničen pristup svom računu u 16 zemalja EU uz odgovarajuću
godišnju članarinu. Ključna pitanja koja se postavljaju nakon ove
analize su: Koji je prosečan dnevni bilans njegovog računa?, Za
koje proizvode bi bio zainteresovan?
17.7.2015
Poslovni informacioni sistemi
3
DW vs.OLTP sistema
• DW (Data Warehous) analitički sistemi:
– analitičke baze podataka, skladište baza podataka
– dizajnirane za veliki broj podataka
– namenjenih samo za čitanje,
– obezbeđuju informacije za donošenje odluka
• OLTP online operacioni transakcioni sistemi:
– prikupljaju poslovne transakcije i snabdevaju podacima DW
ili data mart.
– preuzimaju podatke, menjaju postojeće podatke, daju
izveštaje, održavaju integritet podataka i upravljaju
transakcijama što je brže moguće.
Primeri OLTP sistema: aplikacije praćenja porudžbina,
aplikacije usluga klijenata (npr., otvaranje računa klijentima),
bankarske funkcije (npr, depoziti) itd.
• Dizajn DB razdvaja transakcione i analitičke sisteme
17.7.2015
Poslovni informacioni sistemi
4
Skladištenje podataka
- Data Warehousing (DW)• DWing - proces integracije podataka u jedan repozitorijum iz kojeg
krajnji korisnici mogu ad-hock analizirati podatke i praviti
izveštaje.
Koncept DW: informaciona meta DB za odluke strateškog nivoa
skladišti agregirane, ekstrahovane i filtrirane podatke
omogućava slojevit, multidimenzionalni pristup podacima
podržava nadgledanje i izveštavanje, analizu i dijagnozu,
simulaciju i planiranje.
• Karakteristike DW:
organizacija podataka po predmetu i relevantnih informacije za
odlučivanje
konzistentnost kodiranja podataka
vreme čuvanja podataka više godina radi praćenja trendova, prognoza i
poređenja
multidimenzionalnost strukture DW je uobičajena
Web-zasnovanost dizajna DW obezbeđuje okruženje za web
aplikacije
17.7.2015
Poslovni informacioni sistemi
5
Komponente DW sistema
• Prenose podatke sa izvornih sistema do korisnika:
– Izvori podataka – operacioni sistemi, npr. relacioni OLTP sistemi
– Oblast za pripremu podataka:
skup procesa koji čiste, transformišu, povezuju i pripremaju izvorne
podatke za DW,
podaci, na jednom/više računara se transformišu u konzistente
formate,
ne mora biti zasnovana na relacionoj tehnologiji,
ne podržava korisničke izveštaje.
– Data Mart:
• podskup/kolekcija kocki podataka DW, sadrži specifične podatke za
određenu aktivnost (npr., finansije, analiza klijenata),
• uključen u DW i izgrađen u relacionim ili OLAP DB
• sadrži detaljne/zbirne podatke podeljene ili ne kroz data mart-e
– Data Warehouse:
• virtuelna unija data mart-ova sa integrisanim informacijama koje
su deljive kroz data mart-ove ili
• centralizovano, integrisano skladište podataka koje obezbeđuje
podatke data mart-ovima.
17.7.2015
Poslovni informacioni sistemi
6
Komponente DW sistema
Izvori
podataka
Oblast za
pripremu podataka
Data Warehouse
Korisnički
pristup podacima
Data Mart-ovi
Ulazni podaci
Pristup podacima
17.7.2015
Poslovni informacioni sistemi
7
Proces razvoja skladišta podataka (DW)
Za izgradnju transakcionih sistema (OLTP) bitni su poslovni procesi i funkcije.
Razvoj
skladišta podataka
Analiza
izvora podataka
Prikupljanje
zahteva
Planiranje
skladišta podataka
Izgradnja skladišta
podataka
Pripremanje
podataka
Izbor tehnike
analize podataka
Ekstrakcija i
čišćenje podataka
Transformacija
podataka
Dimenziono
modeliranje
Prikupljanje
izvornih zahteva
Definisanje
obima projekta
Upiti i izveštaji
Razvoj procedura za
ekstrakciju podataka
Kreiranje plana
transformacije podataka
Denormalizacija
podataka
Prikupljanje
Korisničkih zahteva
Kreiranje
projektnog tima
Višedimenzionalne
analize
Razvoj procedura za
čišćenje podataka
Razvoj procedura za
Transformaciju podataka
Definisanje
hijerarhija
Definisanje
tehničkih uslova
Data mining
Razvoj procedura za
učitavanje podataka
Kreiranje
agregacija
Testiranje procedura
Kreiranje
fizičkog modela
Generisanje meta
podataka
Generisanje baze
podataka
Definisanje resursa,
zadataka i vremenskih rokova
Za izgradnju DW bitni su sami podaci i potrebno je:
izvršiti analizu izvora podataka,
pripremiti podatake,
izgraditi skladište podataka.
17.7.2015
Poslovni informacioni sistemi
Učitavanje
podataka
8
Razvoj skladišta podataka
Pripremanje
podataka
Izgradnja
DW
Analiza izvora
podataka
17.7.2015
Poslovni informacioni sistemi
9
1. Analiza izvora podataka
• Osnovni izvori podataka su:
operativni (transakcioni), tzv. OLTP podaci,
spoljne informacije nastale kroz istoriju poslovanja i
industrijski i demografski podaci iz velikih javnih DB.
• Analiza izvornih podataka:
smatra se ključnim elementom izgradnje DW
oduzima 80% vremena - potrebno je definisati odgovarajuća
pravila za preuzimanje podataka iz izvornih podataka,
analitička znanja najčešće su u glavama korisnika DW.
• Proces analize izvora podataka obuhvata faze:
1.1. Prikupljanje zahteva,
1.2. Planiranje skladišta podataka,
1.3. Izbor tehnike za analizu podataka.
17.7.2015
Poslovni informacioni sistemi
10
1.1. Prikupljanje zahteva
• Razmatra poslovne potrebe i zahteve budućih korisnika sistema
1. Prikupljanje zahteva upravljanih izvorom (source-driven)
• Metod prikupljanja:
– definisanje zahteva na bazi izvornih podataka u proizvodnooperativnim sistemima i
– analiza ER-modela (MOV) izvornih podataka.
– Glavna prednost:
podržavanje svih podataka PIS,
minimizacija vremena korisnika u ranoj fazi projekta.
– Nedostaci:
smanjivanjem učešća korisnika
neispunjenja zahteva korisnika,
oduzima dosta vremena.
17.7.2015
povećava
Poslovni informacioni sistemi
se
rizik
od
11
1.1. Prikupljanje zahteva
(1)
Prikupljanje korisnički pokretanih (User-Driven) zahteva
• Metod prikupljanja:
– definisanje zahteva na bazi funkcija koje korisnik izvršava ili im
teži,
– postiže se kroz seriju sastanaka i/ili intervjua sa korisnikom.
– Glavna prednost: koncentriše se na potrebno, a ne
dostupno.
– Nedostatak: proizvodi upotrebljive DW za kraći vremenski
period.
– Postupak prikupljanja zahteva:
2.
Intervjuisati ključne ljude u PS:analitičare, menadžere, izvršioce.
Utvrditi protok informacija u/iz svakog odeljenja: koji izveštaji i
dokumentacija, koliko često pristižu, kako/ko ih koristi itd.
Organizovati dobijene podatke u nekoliko sekcija, kao što su:
– Podaci o analizi - svim vrstama analiza i
– Zahtevi vezani za podatke - opis, novi detalji, izvori.
Proslediti organizovane podatke svim učesnicima intervjua radi
mišljenja i eventualnih korekcija.
17.7.2015
Poslovni informacioni sistemi
12
1.2. Planiranje skladišta podataka
Proces planiranja DW obuhvata faze:
1. Definisanje obima projekta,
2. Kreiranje projektnog plana,
3. Definisanje tehničkih uslova,
4. Definisanje resursa, zadataka i vremenskih rokova.
Razvoj arhitekture i infrastrukture DW:
Tehnička infrastruktura podrazumeva:
razne tehnologije, platforme, DB i ostale komponente
koje podržavaju izabranu arhitekturu DW.
uključuje izbor instalacije DB, podešavanje mrežnog
okruženja i izbor i instalaciju alata za rad sa DB
17.7.2015
Poslovni informacioni sistemi
13
1.3. Izbor tehnike za analizu podataka
DW treba da obezbedi lako pristupačan izvor podataka
visokog kvaliteta.
Tehnike za analizu podataka mogu uticati na tip odabranog
modela podataka i njegov sadržaj:
a. Upiti i izveštaji,
b. Višedimenzionalne analize i
c. Data mining.
a. Upiti i izveštaji - model podataka koji :
struktuira podatke na normalizovani način
obezbeđuje najbrži i najlakši pristup podacima, za jednostavne
upite i izveštaje
primarno obezbeđuje biranje povezanih elemenata podataka,
eventualno njihovo sumiranje i grupisanje u neku kategoriju i
prezentovanje rezultata.
17.7.2015
Poslovni informacioni sistemi
14
b. Višedimenzionalna analiza
• Višedimezionalna analiza:
– način da se prošire mogućnosti upita i izveštaja,
– umesto izvršavanja višestrukih upita podaci se struktuiraju za brz i lak
pristup odgovorima na tipično postavljana pitanja
– Primer - treba analizirati koliko je:
određeih proizvoda prodato određenog dana, u određenoj
prodavnici i u određenom rasponu cena?
prodavnica prodalo određeni proizvod, u određenom rasponu cena,
određenog dana?
oba pitanja zahtevaju slične informacije, ali jedno posmatrano iz
ugla proizvoda, a drugo iz ugla prodavnice.
• Glavna prednost: obezbeđuje model podataka za lak i brz pogled na
podatke iz bilo koje moguće perspektive ili dimenzije.
• Nedostatak:
– Za višedimenzionalnu analizu, model mora obezbedi brz pristup
podacima
– Ako se koriste visoko normalizovane strukture podataka, potrebno je
mnogo grupisanja između tabela sa različitim dimenzijama podataka,
što može značajno uticati na performanse.
17.7.2015
Poslovni informacioni sistemi
15
c. Data mining
• Data mining je relativno nova tehnika za analizu podataka.
• Tehnika otkrivanja:
– Veoma se razlikuju od prve dve pošto koristi tehniku otkrivanja.
– Koriste određeni algoritmi koji analiziraju podatke i izveštavaju
šta su otkrili.
– Korisnik ne mora da kreira i izvršava upite zasnovane na
hipotezama
• Proces otkrivanja:
– klasterovanje određenih elemenata podataka, ili korišćenje
određenih skupova elemenata podataka na bazi nekog obrasca,
– iz utvrđenih obrazaca algoritmi mogu da izvedu pravila,
– pravila se koriste za generisanje modela koji ima željeno
ponašanje, identifikuje veze među podacima, otkriva obrasce i
grupiše klastere zapisa sa sličnim atributima.
17.7.2015
Poslovni informacioni sistemi
16
2. Priprema podataka
• Jedna od najbitnijih aktivnosti u procesu razvoja DW.
• Ako se uspešno izvrši, garantuje uspeh izgradnje DW.
• Metod pripreme - na osnovu:
– ranije određenog izvora podataka,
– pravila za preuzimanje tih podataka,
– procedure pripreme i
– zahteva korisnika.
• Proces priprme podataka odvija se kroz dve faze:
2.1. Ekstrakcija i čišćenje podataka i
2.2. Transformacija podataka.
• Alati:
– ekstrakciono-transformacioni koriste se za pripremu
• Rezultat pripreme podataka:
– podaci koji omogućavaju generisanje meta podataka,
– meta podaci omogućavaju početak dizajna DW.
17.7.2015
Poslovni informacioni sistemi
17
2.1. Ekstrakcija i čišćenje podataka
• Sastoji se od sledećih zadataka:
a. razvoj procedura za ekstrakciju podataka,
b. razvoj procedura za čišćenje podataka.
a. Razvoj procedura za ekstrakciju podataka
– Podaci se moraju ekstrahovati iz transakcionih sistema (DB
u PIS).
– Podaci se inicijalno ekstrahuju u procesu kreiranja DW.
– Kasnije se određnom procedurom dodaju novi podaci u DW.
– Ekstrakcija podataka je vrlo jednostavna iz relacione DB.
– Ekstrakcija podataka može biti veoma kompleksna iz
višestrukih heterogenih transakcionih sistema.
– Cilj procesa ekstrakcije je da sve potrebne podatke, u
pogodnom i konzistentnom formatu, pripremi za učitavanje
u DW.
17.7.2015
Poslovni informacioni sistemi
18
b. Razvoj procedura za čišćenje podataka
• Podaci iz faze ekstrakcije moraju “pročistiti“:
– otkrivanje logičkih grešaka,
– "poboljšanje" podataka i
– eliminisanje ostalih grešaka.
– Otkrivanje logičkih grešaka uključuje proveru:
vrednosti atributa usled različitog označavanja pojmova,
atributa u kontekstu ostalih podataka u redu,
atributa u kontekstu redova druge tabele koja je povezana,
veza između redova iste ili povezanih tabela (provera FK).
– "Poboljšanje" podataka:
proces čišćenja kojim se teži da podaci dobiju puno značenje,
na primer podaci o imenima i adresama.
– Eliminisanje ostalih grešaka:
odluka o nepotpunim, ili malo značajnim podacima,
ovi podaci se mogu odbaciti, privremeno smestiti i popraviti, ili
smestiti u skladište podataka sa tim nesavršenostima.
17.7.2015
Poslovni informacioni sistemi
19
2.2. Transformacija podataka
• Dizajneri DW definišu fizički model podataka za DW i
generišu šeme, pre početka procesa transformacije.
• U fazi transformacije podataka potrebno je:
– definisati izvore podataka i tipove transformacija nad
podacima i
– mapirati podatke iz izvorišta u odredište.
• Faza mapiranja i transformacije podataka sastoji se od:
a.kreiranje plana transformacije podataka,
b.razvoj procedura za transformaciju podataka,
c. razvoj procedura za učitavanje podataka,
d.testiranje procedura,
e.generisanje meta podataka.
17.7.2015
Poslovni informacioni sistemi
20
a. Kreiranje plana transformacije podataka
Cilj: dokumentovati najbolji put migracije izvornih podataka do DW, sve
izvorne platforme, metode pristupa, programski jezik potreban za
ekstrakciju podataka i rezultate analize:
–
raspoloživih resursa,
–
količine izvornih podataka,
–
različitih izvornih šema i načina pristupanja podacima,
–
strukture skladišta podataka i
–
potrebnog broja agregacija.
•
Prelazne šeme:
–
Zajednički interfejs za sve izvorne sisteme.
–
Obično se izvorni podaci prvo smeštaju u prelazne šeme.
–
Ne podudaraju se sasvim sa izvornim ni sa odredišnim šemama.
–
Poboljšavaju procese"čišćenja" i transformacije podataka.
•
Analiza izvora podataka:
–
Vrši se nakon izrade plana transformacije podataka.
–
Određuje koji će se podaci mapirati u odredišni sistem i
–
Koja je logika potrebna za migraciju podataka.
17.7.2015
Poslovni informacioni sistemi
21
b. Razvoj procedura za transformaciju podataka
• Transformacija podataka:
– proces kojim se usklađuju različiti načini prikazivanja podataka
različitih sistema u jedinstveni oblik.
– kritičan je korak u razvoju DW, u kojem se vrši poslednja
priprema podataka pre učitavanja
Primer: neki sistemi mogu označavati pol ljudi sa 1 – m. i 2 –ž,
ako se u skladištu podataka ovo označavanje vrši sa M i Ž, mora
postojati proces koji će transformisati 1 u M i 2 u Ž.
• Tipična transformacija podataka uključuje:
– prevođenje polja sa više imena u jedno polje,
– razbijanje polja sa datumom u posebna polja za godinu,
mesec i dan,
– prevođenje polja sa jednom reprezentacijom u drugu (npr. sa 1
i 0 u DA i NE),
– kreiranje i dodavanje ključeva za tabele dimenzija.
17.7.2015
Poslovni informacioni sistemi
22
c. Razvoj procedura za učitavanje podataka
• Procedure za učitavanje podataka treba da izvršavaju:
– Kreiranje formata podataka: za sve podatke iz starijih
sistema obezbediti formate pogodne za smeštaj u DW.
– Prenošenje podataka iz starijih sistema u DW:
raspakivanje, poređenje, kombinovanje i transformacija
podataka u oblik pogodan za DW.
– Kreiranje agregacija: sortiranje podataka po određenim
atributima, a zatim sumiranje i smeštanje u DW.
– Kreiranje ključeva za agregacione zapise: u potpunosti su
veštački i ne smeju biti identični PK tabele; stručni tim mora
dizajnirati aplikaciju koja će generisati takve ključeve.
– Obrada neučitanih podataka: najčešće zbog referencijalnog
integriteta, pa se takvi podaci moraju obraditi u posebnoj
aplikaciji, koja će obezbeđivati referencijalni integritet.
– Indeksiranje podataka: po završenom procesu smeštanja
podataka u DW, svi indeksi se moraju ažurirati.
17.7.2015
Poslovni informacioni sistemi
23
d. Testiranje procedura
• za ekstrakciju i učitavanje
proverom kvaliteta podataka
podataka,
najčešće,
• Provera kvaliteta podataka:
– zadaju se upiti za DW,
– upiti prebrojavaju, ili prikazuju podatke u vidu
grafikona sa kojih se može utvrditi da li su podaci u
očekivanom rasponu.
• Po završenoj transformaciji, postoje svi uslovi da se
pristupi generisanju meta podataka.
17.7.2015
Poslovni informacioni sistemi
24
e. Generisanje meta baze podataka
• Meta baza podataka (rečnika podataka):
– baza podataka o bazi podataka,
– čuva sve podatke o podacima,
– mapira izvorni u ciljni sistem,
– uspostavlja vezu između podataka sa izvora i cilja,
– čuva informacije o transakcionim podacima,
– čuva definiciju podataka u ciljnoj bazi i
– čuva transformaciono-integracionu logiku.
• Posle uspostavljanja meta baze podataka:
– mogu se izdvajati, sumirati, sortirati i organizovati
podaci iz transakcione DB, pre punjenja DW.
17.7.2015
Poslovni informacioni sistemi
25
3. Izgradnja skladišta podataka (DW)
• Izgradnja skladišta podataka obuhvata sledeće
zadatake:
a)
b)
c)
d)
e)
f)
17.7.2015
denormalizacija podataka,
definisanje hijerarhija,
kreiranje agregacija,
kreiranje fizičkog modela,
generisanje baze podataka,
učitavanje podataka.
Poslovni informacioni sistemi
26
a) Denormalizacija podataka
1.
2.
3.
4.
5.
Dimenziono modeliranje:
–
identifikacija dimenzija i atributa - slično projektovanju ER modelom
–
tehnika logičkog dizajna - obezbeđuje visoke performanse sistema
za analizu podataka.
Strukture podataka opisuju mere i dimenzije:
–
Mere-numerički podaci smešteni u centralnoj, tzv. tabeli činjenica.
–
Dimenzije-standardni poslovni parametri (definišu svaku transak.)
Osnovu za izradu dimenzionog modela predstavljaju meta podaci na
osnovu kojih se definišu:
–
hijerarhija elemenata i atributa,
–
normalizacija i denormalizacija i
–
definisanje agregacija.
Svaka dimenziona tabela ima svoj primarni ključ (PK):
–
svi PK učestvuju u stvaranju PK tabele činjenica
–
ovakvi modeli se nazivaju šemama zvezde.
Tabele činjenica sadrže:
–
najčešće, numeričke podatke sa velikim brojem zapisa.
17.7.2015
Poslovni informacioni sistemi
27
Primeri 2-D i 3-D modela podataka
a) Podaci o prodaji za svaku oblast se nalaze u različitim
tabelama
b) Svi podaci smešteni su u trodimenzioni niz
Mesec
Grad
P
r
o
i
z
v
o
d
Mesec
P
r
o
i
z
v
o
d
a) Dvodimenzioni model podataka
17.7.2015
b) Trodimenzioni model podataka
Poslovni informacioni sistemi
28
Različiti pogledi na iste podatke
P
r
o
i
z
v
o
d
Mesec
Grad
Svi gradovi i meseci
za jedan proizvod
Svi proizvodi i meseci
za jedan grad
Svi proizvodi i gradovi
za jedan mesec
17.7.2015
Poslovni informacioni sistemi
29
Primer normalizovane i denormalizovane
reprezentacije podataka
• Sve dimenzione tabele su denormalizovane:
– isti podaci se čuvaju na više mesta da bi se obezbedila
jednostavnost i poboljšale performanse.
17.7.2015
Poslovni informacioni sistemi
30
Arhitektura dimenzionog modela
• Denormalizovani model organizuje dimenzije u šemu zvezde:
– može zahtevati previše memorije i uticati na pad performansi
PIS za vrlo velike dimenzione tabele.
• Šema galaksije predstavlja kolekciju više šema zvezda:
– koristi se ako se ne može kreirati model sa 1 tabelom činjenica,
– potrebno je povezati dve šeme zvezde za potrebe korisnika.
• Normalizovani model organizuje dimenzije u šemu snežne
pahuljice:
– rešava probleme šeme zvezde i prevodi je u šemu pahulje.
– Glavni nedostatak:
veća složenost od šeme zvezde što otežava održavanje DW,
treba normalizovati samo dimenzije sa mnogo redova i
atributa,
najbolje je izvršiti normalizaciju samo par dimenzija, a ostale
ostaviti,
na taj način se dolazi do delimične šeme pahulje
17.7.2015
Poslovni informacioni sistemi
31
Šema zvezde, pahulje i galaksije
Šema zvezde
17.7.2015
Šema pahulje
Poslovni informacioni sistemi
Galaksija
32
Šema zvezde
• Fizička arhitektura dimenzionog modela šeme zvezde:
– definisane sa tabelom činjenica i dimenzionom tabelom:
1. Tabela činjenica sadrži:
kvantitativne podatke o poslovima koje korisnici analiziraju (npr.,
bankarske transakcije, prodaja proizvoda,...)
agregirane podatke najčešće numeričke, sastavljene i od nekoliko
miliona redova i kolona (npr., mesečna prodaja),
2. Dimenzione tabele:
znatno manje i sadrže podatke-atribute koji opisuju posao.
Primer: opisuju kako se izračunavaju podaci o prodaji.
• Glavne prednosti šeme zvezde:
jednostavan model, definiše složene višedimenzione podatke,
smanjuje broj fizičkih veza za procesiranje pri zadavanju upita,
poboljšava performanse sistema i
omogućava proširenje DW uz relativno jednostavno održavanje.
• Veliki nedostatak šeme zvezde: povećava redundantnost podataka.
17.7.2015
Poslovni informacioni sistemi
33
Jednostavna šema zvezde
• Svaka tabela mora sadržavati primarni ključ.
• Primer:
– PK tabele činjenica je sastavljen od tri FK.
– FK je kolona jedne tabele, čija je vrednost definisana kao PK
druge tabele.
D IMENZ I J A1
I Ddim enzije1
At ribut 11
At ribut 12
At ribut 13
C IN JEN IC E
D IMENZ I J A2
I Ddim enzije2
At ribut 21
At ribut 22
At ribut 23
17.7.2015
Poslovni informacioni sistemi
I Ddim enzije1 (F K)
I Ddim enzije2 (F K)
I Ddim enzije3 (F K)
Mera1
Mera2
Mera3
D IMENZ I J A3
I Ddim enzije3
At ribut 31
At ribut 32
At ribut 33
34
Šema zvezde
Zaposleni_Dim
ZaposleniKljuč
ZaposleniID
...
Dimenziona tabela
Vreme_Dim
VremeKljuč
Datum
...
Tabela činjenica
Prodaja_fakti
Proizvod_Dim
ProizvodKljuč
VremeKljuč
ZaposleniKljuč
ProizvodKljuč
KlijentKljuč
ŠpediterKljuč
ProizvodID
...
IznosProdaje
JediniceProdaje ...
Špediter_Dim
Klijent_Dim
ŠpediterKljuč
KlijentKljuč
ŠpediterID
17.7.2015...
Poslovni informacioni sistemi
KlijentID
...
35
Komponente tabele činjenica
Dimenzione
tabele
Mere
Tabela činjenica Prodaje
predstavljaju
analizirane vrednosti, kao
što je jedinica prodaje ili broj
zaposlenih.
Mere su numeričke zbog
toga da bi se mogla vršiti
izračunavanja.
Spoljni ključevi
klijent_ključ
201
Mere
proizvod_ključ vreme_ključ
25
134
Poslovni informacioni sistemi
17.7.2015
količina_prodaje
iznos_prodaje
400
10.789
36
Karakteristike dimenzione tabele
• Predstavlja poslovne entitete (npr. Prozvod, Klijent)
• Sadrži atribute koji obezbeđuju kontekst za numeričke podatke koji su
uskladišteni u tabeli činjenica.
• Prikazuje podatke organizovane u hijerarhije, koje omogućavaju
korisnicima pregledanje detaljnih i zbirnih podataka.
• Svaka dimenziona tabela sadrži jednu ili više hijerarhija.
17.7.2015
Poslovni informacioni sistemi
37
Šema zvezde
na primeru EDIFACT fakture
PredmetPoslovanj a
Vreme
VremeID : Long Integer
D an: Text (15)
Mes ec : Tex t(15)
Godina: Int eger
Predmet Poslov anjaI D : Long I nteger
Vrst aPakov anjaI D: Long Integer
N aziv PredmetaPos lov anja: Tex t (50)
St ariBoroj: Text (50)
Klasif ik ac ioniBroj: Text (20)
N acinPl acanja
Partner
Part nerI D: Long I nt eger
N aziv Part nera: Tex t(50)
Adresa: Tex t(50)
Mes to: Tex t(50)
D rzav a: Text (50)
Telef on: Tex t(50)
Vrst aPakov anjaID : Long Integer
N aziv Vrst ePak ov anja: Tex t(50)
Valuta
N ac inPlacanjaI D: Long I nt eger
N aziv N ac inaPlacanja: Tex t(50)
VrstaPakovanj a
Valut aI D: Long I nt eger
Faktura
Fakt uraI D: Long I nt eger
VremeID: Long I nt eger
Part nerI D: Long Integer
Predmet PoslovanjaID: Long I nt eger
Valut aI D: Long Integer
NacinPlac anjaID: Long I nt eger
Vrst aPrev ozaI D: Long Integer
Kolicina: D ouble
J edinic naC ena: C urrency
I znos: C urrency
N aziv Valut e: Text (50)
OznakaValut e: Tex t(20)
Sif raValut e: Text (20)
VrstaPrevoz a
Vrst aPrev ozaID : Long Integer
N aziv Vrst ePrev oza: Tex t(50)
• Dimenzione tabele mogu sadržati i spoljne ključeve, koji referenciraju primarne
ključeve drugih dimenzionih tabela.
• Takve tabele se nazivaju sekundarne dimenzione tabele (outrigger tables) (npr.
VrstaPakovanja).
17.7.2015
Poslovni informacioni sistemi
38
b) Definisanje hijerarhija
• Dimenzione tabele memorišu sledeće elemente:
– hijerarhijske relacije u svakoj dimenziji,
– opisne atribute svake dimenzije.
• Dimenzije veoma često mogu biti organizovane u hijerarhiji.
Primer: dimenzija Proizvod ima tri dimenziona elementa: prozvod, grupa i
vrsta proizvoda, gde je proizvod najniži hijerarhijski nivo, a vrsta najviši nivo.
• Analiza podataka moguća je sa različitim nivoima detalja:
– Spuštanje u dubinu (drill down):
prelazak sa opštijeg na detaljniji nivo na zahtev korisnika.
Primer: iz podatka o prodaji u regionu, spušta se naniže do prodaje po
opštinama; hijerarhija organizacije geografskih podataka:
SVET –> KONTINENT –> DRŽAVA –> OBLAST –> GRAD
– Dizanje naviše (drill-up):
prelazaka sa detaljnijeg na opštiji nivo, tzv. sumarnih podataka
Primer: upit bi mogao prezentovati prodaju u odnosu na neke regione.
– Presek (Drill across):
za povezivanje dve, ili više činjeničnih tabela na istom nivou hijerarhije.
17.7.2015
Poslovni informacioni sistemi
39
Šema pahulje
PROIZVOD
FK
FK
• Definiše hijerarhiju koristeći višedimenzione tabele:
– varijacija šeme zvezda gde su hijerarhije dimenzije skladištene u
višedimenzione tabele.
Primer: dimenzija Proizvod je skladištena u tri tabele: kategorija
proizvoda, podkategorija proizvoda i proizvod.
– normalizovana je i podržana unutar analitičkih usluga
– samo jedna dimenziona tabela se pridružuje tabeli činjenica (Product
Category),
– ostale dimenzione tabele povezane su sa spoljnim ključem (FK).
17.7.2015
Poslovni informacioni sistemi
40
• Agregacije:
•
c) Kreiranje agregacija
sumiraju detalje podataka, smeštaju u posebne tabele, poboljšavaju performanse
upita, tj. smanjuje vreme odziva na upit i broj resursa za izvršenje upita.
Primer: moguće je kreirati sumarne podatke o prodaji po regionu i oblasti
skupljajući ih iz svake prodavnice, tj. sa najnižeg nivoa detalja.
• Agregacije zasnovane na SQL naredbama:
– SQL naredbe su jedan od načina na koji se mogu kreirati agregacije
– nije najbolji po performansama sistema, ali je najjednostavniji
• Agregacije koje nisu zasnovane na SQL naredbama:
– zahtevaju razvooj specijalizovanih programa
– usložnjavaju se procesi razvoja i održavanja DW
– mogu se koristiti prednosti paralelnog procesiranja (podaci su grupni)
– na svakom mestu prelaza sa jednog nivoa dimenzije na drugi kreiraju
se podzbirovi za taj nivo dimenzije
– dobijene podzbirove treba učitati čime je izvršena agregacija
Primer: sortiranje redova podataka po dimenziji Vreme, prvo podataka
koji se odnose na Dan, pa na Nedelju itd. Prelaz domenzija (npr., sa
Dana na Nedelju)
17.7.2015
Poslovni informacioni sistemi
41
d) Kreiranje fizičkog modela DW
• Pre kreiranja fizičkog modela DW treba :
– izabrati sistem za upravljanje DW.
• Za kreiranje fizičkog modela DW:
– prevesti logički model u fizički model
– koristi se dijagramu MOV koji se fokusira na podatke.
• Generisanje fizičkog modela rešava probleme:
– Multiplikativnosti: broj instanci jednog entiteta u relaciji sa
jednom instancom drugog entiteta.
– Referencijalnog integriteta: zahteva da unesena vrednost
atributa odgovara PK druge tabele. Definiše se za operacije.
– Kreiranja indeksa: vrši se automatski za sve PK u entitetima i
za prenesene ključeve, npr. BRI u entitetu Ispit, zato što će se
buduća pretraživanja u okviru DW vršiti na osnovu ovih polja.
17.7.2015
Poslovni informacioni sistemi
42
Fizički model šeme zvezde za primer EDIFACT fakture
PredmetPoslovanja
Vreme
VremeID : Long Integer
D an: Text(15)
Mes ec : Tex t(15)
Godina: Integer
PredmetPoslov anjaID : Long Integer
VrstaPakov anjaID: Long Integer
N aziv PredmetaPos lov anja: Tex t(50)
StariBoroj: Text(50)
Klasif ik ac ioniBroj: Text(20)
N acinPlacanja
Partner
PartnerID: Long Integer
N aziv Partnera: Tex t(50)
Adresa: Tex t(50)
Mes to: Tex t(50)
D rzav a: Text(50)
Telef on: Tex t(50)
17.7.2015
VrstaPakov anjaID : Long Intege
N aziv VrstePak ov anja: Tex t(50)
Valuta
N ac inPlacanjaID: Long Integer
N aziv N ac inaPlacanja: Tex t(50)
VrstaPakovanja
ValutaID: Long Integer
Faktura
FakturaID: Long Integer
VremeID: Long Integer
PartnerID: Long Integer
PredmetPoslovanjaID: Long Integer
ValutaID: Long Integer
NacinPlac anjaID: Long Integer
VrstaPrev ozaID: Long Integer
Kolicina: D ouble
J edinic naC ena: C urrency
Iznos: C urrency
Poslovni informacioni sistemi
N aziv Valute: Text(50)
OznakaValute: Tex t(20)
Sif raValute: Text(20)
VrstaPrevoz a
VrstaPrev ozaID : Long Integer
N aziv VrstePrev oza: Tex t(50)
43
e) Generisanje baze podataka
• Koristi se SQL jezik:
– Alat u kome je kreiran fizički model (npr. ERWin) automatski generiče
kôd preko tzv. DDL (Data Definition Language) datoteka,
– DDL datoteka se izvršava pomoću alata Query Analyzer-a, dela SQL
Servera 2005,
– SQL Server 2005 omogućava direktno zadavanje SQL naredbi i njihovo
izvršavanje u cilju generisanja DB.
– Kada se svi ovi poslovi uspešno izvrše, DW je generisana.
f) Učitavanje podataka
• U toku učitavanja mogu se eventalno izvršiti još neke transformacije.
• Sa transformacijama podataka ipak treba završiti pre učitavanja, zbog
problema konzistentnosti baze.
• Za učitavanje podataka može se koristiti:
• DTS (Data Transformation Services) alat MS SQL Server-a i
• Procedura učitavanja podataka pomoću DTS paketa.
17.7.2015
Poslovni informacioni sistemi
44
Izgradnja Data Warehouse-a
17.7.2015
Poslovni informacioni sistemi
11
45
OLAP sistemi
• OLAP (On line Analytical Processing) rešenja omogućavaju:
– predstavljaju nadgradnju DW
– interaktivno analitičko procesiranje za online analize i izveštavanje
– brz i fleksibilan pristup podacima
• Krajnji korisnik zahteva da:
– može da postavi bilo koje poslovno pitanje,
– bilo koji podatak iz preduzeća koristi za analizu,
– ima mogućnost neograničenog izveštavanja.
• Analitičko procesiranje primarno se vrši korišćenjem:
– poređenja ili
– analiziranjem šablona i trendova.
Primer: OLAP analitički sistem bi mogao da prikaže:
– kako se određena vrsta štampača prodaje u različitim delovima
zemlje, ili
– kako se jedna vrsta proizvoda trenutno prodaje u odnosu na period
kada se proizvod prvi put pojavio na tržištu
17.7.2015
Poslovni informacioni sistemi
46
OLAP sistemi
• Omogućavaju:
– jednostavnu sintezu, analizu i konsolidaciju podataka,
– agregaciju podataka po zadatom kriterijumu i
– intuitivnu, brzu i fleksibilnu manipulaciju transakcionim podacima.
• Podržavaju:
– kompleksne analize koje sprovode analitičari i
– analizu podataka iz različitih perspektiva (poslovnih dimenzija).
• Kao skladišta podataka koriste:
– multidimenzionalnost i
– denormalizaciju.
• Sadrže osnovne elemente:
– DB, koja služi kao osnova za analizu,
– OLAP server, za upravljanje i manipulaciju podacima,
– interfejs sistem, prema korisniku i prema drugim aplikacijama, i
– alati za administriranje.
17.7.2015
Poslovni informacioni sistemi
47
OLAP serveri
• Konfiguracija:
Povezuju relacione BP, eksterne izvore podataka i ostale interne
podatke, podržane grafičkim interfejsima, radnim tabelama i ostalim PC
alatima.
Koriste višedimenzione strukture za čuvanje podataka, veza između
njih i vizuelizuju u formi kocke i kocke u kockama podataka, gde:
– svaka strana kocke se naziva dimenzijom,
– dimenzija - kategorija podataka (tip proizvoda, region, vreme...)
– svaka ćelija kocke sadrži agregirane podatke u vezi sa
dimenzijama, Npr., jedna ćelija sadrži podatke o ukupnoj prodaji za
dati proizvod i region u toku jednog meseca.
Podržavaju tipične analitičke operacije:
– konsolidacija– agregacija podataka po zadatom kriterijumu,
– drill down/up–prikazivanje više ili manje detalja podataka,
– isecanje (slice&dice)–prikazuje podataka iz različitih perspektiva,
najčešće se vrši po vremenskoj dimenziji da bi se analizirali trendovi
Primer: jedan isečak kocke može prikazivati sve podatke o prodaji za
zadati tip proizvoda za sve regione, a drugi isečak može prikazivati sve
podatke o prodaji po kanalima za svaki tip proizvoda.
17.7.2015
Poslovni informacioni sistemi
48
Zahtevi za OLAP sisteme
• Interfejs OLAP sistema treba da omogući korisniku:
– komforan rad,
– samostalno izvođenje analitičkih operacija,
– grafičke preglede poslovanja, bez programerskih znanja i
poznavanja strukture DB.
• OLAP sistem mora da ispuni sledeće zahteve:
– omogući rad sa velikim skupom podataka i korisnika,
– ima kratko vreme odziva na upit,
– omogući rad sa podacima sa različitim nivoima detalja,
– ima sposobnost proračuna složenih matematičkih funkcija,
– ima podršku za šta-ako analizu, modelovanje i planiranje,
– ima jednostavno uvođenje i održavanje sistema,
– ima zaštitu podataka,
– omogući rad sa velikim brojema alata za pristup, analizu i
prikazivanje podataka.
17.7.2015
Poslovni informacioni sistemi
49
Komponente OLAP baze podataka
• OLAP DB je definisana sledećim komponentama:
– Numeričke merne jedinice (mere):
• vrednosti podataka ili činjenice koje korisnici analiziraju.
Primeri: Prodaja, Jedinice mere, Troškovi prodate robe
itd.
– Dimenzije:
• predstavljaju poslovne kategorije koje obezbeđuju kontekst
numeričkim merama,
• dimenzijama OLAP je lakše navigirati nego dimenzijama
šeme zvezde.
– Kocke:
• kombinuju sve dimenzije i sve mere u jedan konceptualni
model.
17.7.2015
Poslovni informacioni sistemi
50
OLAP dimenzije vs. Relacione dimenzije
Relaciona
OLAP
Region
Zapad
CA
OR
Istok
MA
NY
17.7.2015
Region
Zapad
Istok
Država
CA
OR
MA
NY
Poslovni informacioni sistemi
Region
Zapad
Zapad
Istok
Istok
51
Osnove dimenzija
1.
2.
3.
17.7.2015
Poslovni informacioni sistemi
OLAP dimenzije sadrže
sledeće hijerarhijske
elemente:
Dimenzije – organizovani
nivoi i članovi u strukturi
drveta.
Nivo – grupa članova
dimenzije koji imaju isto
značenje.
Član – Svaka diskretna
vrednost u dimenziji.
52
Definisanje kocke
• Logička struktura za skladištenje OLAP baze podataka.
• Kombinacija dimenzija i mera kako bi korisnici mogli da prave
upite.
• Dimenzije:
– skup povezanih dimenzija koje formiraju jednu n-D mrežu,
– svaka ćelija kocke sadrži jednu vrednost,
– vrednost svake ćelije je presek dimenzije.
• Mere (merne jedinice):
– numeričke vrednosti koje korisnici analiziraju:
– svaka kocka mora da sadrži barem ≥1, ali ≤1024 mernih
jedinica,
– odgovaraju činjenicama u tabeli činjenica,
– samo 1 tabela činjenica može se koristiti za kreiranje kocke,
– mere su preseci svih dimenzija i nivoa ...
17.7.2015
Poslovni informacioni sistemi
53
Definisanje kocke
Skladišti vrednosti prodaje za svaki proizvod, tržište i period vremena.
Za ukupnu godišnju vrednost, korisnici biraju proizvod i tržište i sumiraju ćelije
iz sva četiri kvartala.
Milano
Bern
Pariz
Puževi
Pečurke
Kupine
Maline
Beograd
Q1
17.7.2015
Q2
Q3
Dimenzija Vreme
Q4
Poslovni informacioni sistemi
54
Pravljenje upita nad kockom
Kocka “Prodaja” sadrži tri dimenzije: Vreme, Proizvodi i Tržišta.
Činjenice o prodaji su skladištene u presecima svih dimenzija u kocki.
Korisnik koji nadgleda prodaju malina u Milanu želi upit za Q4 prodajne vrednosti.
Fakti o
prodaji
Milano
Bern
Pariz
Puževi
Pečurke
Kupine
Maline
Beograd
Q1
17.7.2015
Q2
Q3
Dimenzija Vreme
Q4
Poslovni informacioni sistemi
55
Definisanje “kriške” (slice) ili podskupa kocke
Menadžer distribucije malina želi da pregleda podatke o pečurkama po
svim periodima i za sva tržišta.
Milano
Bern
Pariz
Puževi
Pečurke
Kupine
Maline
Beograd
Q1
17.7.2015
Q2
Q3
Dimenzija Vreme
Q4
Poslovni informacioni sistemi
56
Rad sa dimenzijama i hijerarhijama
• Glavna namena OLAP baza podataka:
– obezbediti fleksibilne modele za pronalaženje podataka,
– tu fleksibilnost omogućavaju dimenzije i hijerarhije.
• Dimenzije omogućavaju slice i dice:
–
–
Slice:
izbor jednog člana iz dimenzije,
omogućava fokus na samo 1 proizvod i ignoriše sve otalo.
Dice:
postavlja više članova iz jedne dimenzije na jednu i druge na drugu osu,
omogućava sagledavanje međuodnosa članova različitih dimenzija.
• Hijerarhija omogućava drill down i drill up:
–
–
Drill Down:
sve dimenzije sadrže hijerarhiju,
za većinu dimenzija hijerarhija se sastoji od više nivoa,
više nivoa hijerarhije omogućava drill down po jednom članu hijerarhije,
Drill down se fokusira samo na određene podatke ili oblast problema.
Drill Up:
vide se samo zbirne informacije članova,
omogućava da se sagleda opšta slika.
17.7.2015
Poslovni informacioni sistemi
57
Rad sa dimenzijama i hijerarhijama
• Dimenzije dozvoljavaju
– Slice
Dice
Hijerarhije dozvoljavaju
17.7.2015
Drill Down
Drill Up
Poslovni informacioni sistemi
58
Arhitekture OLAP sistema
• Postoje sledeće arhitekture OLAP sistema:
a. MOLAP - višedimenzioni OLAP,
b. ROLAP - relacioni OLAP,
c. HOLAP - hibridni OLAP.
• MOLAP ROLAP i HOLAP se razlikuju po
načinu fizičkog čuvanja podataka:
– MOLAP u višedimenzionoj strukturi
– ROLAP u relacionim DB
– HOLAP u relacionim i v-D strukturi
17.7.2015
Poslovni informacioni sistemi
59
a. MOLAP - višedimenzioni OLAP
• Ograničenja MOLAP DB:
– fizičke veličine skupa podataka sa kojima može
raditi,
– broja dimenzija koje još obezbeđuju dobre
performanse,
– za svaku analizu, potrebno je prvo učitati podatke u
v-D strukture, što zahteva razne, relativno duge
proračune za agregaciju i popunu podataka.
• Prednost:
obezbeđuju odlične performanse sistema kada se
radi sa već sračunatim podacima (agregacijama).
• Nedostatak:
teškoća dodavanja novih dimenzija.
17.7.2015
Poslovni informacioni sistemi
60
Arhitektura MOLAP sistema
Podaci iz različitih transakcionih sistema učitavaju se u više-D DB pomoću batch
rutina.
Posle učitavanja podataka do atomskog nivoa, kreiraju se agregacije i DB je
spremna za rad.
Korisnici zadaju svoje zahteve za OLAP izveštajima putem interfejsa.
Transakcioni
sistemi
Višedimenziona
baza podataka
- upiti
- heširanje
- indeksiranje
Sloj baze
podataka
17.7.2015
OLAP interfejs
- tabele
- grafikoni
- drill down
- isecanje
- štampanje
- predviđanja
- traženje
izuzetaka
Sloj aplikacije
Sloj prezentacije
Poslovni informacioni sistemi
61
b. ROLAP - Relacioni OLAP
Transakcioni
sistemi
Skladište
podataka
(RSUBP)
• Pristupaju podacima
direktno iz skladišta
podataka i rade sa
relacionim DB.
• Mogu da rade sa
velikim skupovima
podataka.
• Čim se odredi izvor
- paralelni upiti
podataka, korisnik
- paralelno učitavanje
može započeti analizu.
- paralelno indeksiranje
• Rradi direktno nad DB,
- bit-map indeksiranje
- heširanje
korisniku su uvek na
- veze zvezde
raspolaganju tekući
- deljenje podataka
podaci.
- backup i recovery
• Ne postoje ograničenja
- optimizacija troškova
po pitanju broja
- SMP1i MPP2podrška
dimenzija kao kod
1
symmetric multiprocessing
MOLAP sistema.
2
OLAP
interfejs
Relacioni
OLAP
- transformacije
- dinamička
konsolidacija
- složeno filtriranje
- predviđanja
- obrada izuzetaka
- procesiranje u
pozadini
- podela upita
- raspoređivanje
- upravljanje
tokovima
- agregacije
-
tabele
grafikoni
mape
upozorenja
drill down
isecanje
massively parallel processing
Sloj baze podataka
17.7.2015
Poslovni informacioni sistemi
Sloj aplikacije
Sloj prezentacije
62
Karakteristike ROLAP i MOLAP sistema
• ROLAP i MOLAP:
– omogućavaju više-D analizu
– imaju skoro iste performanse za manje količine podataka
• ROLAP sistemi su optimizovani za dinamički pristup,
• MOLAP sistemi za prikupljanje podataka
• Prednosti ROLAP sistema:
– sumarne tabele su kreirane direktno u RSUBP-u,
– obezbeđuju kratko vreme odziva i veoma čitljive tabele.
• MOLAP sistemi:
– nisu pogodni za rad sa velikim skupom podataka
– manji su, zahtevaju manje U/I operacija za pribavljanje
podataka i brži su od ROLAP sistema
17.7.2015
Poslovni informacioni sistemi
63
c. Hibridni OLAP (HOLAP)
• HOLAP :
– je ROLAP koji može izvršavati složene SQL naredbe
– nije prost zbir MOLAP-a i ROLAP-a.
– može pristupati i relacionim i više-D DB
• Cilj HOLAP sistema je iskoristiti prednosti:
– MOLAP alata - kratko vreme odziva i rad sa više-D DB i
– ROLAP alata - dinamički pristup podacima.
• HOLAP sistemi za potrebe korisnika omogućavaju:
– više-D pogled na podatke–MOLAP i ROLAP alati,
– odlične performanse sistema–MOLAP alati,
– analitička fleksibilnost (za simulacije)–MOLAP alati,
– pristup podacima u realnom vremenu–ROLAP alati,
– veliki kapacitet podataka–ROLAP alati
17.7.2015
Poslovni informacioni sistemi
64
Vendori OLAP-a
17.7.2015
Poslovni informacioni sistemi
http://www.olapreport.com
65
Evaluacija znanja
1.
Koja je svrha oblasti za pripremu podataka kod Data Warehouse-a?
Oblast za pripremu podataka je skup procesa koji čisti, transformiše, kombinuje i
priprema izvorne podatke za korišćenje u DW.
2.
Koja je svrha OLAP-a?
Da obezbedi brz, fleksibilan pristup multi-D podacima za analizu i izveštaje.
3.
Definišite glavne relacione komponente od kojih se gradi OLAP kocka.
Tabela činjenica – Centralna tabela u DW-u koja predstavlja numeričke
podatke u kontekstu kojeg opisuju određeni događaj u poslovanju.
Mere – kvantitativna, numerička kolona u tabeli činjenica; obično
predstavljaju vrednosti koje korisnici analiziraju.
Dimenzija tabele – Tabela u DW-u koja predstavlja jedan poslovni objekat
ili entitet.
17.7.2015
Poslovni informacioni sistemi
66
Uvod u Data mining
Otkrivanje znanja (Knowledge Discovering in
Database)
Definisanje Data mininga
Primene Data mininga
Data mining modeli
Koraci kod izgradnje DM modela
OLAP data mining
17.7.2015
Poslovni informacioni sistemi
67
Data mining - definicija
• Uvođenjem PIS korisnici su dobili samo gomilu podataka.
• Najbolji analitičari teško identifikuju informacije relevantne za
upravljanje poslovanjem.
• Data mining je automatski ili poluautomatski proces koji:
– izvodi značajna pravila ili obrasce iz ogromne količine podataka,
– programski analizira delove podataka i identifikuje veze između
naizgled "nepovezanih podataka“,
– otkriva znanja u DB – KDD (Knowledge Discovery in
Databases),
– omogućuje shvatanje sistema i veza između podataka,
– otkriva oblike i trendove u sadržaju informacije,
– otkriva relacije svakodnevnog komuniciranja sa podacima.
17.7.2015
Poslovni informacioni sistemi
68
Data mining – definicija (1)
• Defiicija:
– proces podrške odlučivanju u kojem se traže šabloni informacija u
podacima
• Osnovna namena:
– iz ogromne količine operativnih podataka i veza
odgovarajuće relacije i obrasce ponašanja i
– od otkrivenih podataka obezbediti potrebne informacije.
definisati
• Osnovni cilj:
– otkrivati skrivene veze, predvidive sekvence i tačne klasifikacije.
• Pretraživanje KDD može vršiti:
– korisnik izvođenjem upita, što je zaista teško, ili
– neki "pametni" program koji automatski pretražuje bazu i nalazi
značajne obrasce podataka,
– informacija se prezentuje na odgovarajući način, sa grafikonima,
izveštajima itd.
17.7.2015
Poslovni informacioni sistemi
69
Primene Data mining tehnika
• Reklamiranje na Internetu:
– klasifikovanje grupa klijenata sa sličnim profilima, za ciljno
reklamiranje,
Primer: prikazivanje banera sa motivima golfa i sl. za muškarce
koji se registruju na web sajtu za prodaju sportske opremu, gde
DBMS prikuplja informacije o klijentu (pol, godine, sport i dr),
Primer: za kupovinu knjiga putem Interneta, sistem preporučuje
“Ukoliko vam se dopada x knjiga, proverite i sledeće ponuđene
knjige”.
• Upravljanje kreditnim rizikom:
– kada korisnik uzima kredit, banka prikuplja informacije prihodi, godine staža, bračni status, kreditna sposobnost itd.
– koriščenjem data mining tehnika, banka može da predvidi da li
je korisnik dobar ili rizičan klijent za davanje kredita.
17.7.2015
Poslovni informacioni sistemi
70
Data mining modeli
•
Nekoliko tehnika data mininga omogućava identifikovanje obrazaca u podacima.
• Modeli Analysis Services SQL Servera su:
Drvo odlučivanja (Decision Trees):
popularan metod za klasifikaciju i predviđanje
koristi serije pitanja i pravila za kategorizaciju podataka
može se predvideti da će izvesni tipovi imati specifične ishode
Primer: osoba između 25-35 g. sa zaradom 60.000€/g, najverovatnije će podići
kredit za stan pre nego neko od 15-24 g. Na osnovu ovakvih podataka i dr.
istorijskih činjenica, algoritam drveta odlučivanja će izračunati izglede da nekoj
osobi trebaju neke određene usluge.
Pravila asocijacije (Association Rules):
algoritam pomaže u identifikovanju relacija između različitih elemenata
grupiše po sličnosti, artikale koji se najčešće zajedno događaju u jednoj
transakciji.
Primer: koristi se kod unakrsne prodaje gde se beleže veze između artikala i
predviđa za koji proizvod će biti još zainteresovanih. Algoritam može da radi sa
enormno velikim katalozima. Testiran je na pola miliona artikala.
17.7.2015
Poslovni informacioni sistemi
71
Data mining modeli (1)
Naive Bayes:
algoritam jasno pokazuje različitosti u određenim promenljivim kod
različitih elemenata podataka.
Primer: dohodak jednog domaćinstva se razlikuje za klijente u DB i može da
posluži kao promenljiva, predskazatelj za buduće kupovine.
Sequence Clustering:
tehnika omogućava grupisanje zapisa podataka, sličnih na osnovu
sekvenci prethodnih događaja
algoritam grupiše klijente prema redosledu otvaranja web stranica i
pomže u analizi profitabilnosti putanja
može se koristiti u predviđanju koju će sledeću stranicu korisnik posetiti
Primer: mogu se segmentirati grupe klijenata sa sličnim karakteristikama.
Vremenske serije (Time Series):
algoritam se koristi za analizu i prognozu vremenski zasnovanih
podataka (prodaje su najčešće analiziran i prognoziran podatak)
traži šablone iz više serija podataka tako da PS može da odredi kako
različiti elementi utiču na analiziranu seriju.
Data mining modeli (2)
Neuronske mreže (Neural Nets):
računar kao i čovek može da uči na osnovu iskustva
NN modeluju neuronske veze u ljudskom mozgu i na taj način
simuliraju učenje.
ako su poznate ulazne i izlazne činjenice sastavljenih podataka, računar
može da iz tih obrazaca nauči i postavi matematička pravila za
izračunavanje ili predviđanje izlazne vrednosti sastavljenih podataka
Primer: na prodajnu cenu kola utiču godine, stanje, proizvođač, model itd.
Analizirajući cene kola, NN mogu kreirati seriju ulaznih i izlaznih faktora kako
bi predvideli cenu prodaje.
Text Mining:
algoritam analizira nestruktuirane tekstualne podatke.
Primer: kompanije mogu da analiziraju nestruktuirani podatak kao što je deo
za komentare gde klijenti unose svoje utiske, zadovoljstvo i dr.
Memorijsko zasnovano prosuđivanje-MBR (Memory-based
reasoning) :
tehnika data mininga koja se koristi za predviđanje i klasifikaciju
Primer: ukoliko pacijent ima nekoliko simptoma, doktor će na osnovu
iskustva sa sličnim pacijentima dati dijagnozu, koristeći oblik MBR-a.
17.7.2015
Poslovni informacioni sistemi
73
Algoritmi Data Mining-a
Decision
Clustering
Trees Introduced in SQL Server 2000
Sequence
Clustering
17.7.2015
Association
Time Series
Neural Net
Poslovni informacioni sistemi
Linear Regression
Naïve
Bayes
Logistic
Regression
74
Text Mining
Uvodni primer
• Koji je ključni atribut za predviđanje
da li će svršeni srednjoškolci upisati
fakultet ili ne?
• Postavljana su im sledeća pitanja:
– Kog su pola?
– Koliki je prihod roditelja?
– Koliki im je IQ?
– Da li ih roditelji podstiču da
nastave studiranje ili ne?
– Da li planiraju da upišu fakultet?
• Da
bi
na osnovu prikupljenih
podataka utvrdili koliko studenata će
nastaviti školovanje, potrebno je
postaviti upit koji je broj studenata
koji:
– žele nastaviti školovanje i koji
– ne žele da nastave školovanje.
17.7.2015
Poslovni informacioni sistemi
75
Uvodni primer (1)
• Treba odrediti koji atributi/kombinacija atributa
imaju
najveći
uticaj
na
predviđanje
verovatnoće koji student će upisati fakultet.
• Ovaj složeniji upit zahteva korišćenje data
mining tehnika.
• Primenjujući algoritam drveta odlučivanja
otkrivene su sledeće relacije:
– najuticajniji atribut za upis na fakultet je
podsticaj roditelja
– od studenata koje roditelji podstiču da upišu
fakultet, >60 % planira da upiše fakultet i
– od ovih većina je sa visokim IQ.
17.7.2015
Poslovni informacioni sistemi
76
Drvo odlučivanja
Svi studenti
Upisaće fakultet:
33% Da
67% Ne
Podsticaj
od strane roditelja ?
Podsticaj roditelja = Da
Upisaće fakultet:
Upisaće fakultet:
57% Da
43% Ne
6% Da
94% Ne
Visok IQ
Upisaće fakultet:
IQ
Visok IQ
Nizak IQ
Upisaće fakultet: Upisaće fakultet:
74% Da
26% Ne
17.7.2015
Podsticaj roditelja = Ne
29% Da
71% Ne
IQ
18% Da
82% Ne
Nizak IQ
Srednji IQ
Upisaće fakultet:
Poslovni informacioni sistemi
9% Da
91% Ne
Upisaće fakultet:
4% Da
96% Ne
77
Proces izgradnje DM modela
Koraci:
1. Izbor tehnike data mininga
2. Identifikovanje slučaja (case)
3. Izbor entiteta koji treba da se predvidi
4. Identifikovanje podataka za analizu
5. Opciono kreiranje dimenzije i virtuelne kocke
iz rezultujućeg modela
6. Obrada modela i prikupljanje rezultata.
17.7.2015
Poslovni informacioni sistemi
78
Metodologija kreiranja Data Mining modela
Za kreiranje modela mora se prikupiti skup podatka, sa unapred poznatim
atributima, koji treba da se predvide.
Podaci
Mining model
Podaci za
predviđanje
Podaci se ubacuju u DM
model koji ih analizira i traži
pravila i obrasce za
predviđanje.
Podaci koji se analiziraju su
obično:
istorijski podaci
statistički predstavnik
slučajeva za koje se gradi
model.
DM
Engine
Mining model
17.7.2015
DM
Engine
Predviđeni podaci
Poslovni informacioni sistemi
Slučaj je element koji se
koristi za klasifikaciju i
grupisanje podataka.
DM engine procenjuje
slučajeve i kreira model koji se
zasniva na izabranom
algoritmu.
79
Integracija DM sa DW
• Integracija DM i DW savremeni koncept–iz više razloga:
1. DM alati zahtevaju "prečišćene" i integrisane podatke:
– Klasični DM alati iz tih razloga prvo izvrše transfer podataka
(možda i stotine GB) putem mreže.
– Nakon toga često se javlja potreba za novim podacima, što
znači da se ceo proces transfera mora ponoviti, a neprestano se
mora voditi računa o zaštiti podataka i greškama prenosa.
2. Integracija DM alata sa DW poboljšava korisnički interfejs:
– Stariji DM alati su zahtevali više stručnjaka da bi se postigli
zadovoljavajući rezultati.
– Danas, svaki poznavalac SQL jezika može koristiti
mogućnosti data mininga.
3. DW obezbeđuje performanse i proširivanja sistema:
– Ovo je potrebno za DM alate.
17.7.2015
Poslovni informacioni sistemi
80
Tradicionalni i integrisani prilaz
Integracija se može ostvari kreiranjem modela koji se u DB predstavljaju tabelama.
Ovim modelima može se pristupati upotrebom SQL naredbi.
Nakon kreiranja tabela, u njih treba smestiti podatke koje će DM alati pretraživati.
Obradom podataka, DM alati kreiraju nove tabele u kojie smeštaju rezultate
Ove se tabele mogu pregledati kao i sve ostale tabele (korišćenjem SQL naredbi).
server strana
izvori
podataka
skladište podataka i
data mining alati
ODBC
mreža
SQL
ograničeni i
specijalizovani
alati
ODBC
data mining
alati
klijent strana
bilo koji alat
nestandardni
interfejsi
b) integrisani prilaz
a) tradicionalni prilaz
17.7.2015
Poslovni informacioni sistemi
81
OLAP Data mining
• OLAP i data mining treba posmatrati kao potpuno
integrisane procese.
• Komponente OLAP data mininga su:
– relaciona DB koja sadrži granularne podatke (ne
mora biti DW),
– OLAP koji obezbeđuje brz pristup sumarnim
podacima između više dimenzija,
– višedimenzioni proces otkrivanja koji će vršiti
otkrivanje između dimenzija i spajati rezultate.
• Bez upotrebe OLAP data mininga, mogu se izostaviti
ključne informacije, ili se mogu dobiti netačni rezultati.
17.7.2015
Poslovni informacioni sistemi
82
Proces izgradnja Data Mining
modela sa OLAP podacima
• Uvod u scenario Članske kartice
• Izbor Data Mining tehnike
• Izbor slučaja (case)
• Selekcija entiteta za predviđanje
• Selekcija podataka za analizu (training
data)
• Kreiranje dimenzije i virtuelne kocke
• Ispitivanje Data Mining modela
17.7.2015
Poslovni informacioni sistemi
83
Uvod u scenario Članske kartice
• Direktor marketinga banke želi da oceni trenutni program članskih
kartica.
• Da bi zadržao postojeće klijente i ispunio njihova očekivanja, treba
da identifikuje mogućnosti kako bi povećao nivo usluga kod svih
kartica: zlatna, srebrna, bronzana i obična.
• Raspoložive informacije od klijenata su pol, bračni status,
godišnji prihodi, nivo obrazovanja.
• Za predviđanje faktora koji utiču na izbor odgovarajuće kartice
koristi se:
– DM tehnika drveta odlučivanja za otkrivanje obrazca za izbor članske
kartice.
– izbor Klijenata kao dimenzija slučaja (case dimension).
– izbor Članske karte kao informacije koju će koristiti algoritam DM da bi
identifikovao obrasce.
– korišćenje raspoloživih informacija o klijentima za otkrivanje obrasca i
– ispitivanje drveta odlučivanja.
17.7.2015
Poslovni informacioni sistemi
84
Izbor tehnike Data Mininga
17.7.2015
Poslovni informacioni sistemi
85
Izbor slučaja (case)
17.7.2015
Poslovni informacioni sistemi
86
Selektovanje entiteta za predviđanje
17.7.2015
Poslovni informacioni sistemi
87
Selektovanje podataka za analizu (training data)
17.7.2015
Poslovni informacioni sistemi
88
Kreiranje dimenzije i virtuelne kocke
Ukoliko želite na interaktivan ad-hoc način da isptujete drvo odlučivanja onda
možete da uključite opciju kreiranja nove dimenzije i uključivanje iste u virtuelnu
kocku..
17.7.2015
Poslovni informacioni sistemi
89
Ispitivanje Data Mining modela
Content Navigator – kompletan
pogled DM modela; koristi se
i za navigaciju kroz drvo
odlučivanja i menjanja sadržaja
u Content Detail.
Content Detail – fokus
DM modela
Atributi – Predstavlja numeričke
ili grafičke prezentacije
entiteta za predviđanje
za trenutno izabrani čvor.
Node Path
17.7.2015
Poslovni informacioni sistemi
90
Ispitivanje zavisnosti mreže
17.7.2015
Poslovni informacioni sistemi
91