WAN – Tehnologije za povezivanje lokalnih mreža

Download Report

Transcript WAN – Tehnologije za povezivanje lokalnih mreža

INTELIGENTNI POSLOVNI SISTEMI
SAVREMENE INFORMACIONO KOMUNIKACIONE TEHNOLOGIJE
MASTER STUDIJSKI PROGRAM
Doc. dr Angelina Njeguš
Doc. dr Angelina Njeguš
Beograd, 2007/2008.
Uvod u
Data Warehousing i OLAP





OLTP sistemi
Data Warehousing
Razvoj skladišta podataka
Arhitektura dimenzionog modela
OLAP sistemi
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Pregled sadržaja
• Uvod u Data Warehousing
Razumevanje data warehouse sistema je veoma bitno kada se
projektuju i implementiraju sistemi za podršku odlučivanju.
• Projektovanje Data Warehouse
Pre nego što se kreira OLAP baza podataka, neophodno je razumeti
komponente data warehouse-a koje se koriste pri izgradnji OLAP baze
podataka.
• Definisanje OLAP rešenja
OLAP tehnologija predstavlja jednu alternativu tehnologiji relacione
baze podataka. OLAP nudi brzi i fleksibilan pregled podataka, analizu i
navigaciju.
• Razumevanje OLAP modela i primena OLAP kocke
Kako primeniti koncepte projektovanja Data Warehouse-a da bi se
projektovali i kreirali OLAP modeli.
Opisuju se osnove OLAP kocke demonstriranjem metoda za
vizuelizaciju multidimenzionalnih baza podataka.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Uvod u skladište podataka
• Pravljenje skladišta podataka odnosi se na jednu granu predmeta
opšteg poslovanja koji se naziva podrškom odlučivanju
• Osnovna namena Sistema za podršku odlučivanju (SPO) je da se
pribave informacije za one koji u organizaciji donose odluke –
informacije unapređuju njihovo znanje i tako im pomažu da donesu
odluke
• SPO su uglavnom:
Usmereni na slabije struktuirane i nedefinisane probleme
Lako se interaktivno koriste
Fleksibilni su i prilagodljivi u odnosu na promene u okruženju i na
pristup donošenju odluka korisnika
• Valjana arhitektura okruženja sistema za podršku odlučivanju treba
da uključe trojstvo: Data Warehouse, OLAP i Data mining-a.
Inteligentni poslovni sistemi
Doc. dr Angelina Njeguš
Sirovi podaci vs. poslovne informacije
•
Kompanija svakodnevno prikuplja velike količine podataka. Ti podaci su često sirove
činjenice koje odražavaju tekuće stanje poslovanja.
•
Sirov podatak:
Maloprodajni lanac prodavnica internacionalne muzičke kuće prikuplja podatke o
prodaji za svaki kupljeni proizvod, podatke o obrtu kapitala i dr. Sirov podatak
opisuje na primer, da lanac prodavnica u Beogradu prodaje 10000 evra vrednosti
prodate robe u Junu 2003.
Finansijska institucija prikuplja podatke o svim računima i ušteđevinama
klijenata. Sirov podatak na primer, može pokazati da je Sefan M. podigao 50
evra sa svog računa jutros u Amsterdamu.
•
Izvedene informacije:
S obzirom da je vrednost prodate robe u 2002. godini iznosio 15.000 evra, a
postavljen cilj za 2003. godinu je bio 20.000 evra, očigledno je da lanac
prodavnica u Beogradu nije ispunio željeni cilj. Analiza poslovanja treba da
odredi posledice pada prodaje. Pitanja koja se postavljaju su: Koji se proizvodi
prodaju, a koji ne?, Koji je efekat promocije proizvoda?.
Stefan živi u Beogradu, ali u proteklih pet meseci, Stefan je podizao novac u
Londonu, Oslo-u, Stockolm-u, što dovodi do zaključka da on često putuje po
Evropi. S toga bi možda on bio zainteresovan za specijalnu kreditnu karticu koji
mu omogućava neograničen pristup svom računu u 16 različitih zemalja uz
odgovarajuću godišnju članarinu. Pitanja koja se postavljaju nakon ove analize
su: Koji je prosečan dnevni bilans njegovog računa?, Za koje proizvode bi bio
zainteresovan?
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
OLTP sistemi
• OLTP (on-line transaction processing) sistemi su operacioni
sistemi koji prikupljaju poslovne transakcije i snabdevaju
podacima data warehouse ili data mart.
• Primeri OLTP operacionih sistema: aplikacije praćenja
porudžbina, aplikacije usluga klijenata (npr., otvaranje računa
klijentima), bankarske funkcije (npr, depoziti) itd.
• Jedna od karakteristika koja razdvaja transakcione sisteme od
analitičkih jeste dizajn baze podataka:
Transakcioni sistemi su dizajnirani tako da preuzimaju podatke,
vrše izmene nad postojećim podacima, daju izveštaje, održavaju
integritet podataka i upravljaju transakcijama što je brže moguće.
Analitički sistemi nisu predviđeni da obavljaju ove poslove. Oni se
dizajniraju za veliki broj podataka namenjenih samo za čitanje,
obezbeđujući informacije koje se koriste za donošenje odluka.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Data Warehousing (DW)
•
Skladište podataka (Data Warehouse – DW) je analitička baza podataka namenjena
samo za čitanje i koristi se kao osnova sistema za podršku odlučivanju.
•
Skladištenje podataka - DW je proces integracije podataka u jedan repozitorijum
iz kojeg krajnji korisnici mogu sprovoditi ad-hock analize podataka i praviti izveštaje.
•
Karakteristike DW:
•
Warehousing koncept je skladištenje agregiranih, ekstrahovanih i filtriranih
podataka u meta baze, koje omogućavaju slojevit, multidimenzionalni pristup
podacima, kakav je potreban za donošenje odluka najvišeg strateškog nivoa.
•
Skladište podataka je informaciona baza podataka dizajnirana za podršku jedne ili
više klasa analitičkih zadataka, kao što su nadgledanje i izveštavanje, analiza i
dijagnoza i simulacija i planiranje.
Organizacija. Podaci su organizovani po predmetu i sadrže relevantne informacije za podršku
odlučivanju.
Konzistentnost. Podaci u različitim operacionim bazama podataka se drugačije šifriraju. U DW ti
podaci će biti šifrovani na konzistentan način.
Vremenski. Podaci se čuvaju mnogo godina kako bi se iskoristili za praćenje trendova, prognoze
i vremensko poređenje.
Multidimenzionalni. Obično data warehouse koristi multidimenzionalnu strukturu.
Web-zasnovani. Danas je DW dizajniran tako da obezbedi jedno efikasno okruženje za web
zasnovane aplikacije.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Komponente DW sistema
•
DW sistem sadrži mnoge komponente koje prenose podatke sa izvornih
sistema do korisnika koji izvršavaju analizu podataka:
Izvori podataka – Izvorni sistemi su operacioni sistemi, npr. OLTP sistemi koji
mogu biti relacioni.
Oblast za pripremu podataka – skup procesa koji čisti, transformiše, povezuje
i priprema izvorne podatke za korišćenje u DW. Podaci se transformišu u
konzistente formate. Oblast za pripremu podataka se nalazi na jednom ili
nekoliko računara, ne mora da bude zasnovana na relacionoj tehnologiji, ne
podržava korisničke izveštaje.
Data Mart – je podskup DW koji sadrži podatke specifične za određenu
poslovnu aktivnost kao što su finansije ili analiza klijenata. Data martovi mogu
biti uključeni u DW, mogu se izgraditi u relacionim ili OLAP bazama podataka.
Data Warehouse – može se definisati i kao virtuelna unija data mart-ova sa
integrisanim informacijama koje su deljive kroz data mart-ove ili kao
centralizovano, integrisano skladište podataka koje obezbeđuje podatke data
mart-ovima.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Komponente DW sistema
Data Warehouse
Izvori
podataka
Oblast za
pripremu podataka
Ulazni podaci
Pristup podacima
Data Mart-ovi
Korisnički
pristup podacima
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Razvoj skladišta podataka
•
Pri izgradnji skladišta podataka najbitniji su sami podaci, a ne
poslovni procesi i funkcije, kao što je to slučaj sa transakcionim
sistemima.
•
Za razvoj skladišta podataka potrebno je:
1.
izvršiti analizu izvora podataka,
2.
pripremiti podatake,
3.
izgraditi skladište podataka.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Razvoj skladišta podataka
Pripremanje
podataka
Analiza izvora podataka
Izgradnja
DW
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
1. Analiza izvora podataka
• Osnovni izvori podataka za koncept skladišta podataka su
operativni (transakcioni), tzv. OLTP (On-Line Transaction
Processing) podaci, kao i spoljne informacije nastale kao istorija
poslovanja ili industrijski i demografski podaci uzeti iz velikih
javnih baza podataka.
• Analiza izvornih podataka se smatra ključnim elementom i
oduzima 80% vremena, jer je potrebno definisati odgovarajuća
pravila za preuzimanje podataka iz izvornih podataka. Znanja
vezana za ovu oblast su najčešće u glavama onih koji treba da
koriste skladište podataka.
• Analiza izvora podataka prolazi kroz sledeće faze:
1.1. Prikupljanje zahteva,
1.2. Planiranje skladišta podataka,
1.3. Izbor tehnike analize podataka.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
1.1. Prikupljanje zahteva
•
U ovoj fazi razvoja skladišta podataka, razmatraju se poslovne potrebe i
zahtevi budućih korisnika sistema.
Prikupljanje izvornih (source-driven) zahteva
•
Metoda bazirana na definisanju zahteva korišćenjem izvornih podataka u
proizvodno-operativnim sistemima. Ovo se radi analiziranjem ER-modela
izvornih podataka.
•
Glavna prednost:
•
Nedostaci:
podržavanje svih podataka,
svođenje na minimum vreme potrebno korisniku u ranim fazama (stanjima)
projekta.
umanjivanjem korisnikovog učešća povećava se rizik od promašaja ispunjenja
zahteva korisnika,
oduzima dosta vremena.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
1.1. Prikupljanje zahteva
(nastavak)
Prikupljanje korisničkih (User-Driven) zahteva
•
Prikupljanje korisničkih zahteva je metoda koja se bazira na definisanju
zahteva istraživanjem funkcija kojima korisnik teži, odnosno koje korisnik
izvršava. Ovo se obično postiže kroz seriju sastanaka i/ili intervjua sa
korisnikom.
•
Glavna prednost ovog pristupa je što se koncentriše na ono što je potrebno,
a ne na ono što je dostupno.
•
Ovaj pristup proizvodi
vremenskom periodu.
•
Postupak prikupljanja zahteva:
upotrebljivo
skladište
podataka
u
kraćem
Intervjuisanje ključnih ljudi u organizaciji, npr: analitičari, menadžeri i izvršioci.
Utvrditi protok informacija u i iz svakog odelenja (koji izveštaji i dokumentacija
pristižu u odelenje, kako se koriste, ko ih koristi, koliko često pristižu itd.)
Dobijene podatke organizovati u nekoliko sekcija, kao što su:
• Podaci o analizi (podaci o svim vrstama analiza koje se trentuno koriste) i
• Zahtevi vezani za podatke (opis svih polja podataka koja se koriste, nivo detalja, izvori).
Organizovane podatke proslediti svim učesnicima intervjua radi mišljenja i
eventualnih korekcija.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
1.2. Planiranje skladišta podataka
 Planiranje skladišta podataka sastoji se od sledećih zadataka:
• Definisanje obima projekta,
• Kreiranje projektnog plana,
• Definisanje tehničkih uslova,
• Definisanje resursa, zadataka i vremenskih rokova.
 Pre početka razvoja projekta treba da se razmotri arhitektura i infrastruktura skladišta
podataka:
 Tehnička infrastruktura – podrazumeva razne tehnologije, platforme, baze
podataka i ostale komponente koje podržavaju izabranu arhitekturu skladišta
podataka. Tehnička infrastruktura uključuje i izbor instalacije baze podataka,
podešavanje mrežnog okruženja, kao i izbor i instalaciju alata za rad sa bazom
podataka.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
1.3. Izbor tehnike analize podataka
 Skladište podataka se gradi da bi se obezbedio lako pristupačan izvor podataka
visokog kvaliteta.
 Postoji nekoliko tehnika analize podataka:
a. Upiti i izveštaji,
b. Višedimenzionalne analize i
c. Data mining.
a. Upiti i izveštaji - Tehnike analize podataka mogu uticati na tip odabranog
modela podataka i njegov sadržaj. Na primer, ako je namera da se obezbedi
jednostavna mogućnost upita i izveštaja, model podataka koji struktuira podatke
na normalizovani način verovatno će obezbediti najbrži i nalakši pristup
podacima. Mogućnost upita i izveštavanja se primarno sastoji od biranja
povezanih elemenata podataka, eventualnog njihovog sumiranja i grupisanja u
neku kategoriju i prezentovanja rezultata.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
b. Višedimenzionalna analiza
•
Višedimezionalna analiza - je način da se prošire mogućnosti upita i
izveštaja. Ovo znači da se umesto izvršavanja višestrukih upita podaci
struktuiraju da bi se omogućio brz i lak pristup odgovorima na pitanja koja
se tipično postavljaju.
Na primer, interesuje vas koliko je određenih proizvoda prodato određenog dana,
u određenoj prodavnici i u određenom rasponu cena. Onda za dalju analizu želite
da znate koliko prodavnica je prodalo određeni proizvod, u određenom rasponu
cena, određenog dana. Ova dva pitanja zahtevaju slične informacije, ali jedna
posmatrane iz ugla proizvoda, a druga iz ugla prodavnice.
•
Višedimenzionalna analiza zahteva model podataka koji će omogućiti da se
podaci lako i brzo mogu pogledati iz bilo koje moguće perspektive ili
dimenzije.
•
Pošto se koristi više dimenzija, model mora da obezbedi način da se
podacima brzo pristupa (ako se koriste visoko normalizovane strukture
podataka, biće potrebno mnogo grupisanja između tabela koje sadrže
različite dimenzije podataka i mogu značajno uticati na performanse).
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
c. Tehnika analize podataka – Data mining
•
Data mining je relativno nova tehnika analize podataka.
•
Tehnika otkrivanja - Veoma je različita od upita i izveštaja, kao i od
višedimenzionalnih analiza, po tome što koristi tehniku otkrivanja. Ovo
znači da ne pitate određeno pitanje već koristite određene algoritme koji
analiziraju podatke i izveštavaju šta su otkrili.
•
Za razliku od upita, izveštaja i višedimenzionalnih analiza, gde je korisnik
morao da kreira i izvršava upite zasnovane na hipotezama, data mining
traži odgovore na pitanja koja ne moraju biti prethodno postavljana.
•
Otkrivanje može imati formu pronalaženja značaja u vezama između
određenih elemenata podataka, klasterisanja određenih elemenata
podataka ili neki drugi obrazac u korišćenju određenih skupova elemenata
podataka. Nakon iznalaženja ovih obrazaca, algoritmi mogu da iz njih
izvedu pravila. Ova pravila tada mogu biti korišćena da se generiše model
koji ima željeno ponašanje, identifikuje veze među podacima, otkriva
obrasce i grupiše klastere zapisa sa sličnim atributima.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
2. Priprema podataka
• U procesu razvoja skladišta podataka priprema podataka je jedna
od najbitnijih aktivnosti. Dalji proces razvoja skladišta podataka
biće uspešan samo ako je ova aktivnost uspešno završena.
• ETL (Ekstrakcija/Transformacija/Punjenje) je najkoplikovaniji
proces u čitavom projektu. Izvori podataka se nalaze na različitim
platformama, koje su upravljane različitim operativnim sistemima
i aplikacijama. Svrha ETL procesa je da spoji podatke iz
heterogenih platformi u standardni format (slika).
• ETL proces počinje sa preformatiranjem podataka koji treba da
unificira formate podatka sa različitih izvora. U drugom koraku se
rešava problem konzistentnosti koji se javlja usled redundantnosti
podataka. Na kraju se pristupa čišćenju onih podataka koji
narušavaju poslovna pravila.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Heterogeni izvori podataka
DB2
Oracle
Sybase
SQL Server
Informix
DB2
MS Access
Fox Pro
MS Excel
ETL
BI baza podataka
DB2
VSAM
IMS
CA-IDMS
NCR-Teradata
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Tipični problemi izvora podataka
• nekonzistentnost
primarnih ključeva –
često se primarni
ključevi izvornih zapisa
podataka ne poklapaju.
• Na primer, može
postojati pet fajlova o
klijentima, gde svaki od
njih ima različiti atribut
kao primarni ključ
klijenta. Ovi različiti
ključevi klijenata se
moraju konsolidovati ili
transformisati u jedan
standardizovani ključ
klijenta (Slika).
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Tipični problemi izvora podataka
• nekonzistentnost vrednosti podataka – mnoge organizacije
dupliciraju svoje podatke. Termin dupliciranje se odnosi na elemente
podataka koji su kopija originalnog podatka. Tokom vremena, usled
anomalija ažuriranja, ovi duplicirani podaci imaju totalno različite
vrednosti.
• različiti formati podataka – elementi podataka kao što su datumi i
novčani podaci (currencies) mogu biti uskladišteni u totalno
različitim formatima.
• netačne vrednosti podataka – da bi se korigovale netačne
vrednosti podataka, mora se definisati logičko čišćenje. ETL
algoritmi čišćenja podataka treba da se aktiviraju svaki put kada se
podatak puni. Stoga, programi transformacije ne smeju biti pisani na
brzinu, već se moraju razviti na jedan struktuiran način.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Tipični problemi izvora podataka
• sinonimi i homonimi – redundantne podatke nije uvek lako
prepoznati usled toga što isti elementi podataka imaju različite
nazive. S obzirom da sinonimi i homonimi[1] ne smeju postojati u
okruženju, neophodno je preimenovati date elemente podataka.
• ugrađena logika procesa – neki operacioni sistemi su ekstremno
stari. Oni često sadrže nedokumentovane i arhaične relacije između
pojedinih elemenata podataka. Takođe, obično koriste i neke kodove,
kao na primer, vrednost „00“ podrazumeva da je pošiljka vraćena,
dok „FF“ znači da je prosleđena na kraju meseca. Specifikacije
procesa transformacije moraju da reflektuju ovu logiku.
[1] Homonimi (homonym) su reči koje se isto pišu i izgovaraju, ali imaju različita
značenja (čest slučaj u engleskom jeziku).
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
ETL proces
•
Generalno, prvi zadatak je proces konverzije sistema gde se mapiraju
najpogodniji elementi podataka u ciljne fajlove ili baze podataka. Kada se
kaže „najpogodniji elementi podataka“ misli se na one podatke koji su
najsličniji po imenu, definiciji, veličini, dužini i funkcionalnosti.
•
Drugi zadatak je pisanje programa konverzije (transformacije) kako bi se
transformisali izvorni podaci.
•
Ovi programi moraju da reše probleme dupliciranih zapisa, prilagođavanja
primarnih ključeva i odsecanja ili povećavanja veličine elemenata
podataka. Ono što uglavnom nedostaje ETL programima su čišćenje i
usklađivanje podataka, na koje treba obratiti pažnju kod projektovanja
procesa punjenja.
•
Kod procesa punjenja istorijskih podataka koji su obično statični, treba
obratiti pažnju na one podatke koji nisu više u upotrebi i novih podataka
koji se dodaju tokom godina.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
2.1. Ekstrakcija podataka
• Programi ekstrakcije podataka treba da vrše sortiranje,
filtriranje, čišćenje i da agregiraju sve zahtevane podatke.
• Programi ekstrakcije moraju da prepoznaju koji od redundantnih
izvornih fajlova ili baza podataka su zapisi sistema.
• Na primer, isti izvorni element podatka kao što je Naziv klijenta
može da postoji u nekoliko izvornih fajlova i baza podataka. Ova
redundantnost treba da se sortira i konsoliduje, što uključuje
korake sortiranja i spajanja, preko određenih ključeva i vrednosti
podataka.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Ekstrakcija i čišćenje podataka
• Ova faza se sastoji od sledećih zadataka:
a. razvoj procedura za ekstrakciju podataka,
b. razvoj procedura za čišćenje podataka.
a. Razvoj procedura za ekstrakciju podataka
Podaci koji će se koristiti u skladištu podataka moraju se ekstrahovati
iz transakcionih sistema (baza podataka u okviru nekog sistema) koji
sadrže te podatke.
Podaci se inicijalno ekstrahuju u procesu kreiranja skladišta podataka,
a kasnije se na osnovu određnih procedura vrši dodavanje novih
podataka u skladište podataka.
Ekstrakcija podataka je vrlo jednostavna operacija, ako se potrebni
podaci nalaze u jednoj relacionoj bazi, ali može da bude i veoma
kompleksna operacija, ako su podaci smešteni u višestrukim
heterogenim transakcionim sistemima. Cilj procesa ekstrakcije
podataka je da sve potrebne podatke, u pogodnom i konzistentnom
formatu, pripremi za učitavanje u skladište podataka.
Inteligentni poslovni sistemi
Doc. dr Angelina Njeguš
b. Razvoj procedura za čišćenje podataka
•
Zbog problema koji se prilikom ekstrakcije podataka javljaju, podaci
dobijeni ekstrakcijom se moraju "čistiti". Čišćenje podataka podrazumeva:
proveru postojanja logičkih grešaka, "poboljšanje" podataka i eliminisanje
ostalih grešaka.
Provera logičkih grešaka uključuje proveru vrednosti atributa usled
različitog označavanja pojmova, proveru atributa u kontekstu ostalih
podataka u redu, proveru atributa u kontekstu redova druge tabele
koja je povezana, proveru veza između redova iste ili povezanih tabela
(provera prenesenih ključeva).
"Poboljšanje" podataka je proces čišćenja kojim se teži da podaci
dobiju puno značenje. Primer za ovo su podaci o imenima i adresama.
Eliminisanje ostalih grešaka je proces u kome se odlučuje o sudbini
podataka koji su nepotpuni ili nemaju veliko značenje. Ovi podaci se
mogu odbaciti, privremeno smestiti i popraviti ili smestiti u skladište
podataka sa tim svojim nesavršenostima.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
2.2. Transformacija podataka
• Koristeći pravilo 80/20, 80% ETL procesa je transformacija
podataka, dok je ostalih 20% ekstrakcija i punjenje.
• Projektovanje programa transformacije je veoma
komplikovano, naročito kada su podaci ekstrakovani iz
heterogenih operativnih okruženja.
• Pored transformisanja izvornih podataka zbog nekompatibilnosti
tipa podataka, dužine ili netačnosti, najveći deo transformacione
logike će uključivati i preračunavanje podataka za
multidimenzionalno skladištenje.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Transformacija podataka
• U ovoj fazi potrebno je:
definisati izvore podataka i tipove transformacija koje treba
izvršiti nad podacima i
ostvariti mapiranje podataka iz izvorišta u odredišta.
• Pre početka procesa transformacije podataka, tim stručnjaka koji
radi na projektu dizajniranja skladišta podataka definiše fizički
model podataka za skladište podataka i generiše šeme.
•
Faza mapiranja i transformacije podataka sastoji se od sledećih zadataka:
a. kreiranje plana transformacije podataka,
b. razvoj procedura za transformaciju podataka,
c. razvoj procedura za učitavanje podataka,
d. testiranje procedura,
e. generisanje meta podataka.
Inteligentni poslovni sistemi
Doc. dr Angelina Njeguš
a. Kreiranje plana transformacije podataka
•
Planom je potrebno odrediti najbolji put migracije izvornih podataka do
skladišta podataka. Analiziraju se raspoloživi resursi, količina izvornih
podataka, različite izvorne šeme, različiti načini pristupanja podacima,
struktura skladišta podataka i potreban broj agregacija. Planom se
dokumentuju sve izvorne platforme, metode pristupa i programski jezik
koji je potreban za ekstrakciju podataka.
•
Prelazne šeme - Obično se izvorni podaci prvo smeštaju u prelazne
šeme. Prelazne šeme su zajednički interfejs za sve izvorne sisteme. One
se ne podudaraju u potpunosti ni sa izvornim ni sa odredišnim šemama.
Koriste se da bi se poboljšali procesi "čišćenja" i transformacije
podataka.
•
Analiza izvora podataka - Nakon kreiranja plana transformacije
podataka, prelazi se na analizu izvora podataka. Potrebno je odrediti
koji će se podaci mapirati u odredišni sistem i koja je to logika potrebna
da bi se izvršila migracija podataka.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
b. Razvoj procedura za transformaciju
podataka
• Pod transformacijom podataka se podrazumeva proces
kojim se usklađuju različiti načini prikazivanja podataka
različitih sistema u jedinstveni oblik.
Na primer, neki sistemi mogu označavati pol ljudi sa 1 za
muški pol i 2 za ženski pol. Ako se u skladištu podataka ovo
označavanje vrši sa M i Z, onda mora postojati proces koji će
transformisati 1 u M i 2 u Z.
• Tipična transformacija podataka uključuje:
prevođenje polja sa više imena u jedno polje,
razbijanje polja sa datumom u posebna polja za godinu,
mesec i dan,
prevođenje polja sa jednom reprezentacijom u drugu
(npr. sa 1 i 0 u DA i NE),
kreiranje i dodavanje ključeva za tabele dimenzija.
Inteligentni poslovni sistemi
Doc. dr Angelina Njeguš
c. Razvoj procedura za učitavanje podataka
•
Procedure za učitavanje podataka treba da izvršavaju sledeće aktivnosti:
Kreiranje formata podataka. Za sve podatke iz starijih sistema moraju se
obezbediti formati pogodni za smeštanje u skladište podataka.
Prenošenje podataka iz starijih sistema u skladište podataka. Vrši se
raspakivanje podataka, njihovo poređenje, kombinovanje i transformacija u oblik
pogodan za skladište podataka.
Kreiranje agregacija (sumiranih podataka). Kreiranje agregacija je postupak
sortiranja podataka po određenim atributima na osnovu kojih se, zatim, vrši
sumiranje. Tako sumirani podaci se smeštaju u skladište podataka.
Kreiranje ključeva za agregacione zapise. Svi zapisi u tabelama, a samim tim
i agregacije, moraju imati ključeve. Ovaj korak se razlikuje od prethodnog jer su
ključevi za agregacione zapise u potpunosti veštački i ne smeju biti identični
primarnim ključevima tabele činjenica. Prema tome, stručni tim mora dizajnirati
aplikaciju koja će generisati takve ključeve.
Obrada neučitanih podataka. Pri procesu smeštanja podataka u skladište
podataka često se dešava da se neki podaci ipak ne učitaju, najčešće zbog
referencijalnog integriteta. Takvi podaci se moraju obraditi u posebnoj aplikaciji,
koja će obezbeđivati referencijalni integritet podataka.
Indeksiranje podataka. Po završenom procesu smeštanja podataka u skladište
podataka, svi indeksi se moraju ažurirati.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
d. Testiranje procedura
•
Da bi se utvrdila ispravnost rada procedura za ekstrakciju i učitavanje
podataka, mora se izvršiti njihovo testiranje.
•
Provera kvaliteta podataka - Testiranje procedura se, najčešće,
ostvaruje proverom kvaliteta podataka, tako što se zadaju upiti nad
skladištem podataka koji prebrojavaju podatke ili ih prikazuju u vidu
grafikona sa kojih se može utvrditi da li su podaci u rasponu koji je
očekivan.
•
Po završenoj transformaciji, postoje svi uslovi da se pristupi generisanju
meta podataka.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
e. Izrada meta baze podataka
•
Meta baza podataka, odnosno rečnika podataka je baza podataka o bazi
podataka.
•
Meta baza podataka čuva sve podatke o podacima mapirajući izvorni u
ciljni sistem i uspostavlja vezu između podataka sa izvora i cilja. Oni
čuvaju informacije o transakcionim podacima, definiciju podataka u ciljnoj
bazi i transformaciono-integracionu logiku.
•
Tek po postavci meta baze podataka može se krenuti dalje u izdvajanje
podataka iz transakcione baze podataka, pa potom sumiranje, sortiranje i
organizovanje pre punjenja DW.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Primer dokumenta mapiranja izvora-ka-cilju
• Na kraju je neophodno
dokumentovati ETL
specifikacije transformacije
pomoću dokumenta
mapiranja izvora-ka-cilju
(source-to-target mapping
document) koji treba da lista
sve tabele i kolone sa
njihovim tipovima i dužinama
podataka (Tabela).
• Takođe, treba prikazati ETL
dijagram toka procesa (ETL
process flow diagram) koji
prikazuje zavisnosti procesa
između ekstrakovanja,
sortiranja i spajanja,
transformacije, privremeno
kreiranih fajlova i tabela,
procesa rukovanja sa
greškama, aktivnosti
usklađivanja
nekonzistentnosti i redosleda
punjenja podataka.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Skladišta meta podataka
• Skladišta meta
podataka mogu biti:
a.
b.
c.
centralizovana –
postoji jedna baza
podataka (relaciona ili
objektno-orijentisana) i
jedna aplikacija za
održavanje.
decentralizovana –
skladište meta podatke
u bazama podataka
koje se nalaze na
različitim lokacijama.
distribuirana – preko
XML rešenja, meta
podaci ostaju na
svojim originalnim
pozicijama, odnosno
na različitim alatima.
DBMS Gateway
Skladište
meta podataka
Skladište
meta podataka
Skladište
meta podataka
a.
Skladište
meta podataka
b.
DBMS
XML Gateway
CASE
alati
ETL alati
OLAP alati
c.
Data
mining alati
Skladište
meta podataka
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
2.3. Punjenje podataka
• Finalni korak kod ETL procesa je punjenje ciljnog skladišta
podataka, koja se postiže na dva načina, i to:
unošejem novih redova u tabele ili
koristeći DBMS-ov alat za punjenje.
• Kod projektovanja programa za punjenje treba obratiti pažnju
na referencijalni integritet i indeksiranje.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
3. Izgradnja skladišta podataka
• Izgradnja skladišta podataka se sastoji od sledećih
zadataka:
a)
b)
c)
d)
e)
f)
denormalizacija podataka,
definisanje hijerarhija,
kreiranje agregacija,
kreiranje fizičkog modela,
generisanje baze podataka,
učitavanje podataka.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
a) Denormalizacija podataka
1.
Prvi korak je identifikacija dimenzija i atributa koja podseća na klasično
projektovanje upotrebom ER modela i zove se dimenziono modeliranje.
Dimenziono modeliranje je tehnika logičkog dizajna čiji je cilj prezentacija
podataka u obliku koji obezbeđuje visoke performanse sistema radi vršenja
analize podataka.
2.
U dimenzionom modeliranju, strukture podataka su tako organizovane da
opisuju mere i dimenzije.
Mere su numerički podaci smešteni u centralnoj, takozvanoj tabeli činjenica
(fakt tabela).
Dimenzije su standardni poslovni parametri koji definišu svaku transakciju.
Osnovu za izradu dimenzionog modela predstavljaju meta podaci, na
osnovu kojih se vrši definisanje hijerarhija, elemenata i atributa,
normalizacija i denormalizacija i definisanje agregacija.
3.
Svaka dimenziona tabela ima svoj primarni ključ, a svi oni učestvuju u
stvaranju primarnog ključa tabele činjenica. Ovakvi modeli se nazivaju
šemama zvezde.
Tabele činjenica sadrže podatke koji su, najčešće, numeričkog tipa i mogu
sadržati veliki broj zapisa.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Primeri dvodimenzionih i trodimenzionih
modela podataka
a) Podaci o prodaji za svaku oblast se nalaze u različitim tabelama
b) Svi podaci smešteni su u trodimenzioni niz
Mesec
Grad
P
r
o
i
z
v
o
d
Mesec
a) Dvodimenzioni model podataka
P
r
o
i
z
v
o
d
b) Trodimenzioni model podataka
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Različiti pogledi na iste podatke
Mesec
P Grad
r
o
i
z
v
o
d
Svi gradovi i meseci
za jedan proizvod
Svi proizvodi i meseci
za jedan grad
Svi proizvodi i gradovi
za jedan mesec
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Primer normalizovane i denormalizovane
reprezentacije podataka
•
Sve dimenzione tabele su denormalizovane, što znači da se isti podaci čuvaju
na više mesta da bi se obezbedila jednostavnost i poboljšale performanse.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Arhitektura dimenzionog modela
•
Kod denormalizovanog modela dimenzije su organizovane u šemu zvezde, a
kod normalizovaog u šemu snežne pahuljice.
•
Postoje situacije u kojima šema zvezde nije pogodna za skladištenje podataka.
Osnovni razlozi za to su:
denormalizovana šema zvezde može zahtevati previše memorijskog kapaciteta,
veoma velike dimenzione tabele mogu uticati na pad performansi sistema.
•
Ovi problemi se mogu rešiti normalizacijom dimenzija, čime se šema zvezde
prevodi u šemu pahulje.
•
Glavni nedostatak šeme pahulje je njena složenost u odnosu na šemu zvezde,
čime se otežava održavanje skladišta podataka. Zato je potrebno vršiti
normalizaciju samo onih dimenzija koje sadrže mnogo redova podataka i koje
imaju mnogo atributa.
•
Najčešće se postižu najbolji rezultati ako se izvrši normalizacija samo par
dimenzija, a da se ostale ostave onakve kakve su i bile. Na taj način se dolazi
do delimične šeme pahulje.
•
Šema galaksije predstavlja kolekciju šema zvezda, tj. ako se ne može kreirati
model koji bi imao samo jednu činjeničnu tabelu, tada je potrebno povezati
dve šeme zvezde da bi se zadovoljile potrebe korisnika.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Šema zvezde, pahulje i galaksije
Šema zvezde
Šema pahulje
Galaksija
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Šema zvezde
•
Fizička arhitektura dimenzionog modela opisana je pomoću šeme zvezde
definisane sa dve vrste tabela – dimenzione tabele (dimension table) i
tabele činjenica (fact table).
Tabela činjenica sadrži kvantitativne podatke o poslovima koji opisuju specifične
događaje u poslovanju, kao što su bankarske transakcije ili prodaja proizvoda, a
koje korisnici analiziraju. Može sadržati i agregirane podatke, kao što je npr.,
mesečna prodaja. Ovi podaci su najčešće numeričkog tipa i mogu se sastojati i od
nekoliko miliona redova i kolona.
Dimenzione tabele su znatno manje i sadrže podatke koji opisuju dati posao, tj.
one podatke po kojima se vrši analiziranje. Ti podaci se nazivaju atributi. Na
primer, kod maloprodaje dimenzione tabele opisuju kako se izračunavaju podaci o
prodaji.
•
Osnovne prednosti šeme zvezde su što omogućava definisanje složenih
višedimenzionih podataka u vidu jednostavnog modela, smanjuje broj
fizičkih veza koje se moraju procesirati pri zadavanju upita, čime se postiže
poboljšanje performansi sistema i omogućava proširenje skladišta podataka
uz relativno jednostavno održavanje.
•
Velika mana šeme zvezde je što se povećava redundantnost podataka.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Jednostavna šema zvezde
•
Svaka tabela mora sadržati primarni ključ čiji sadržaj jedinstveno
identifikuje zapise.
•
Na primeru, primarni ključ tabele činjenica je sastavljen od tri
spoljna ključa. Spoljni ključ je kolona jedne tabele, čija je vrednost
definisana kao primarni ključ druge tabele.
D IMENZI J A1
I Ddim enzije1
At ribut 11
At ribut 12
At ribut 13
C IN JEN IC E
D IMENZI J A2
I Ddim enzije2
At ribut 21
At ribut 22
At ribut 23
I Ddim enzije1 (FK)
I Ddim enzije2 (FK)
I Ddim enzije3 (FK)
Mera1
Mera2
Mera3
D IMENZI J A3
I Ddim enzije3
At ribut 31
At ribut 32
At ribut 33
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Šema zvezde
Zaposleni_Dim
ZaposleniKljuč
ZaposleniID
...
Dimenziona tabela
Vreme_Dim
VremeKljuč
Datum
...
Tabela činjenica
Prodaja_fakti
Proizvod_Dim
ProizvodKljuč
VremeKljuč
ZaposleniKljuč
ProizvodKljuč
KlijentKljuč
ŠpediterKljuč
ProizvodID
...
IznosProdaje
JediniceProdaje ...
Špediter_Dim
Klijent_Dim
ŠpediterKljuč
KlijentKljuč
ŠpediterID
...
KlijentID
...
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Komponente tabele činjenica
Dimenzione
tabele
Tabela činjenica Prodaje
klijent_dim
201 ALFI Alfred
Spoljni ključevi
klijent_ključ
proizvod_dim
25 123 TV
vreme_dim
134 1/1/2000
Mere predstavljaju analizirane
vrednosti, kao što je jedinica
prodaje ili broj zaposlenih. Mere
su numeričke zbog toga da bi se
mogla vršiti izračunavanja.
201
Mere
proizvod_ključ vreme_ključ
25
134
količina_prodaje
iznos_prodaje
400
10,789
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Karakteristike dimenzione tabele
• Dimenziona tabela predstavlja poslovne entitete (npr. Prozvod,
klijent)
• Sadrži atribute koji obezbeđuju kontekst za numeričke podatke
koji su uskladišteni u tabeli činjenica.
• Prikazuje podatke organizovane u hijerarhije – omogućava
korisnicima pregledanje detaljnih i zbirnih podataka. Svaka
dimenziona tabela sadrži jednu ili više hijerarhija.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
b) Definisanje hijerarhija
•
Dimenzione tabele memorišu sledeće elemente:
traženje hijerarhijskih relacija u svakoj dimenziji,
definisanje opisnih atributa svake dimenzije.
•
Dimenzije veoma često mogu biti organizovane u hijerarhiji. Na primer, kod
dimenzije proizvod, mogu postojati tri dimenziona elementa: prozvod, grupa i
vrsta proizvoda. U ovom modelu možemo reći da dimenzioni element
"proizvod" predstavlja najniži hijerarhijski nivo u dimenziji proizvod, dok vrsta
proizvoda predstavlja najviši nivo.
•
Posmatranje podataka iz različitih, ali blisko povezanih perspektiva omogućava
da korisnik analizira podatke na različitim nivoima detalja.
Drill-down - Postupak prelaska sa nivoa sa manjim brojem detalja na nivo sa većim
brojem detalja naziva se spuštanje u dubinu (drill down) i predstavlja zahtev korisnika
da mu se prikaže više detalja. Na primer, pošto se pronađe podatak o prodaji nekog
regiona, spušta se naniže da bi se saznalo kako se prodaja odvija po opštinama.
Geografski podaci vezani za prodaju mogli bi se organizovati u sledeću hijerarhiju:
KONTINENT –> DRŽAVA –> OBLAST –> GRAD
Drill-up - Postupak prelaska sa nivoa sa većim brojem detalja na nivo sa manjim
brojem detalja, na tzv. sumarne podatke, naziva se dizanje naviše (drill up). Na
primer, upit bi mogao prezentovati prodaju u odnosu na neke regione.
Drill across – koristi se za povezivanje dve ili više činjeničnih tabela na istom nivou
hijerarhije.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Šema pahulje
•
Definiše hijerarhiju koristeći višedimenzione tabele - Šema pahulje je
varijacija šeme zvezda u kojoj su hijerarhija dimenzije skladištene u
višedimenzione tabele. Na primer, dimenzija Proizvod je skladištena u tri
tabele: kategorija proizvoda, podkategorija proizvoda i proizvod.
•
Podržana je unutar analitičkih usluga (samo jedna dimenziona tabela se
pridružuje tabeli činjenica, dok su ostale dimenzione tabele povezane sa
spoljnim ključem).
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
c) Kreiranje agregacija
•
Agregacijama se sumiraju detalji podataka i smeštaju u posebne tabele. Na primer,
moguće je kreirati sumarne podatke o prodaji po regionu i oblasti skupljajući ih iz svake
prodavnice, tj. najnižeg nivoa detalja.
•
Glavni razlozi kreiranja agregacija su da se poboljšaju performanse upita, tj. da se smanji
vreme odziva na upit, kao i da se smanji broj resursa potrebnih za izvršenje upita.
Agregacije zasnovane na SQL naredbama
•
Jedan od načina na koji se mogu kreirati agregacije jeste korišćenje SQL naredbi. Iako
ovaj način nije najbolji po pitanju performansi sistema, on je najjednostavniji.
Agregacije koje nisu zasnovane na SQL naredbama
•
U slučaju kreiranja agregacija koje nisu zasnovane na SQL naredbama, potrebno je razviti
specijalizovane programe, što usložnjava procese razvoja i održavanja skladišta
podataka.
•
Na primer, ako se izvrši sortiranje redova podataka po dimenziji Vreme, u tabeli će se
prvo nalaziti redovi podataka koji se odnose na Dan, iza njih će biti redovi podataka koji
se odnose na Nedelju itd. Zatim se na svakom mestu prelaza sa jednog nivoa dimenzije
na drugi (na primer, sa Dana na Nedelju) kreiraju podzbirovi za taj nivo dimenzije. Pri
tome je moguće iskoristiti prednosti paralelnog procesiranja jer su podaci podeljeni po
grupama (jedan proces može računati podzbirove vezane za nivo Dan, a drugi za nivo
Nedelja). Tako dobijene podzbirove treba učitati i izvršiti agregaciju. Time je proces
agregacije podataka završen.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
d) Kreiranje fizičkog modela
• U okviru kreiranja fizičkog modela baze podataka, izvodi se
postupak prevođenja logičkog modela u fizički model prikazan
preko dijagrama entiteta.
• Neposredno pre kreiranja modela treba izabrati sistem za
upravljanje bazama podataka na kome će biti implementirana
baza podataka.
• Generisanje fizičkog modela treba da reši probleme:
Multiplikativnosti - definiše broj instanci jednog entiteta (buduća
tabela u bazi) u relaciji sa jednom instancom drugog entiteta.
Referencijalnog integriteta - zahteva da unesena vrednost
atributa odgovara vrednosti atributa koji je primarni ključ druge
tabele. Referenacijalni integritet se definiše za operacije ubacivanja,
brisanja i ažuriranja.
Kreiranja indeksa - je izvršeno automatski za sve primarne
ključeve u entitetima i za prenesene ključeve u entitetu. Ovo se radi
iz razloga što će se buduća pretraživanja u okviru skladišta
podataka vršiti na osnovu ovih polja.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Fizički model šeme zvezde na primeru
EDIFACT fakture
PredmetPoslovanj a
Vreme
VremeID : Long Integer
D an: Text (15)
Mes ec : Tex t(15)
Godina: Int eger
Predmet Poslov anjaI D : Long I nteger
Vrst aPakov anjaI D: Long Integer
N aziv PredmetaPos lov anja: Tex t (50)
St ariBoroj: Text (50)
Klasif ik ac ioniBroj: Text (20)
N acinPl acanja
Partner
Part nerI D: Long I nt eger
N aziv Part nera: Tex t(50)
Adresa: Tex t(50)
Mes to: Tex t(50)
D rzav a: Text (50)
Telef on: Tex t(50)
Vrst aPakov anjaID : Long Integer
N aziv Vrst ePak ov anja: Tex t(50)
Valuta
N ac inPlacanjaI D: Long I nt eger
N aziv N ac inaPlacanja: Tex t(50)
VrstaPakovanj a
Valut aI D: Long I nt eger
Faktura
Fakt uraI D: Long I nt eger
VremeID: Long I nt eger
Part nerI D: Long Integer
Predmet PoslovanjaID: Long I nt eger
Valut aI D: Long Integer
NacinPlac anjaID: Long I nt eger
Vrst aPrev ozaI D: Long Integer
Kolicina: D ouble
J edinic naC ena: C urrency
I znos: C urrency
N aziv Valut e: Text (50)
OznakaValut e: Tex t(20)
Sif raValut e: Text (20)
VrstaPrevoz a
Vrst aPrev ozaID : Long Integer
N aziv Vrst ePrev oza: Tex t(50)
• Dimenzione tabele mogu sadržati i spoljne ključeve, koji referenciraju primarne ključeve drugih
dimenzionih tabela. Takve tabele se nazivaju sekundarne dimenzione tabele (outrigger tables) (npr.
VrstaPakovanja).
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
e) Generisanje baze podataka
•
Aktivnost generisanja baze podataka vrši se korišćenjem SQL jezika. Naime,
alat u kome je izvršeno kreiranje fizičkog modela (npr. ERWin) omogućava
automatsko generisanje koda preko takozvanih DDL (Data Definition
Language) datoteka.
•
U sledećem koraku se vrši izvršavanje DDL datoteka pomoću Query
Analyzer-a, alata koji je sastavni deo SQL Servera. Ovaj alat omogućava
direktno zadavanje SQL naredbi i njihovo izvršavanje u cilju generisanja
baze podataka.
•
Kada se svi ovi poslovi uspešno urade, baza (skladište) podataka je
generisana.
f) Učitavanje podataka
•
U toku učitavanja se mogu eventalno izvršiti još neke transformacije, mada
bi sa transformacijama podataka trebalo završiti pre učitavanja zbog
problema konzistentnosti baze.
•
Za učitavanje podataka može se koristiti alat MS SQL Server-a DTS (Data
Transformation Services) i njegova procedura učitavanja podataka pomoću
takozvanih DTS paketa.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Pregled procesa razvoja skladišta podataka
Razvoj
skladišta podataka
Analiza
izvora podataka
Prikupljanje
zahteva
Planiranje
skladišta podataka
Izgradnja skladišta
podataka
Pripremanje
podataka
Izbor tehnike
analize podataka
Ekstrakcija i
čišćenje podataka
Transformacija
podataka
Dimenziono
modeliranje
Prikupljanje
izvornih zahteva
Definisanje
obima projekta
Upiti i izveštaji
Razvoj procedura za
ekstrakciju podataka
Kreiranje plana
transformacije podataka
Denormalizacija
podataka
Prikupljanje
Korisničkih zahteva
Kreiranje
projektnog tima
Višedimenzionalne
analize
Razvoj procedura za
čišćenje podataka
Razvoj procedura za
Transformaciju podataka
Definisanje
hijerarhija
Definisanje
tehničkih uslova
Data mining
Razvoj procedura za
učitavanje podataka
Kreiranje
agregacija
Testiranje procedura
Kreiranje
fizičkog modela
Generisanje meta
podataka
Generisanje baze
podataka
Definisanje resursa,
zadataka i vremenskih rokova
Učitavanje
podataka
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
OLAP sistemi
•
OLAP rešenja omogućavaju korisnicima brz i fleksibilan pristup
podacima i predstavljaju nadgradnju skladišta podataka.
•
Interaktivno analitičko procesiranje (On line Analytical Processing –
OLAP) namenjeno je on-line analizama i izveštavanjima.
•
Krajnjem korisniku je neophodno sledeće:
•
U tu svrhu se koriste analitički OLAP sistemi koji obezbeđuju
informacije koje se koriste za analizu problema ili situacija.
•
Analitičko procesiranje se primarno vrši korišćenjem poređenja ili
analiziranjem šablona i trendova. Na primer, analitički sistem bi
mogao da prikaže kako se određena vrsta štampača prodaje u
različitim delovima zemlje. Takođe, mogao bi da prikaže i kako se
jedna vrsta proizvoda trenutno prodaje u odnosu na period kada se
proizvod prvi put pojavio na tržištu.
da može da postavi bilo koje poslovno pitanje,
da bilo koji podatak iz preduzeća koristi za analizu,
mogućnost neograničenog izveštavanja.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
OLAP sistemi
•
OLAP sistemi omogućavaju jednostavnu sintezu, analizu i konsolidaciju
(agregacija podataka po zadatom kriterijumu) podataka.
•
Koriste se za intuitivnu, brzu i fleksibilnu manipulaciju transakcionim
podacima.
•
OLAP sistemi podržavaju kompleksne analize koje sprovode analitičari i
omogućavaju analizu podataka iz različitih perspektiva (poslovnih
dimenzija).
•
OLAP sistemi kao skladišta podataka koriste multidimenzionalnost i
denormalizaciju.
•
Osnovni elementi OLAP sistema su:
baza podataka, koja služi kao osnova za analizu,
OLAP server, za upravljanje i manipulaciju podacima,
interfejs sistem, prema korisniku i prema drugim aplikacijama,
alati za administriranje.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Funkcionalne komponente OLAP
arhitekture
•
OLAP arhitektura se sastoji od tri funkcionalne komponente:
Servisi prezentacije moraju biti laki za korišćenje, fleksibilni i prilagodljivi. Često su to
tabelarni izveštaji, ali se koriste i grafički i dijagramski prikazi. Menii, ikone i funkcije treba da
se konfigurišu u zavisnosti od profila analitičara, njihovih računarskih sposobnosti i veština.
OLAP alati treba da omoguće interaktivno, međupovezano i iterativno postavljanje upita,
izveštavanje i analiziranje.
Servisi baze podataka – u zavisnosti da li je ROLAP, MOLAP ili HOLAP.
Prikazivanje informacija
Postavljanje upita,
izveštavanje, analiziranje
Relaciona, multidimenzionalna
Servisi prezentacije
OLAP servisi
Servisi baza podataka
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
OLAP serveri
•
OLAP pristup mora od hardvera da poseduje poseban računar, tzv. OLAP
server, na koji se povezuju relacione BP, eksterni izvori podataka i ostali
interni podaci, koji su podržani grafičkim interfejsima, radnim tabelama i
ostalim PC alatima.
•
OLAP serveri koriste višedimenzione strukture za čuvanje podataka i veza
između njih.
•
Višedimenzione strukture se najbolje vizuelizuju kao kocke podataka i kao
kocke u kockama podataka. Svaka strana kocke se naziva dimenzijom.
Dimenzija predstavlja kategoriju podataka, kao što su tip proizvoda, region,
vreme itd. Svaka ćelija kocke sadrži agregirane podatke koji su u vezi sa
dimenzijama. Na primer, jedna ćelija može sadržati podatke o ukupnoj
prodaji za dati proizvod i region u toku jednog meseca.
•
OLAP serveri podržavaju tipične analitičke operacije:
konsolidacija – ovom operacijom se vrši agregacija podataka po zadatom
kriterijumu,
drill down/up – ove operacije omogućavaju prikazivanje više ili manje detalja
podataka,
isecanje (slice & dice) – ove operacije obezbeđuju prikazivanje podataka iz različitih
perspektiva, pri čemu se isecanje najčešće vrši po vremenskoj dimenziji da bi se
analizirali trendovi (na primer, jedan isečak kocke može prikazivati sve podatke o
prodaji za zadati tip proizvoda za sve regione, a drugi isečak može prikazivati sve
podatke o prodaji po kanalima za svaki tip proizvoda).
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Zahtevi OLAP sistema
• Interfejs OLAP sistema treba da omogući korisniku
komforan rad, samostalno izvođenje analitičkih operacija
i dobijanje pregleda i poslovne grafike, bez znanja
programiranja i strukture baze podataka.
• Zahtevi koje OLAP mora da ispuni su:
mogućnost rada sa velikim skupom podataka i velikim
brojem korisnika,
kratko vreme odziva na upit,
mogućnost rada sa podacima sa različitim nivoima detalja,
sposobnost proračuna složenih matematičkih funkcija,
podrška za šta-ako analizu, modelovanje i planiranje,
jednostavnost uvođenja i održavanja sistema,
zaštita podataka,
mogućnost rada sa velikim brojem alata pomoću kojih će
se pristupati podacima, vršiti analiza i prikazivati podaci.
Inteligentni poslovni sistemi
Doc. dr Angelina Njeguš
Komponente OLAP baze podataka
• OLAP baza podataka je definisana sledećim komponentama:
Numeričke mere – Mere su vrednosti podataka ili
činjenice koje korisnici analiziraju. Primeri mera su
Prodaja, Jedinice, Troškovi prodate robe itd.
Dimenzije – dimenzije predstavljaju poslovne kategorije
koje
obezbeđuju
kontekst
numeričkim
merama.
Dimenzijama OLAP je lakše navigirati nego dimenzijama
šeme zvezde.
Kocke – Kocke kombinuju sve dimenzije i sve mere u
jedan konceptualni model.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
OLAP dimenzije vs. Relacione dimenzije
Relaciona
OLAP
Region
Zapad
CA
OR
Istok
MA
NY
Region
Zapad
Istok
Država
CA
OR
MA
NY
Region
Zapad
Zapad
Istok
Istok
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Osnove dimenzija

1.
2.
3.
OLAP dimenzije sadrže
sledeće hijerarhijske
elemente:
Dimenzije – organizovani
nivoi i članovi u strukturi
drveta.
Nivo – grupa članova
dimenzije koji imaju isto
značenje.
Član – Svaka diskretna
vrednost u dimenziji.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Definisanje kocke
•
Kocka je logička struktura skladištenja OLAP baze podataka.
•
Kocka kombinuje dimenzije i mere kako bi korisnici mogli da prave upite.
•
Kocka definiše skup povezanih dimenzija
dimenzionalnu mrežu:
Svaka ćelija kocke sadrži jednu vrednost;
Vrednost svake ćelije je presek dimenzije.
•
Mere su numeričke vrednosti koje korisnici analiziraju.
•
Svaka kocka mora da sadrži barem jednu meru, ali ne može da ima više od 1024
mera.
•
Karakteristike mere su:
Mere su numeričke;
Mere odgovaraju činjenicama u tabeli činjenica. Samo jedna tabela činjenica se
može koristiti za kreiranje kocke;
Mere su preseci svih dimenzija i nivoa ...
koje
formiraju
jednu
n-
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Definisanje kocke
Milano
Bern
Pariz
Puževi
Pečurke
Kupine
Maline
Beograd
Q1


Q2
Q3
Dimenzija Vreme
Q4
Kocka skladišti vrednosti prodaje za svaki proizvod, svako tržište i za svaki period vremena.
Da bi dobili ukupnu godišnju vrednost, korisnici biraju proizvod i tržište i sumiraju ćelije iz sva četiri kvartala.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi

Pravljenje upita nad kockom
Fakti o
prodaji
Milano
Bern
Pariz
Puževi
Pečurke
Kupine
Maline
Beograd
Q1
Q2
Q3
Dimenzija Vreme
Q4
Kocka “Prodaja” sadrži tri dimenzije: Vreme, Proizvodi i Tržišta. Činjenice o prodaji su skladištene u
presecima svih dimenzija u kocki. Korisnik koji nadgleda prodaju malina u Milanu želi upit za Q4 prodajne
vrednosti.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Definisanje “kriške” (engl. slice) ili podskupa
kocke
Milano
Bern
Pariz
Puževi
Pečurke
Kupine
Maline
Beograd
Q1

Q2
Q3
Dimenzija Vreme
Q4
Menadžer distribucije malina želi da pregleda podatke o pečurkama po svim periodima i za sva tržišta.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Rad sa dimenzijama i hijerarhijama
•
Glavna svrha OLAP baza podataka je da obezbede fleksibilne modele za
pronalaženje podataka. Dimenzije i hijerarhije omogućavaju tu
fleksibilnost.
•
Dimenzije omogućavaju slice i dice:
Slice - izbor jednog člana iz dimenzije. Na primer: ukoliko želite da se
fokusirate na samo jedan proizvod, slice vam omogućava da
ignorišete sve osim željenog proizvoda.
Dice – kada primenjujete dice na kocki, onda postavljate više članova
iz jedne dimenzije na jednu osu i više članova druge dimenzije na
drugu osu. Ovakav način vam omogućava da sagledate međuodnose
članova različitih dimenzija.
• Hijerarhija vam omogućava drill down i drill up:
Drill Down - Sve dimenzije sadrže hijerarhiju i za većinu dimenzija
hijerarhija se sastoji od više nivoa. Više nivoa hijerarhije omogućava
drill down po jednom članu hijerarhije. Drill down omogućava da se
fokusirate samo na određene podatke ili oblast problema.
Drill Up – Vide se samo zbirne informacije članova. Omogućava da se
sagleda opšta slika.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Rad sa dimenzijama i hijerarhijama
• Dimenzije vam dozvoljavaju
Slice


Dice
Hijerarhije vam dozvoljavaju


Drill Down
Drill Up
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Arhitekture OLAP sistema
•
Postoje sledeće arhitekture OLAP sistema:
a.
višedimenzioni OLAP (MOLAP),
b.
relacioni OLAP (ROLAP),
c.
hibridni OLAP (HOLAP).
•
MOLAP i ROLAP se razlikuju po načinu fizičkog čuvanja podataka.
Kod MOLAP sistema podaci se čuvaju u višedimenzionoj
strukturi, a u slučaju ROLAP sistema podaci se čuvaju u
relacionim bazama podataka.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
a. Višedimenzioni OLAP (MOLAP)
• MOLAP baze podataka imaju sledeća ograničenja:
ograničenje fizičke veličine skupa podataka sa kojima mogu da
barataju.
ograničenje na broj dimenzija koje još uvek obezbeđuju dobre
performanse sistema.
da bi se vršila bilo kakva analiza, potrebno je prvo učitati podatke u
višedimenzione strukture. Pri tome se vrše razni proračuni da bi se
kreirale agregacije i popunili podaci, što vremenski može trajati
relativno dugo. Po završenom procesu, korisnik može započeti analizu.
• Prednost MOLAP sistema je što obezbeđuju odlične performanse
sistema kada se radi sa već sračunatim podacima (agregacijama).
• Nedostatak
dimenzija.
MOLAP
sistema
je
teškoća
dodavanja
novih
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Arhitektura MOLAP sistema
Transakcioni
sistemi
Višedimenziona
baza podataka
- upiti
- heširanje
- indeksiranje
Sloj baze
podataka
- predviđanja
- traženje
izuzetaka
Sloj aplikacije
OLAP interfejs
- tabele
- grafikoni
- drill down
- isecanje
- štampanje
Sloj prezentacije
Podaci iz različitih transakcionih sistema učitavaju u višedimenzionu bazu podataka pomoću batch rutina.
Kada se završi sa učitavanjem podataka atomskog nivoa, prelazi se na kreiranje agregacija, nakon čega
je baza podataka spremna za rad. Korisnici zadaju svoje zahteve za OLAP izveštajima putem interfejsa.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
b. Relacioni OLAP (ROLAP)
• ROLAP sistemi pristupaju
podacima direktno iz
skladišta podataka i rade
sa relacionim bazama
podataka.
• ROLAP sistemi mogu da
rade sa velikim skupovima
podataka. Čim se odredi
izvor podataka, korisnik
može započeti analizu. S
obzirom da se radi
direktno nad bazom
podataka, korisniku su
uvek na raspolaganju
tekući podaci.
• Kod ROLAP sistema ne
postoje ograničenja po
pitanju broja dimenzija
koja postoje u slučaju
MOLAP sistema.
Transakcioni
sistemi
-
Skladište
podataka
(RSUBP)
paralelni upiti
paralelno učitavanje
paralelno indeksiranje
bit-map indeksiranje
heširanje
veze zvezde
deljenje podataka
backup i recovery
optimizacija troškova
SMP i MPP podrška
Sloj baze podataka
OLAP
interfejs
Relacioni
OLAP
- transformacije
- dinamička
konsolidacija
- složeno filtriranje
- predviđanja
- obrada izuzetaka
- procesiranje u
pozadini
- podela upita
- raspoređivanje
- upravljanje
tokovima
- agregacije
Sloj aplikacije
-
tabele
grafikoni
mape
upozorenja
drill down
isecanje
Sloj prezentacije
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Karakteristike ROLAP i MOLAP sistema
• Neke karakteristike MOLAP i ROLAP sistema:
ROLAP sistemi su optimizovani za pristupanje podacima, dok su
MOLAP sistemi optimizovani za prikupljanje podataka.
Prednost ROLAP sistema je što su sumarne tabele kreirane
direktno u RSUBP-u, čime se obezbeđuje kratko vreme odziva
sistema na upit i što su tabele veoma čitljive.
Višedimenziona analiza moguća je korišćenjem ROLAP i MOLAP
sistema,
Za manje količine podataka ROLAP sistemi imaju skoro iste
performanse kao i MOLAP sistemi,
MOLAP sistemi nisu pogodni za rad sa velikim skupom
podataka,
MOLAP sistemi su manji od ROLAP sistema, te je potrebno
manje U/I operacija pri pribavljanju podataka, što uslovljava da
su MOLAP sistemi brži.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
c. Hibridni OLAP (HOLAP)
•
HOLAP alati mogu pristupati i relacionim i višedimenzionim bazama
podataka.
•
Cilj korišćenja HOLAP alata jeste da se iskoriste prednosti MOLAP alata
(kratko vreme odziva sistema i analitičke mogućnosti) i ROLAP alata
(dinamički pristup podacima).
•
Pri tome se ne može reći da je HOLAP prost zbir MOLAP-a i ROLAP-a. To je
zapravo ROLAP koji ima mogućnost izvršavanja vrlo složenih SQL naredbi.
•
Cilj je bio da se zadrže sve prednosti ROLAP-a, ali da se pri tome dodaju i
neke nove mogućnosti za rad sa višedimenzionim bazama podataka.
•
Potrebe korisnika su:
višedimenzioni pogled na podatke – ovu mogućnost poseduju i MOLAP i ROLAP
alati,
odlične performanse sistema – ovu mogućnost poseduju MOLAP alati,
analitička fleksibilnost (za potrebe simulacija) – ovu mogućnost poseduju MOLAP
alati,
pristup podacima u realnom vremenu – ovu mogućnost poseduju ROLAP alati,
veliki kapacitet podataka – ovu mogućnost poseduju ROLAP alati.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Vendori OLAP-a
http://www.olapreport.com
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Evaluacija
1.
Koja je svrha oblasti za pripremu podataka kod Data Warehouse-a?
Oblast za pripremu podataka je skup procesa koji čisti, transformiše, kombinuje i
priprema izvorne podatke za korišćenje u DW.
2.
Koja je svrha OLAP-a?
Da obezbedi brz, fleksibilan pristup multidimenzionalnim podacima kako bi
korisnici mogli da vrše analize i prave izveštaje.
3.
Definišite glavne relacione komponente od kojih se gradi OLAP kocka.
Tabela činjenica – Centralna tabela u Data Warehouse-u koja predstavlja
numeričke podatke u kontekstu koji opisuju određeni događaj u poslovanju.
Mere – kvantitativna, numerička kolona u tabeli činjenica. Mere obično
predstavljaju vrednosti koje korisnici analiziraju.
Dimenzija tabele – Tabela u Data Warehouse-u koja predstavlja jedan poslovni
objekat ili entitet.
Uvod u Data mining






Otkrivanje znanja (Knowledge Discovering)
Definisanje Data mininga
Primene Data mininga
Data mining modeli
Koraci kod izgradnje DM modela
OLAP data mining
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Data mining i otkrivanje znanja
•
Korisnici informacionih sistema s pravom zaključuju da su im uvođenjem
automatizovanog informacionog sistema obećavali sve i svašta, a dobili
su samo gomilu podataka. Čak i najboljem analitičaru je teško da
identifikuje ključne informacije koje su relevantne za upravljanje
poslovanjem.
•
Data mining je automatski ili poluautomatski proces koji izvodi značajna
pravila ili obrasce iz ogromne količine podataka. Data mining programi
analiziraju delove podataka da bi identifikovali veze između naizgled
"nepovezanih podataka".
•
Data mining je proces otkrivanja znanja (Knowledge Discovery in
Databases - KDD) koji omogućuje korisnicima da shvate sisteme i veze
između njihovih podataka.
•
Data mining otkriva oblike i trendove u sadržaju ove informacije.
•
Data mining otkriva relacije našeg svakodnevnog komuniciranja sa
podacima.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Definisanje Data mininga
• Osnovna poruka data mininga jeste da je potrebno da iz ogromne
količine operativnih podataka i veza koje se ne mogu odmah
sagledati definišu odgovarajuće relacije, obrasci ponašanja, što u
krajnjem slučaju treba da od podataka da potrebne informacije.
• Data mining se može definisati kao proces podrške odlučivanju u
kojem se traže šabloni infomacija u podacima.
• Osnovni cilj data mininga jeste otkrivanje skrivenih veza,
predvidivih sekvenci i tačnih klasifikacija.
• Ovo pretraživanje može vršiti korisnik, na primer izvođenjem upita
(tada je to zaista teško) ili ga može vršiti neki "pametni" program
koji automatski pretražuje bazu umesto korisnika i nalazi značajne
šablone. Kada se ona nađe, informacija treba da se prezentuje na
odgovarajući način, sa grafikonima, izveštajima itd.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Primene Data mininga
• Reklamiranje na Internetu
Data mining se može koristiti za klasifikovanje grupa klijenata sa sličnim
informacijama, kako bi se ciljno reklamiralo.
Kada se korisnik na primer registruje na e-commerce Web sajt koji prodaje
sportsku opremu tada DBMS prikuplja informacije o klijentu, kao što su
pol, godine, omiljeni sport i dr. Korišćenjem tehnika data mininga, web sajt
će prikazivati baner sa motivima golfa za muškarce i dr.
Kada kupujete putem Interneta, ponekad vam se ponude i dodatni
proizvodi za koje je Web sajt predvideo da ćete možda biti zainteresovani.
Takva preporuka se zasniva na tehnikama data mininga koji pretražuje
obrasce klijenata koji su na primer kupili istu knjigu koju vi sada kupujete.
Sistem preporučuje: “Ukoliko vam se dopada x knjiga, proverite i sledeće
ponuđene knjige”.
• Upravljanje kreditnim rizikom
Kada uzimate kredit, banka prikuplja širok opseg informacija o vama, kao
na primer prihodi, godine staža, bračni status, kreditna sposobnost itd.
Koriščenjem data mining tehnika, banka može da predvidi da li ste dobar ili
rizičan klijent za davanje kredita i takva informacija će odlučivati o
odobravanju kredita.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Data mining modeli
• Nekoliko tehnika data mininga vam omogućava
identifikovanje obrazaca u ogromnim broju podataka.
• Modeli Analysis Services SQL Servera su:
Drvo odlučivanja (Decision Trees)
Pravila asocijacije (Association Rules)
Naive Bayes
Sequence Clustering
Vremenske serije (Time Series)
Neuronske mreže (Neural Nets)
Text Mining
Linearne regresije
• Primeri:
http://msdn2.microsoft.com/en-us/library/ms175595.aspx
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Pravila asocijacije
•
Pravila asocijacije (Association Rules) – ovaj algoritam pomaže u identifikovanju relacija
između različitih elemenata. On grupiše po sličnosti, odnosno koristi se za pronalaženje
grupe artikala koji se najčešće zajedno događaju u jednoj transakciji. Na primer, koristi se
kod unakrsne prodaje gde se beleže veze između artikala i predviđa za koji proizvod će još
biti zainteresovan da kupi. Ovaj algoritam može da radi sa enormno velikim katalozima. Bio
je testiran na pola miliona artikala.
Association
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Naive Bayes
•
Naive Bayes – ovaj algoritam se zasniva na Bayes-ovoj teoremi koji računa uslovnu
•
Na primer, marketing odelenje je odlučilo da targetira potencijalne klijente slanjem flajera poštom.
Da bi smanjila troškove, žele da pošalju flajere samo onim klijentima koji će najverovatnije
odreagovati. Kompanija skladišti u bazi demografske podatke (npr. godine, lokacija) i informacije o
prethodnim odzivima (kupovinama) na poslate mailove. Žele da iskoriste podatke koje imaju u
bazi, kako bi uvideli kako demografski podaci mogu da pomognu u predviđanju odziva na
promotivne materijale, upoređujući potencijalne klijente sa klijentima koji imaju slične
karakteristike, a koji su kupili u prethodnom periodu. Naročito žele da uoče razlike između
klijenata koji su kupili proizvod i onih koji nisu.
verovatnoću između ulaznih i predvidljivih promenljivih i pretpostavlja da su promenljive
nezavisne. Pogodna je za otkrivanje relacija između ulaznih promenljivih i predvidljivih
promenljivih.
Naïve Bayes
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Sequence Clustering
•
Sequence Clustering – tehnika klasteringa omogućava grupisanje zapisa podataka koji
su slični na osnovu sekvenci prethodnih događaja.
•
Na primer, sa klasteringom možete segmentirati klijente sa sličnim karakteristikama u
grupe. Korisnici Web aplikacije često prate različite putanje kroz sajt. Ovaj algoritam može
da grupiše klijente prema njihovom redosledu otvaranja stranica na sajtu kako bi pomogli u
analizi korisnika i u određivanju koje su putanje profitabilnije od drugih. Ovaj algoritam se
takođe može koristiti u predviđanju koju će sledeću stranicu korisnik posetiti.
Sequence Clustering
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Vremenske serije
•
Vremenske serije (Time Series) – ovaj algoritam se koristi za analizu i prognozu
vremenski zasnovanih podataka. Prodaje su najčešće analiziran i prognoziran
podatak. Ovaj algoritam traži šablone prolazeći kroz višestruke serije podataka tako
da poslovanje može da odredi kako različiti elementi utiču na analiziranu seriju.
•
Na primer, određuje procente saobraćajnih nesreća tokom praznika na osnovu broja
nesreća koje su se dogodile tokom istog perioda u protekloj godini.
Time Series
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Neuronske mreže
•
Neuronske mreže (Neural Nets) – kao što čovek uči na osnovu iskustva tako može i računar.
Neuronske mreže modeluju neuronske veze u ljudskom mozgu i na taj način simuliraju učenje.
•
Ukoliko sastavljate podatke gde su ulazne i izlazne činjenice poznate, računar može da nauči iz
tih obrazaca i postavi pravila i matematičke faktore kako bi npr., pomogao izračunavanje ili
predvideo izlaznu vrednost.
•
Pretpostavimo da želite da prodate kola, nekoliko faktora utiče na prodajnu cenu kao što su
godine, stanje, proizvođač, model itd. Analizirajući cene kola, neuronske mreže mogu da kreiraju
seriju ulaznih i izlaznih faktora kako bi predvideli cenu prodaje.
Neural Net
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Text Mining
•
Text Mining – ovaj algoritam analizira nestruktuirane tekstualne podatke.
•
Na primer, kompanije mogu da analiziraju nestruktuirani podatak kao što je deo za
komentare gde klijenti unose svoje utiske, zadovoljstvo o proizvodu i druge
komentare.
Text Mining
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Linearna regresija
•
Regresija koristi postojeće vrednosti varijabli da bi se na bazi njih predvidele vrednosti ostalih
varijabli.
•
U jednostavnijim slučajevima, regresija koristi standardne statističke tehnike, kao što je linearna
regresija
•
Međutim, u realnim situacijama, često ne postoji linearna međuzavisnost sadašnjih i budućih
podataka. Recimo, vrednosti akcija na berzi je jako teško predvideti jer one zavise od složenih
interakcija velikog broja varijabli. U tom slučaju, koriste se složene tehnike, kao što su logistička
regresija, stabla odlučivanja ili neuronske mreže.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Algoritmi Data Mining-a
Decision
Clustering
Trees Introduced in SQL Server 2000
Sequence
Clustering
Association
Linear Regression
Time Series
Neural Net
Text Mining
Naïve
Bayes
Logistic
Regression
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Uvodni primer
•
Koji je ključni atribut za predviđanje
da li će svršeni srednjoškolci upisati
fakultet ili ne?
•
Postavljana su im sledeća pitanja:
•
Da
bi
na
osnovu
prikupljenih
podataka utvrdili koliko studenata će
nastaviti školovanje, neophodno je da
se postavi upit koji broji zapise
studenata koji žele i onih koji ne žele
da nastave školovanje.
Kog su pola?
Koliki je prihod njihovih roditelja?
Koliki im je IQ?
Da li ih roditelji ohrabruju da nastave
studiranje ili ne?
Da li planiraju da upišu fakultet?
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Uvodni primer
(nastavak)
• Pretpostavimo da ste zainteresovani da odredite koji atribut ili
kombinacija atributa imaju najveći uticaj da predvidi verovatnoću
studenata koji će upisati fakultet. Ovo je složeniji upit i zahteva
korišćenje tehnika data mininga.
• Primenjujući algoritam drveta odlučivanja otkrivene su sledeće
relacije:
Najuticajniji atribut je ohrabrivanje njihovih roditelja da upišu
fakultet. Oni studenti koje roditelji ohrabruju da upišu fakultet,
60 % planira da upiše fakultet i to uglavnom oni sa visokim
IQ..
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Drvo odlučivanja
Svi studenti
Upisaće fakultet:
33% Da
67% Ne
Ohrabrenje roditelja = Da
Podsticaj
od strane roditelja ?
Ohrabrenje roditelja = Ne
Upisaće fakultet:
Upisaće fakultet:
57% Da
43% Ne
6% Da
94% Ne
Visok IQ
Upisaće fakultet:
IQ
IQ
18% Da
82% Ne
Visok IQ
Nizak IQ
Upisaće fakultet: Upisaće fakultet:
74% Da
26% Ne
29% Da
71% Ne
Nizak IQ
Srednji IQ
Upisaće fakultet:
9% Da
91% Ne
Upisaće fakultet:
4% Da
96% Ne
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Koraci kod izgradnje DM modela
1.
2.
3.
4.
5.
6.
Izbor tehnike data mininga
Identifikovanje slučaja (case)
Izbor entiteta koji treba da se predvidi
Identifikovanje podataka za analizu
Opciono kreiranje dimenzije i virtuelne kocke iz
rezultujućeg modela
Obrada modela i prikupljanje rezultata.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Metodologija kreiranja Data Mining
modela
Podaci
Mining model
Podaci za
predviđanje
Da bi kreirali model morate da
prikupite skup podatka, gde su
atributi koji treba da se
predvide unapred poznati.
Podaci se ubacuju u DM
model koji ih analizira i traži
pravila i obrasce koji bi se
kasnije mogli iskoristiti za
predviđanje.
DM
Engine
Mining model
DM
Engine
Predvidljivi podaci
Podaci koji se analiziraju su
obično:
 Istorijski podaci
 Statistički predstavnik
slučajeva (cases) za koje
gradite model.
Slučaj (case) je element koji
se koristi za klasifikaciju i
grupisanje podataka.
DM engine procenjuje
slučajeve i kreira model koji se
zasniva na izabranom
algoritmu.
Inteligentni poslovni sistemi
Doc. dr Angelina Njeguš
Integracija data mininga sa skladištem
podataka
• Danas se radi na integraciji data mining alata sa skladištem
podataka. Postoji više razloga za ovu integraciju.
Prvo, data mining alati zahtevaju postojanje "prečišćenih" i
integrisanih podataka. Tradicionalni data mining alati bi iz tih
razloga prvo izvršili transfer podataka (možda i stotine
gigabajta) putem mreže. Nakon završenog rada često se javlja
potreba za novim podacima, što bi značilo da bi se ceo proces
transfera morao ponoviti. Pri ovome se neprestano moralo
voditi računa o zaštiti podataka i greškama pri prenosu.
Drugi razlog za integraciju data mining alata sa skladištem
podataka jeste poboljšani korisnički interfejs.
Treći razlog za integraciju su performanse sistema i mogućnost
proširivanja koje obezbeđuje skladište podataka, a koje su
potrebne za data mining alate.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Tradicionalni i integrisani prilaz
server strana
izvori
podataka
skladište podataka i
data mining alati
ODBC
mreža
SQL
ograničeni i
specijalizovani
alati
ODBC
data mining
alati

a) tradicionalni prilaz
•
klijent strana

bilo koji alat
nestandardni
interfejsi
b) integrisani prilaz
Jedan od načina da se ostvari integracija jeste da se kreiraju modeli koji se u bazama podataka
predstavljaju tabelama. Nakon kreiranja ovih tabela, u njih treba smestiti podatke koje će data
mining alati da pretražuju. Obradom podataka, data mining alati će kreirati nove tabele u kojima će
smeštati rezultate i koji se mogu pregledati kao i sve ostale tabele (korišćenjem SQL naredbi).
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
OLAP data mining
• OLAP i data mining ne bi trebalo razmatrati kao odvojene
procese već da ih treba u potpunosti spojiti.
• Komponente OLAP data mininga su:
relaciona baza podataka koja sadrži granularne podatke (ne
mora biti skladište podataka),
OLAP koji obezbeđuje brz pristup sumarnim podacima između
više dimenzija,
višedimenzioni proces otkrivanja koji će vršiti otkrivanje
između dimenzija i spajati rezultate.
• Bez upotrebe OLAP data mininga, moguće je izostaviti
ključne informacije ili se mogu dobiti netačni rezultati.
Inteligentni poslovni sistemi
Doc. dr Angelina Njeguš
Izgradnja Data Mining modela sa OLAP
podacima
•
•
•
•
•
•
•
Uvod u scenario Članske kartice
Izbor Data Mining tehnike
Izbor slučaja (case)
Selekcija entiteta za predviđanje
Selekcija podataka za analizu (training data)
Kreiranje dimenzije i virtuelne kocke
Ispitivanje Data Mining modela
Inteligentni poslovni sistemi
Doc. dr Angelina Njeguš
Uvod u scenario Članske kartice
• Direktor marketinga želi da oceni trenutni program članskih
kartica. Da bi zadržao postojeće klijente i ispunio njihova
očekivanja, želi da identifikuje mogućnosti kako bi povećao nivo
usluga kod svih kartica: zlatna, srebrna, bronzana i obična.
• Raspoložive informacije od klijenata su pol, bračni status, godišnji
prihodi, nivo obrazovanja.
• Da bi predvideli faktore koji utiču na izbor odgovarajuće kartice
koristićemo Data mining:
Koristićemo tehniku drveta odlučivanja da bi pronašli obrazac za izbor
članske kartice.
Odabraćemo Klijente kao dimenziju slučaja (case dimension).
Odabraćemo Člansku kartu kao informaciju koju će koristiti algoritam
DM da bi identifikovao obrasce.
Iskoristiće se raspoložive informacije o klijentima kako bi se pronašao
obrazac.
Ispitati drvo odlučivanja.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Izbor tehnike Data Mininga
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Izbor slučaja (case)
Inteligentni poslovni sistemi
Doc. dr Angelina Njeguš
Selektovanje entiteta za predviđanje
Inteligentni poslovni sistemi
Doc. dr Angelina Njeguš
Selektovanje podataka za analizu (training
data)
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Kreiranje dimenzije i virtuelne kocke

Ukoliko želite na interaktivan ad-hoc način da isptujete drvo odlučivanja onda možete da uključite opciju
kreiranja nove dimenzije i uključivanje iste u virtuelnu kocku..
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Ispitivanje Data Mining modela
Content Navigator – kompletan
pogled DM modela; koristi se
i za navigaciju kroz drvo
odlučivanja i menjanja sadržaja
u Content Detail.
Content Detail – fokus
DM modela
Atributi – Predstavlja numeričke
ili grafičke prezentacije
entiteta za predviđanje
za trenutno izabrani čvor.
Node Path
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Ispitivanje zavisnosti mreže
Poslovna inteligencija
 Poslovna inteligencija
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Poslovna inteligencija
•
Poslovna inteligencija ili inteligencija o poslovanju (Business Intelligence – BI)
je arhitektura koja predstavlja zbirni naziv za kolekciju integrisanih alata, aplikacija i
baza podataka koje obezbeđuju organizaciji efikasan i lak pristup poslovnim
podacima, analizu i međusobno deljenje informacija u cilju donošenja kvalitetnijih,
brzih i relevantnijih odluka i poboljšanja sveukupne poslovne efektivnosti.
•
BI softver je opšti pojam koji opisuje sisteme za podršku odlučivanju (Decision
Support Systems - DSS), ranije izvršne informacione sisteme (Executive Information
Systems – EIS), data warehouse softvere, ekspertne sisteme i data mining tehnike za
interpretiranje podataka (Slika).
•
BI aplikacije uključuju sledeće aktivnosti:
višedimenzionalnu analizu, npr. OLAP;
data mining;
upravljanje znanjem;
poslovne analize;
implementaciju portala preduzeća;
predviđanja i dr.
•
BI arhitektura predstavlja životni ciklus projekta razvoja BI aplikacija korišćenjem
struktuiranih i nestruktuiranih (tekst, content i voice mining) podataka
Inteligentni poslovni sistemi
Doc. dr Angelina Njeguš
Položaj poslovne inteligencije
11
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Razlozi uvođenja BI
•
Problem je kako pretvoriti informaciju u znanje. Danas se preduzeća vode na osnovu znanja o
konkurenciji, kupcima, dobavljačima, procesima i dr. BI proizvodi znanje koje je osnova za
donošenje poslovnih odluka.
•
BI omogućava proaktivan način vođenja preduzeća, što znači da se može predvideti budućnost,
izraditi nekoliko scenarija i biti pripremljen za svaku situaciju.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Razlozi uvođenja BI
Obezbeđivanjem uvida u
poslovanje svim zaposlenima
dovodi do donošenja boljih,
bržih i relevantnijih odluka
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Business Intelligence is a Top Priority!
#1 Priority in 2006 Gartner CIO Survey
Consistent Top Priority in
Merrill Lynch CIO Survey
Source: Merrill Lynch survey of 100 North
American CIOs
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Faze razvoja BI projekta
•
Kao i svi inženjerski projekti i ovaj projekat
prolazi kroz šest faza:
Opravdanost (Justification) – procenjuju
se poslovne potrebe;
Planiranje (Planning) – razvoj strateških i
taktičkih planova koji ukazuju na to kako će
se projekat razvijati i uvoditi u sistem;
Analiza poslovanja (Business analysis) –
obavlja se detaljna analiza poslovnih
problema ili poslovnih mogućnosti kako bi
se razumeli poslovni zahtevi za
potencijalnim rešenjem;
Projektovanje (Design) – projektovanje
proizvoda koji rešava poslovne probleme;
Izgradnja (Construction) – izgradnja
proizvoda koji treba da obezbedi povraćaj
investicija u okviru predefinisanog
vremenskog okvira;
Uvođenje (Deployment) – implementacija i
prodaja završnog proizvoda, zatim merenje
njegove efektivnosti da bi se doredilo da li
rešenje dostiže očekivani povraćaj
investicija (return on investment – ROI).
Inteligentni poslovni sistemi
Doc. dr Angelina Njeguš
Detaljni koraci razvoja BI aplikacije
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
1. Faza Opravdanosti projekta
1.1. Ocena poslovnih slučaja (Business Case Assessment) – na osnovu definisanih
poslovnih problema i mogućnosti predlaže se BI rešenje. Opravdanost BI rešenja
treba da bude poslovno vođena, a nikako tehnološki.
1.1.1. Potrebe za informacijama - U ovom koraku neophodno je odrediti krajnje rezultate koji
se žele postići analiziranjem poslovanja, kao npr.: „Zašto gubimo 50% tržišnog udela ABC
kompanije u Engleskoj?“. Zatim treba definisati koje informacije se zahtevaju (oblasti
poslovanja, vreme, nivoi detalja, granularnost podataka, spoljni podaci i dr.), kako bi se
dobio odgovor na gore postavljeno pitanje. Sledeći korak je identifikovanje poslovnih rola
(menadžeri, biznis analitičari itd.) koji će biti aktivni u različitim funkcijama podrške
odlučivanju.
1.1.2. Tipovi izvora podataka - U ovom koraku, najveći izazov ustvari predstavlja spajanje
podataka iz različitih tipova izvora podataka. Postoje tri glavna tipa izvora podataka i to:
•
•
•
operativni – OLTP sistemi (finansije, logistika, prodaja, kadrovi, istraživanje, inženjering i sl.)
privatni podaci – podaci koji se nalaze u spreadsheets datotekama, bazama podataka i dr.
fajlovima analitičara, statističara, menadžera i drugog osoblja koje je obavlja svoje aktivnosti u
okviru posmatrane oblasti;
eksterni izvori podataka – podaci koji se nalaze na Internetu, u bazama podataka poslovnih
partnera, a koji mogu biti razvrstani po kategorijama, npr. industrijski podaci (tehnološki trendovi,
marketing trendovi, menadžment nauke, informacije o trgovini i sl.), podaci o konkurenciji (proizvodi,
usluge, cene, promocije prodaja i sl.), podaci o prodaji i marketingu (npr., lista potencijalnih
klijenata), kreditni podaci (podaci o kreditnoj sposobnosti klijenata, bilansi poslovanja i sl.),
ekonomski podaci (politički indikatori, cene na berzi, kretanja kamatnih stopa i sl.), demografski
podaci (gustina populacije, starosno doba i sl.), podaci o robi (npr., cene sirovina), psihometrijski
podaci (npr., profili klijentata), meteorološki podaci (vremenski uslovi, temperature naročito za
agrikulturne i putničke industrije i sl.), ekonometrijski podaci i sl.
Inteligentni poslovni sistemi
Doc. dr Angelina Njeguš
1. Faza Opravdanosti projekta (nastavak)
1.1.3. Analiza troškova i koristi (cost-benefit analysis) - Koristi BI projekta je obično
teže kvantifikovati nego troškove. Jedan od efektivnijih metoda za opravdanje
troškova jeste da se ukaže direktno na poslovni problem.
Na primer, pretpostavimo da organizacija gubi 5 miliona evra svake godine jer ne
može da zauzda prevare osiguranja usled nepouzdanih i nedovoljnog broja
podataka. Ukoliko BI aplikacija može da reši konkretan problem, onda bi bilo
veoma lako opravdati investiciju. Stoga, treba biti koliko je moguće detaljan u
identifikovanju koristi, čak i onda kada je veoma teško kvantifikovati precizno ROI.
Na ovaj način može se steći poverenje od poslovnih menadžera i izvršioca i dobiti
odobrenje za početak rada na BI projektu.
Kod identifikovanja koristi, neophodno je imati u vidu sledeće kategorije koristi:
Povećanje sveukupne dobiti – npr.: identifikovanjem novog tržišta ili efektivnija prodaja,
brže prepoznavanje poslovnih mogućnosti i sl.
Povećanje profita – npr.: poboljšana mail promocija, upozorenja pada na tržištu,
identifikovanje neefikasnih proizvodnih linija, efikasnije upravljanje prodajom i sl.
Poboljšanje satisfakcije klijenta – npr.: bolje razumevanje prioriteta klijenata,
poboljšano spajanje klijent-proizvod, poboljšana prodaja klijentima, brže rešavanje žalbi
klijenata i sl.
Povećanje uštede – npr.: smanjenje otpadaka ili smanjenje zahteva za kastimiziranim
izveštajima.
Poboljšanje tržišne pozicije – npr.: povećan broj klijenata pridošlih od konkurencije, viši
nivo održavanja klijenata u poređenju na prethodne godine i prema konkurenciji.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
1. Faza Opravdanosti projekta (nastavak)
•
1.1.4. Procene rizika (Risk assessment) - rizici su faktori ili stanja koji mogu da
ugroze projekat. Rizike bi trebalo oceniti prema sledećim kriterijumima:
Tehnološki rizik – odnosi se na tehnologiju koja se koristi za implementaciju BI projekta. Treba
razmotriti sledeća pitanja:
•
Da li je izabrana tehnologija zastarela u odnosu na tržište i organizaciju? Koliko različitih tehnologija
koegzistira? Da li imamo nekompatibilne operativne sisteme? Da li imamo nekompatibilne sisteme za
upravljanje bazama podataka (DBMS)?
Rizik složenosti – razmatra se kompleksnost sposobnosti i procesa koji treba da se implementiraju.
•
Koliko je kompleksno celokupno IT okruženje? Koliko je složena sama BI aplikacija? Koliko će se menjati
workflow? Da li će biti kompletno redizajniran? Koliko sajtova će biti podržano? Koji je stepen
distribuiranosti podataka, procesa i kontrola?
Rizik integracije – razmatra se integracija različitih komponenata i podataka:
•
Koliko će interfejsa imati BI aplikacija? Da li postoje uključeni i spoljni interfejsi? Koliko ima redundantnosti
izvora podataka? Da li se mogu primarni ključevi iz različitih izvora podataka spojiti? Da li imamo
nekompatibilne standarde? Zašto nemamo standarde? Da li imamo zapise „bez roditelja“ kao rezultat
problema referencijalnog integriteta?
Organizacioni rizik – razmatraju se sledeća pitanja:
•
Koliko rizika će menadžment da toleriše? Koliko rizika će tolerisati IT menadžeri? Koliku finansijsku i
moralnu podršku možemo očekivati kada projekat naiđe na prepreke?
Rizik projektnog tima – razmatraju se veštine, ponašanja, nivoi obavezanosti kadrova za organizaciju:
•
Da li osoblje ima dovoljno iskustva u uspešnom implementiranju BI aplikacija? Koliko je tim uravnotežen?
Kakav je moral tima? Koja je verovatnoća gubitka jednog ili više članova tima? Da li veštine članova tima
pokrivaju sve osnovne discipline? Koliko je jak i sposoban projektni menadžer?
Rizik finansijske investicije – iskazuje se u ROI:
•
Za koliko se može očekivati ROI? Koja je verovatnoća da troškovi prevaziću koristi? Da li se finansijski
rizik može umanjiti jedino upotrebom dokazanih tehnologija?
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Aktivnosti poslovnih ocena
1.
Određivanje
poslovnih potreba
2.
Ocena trenutnih
DSS rešanja
3.
Ocena operacionih
izvora i procedura
4.
Ocena BI inicijativa
kod konkurenata
5.
Određivanje ciljeva
BI aplikacije
6.
Svrha BI rešenja
7.
Izvršavanje analize
troškova i koristi
9.
Pisanje izveštaja o
oceni
8.
Izvršavanje ocene
rizika
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
2. Faza planiranja
•
2.1. Ocena infrastrukture preduzeća – pojedine komponente
infrastrukture preduzeća postoje, a druge bi trebalo razvijati u toku razvoja
BI projekta. Kada se razmatra infrastruktura preduzeća posmatraju se dve
komponente:
2.1.1. Tehnička infrastruktura – uključuje hardver, softver, middleware, DBMS
sisteme, operativne sisteme, komponente mreže, skladišta meta podataka,
uređaje i dr.
2.1.2. Netehnička infrastruktura – uključuje standarde meta podataka,
standarde imenovanja podataka, logički model podataka preduzeća,
metodologije, vodiče, procedure za testiranje, procedure za razrešavanje
sporova i sl.
•
2.2. Planiranje projekta – BI projekti su ekstremno dinamični. Svaka
promena osoblja, budžeta, tehnologije, sponzora, oblasti projekta može da
utiče na sam uspeh projekta.
Definisati BI projekat – navesti ciljeve, oblast, rizike, ograničenja, pretpostavke,
procedure kontrole promena, procedure o pitanjima menadžmenta.
Napisati projektni plan – izlistati aktivnosti, zadatke i podzadatke, oceniti
neophodno vreme za ove aktivnosti i zadatke, dodeliti im resurse, odrediti
zavisnosti između zadataka, odrediti zavisnosti resursa, odrediti kritičnu putanju i
na kraju kreirati detaljan projektni plan.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
3. Faza analize poslovanja
•
3.1. Definisanje zahteva projekta – Upravljanje oblašću projekta je jedan od najtežih zadataka
na BI projektima. Želja da se isprojektuje sve i to odmah je teško limitirati, tako da uskraćivanje
određenih želja predstavlja jedan od važnijih aspekata pregovaranja o zahtevima.
Zahtevi se posmatraju sa dva aspekta:
poslovni zahtevi visokog nivoa – zahtevi za BI okruženje koji su identifikovani još u koraku BI inicijative i
koji se periodično revidiraju;
specifični zahtevi projekta – detaljni zahtevi koji se očekuju od svake verzije BI aplikacije.
Aktivnosti definisanja zahteva projekta su:
Definisanje zahteva za tehničkom infrastrukturom – razmatraju zahtevi za novim ili dodatnim hardverom;
novim DBMS-om ili nadogradnjom (upgrade) postojećeg DBMS-a, novim razvojnim alatima, novim alatima
za pristup i izveštavanje; novim alatima data mining-a; novim skladištima meta podataka i novim zahtevima
za mrežom.
Definisanje zahteva za netehničkom infrastrukturom – uključuje role i odgovornosti, standarde,
metodologije, procese bezbednosti, procese testiranja, funkcije podrške, komunikacije i dr.
Definisanje zahteva za izveštavanjem – tokom intervjua, treba sakupiti ili skicirati izveštaje i upite,
definisati poslovna pravila za kreiranje agregacija, sumarnih podataka i uopšte izvođenje podataka.
Definisanje zahteva za izvorima podataka – definisati detaljne zahteve za podacima i izabrati
najadekvatnije izvore podataka (fajlove, baze podataka i sl.). Odrediti zahteve za čišćenjem podataka i
definisati kritična poslovna pravila za podacima.
Pregled oblasti projekta – uporediti detaljne zahteve sa domenom projekta. Utrvrditi da li je cilj projekta i
dalje ostvarljiv u okviru određenog domena projekta.
Proširiti logički model podataka – koristeći informacije iz intervjua, proširiti logički model podataka sa
novim entitetima, relacijama i atributima.
Definisati preliminarne dogovore na nivou usluga – razmatra se raspoloživost, bezbednost, vreme
odziva, čistoća i pouzdanost podataka, podrška i sl.
Napisati dokument zahteva aplikacije – navesti zahteve za funkcijama, podacima, performansama,
bezbednosti i pouzdanosti.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
3. Faza analize poslovanja - nastavak
•
3.2. Analiza podataka – najveći izazov kod BI projekata je kvalitet izvora
podataka.
Ključne tačke selekcije podataka su:
integritet podataka – Što je niži integritet podataka, veći su zahtevi za
čišćenjem podataka;
preciznost podataka – Da li su podaci precizni, jasni? Kako su podaci
predstavljeni? Za numeričke podatke, koja je skala i preciznost podataka? Za
podatke datuma, kako su formatirani?
ispravnost, tačnost podataka – Da li su podaci tačni?
pouzdanost podataka – Koliko su podaci stari? Da li je podatak dobijen direktno
sa izvora ili iz download-a? Da li je poznat izvor podataka? Da li je podatak
dupliciran na drugom skladištu podataka?
format podataka – Što je format podataka bliži destinacionom formatu
podataka, manji će biti zahtevi za konverzijom podataka. Da li su podaci iz
relacione baze podataka, nerelacione ili iz fajlova i sl.?
•
3.3. Prototipovanje aplikacije – Ukoliko vreme i budžet dozvoljavaju,
izgradnja prototipa omogućava testiranje, proširivanje ili izmene zahteva u
ranim fazama kada još uvek nije visok uticaj na raspored projekta.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
3. Faza analize poslovanja - nastavak
•
3.4. Analiza skladišta meta podataka – skladište meta podataka nije
projektovano da skladišti poslovne podatke za aplikacije, već da skladišti
kontekstualne informacije o poslovnim podacima.
Meta podaci dokumentuju transformacije i čišćenje izvornih podataka,
obezbeđujući time praćenje i periodično punjenje podataka. Takođe, meta
podaci pomažu u praćenju zahteva za bezbednošću i merama kvaliteta BI.
Aktivnosti analize skladišta meta podataka su:
Analiza zahteva za skladištem meta podataka – identifikovati koji meta podaci
su obavezni, bitni i opcioni
Analiza interfejsa – bez obzira da li je skladište izgrađeno ili kupljeno, ono mora
da prihvata meta podatke iz različitih izvora, kao što su CASE alati, Word
dokumenti, spreadsheet datoteke i sl. Tehnički meta podaci će biti izvučeni iz
DBMS rečnika, ETL alata, alata za čišćenje podataka, OLAP alata, data mining
alata, od onih koji pišu izveštaje i dr.
Analiza zahteva za pristupanjem i izveštavanjem – identifikovati zahteve za
pristupanjem meta podacima, zahteve za bezbednošću i help funkcija. Proceniti i
druge načine prikazivanja kao što su PDF dokumenta, HTML, SQL i sl.
Kreirati logički model meta podataka – nacrtati logički model
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
4. Faza projektovanja
•
4.1. Projektovanje baze podataka – Aktivnosti projektovanja baze
podataka su:
Pregled zahteva za pristupom podacima – administrator baze podataka
sagledava zahteve za pristupanjem i analiziranjem podataka.
Određivanje zahteva za sumiranjem i agregacijama – treba obratiti pažnju na
one zahteve na koje su korisnici ukazali da će možda jednog data zatrebati.
Projektovanje ciljne BI baze podataka – većina BI baza podataka će se
zasnivati na multidimenzionalnoj šemi, usled potrebe za slice i dice analizama.
Izgradnja ciljne BI baze podataka – fizička baza podataka je izgrađena onda
kada je pokrenut DDL (Data Definition Language) sa odgovarajućeg DBMS-a.
Bezbednost podataka je uspostavljena onda kada je pokrenut DCL (Data Control
Language).
Razviti procedure za održavanje baze podataka – kada je baza podataka
puštena u rad, veoma je važno razmotriti backup-ovanje baze ili reorganizaciju
fragmentiranih tabela.
Priprema za nadgledanje baze podataka – i najbolje isprojektovana baza
podataka ne garantuje dobre performanse tokom upotrebe. Jedan od razloga je
što se upotreba BI baze podataka tokom vremena menja. Poželjno je praćenje
performansi upita i drugih dijagnostičkih mogućnosti.
Priprema nadgledanja dizajniranih upita – s obzirom da su performanse pravi
izazov kod BI aplikacija, neophodno je isprobati sve varijacije upita. Paralelno
izvršavanje upita bi mogao da poboljša performanse upita.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
4. Faza projektovanja - nastavak
•
4.2. Projektovanje ETL (Ekstrakcija/Transformacija/Punjenje) procesa –
Svrha ETL procesa je da spoji podatke iz heterogenih platformi u standardni
format
•
4.3. Projektovanje skladišta meta podataka – izvori meta podataka mogu
biti CASE alati, DBMS rečnici, ETL alati, alati za čišćenje podataka, OLAP i
data mining alati.
4.
Projektovanje aplikacije
meta podataka
ili
1.
Projektovanje skladišta
meta podataka
2.
Instaliranje i testiranje
gotovih proizvoda
3.
Projektovanje procesa
migracije meta podataka
Slika: Aktivnosti
projektovanja
skladišta meta
podataka
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
5. Faza izgradnje
•
5.1. Razvoj ETL-a – u zavisnosti od zahteva za čišćenjem i transformacijom podataka, zavisiće i
izbor ETL alata.
Tipovi testiranja koji se primenjuju kod operacionih sistema, mogu se primeniti i na BI aplikacije:
Testiranje jedinica (unit testing) podrazumeva: kompajliranje – testiraju se moduli i skriptovi
kompajliranjem programa, gde svako kompajliranje programa mora uspešno da se završi; funkcionalnost –
svaki modul programa mora da izvršava funkcije zbog kojih je i projektovan, kao i da obezbedi očekivane
rezultate; editovanje – svaki programski modul mora da hvata greške i da upozori na njih.
Testiranje integracije (integration testing) je poznat i kao sistemsko testiranje: interakcije – moraju se
testirati interakcije između modula; tok – ETL dijagram toka procesa treba da prikaže kojim redosledom se
programi izvršavaju, koji se mogu paralelno odvijati i kada se mogu ubaciti operacije sortiranja i spajanja.
Testiranje regresije (regression testing) – cilj je da se uvidi da modifikacije nad postojećim ETL
programom nisu nenamerno proizvele neke greške koje ranije nisu postojale.
Testiranje performansi – proverava se ponašanje i performanse sistema. Može se izvoditi samo nad
kritičkim programskim modulima.
Testiranje kvaliteta – većina organizacija ima jasne procedure kod uvođenja aplikacije. Te procedure
obično uključuju testiranje kvaliteta koje se odvijaju u opsebnim QA (quality assurance) okruženjima.
Testiranje prihvatljivosti – proveravaju se sve funkcije ETL procesa koje moraju biti tačne i kompletne.
Aktivnosti transformacije podataka.
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
5. Faza izgradnje - nastavak
•
5.2. Razvoj aplikacija – Glavni cilj koji BI aplikacija treba da ispuni jeste da obezbedi
brz i lak pristup podacima radi vršenja poslovnih analiza.
OLAP alati omogućavaju inovativne načine anliziranja podataka:
multdimenzioni pogled na podatke koji je intuitivan i prepoznatljiv poslovnim ljudima
sumiranje i agregacije podataka;
interaktivno postavljanje upita i vršenja analiza tipa „Šta-ako smanjimo cenu proizvoda za 5
evra? Koliko bi nam se povećao obim prodaje u određenom regionu?
podrška analitičarima da mogu da kreraju članove unutar dimenzija, dodaju nove ili menjaju
parametre upita ili kreiraju mere ili činjenice.
podržavanje drill-down, roll-up i drill-across funkcija.
•
Na primer, analitičar koji želi da pronađe način da smanji troškove proizvodnje robe, može drill down
funkcijom da sagleda detaljne troškove kupljenih sirovina. Takođe, može da sumira troškove sirovina u
predefinisane kategorije, roll-up funkcijom. Primenjujući drill-across može da ode do druge tabele kako
bi uključio i troškove proizvodnje proizvedene robe.
primena analitičkog modeliranja
•
Uzimajući u obzir prethodni primer, smanjivanje troškova proizvodene robe može se postići i
smanjivanjem radnog kapitala. Primenom analitičkog modeliranja mogu se pronaći optimalni iznosi
radnog kapitala.
analize trendova i prognoziranje
prikazivanje podataka u grafikonima, dijagramima i tabelama omogućava vizuelni pregled, jer
kao što se kaže da slika vredi hiljadu reči, tako i ove komponente čine sastavni deo OLAP
alata
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
5. Faza izgradnje - nastavak
•
5.3. Data mining – cilj je razvoj data mining baze podataka koja je
projektovana i izgrađena prema specifičnom analitičkom modelu podataka i
setu data mining operacija (algoritmi u okviru data mining alata)
•
5.4. Razvoj skladišta meta podataka
Bezbednost
Priručnici i
instrukcije
Biblioteke programa i
upiti
Skladište meta podataka
Server platforma
Obučavanje
Postavljanje DBMS-a
Pripremni koraci uvođenja skladišta meta podataka
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
6. Faza uvođenja
•
6.1. Implementacija – Mora da se vodi
računa o:
1.
Plan
implementacije
Upravljanju bezbednosti (npr.
bezbednost pristupa Internetu)
Backup-u i oporavku baze podataka
praćenju upotrebe resursa
vremenskom rastu podataka, korisnika i
hardvera
•
Evaluacija uvođenja – Sa izgradnjom
BI okruženja ne završava se proces
razvoja BI projekta
2.
Postavljanje
produkcionog
okruženja
3.
Instaliranje svih
komponenti BI
aplikacije
4.
Uspostavljanje
rasporeda
5.
Punjenje baze
podataka
6.
Pripremanje
podrške
Aktivnosti implementacije
Inteligentni poslovni sistemi
Doc. dr Angelina Njeguš
Strategic Planning Assumptions in Review
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Key Trend: BI Will Be Integrated
with Operational Processes
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Framework: How to Justify the
Cost/Value of BI Investments
Doc. dr Angelina Njeguš
Inteligentni poslovni sistemi
Demo BI rešenja
•
Business Objects Demo:
http://www.businessobjects.com/global/flash/products/xi_tour/index_flash.asp
•
IBM_Demo_DB2_Business_Intelligence_Overview-1-Jan05.exe
(u folderu predavanja)
•
Oracle BI: http://todobi.blogspot.com/2005/07/saln-demo.html
•
SQL Server BI arhitektura: