DuomGavyba_2 - Šiaulių universitetas

Download Report

Transcript DuomGavyba_2 - Šiaulių universitetas

DUOMENŲ GAVYBA
Paskaita 2. Duomenys
(Duomenų, objektų ir atributų, imčių, duomenų
priklausomumo sąvokos. Duomenų skalės, rinkinių
tipai, duomenų bazės)
Kęstutis Žilinskas
Šiaulių universitetas, 2013
Duomenų samprata

Plačiaja prasme duomenys tai:






Faktai;
Tekstas;
Grafikai;
Paveikslėliai;
Garsai;
Analoginiai ar skaitmeniniai video
segmentai.

Duomenys gali būti gaunami:





Matuojant;
Atliekant eksperimentus;
Atliekant aritmetinius veiksmus;
Atliekant loginius veiksmus.
Duomenys turi būti pateikti forma,
tinkama saugoti, perduoti ir
apdoroti (pertvarkyti).
Duomenys



Duomenys – būtina duomenų
gavybos prielaida.
Duomenis pateikia užsakovas arba
saugyklos administratorius.
Duomenis naudoja vartotojas.
Duomenių pagalba gali būti
formuojama nauja informacija.
Duomenų rinkiniai
Lentelė 1. Objektai - atributai
Atributai
Objektai
Kliento kodas
Amžius
Šeimyninė padėtis
Pajamos
Klasė
1
18
Single
125
1
2
22
Married
100
1
3
30
Single
70
1
4
32
Married
120
1
5
24
Divorced
95
2
6
25
Married
60
1
7
32
Divorced
220
1
8
19
Single
85
2
9
22
Married
75
1
10
40
Single
90
2
Objektai ir atributai


Objektas aprašomas atributų
rinkiniu.
Objektas gali būti vadinamas:





Užrašu;
Įrašu,
Atveju;
Pavyzdžiu;
Lentelės eilute ir pan.
Objektai ir atributai

Atributas – objektą apibūdinanti
savybė (pavyzdžiui):



Žmogaus akių spalva;
Vandens temperatūra ir pan.
Atributas gali būti vadinamas:





Kintamuoju;
Lentelės lauku;
Matmeniu (išmatavimu);
Charakteristika;
Požymiu.
Kintamasis


Kintamasis – bendra visiems
nagrinėjamiems objektams savybė
arba charakteristika, kuri reiškiasi
skirtingai pereinant nuo vieno
objekto prie kito.
Kintamojo reikšmė – požymio
kokybinė arba kiekybinė išraiška.
Imtis



Analizuojant duomenis dažniausiai
negalima nagrinėti visos objektų
aibės (generalinės aibės).
Užtenka nagrinėti šios aibės dalį –
imtį.
Imties dydis (ilgis, tūris) turi
priklausyti nuo objektų įvairovės bei
apimti skirtingus objektų aibės
elementus ir jų kompinacijas.
Imtis


Generalinė aibė (population) – visa
nagrinėjamų, tyrėją dominačių
objektų aibė.
Imtis (sample) – specialiu būdu
atrinkta generalinės aibės dalis,
leidžianti daryti išvadas apie
generalinės aibės savybes ir
charakteristikas.
Imtis


Parametrai – skaitinės generalinės
aibės charakteristikos.
Statistikos – skaitinės imties
charakteristikos.
Hipotezės



Dažnai tyrimas remiasi hipotezėmis,
kurios tikrinamos duomenų pagalba.
Hipotezė – prielaida apie objektų
aibės parametrus, kuri gali būti
patikrinta aibės daliai.
Hipotezė – dalinai pagrįstas žinių
dėsningumas arba nurodantis ryšius
tarp empirinių faktų, arba
paaiškinantis faktus ar jų grupes.
Hipotezės pavyzdys:
yra ryšys tarp gyvenimo trukmės ir
maitinimosi kokybės rodiklių.

Tyrimo tikslas: konkretaus
kintamojo (gyvenimo trukmės)
kitimo paaiškinimas.
Hipotezės patikslinimas:



Priklausomas kintamasis (gyvenimo
trukmė) keičiasi priklausomai nuo
keleto priežasčių (maitinimosi
kokybės, gyvenimo būdo,
gyvenamosios vietos ir pan.), t.y.
nuo nepriklausomų kintamųjų.
Kintamasis iš pradžių nėra nei
priklausomas, nei nepriklausomas.
Priklausomumą nusako tik hipotezė.
Matavimai


Matavimas – skaičių priskyrimas
nagrinėjamo objekto
charakteristikoms pagal tam tikrą
taisyklę.
Duomenų paruošimo procese
matuojamas ne pats objektas, bet
jo charakteristikos.
Skalės




Skalė – taisyklė, pagal kurią objektų
charakteristikoms priskiriami
skaičiai.
Duomenų gavyboje svarbu
kintamojo skalė arba kintamųjų
duomenų tipas.
Kintamieji būna skaitiniai arba
simboliniai.
Skaitiniai duomenys būna diskretieji
arba tolydieji.
Skalės

Duomenų gavyboje nagrinėjamos
penkios matavimų skalės:





Nominalioji;
Sutvarkyta;
Intervalinė;
Santykinė;
Dichotominė.
Nominalinė skalė (nominal scale)



Skalę sudaro tik kategorijos.
Duomenų negalima surikiuoti.
Su duomenimis negalima atlikti
aritmetinių veiksmų.



Nominalinė skalę nusako pavadinimai,
vardai, skirti klasifikavimui ir grupavimui.
Pvz.: profesijos, miestai, šeimyninė
padėtis.
Galimos operacijos: lygu(=), nelygu(≠).
Sutvarkyta skalė (ordinal scale)


Objektams priskiriami skaičiai,
nurodantis objektų santykinę
padėtį, bet ne jų skirtumus.
Leidžia sutvarkyti objektus, suteikti
jiems rangus, bet neleidžia
nustatyti, kiek vienas dydis didesnis
už kitą.
Sutvarkyta skalė (ordinal scale


Pvz.: komandos vieta čempionate,
mokinio vieta valstybinio egzamino
reitinge (neaišku, kiek kiekvienas
mokinys žino daugiau už kitą).
Galimos operacijos: lygu(=),
nelygu(≠), daugiau(>), mažiau(<).
Intervalinė skalė (interval scale)



Skalė, kurios reikšmių skirtumus
galima apskaičiuoti, bet reikšmių
santykiai neturi prasmės.
Intervalinė skalė leidžia rasti dydžių
skirtumus, turi nominaliosios ir
sutvarkytos skalės savybes.
Skalė leidžia nusakyti požymio
kiekybinius pokyčius.
Intervalinė skalė (interval scale)

Pvz.: vandens temperatūra jūroje:



190C – ryte ir 240C – vakare, t.y.
vakare 5 laipsniais šilčiau, bet 1,26
karto šilčiau.
Intervalinė skalė – tolydžioji.
Galimos operacijos: lygu(=),
nelygu(≠), daugiau(>), mažiau(<),
sudėtis(+), atimtis(-).
Santykinė skalė

Skalė, kurioje nusakyta atskaitos
pradžia ir galimi skalės reikšmių
santykiai.


Pvz.: bulvių kaina prekybos centre 1,2
karto didesnė nei turguje.
Galimos operacijos: lygu(=),
nelygu(≠), daugiau(>), mažiau(<),
sudėtis(+), atimtis(-), dalyba(/).
Dichotominė skalė (dichotomous)

Skalė, turinti tik dvi kategorijas.


Pvz.: lytis (vyriška, moteriška).
Galimos operacijos: lygu(=),
nelygu(≠).
Savybių lentelės
Objekto numeris
Lentelė 2. Skirtingų objektų savybės
Profesija (? skalė)
Vidutinis balas (? skalė) Išsilavinimas (? skalė)
1
2
3
tekintojas
mokslininkas
mokytojas
22
55
47
среднее
высшее
высшее
Matavimo data
Lentelė 3. Vienos objektų sistemos savybės
Debesuotumas(? skalė) Temperatūra 8 val. ryto Vėjo stiprumas(? skalė)
(? skalė)
1 сентября
2 сентября
3 сентября
didelis
apsiniaukę
giedra
220С
170С
230С
silpnas
stiprus
Labai stiprus
Duomenų rinkinių tipai


Dažniausiai naudojami duomenys,
pateikti įrašų forma.
Duomenų rinkinių pavyzdžiai:





Lentelės;
Matricos;
Dokumentai;
Transakcijų duomenys;
Operacijų duomenys.
Transakcijų duomenys

Duomenų tipas, kurio kiekvienas
įrašas yra transakcija – reikšmių
rinkinys.
Grafiniai duomenys




WWW duomenys;
Molekulinės struktūros;
Grafai;
Žemėlapiai.
Cheminiai duomenys
Analizuojamų duomenų tipai
Duomenų saugojimo formatai


Šiuolaikiniame pasaulyje duomenų
labai daug.
Pagrindiniai veiksmai su jais:




Duomenų pateikimas;
Duomenų apskaičiavimas;
Manipuliavimas duomenimis; duomenų
apdorojimas (surinkimas, perdavimas ir
kt.).
Paprastai duomenys laikomi failuose
ir duomenų bazėse.
Duomenų failų tipai