SISSEJUHATUS STATISTIKASSE

Download Report

Transcript SISSEJUHATUS STATISTIKASSE

Sissejuhatus statistikasse
Heldena Taperson ja Anu Oks
www.welovemath.ee
Miks tekkis statistika?
• Andmeid rahvastiku
kohta koguti juba 3.
aastatuhandel e.Kr.
Egiptuses ja Hiinas.
• Umbes 1500 a. e.Kr
lasknud Mooses üle
lugeda meessoost
inimesed.
Rembrandti maal Moosesest
koos kümne käsuga.
Statistika tänapäevases mõttes tekkis
17.- 18. sajandil.
Statistika on teadus, mis käsitleb arvandmete
kogumist, töötlemist ja analüüsimist.
Matemaatiline statistika on matemaatika haru, mis
uurib statistiliste andmete põhjal järelduste
tegemise meetodeid.
”On olemas kolme liiki
valesid:
esiteks hädavale, mis on
vabandatav,
teiseks alatu vale, mida ei
saa andestada ja
kolmandaks statistika.”
Francis Galton (inglise eugeenik ja
antropoloog) 1822-1911
Mõisted
Üldkogum on kas looduse või ühiskonna nähtus
või objektide hulk, mille kohta soovime teha
teaduslikult põhjendatud järeldusi.
Üldkogumi uurimisel on kaks võimalust:
a) uuritakse üldkogumi kõiki elemente
b) uuritakse selle üldkogumi mingit osahulka ja
tehakse selle osahulga uurimise põhjal järeldusi
terve üldkogumi kohta.
• Mõõtmiseks võetud üldkogumi osa nimetatakse
valimiks.
• Valim peab olema küllalt arvukas ning igal
üldkogumi objektil peab olema võrdne võimalus
valimisse sattuda.
Statistilised tunnusetüübid
• Tunnuseid, mille väärtusteks on arvud,
nimetatakse arvtunnusteks ehk kvantitatiivseteks
tunnusteks. Näiteks pikkus, kaal, vanus,
keskmine hinne, kinganumber, rahvaarv ja riigi
pindala.
• Tunnused, mille väärtuseks ei ole arvud,
on mittearvulised ehk kvalitatiivsed tunnused.
Näiteks sugu, rahvus, haridus, juuste värv,
perekonnaseis jne.
Arvtunnused
• Pidev tunnus võib omandada kõiki reaalarvulisi
väärtusi mingist piirkonnast. Näiteks kaal, kasv,
aeg ja temperatuur on pidevad tunnused.
• Diskreetne tunnus võib omandada vaid
üksteisest eraldatud väärtusi. Diskreetse
tunnuse väärtused saadakse tavaliselt
loendamise teel, näiteks elanike arv majas,
õpilaste arv klassis vms.
Mittearvulised tunnused
• Järjestustunnus on tunnus, mille väärtusi saab
sisu põhjal järjestada. Näiteks küsimusele antud
hinnangvastused (meeldib, olen ükskõikne, ei
meeldi), hinded (väga hea, hea, keskpärane,
puudulik).
• Nominaaltunnused erinevad järjestustunnustest
selle poolest, et neid ei ole väärtuse järgi mõtet
järjestada. Näiteks rahvus, silmade värv,
kutseala, parteilisus.
Binaarsel tunnusel on ainult
kaks teineteist välistavat
väärtust.
Tüüpiline binaarne tunnus
on sugu.
Rühmatöö
• Moodustada 3- 4 liikmelised töörühmad.
• Iga töörühm valib vähemalt 4 tunnust (vähemalt
2 erinevat tunnusetüüpi), mille alusel teeb
statistilise uurimuse.
• Valimi suurus vähemalt 30 inimest.
• Uurimus vormistada PP esitlusena- tähtaeg 18.
veebruar.
• Oma uurimuse esitlemine19.02 ja 21.02.
Variatsioonrida ja sagedustabel
Statistilised andmed saadakse vaatluse teel ja
pannakse algselt kirja vaatluste järjekorras. Need
andmed moodustavad statistilise andmestiku ehk
kogumi.
Näide. Ühe kooli gümnaasiumiastmes õppivate
noormeeste jalanumbrid on:
Kasvavalt või kahanevalt järjestatud tunnuse
väärtuste rida nimetatakse variatsioonreaks.
Sagedustabel näitab mitemel korral antud
tunnus saab väärtuse.
Suhteline sagedus (w) näitab, mitu protsenti
antud tunnuse esindajad moodustavad kogu
hulgast.
Suhtelised sagedused võib esitada
sagedustabeli kolmanda reana – sagedusjaotustabel, omaette tabelina või graafiliselt
diagrammina.
Kui jätta sagedus-jaotustabelist ära keskmine
rida (sagedus), siis saame jaotustabeli.
Jaotustabel näitab tunnuse väärtuste suhtelist
esinemissagedust.
Vajadusel jaotatakse sagedustabelis pideva
tunnuse kõikvõimalike väärtuste hulk
ühisosata vahemikeks ehk klassideks.
Vahemike otspunkte nimetatakse
klassipiirideks.
Mõistlik reegel klassipiiride määramiseks on n ,
kus n on objektide arv. Klassipiirideks valitakse
enamasti täisarvud, kusjuures otsmised klassid
võivad olla ka lahtised, st. vähima klassi alumist ja
suurima klassi ülemist piiri määratud ei ole.
Ühe klassi pikkuseks võib võtta vaadeldava
variatsioonrea suurima ja vähima väärtuse vahe
jagatise klasside arvuga. Sagedustabeli esitamisel
klasside abil võetakse kõik osavahemikud sama pikad
Näide.
Roosisordi “Emmi“ aretamisel mõõdeti ja
registreeriti teatud ajahetkedel roositaime
mitmesuguseid tunnuseid. Õie puhkemise
ajal saadi 30 valitud roositaime pikkused
sentimeetrites järgmised.
Statistiline rida:
45, 39, 46, 40, 42, 48, 44, 41, 47, 46, 49, 42, 48,
48, 45, 41, 43, 39, 43, 45, 43, 43, 47, 44, 40, 42, 44,
40, 47, 43.
Variatsioonirida:
39; 39; 40; 40; 40; 41; 41; 42; 42; 42; 43; 43, 43; 43;
43; 44; 44; 44; 45; 45; 45; 46; 46; 47; 47; 47; 48; 48;
48; 49.
Roositaime pikkuste reas on 30 liiget ning klasside
arvuks on mõistlik võtta
n  30  5, 47
Roositaime pikkuste rea jaoks on klassi pikkus
 49  39 : 5  2
Roositaimede niimoodi klassifitseeritud ja rühmitatud
jaotustabel on seega järgmine.
Pikkus
(x)
Suhteline
sagedus
(w) %
- 41
42-43
44-45
46-47
48-
Kasutatud materjalid
• A. Oks ja H. Taperson lisamaterjalid 11. ja 12. klassile,
Avita
• Allar Veelmaa
http://web.zone.ee/veelmaaallar/sisu1/tnan.html