Ppt Statistika

Download Report

Transcript Ppt Statistika

STATISTIKA
Janina Curk, II. gimnazija Maribor
Kaj je statistika
Statistika je veja matematike, ki proučuje
metode zbiranja, urejanja, kvantitativne
obdelave, prikazovanja in analiziranja
številskih podatkov.
Populacija in vzorec
 Množici
pojavov (ljudi, predmetov,
dogodkov), ki jo statistično proučujemo,
pravimo populacija.
 Posamezen pojav (npr. en dijak) je enota
populacije.
 Vzorec je skupina enot (dijakov), od
katere pridobimo podatke.
Kakšen mora biti vzorec
 Dovolj
velik (ekstremi se nevtralizirajo)
 Reprezentativen: po strukturi čim bolj enak
populaciji
 Primer: zanima te agresivnost slovenskih
srednješolcev …
 Naključno vzorčenje
Urejanje v ranžirno vrsto
 Iz
posameznih rezultatov ne dobimo
splošnega vtisa
 Ranžirna vrsta je ureditev rezultatov po
velikosti
 Prednosti: vidimo min. in maks. rezultat,
kateri se največkrat pojavlja, kje približno
je povprečje, ali je določen rezultat v
primerjavi z drugimi nizek/visok
Primer: 9 dijakov piše test …
Dijak
1
2
3
4
5
6
7
8
9
Xi (posamezni
rezultat)
3
3
2
1
4
5
2
3
4
RANŽIRNA VRSTA:
1
2
2
3
3
3
4
4
5
Frekvenčna porazdelitev
posameznih rezultatov



Če je rezultatov veliko in se nekateri ponavljajo,
naredimo frekvenčno porazdelitev: zapišemo
rezultate po vrsti, poleg njih frekvence (absolutne
in relativne – odstotki)
x
f
f%
f% = (Xi/N)x100
1
1
11
Spodnja vrstica tabele:
2
2
22
seštevek frekvenc (9, 100)
3
4
5
3
2
1
33
22
11
Frekvenčna porazdelitev
grupiranih rezultatov


Če je zelo veliko rezultatov, dobimo še boljši splošni vtis,
če jih grupiramo v razrede in tem pripišemo frekvence
(učbenik str. 41 in 42)
Npr. pri nekem testu z maks. 100 točkami bi lahko
rezultate razdelili v razrede. Če imamo rezultate
grupirane v razrede, se pretvarjamo, da imajo vsi
rezultati, ki padejo v določen razred, vrednost sredine
razreda.
Razred Sredina
f
f%
0 – 20
razreda
10
21 – 40
30
41 – 60
50
61 – 80
70
81 - 100 90
Legenda
 Xi
= individualni rezultat
 N = numerus
 f = absolutna frekvenca
 f% = relativna frekvenca
 Xmin = najmanjši rezultat
 Xmax = najvišji rezultat
Grafični prikazi
Poligon – lomljena črta
Histogram - pravokotniki
Vsak graf (tudi tabela ali slika)mora biti oštevilčen,
imeti smiseln naslov, osi morajo biti jasno označene!
Srednje vrednosti
Kažejo osrednjo težnjo rezultatov, okrog njih
se rezultati kopičijo:

Modus

Mediana

Aritmetična sredina
Modus (Mo)





Je rezultat, ki se največkrat pojavlja
V našem primeru …
Lahko jih je več (bimodalne in multimodalne
distribucije – porazdelitve rezultatov)
Prednosti: tudi pri kvalitativnih spremenljivkah
(ločene kategorije, npr. spol, stan)
Pomanjkljivosti: upošteva le najpogostejšo
vrednost (nenatančna mera)
Primer za pomanjkljivost modusa
Modus je neuporabna mera, ko imamo malo
podatkov, med katerimi se več vrednosti
pojavlja z enako frekvenco.
Če je npr. modus ocen, dobljenih z nekim
testom znanja pri 10 dijakih, enak oceni dobro
(3), nam to ne pove veliko o tem, kakšen je test
v celoti. Situacija je namreč lahko zelo različna:
3, 3, 3, 3, 3, 4, 4, 4, 5, 5
1, 1, 1, 1, 2, 3, 3, 3, 3, 3
1, 2, 2, 3, 3, 3, 3, 4, 4, 5
Mediana (Me)







Je rezultat na sredini ranžirne vrste
Najprej izračunamo medianski položaj:
(N+1)/2
Mediana je ta rezultat v ranžirni vrsti
(prešteješ).
V našem primeru…
Če bi bilo sodo število, vzameš povprečje
obeh rezultatov
Pomanjkljivost: upošteva le vrednost na sredi
(nenatančna mera)
Prednost: neodvisnost od skrajnih vrednosti
Aritmetična sredina (M)
 Mean, AS, x prečno,
𝑥𝑖
𝑓𝑥 ∙𝑥𝑘
𝑥 =
oz. 𝑥 =
𝑛
𝑛
 V našem primeru …
 Zaokroževanje
„povprečje“,
na 2 decimalki
 Pomanjkljivost: odvisnost od skrajnih
vrednosti
 Prednost: najobčutljivejša,
najnatančnejša, upošteva vse rezultate
Primer za pomanjkljivost
aritmetične sredine
Štiri osebe so pri testiranju dosegle naslednje
rezultate: 21, 22, 23 in 36. M = 25,50. Ta vrednost
pade v praznino med prvimi tremi in četrtim
rezultatom. Težko bi trdili, da posamezni rezultati
težijo k temu povprečju in da jih to povprečje
dobro zastopa. Skrajna vrednost 36 ga je
namreč preveč »potegnila proti sebi«.
V tem primeru bi mediana gotovo bolje
opisovala osrednjo težnjo rezultatov kot
aritmetična sredina – koliko znaša mediana?
Preverjanje razlik med
aritmetičnimi sredinami

Npr. razlika na vprašalniku učnih navad med fanti in
dekleti je 2 točki (fantje 39, dekleta 41)

Razlika je zelo majhna – ali res obstaja ali je zgolj
naključna – posledica t.i. napake vzorčenja (pojavi
se zaradi slučajnih dejavnikov, ker smo rezultate zbrali
na vzorcu, ne na celi populaciji)?

Preverimo s posebnimi stat. metodami, ki se jih ne
bomo učili, pač pa bomo sklepali „na oko“.

Razlika med dvema M je stat. pomembna: z visoko
stopnjo prepričanosti (običajno na nivoju 95%) lahko
trdimo, da res obstaja v populaciji (le 5% tveganje,
da je v resnici ni).
Razpršenost rezultatov

K vsaki M sodi podatek o tem, koliko so
rezultati okoli nje:

Zgoščeni (bolj reprezentativna)
npr. M=50 za rezultate 48, 49, 50, 51, 52

Razpršeni (manj reprezentativna)
npr. M=50 za rezultate 5, 5, 60, 130


Najpreprostejša mera je razpon: razlika med
maksimalnim in minimalnim rezultatom
Najpogosteje pa računamo standardni
odklon ali standardno deviacijo: pove,
kolikšna so odstopanja posameznih rezultatov
od aritmetične sredine
Razpršenost (nad.)



V našem primeru …
Velika in mala razpršenost: sploščena in
koničasta distribucija (učbenik str. 46)
Primer za pomen mere razpršenosti: če se
odpravljamo na počitnice, nam podatek o
povprečni temperaturi pove, katerih oblačil
naj vzamemo največ, podatek o razpršenosti
pa, ali moramo vzeti tudi bistveno
toplejša/lažja oblačila:
M = 20 (ali to pomeni od 18 do 22 ali od 10 do 30?)
Primer za pomanjkljivost aritmetične
sredine brez podatka o SD
Pri eni zelo odstopajoči
vrednosti nam M daje
napačen vtis. Podatek o
povprečni plači v tem
podjetju bi bil 2875 evrov.
Enako M bi dobili npr. za
podatke 2000, 2000, 2000
in 5.500 (direktor), le da bi
bila razpršenost
posameznih rezultatov
okoli povprečja v tem
primeru bistveno manjša.
Normalna distribucija/porazdelitev
rezultatov
 Če
na velikem vzorcu izmerimo neko
osebnostno lastnost in rezultate grafično
prikažemo, dobimo približek normalne ali
Gaussove krivulje: največ ljudi srednje
izraženo, proti ekstremom upada
 Simetrična, zvonasta, enovrha
 M = Mo = Me
 Pri proučevanju se opiramo nanjo
(učbenik str. 47)
Normalna krivulja
Korelacija




Stopnja povezanosti med dvema
spremenljivkama
Primer za pozitivno korelacijo: Čim boljše
učne navade imajo dijaki, tem boljši je njihov
učni uspeh.
Primer za negativno korelacijo: Čim pogosteje
dijaki izostajajo od pouka, tem slabši je njihov
učni uspeh.
Ena od mer je koeficient korelacije (r): pove,
kako se obnaša x, če se y spreminja (izračuna
se ne učimo)
Vrednosti koeficienta korelacije

r = – 1 pomeni popolno negativno korelacijo: če
raste x, premosorazmerno pada y ali obratno

r = 0 pomeni, da med spremenljivkama ni nobene
linearne povezave ali odvisnosti, torej iz ene
spremenljivke ne moremo sklepati na drugo

r = + 1 pomeni popolno pozitivno korelacijo: če
raste x, raste tudi y oz. če pada x, pada tudi y
V psihologiji ni popolnih korelacij; korelacija 0,50 in
več v psihologiji že relativno visoka.
Korelacijske raziskave

Dajo le podatek o stopnji povezanosti, ne pa o smeri
(eksperiment!): ne vemo, ali



je x vzrok za y
je y vzrok za x
sta x in y povezani preko neke vmesne spremenljivke z (ne
neposredno!)
Primeri:

S koreliranjem spremenljivk lahko ugotovimo, da imajo dijaki z več
izostanki v povprečju slabši učni uspeh (preštejemo izostanke,
pogledamo uspeh in izračunamo stopnjo povezanosti), ne moremo
pa vedeti, ali je slab učni uspeh posledica pogostih izostankov ali
morda njihov vzrok.

S koreliranjem spremenljivk lahko ugotovimo, da sta gledanje filmov
z agresivno vsebino in agresivnost pri otrocih v povezavi, ne
moremo pa trditi, da je prav gledanje takšnih filmov vzrok
agresivnosti. Mogoče pa agresivni otroci raje gledajo takšne filme?
Primer za vmesno spremenljivko
V neki raziskavi v Angliji so ugotovili statistično povezavo
med številom novorojenih otrok in številom štorkelj v okolici.
Več ko je bilo v nekem kraju štorkelj, več otrok se je
rojevalo. Povsem logično bi lahko skušali to razložiti z
dejstvom, da štorklje vendarle imajo nekaj s prinašanjem
otrok. Vendar so kmalu ugotovili, da je takšna povezava le
posledica dejstva, da precej več štorkelj živi na podeželju
kot v mestih (kar nas ne preseneča), prav tako pa imajo
družine na podeželju več otrok kot v mestih. Konec
koncev se je torej izkazalo, da večje število otrok ni bilo
posledica delovnih štorkelj. Prav tako se štorklje niso
naseljevale v krajih zaradi otrok. Očitno je, da sta bila
pojava, število štorkelj in število otrok, posledica nekega
tretjega pojava, to pa je bilo v tem primeru okolje.
Korelacijske raziskave - vaja
Na prvi strani časopisa vas preseneti naslov: »Obiskovanje
rejvpartijev negativno vpliva na šolsko uspešnost!!!« Pod
naslovom si lahko ogledate več fotografij iz različnih
rejvpartijev, povsem na dnu pa je z malimi črkami opisana
raziskava, v kateri so raziskovalci ugotovili, da obstaja
povezanost med pogostostjo obiskovanja rejvpartijev in
povprečnimi ocenami v šoli. Dijaki, ki se pogosteje udeležujejo
rejvpartijev, imajo v povprečju nekoliko nižje šolske ocene od
tistih, ki se takih zabav ne udeležujejo.
a. Ali naslov ustrezno povzema ugotovitve opisane raziskave?
Kaj bi še morali vedeti o raziskavi, da bi bil naslov ustrezen?
b. Ugotovljeno povezavo med rejvpartiji in šolskimi ocenami je
mogoče razložiti (interpretirati) na različne načine. Kako?
Pričakovani odgovori
a.
Ne. Iz opisa raziskave lahko zaključimo le, da so
raziskovalci ugotovili povezanost med pogostostjo
obiskovanja rejvpartijev in povprečnimi ocenami v šoli. Na
vzročni odnos med obema spremenljivkama (obiskovanje
rejvpartijev negativno vpliva na šolsko uspešnost) bi lahko
sklepali šele takrat, ko bi vedeli, kakšna vrsta raziskave je
bila izvedena. Zaključevanje o vzročno-posledičnih
odnosih med spremenljivkami je mogoče le takrat, ko
izvedemo eksperiment.
b.
Ugotovljeno povezanost lahko interpretiramo vsaj na tri
različne načine: (1) Obiskovanje rejvpartijev negativno
vpliva na učni uspeh (spremenljivka x vpliva na
spremenljivko y). (2) Dijaki, ki imajo slabe ocene,
pogosteje obiskujejo rejvpartije (spremenljivka y vpliva na
spremenljivko x). (3) Dijaki, ki niso motivirani za šolsko delo,
obiskujejo rejvpartije, pa tudi šolske ocene imajo slabše
(spremenljivki x in y sta obe odvisni od neke tretje
spremenljivke).
Naloga 1
Dijak je za izdelavo seminarske naloge sestavil
preprosto lestvico samoocenjevanja in anketiral
24 sošolcev. Kar najhitreje in najpreprosteje je
želel ugotoviti najnižji in najvišji rezultat ter
rezultat, ki se je največkrat pojavil. Kateri
postopek urejanja in prikazovanja podatkov je
uporabil?
A.
B.
C.
D.
Ranžirno vrsto
Frekvenčno porazdelitev individualnih
rezultatov
Frekvenčno porazdelitev grupiranih rezultatov
Histogram
Pričakovani odgovor
A
Naloga 2
Imamo tri nize podatkov:
a) 15, 8, 11, 0, 13, 4, 7, 7, 12, 2
b) 4, 5, 7, 7, 10, 10, 10, 13, 13, 15, 16
c) 120, 5, 4, 4, 4, 2, 1, 0
V katerem primeru aritmetična sredina ni
»realna« mera srednje vrednosti in zakaj ne?
Pričakovani odgovor
Aritmetična sredina ni realna mera srednje
vrednosti v primeru c), saj je preobčutljiva in
jo skrajne vrednosti med rezultati močno
izkrivijo.
Naloga 3
Število točk, ki ga je 25 dijakov doseglo pri
pisnem preizkusu znanja iz zgodovine, se je
gibalo med 15 in 40. Ker je doseženo število
točk odločalo o udeležbi na področnem
tekmovanju iz znanja zgodovine, je
profesorica dijake razvrstila od najboljšega
do najslabšega. Dijak, ki je zasedel 13.
mesto, je dosegel 26 točk.
Katero srednjo vrednost lahko določimo iz
navedenih podatkov?
Pričakovani odgovor
Določimo lahko mediano, ki je na 13.
položaju v ranžirni vrsti, njena vrednost je 26.
Naloga 4
V raziskavi so želeli izmeriti povprečni IQ
slovenskih srednješolcev. IQ dijakinj in dijakov, ki
so ga psihologi izmerili na dveh mariborskih
gimnazijah, se je gibal med 102 in 129. IQ 102 je
bil izmerjen pri dveh dijakih, IQ 129 pri treh, pri
največ dijakih pa so izmerili IQ 114.
a) Ugotovite srednjo vrednost, ki jo lahko
določimo iz navedenih podatkov.
b) Pojasnite glavno metodološko pomanjkljivost
omenjene raziskave.
Pričakovani odgovor
a)
b)
Določimo lahko modus: to je rezultat, ki
se največkrat pojavlja.
Glavna pomanjkljivost raziskave je
nereprezentativni vzorec. Rezultatov
raziskave, ki je bila izvedena na
mariborskih gimnazijcih, ne moremo
posplošiti na vse slovenske srednješolce.
Naloga 5
Ocenite, pri katerih od spodaj navedenih
podatkov bi bil standardni odklon največji,
če bi ga izračunali. Utemeljite svojo
napoved.
a) 7, 9, 10, 11, 11, 12, 13, 16, 17, 18.
b) 2, 5, 8, 11, 16, 17, 18, 20, 21, 22.
c) 52, 54, 55, 55, 57, 58, 60, 61, 63, 66.
Pričakovani odgovor
Standardni odklon bi bil največji pri
podatkih v nalogi b). To lahko ocenimo z
razponom (razlika med največjim in
najmanjšim rezultatom).
Naloga 6
Kateri od navedenih korelacijskih
koeficientov kaže na visoko negativno
povezanost med dvema spremenljivkama?
a. + 0,56.
b. - 0,82.
c. -1,23.
č. - 0,34.
Pričakovani odgovor
b
Naloga 7
Če sta dve spremenljivki v korelaciji, to pomeni:
a. da je ena spremenljivka zelo pomembna,
druga pa manj;
b. da je ena spremenljivka vzrok za pojavljanje
druge spremenljivke;
c. da vplivata druga na drugo, ne moremo pa
trditi, da gre za vzročno povezavo med njima;
č. da vedno ena spremenljivka narašča, druga
pa upada.
Pričakovani odgovor
c
Naloga 8
Spodaj so našteti pari psiholoških spremenljivk,
med katerimi obstaja neka povezanost:
pozitivna ali negativna. Ocenite, za kakšno
korelacijsko povezanost bi šlo lahko med njimi.
a. Inteligentnost in splošni učni uspeh.
b. Izostajanje od pouka in splošni učni uspeh.
c. Splošni uspeh v četrtem letniku in število
doseženih točk na maturi.
d. Kakovost predavanj in interes dijakov za
predmet.
Pričakovani odgovor
a.
b.
c.
d.
Pozitivna
Negativna
Pozitivna
Pozitivna
Naloga 9
V neki raziskavi je bila korelacija med količino učenja
dijakov (v minutah učenja na dan) in višino
njihovega učnega uspeha (splošni uspeh ob koncu
pouka) 0,42.
a. Pojasnite, kaj pomeni ta statistični podatek.
b. Razložite, zakaj med obema spremenljivkama ni
mogoča popolna korelacija.
c. Kateri dejavniki poleg količine učenja po vašem
mnenju še vplivajo na učni uspeh v šoli?
d. Zamislite si vsaj dve spremenljivki, ki sta verjetno v
negativni korelaciji s šolskim uspehom.
Pričakovani odgovori
a. Podatek nam pove, da je med količino učenja in učnim
uspehom srednje visoka pozitivna povezanost. Dijaki, ki se več
učijo, imajo pogosteje tudi boljše ocene v šoli. Ker pa
koeficient ni blizu 1 ali zelo visok (na primer 0,90 ali višji), lahko
sklepamo, da na učni uspeh poleg količine učenja vplivajo
tudi številni drugi dejavniki.
b. V psihologiji (in drugih družboslovnih znanostih) popolna
korelacija med dvema spremenljivkama ni mogoča. Na vse
psihološke pojave ali lastnosti praviloma vpliva veliko število
različnih dejavnikov, ki jih morda nismo zajeli v raziskavo ali pa
jih ni mogoče meriti.
c. Na učni uspeh v šoli vplivajo številni dejavniki, fizični,
fiziološki, socialni in psihološki. Med psihološkimi dejavniki
najbolj vplivajo inteligentnost, predhodno znanje, motivacija,
osebnostne značilnosti, kot so vztrajnost, čustvena stabilnost,
učni stil, poznavanje učnih strategij itd.
d. Taki spremenljivki bi bili lahko: izostajanje od pouka, slabi
materialni pogoji šolanja, bolezen, negativno stališče do
učenja in šolanja itd.
Kritičnost do statističnih
podatkov
Dijaki razpravljajo o primerih na listu (fotok.)
Iz kodeksa poklicne etike



Načela psihološke etike so vodilo za psihologa, ko
s teoretičnim in praktičnim delom prispeva k
samouresničevanju človeka, da lahko ta čim bolj
suvereno obvladuje vsa področja svojega
življenja.
Psiholog zavrne sodelovanje v postopkih, ki kršijo
pravne ali moralne pravice drugih ljudi.
Psiholog o poteku psihološke pomoči vodi
strokovni zapis obravnave (dosje). Podatki iz
dosjeja so last obravnavanca. Psiholog svoje
dodatne osebne zapise o obravnavi hrani ločeno.
Ti niso del strokovne dokumentacije in niso nikomur
na vpogled.
Iz kodeksa poklicne etike



Psiholog sme od obveznosti popolnega ščitenja
podatkov odstopiti le v izjemnih primerih (ko je
ogroženo življenje obravnavanca ali življenje drugih
ljudi ali, ko gre za zlorabo otrok). Psiholog je dolžan
obravnavanca seznaniti s temi izjemami na začetku
poklicnega odnosa.
V varovanem psihološkem arhivu so hranjena tudi
psihodiagnostična sredstva in drugi psihološki
standardizirani pripomočki, katerih razširjanje bi
občutno škodovala stroki, posamezniku ali družbi.
Psiholog je dolžan ta sredstva uporabljati in hraniti
tako, da so dostopna samo diplomiranim
psihologom.
Psiholog se zaveda problemov, ki jih povzroča dvojni
odnos. Dolžan je preprečiti vsak odnos, ki zmanjšuje
potrebno poklicno razdaljo in vodi do konflikta
interesov ali do izkoriščanja obravnavanca.