P6 Statistika

Download Report

Transcript P6 Statistika

Literatura
Fajgelj: Metode istraživanja ponašanja
KOLOKVIJUM (str 103-274)
Elementi empirijskog istraživanja ponašanja
Vrste istraživanja
NE TREBA za kolokvijum: Izbor teorijske perspektive (103-109), Dodeljivanje
objekata u grupe (172-181), Utemeljena ili zasnovana teorija, meta analiza
(251-271)
ISPIT
Metode i tehnike merenja str 275-293; 306-380;
NE TREBA ZA ISPIT 294-305 psihološko testiranje
Primena statistike u istraživanju str 424 – 450, 460-475;
NE TREBA ZA ISPIT: Višestruka regresija i korelacija (455-460),
Grafičko prikazivanje rezultat, testiranje značajnosti nulte hipoteze,... (475501)
Uzorkovanje str 502-514; 525 -561
NE TREBA: 514 -525
Osnovna tipologija skala
• Isto- različito – nominalna skala, klasifikacija (pol,
zanimanje...)
• Veće manje (hijerarhija) – ordinalna skala – rangiranje
(kategorije godina,...)
• Aditivnost – intervalna skala - nema apsolutnu nulu (IQ,
temperatura u farenhajtima, ..)
• Multiplikativnost, ima apsolutnu nulu – racio skala (skala
učestalosti, konzumacije, gledanosti, ...)
Osnovna matrica podataka
OSONOVNA MATRICA PODATAKA:
•
•
Redovi – entiteti
Kolone – atributi (tip: string/numeric; decimal places, labele,
vrednosti...)
Kodiranje podataka – izrada kodeksa
KODEKS
– sistem pravila o prevođenju odgovora ispitanika (“sirovih” podataka) u
primarne podatke
1.
2.
3.
iscrpan popis svih varijabli i njihovih modaliteta
mesto svake promenljive u ukupnom nizu
raspored svih podataka u DVODIMENZIONALNI PROSTOR
•
4.
5.
6.
REDOVI i KOLONE – u njihovom preseku nalaze se ĆELIJE
svakom ISPITANIKU se dodeljuje jedan RED
svaka PROMENLJIVA dobija jednu ili više KOLONA
svakom MODALITETU promenljive dodeljuje se odgovarajući
SIMBOL (oznaka, broj, slovo...)
Izrada kodeksa
pol
Stav_tvrdnja 1
Stav_tvrdnja
2
1
1
1
3
2
2
3
4
3
1
4
4
4
1
6
5
5
2
7
6
6
1
1
2
rbr
modaliteti:
1 – muški
2 – ženski
PROMENLJIVA
ISPITANIK
modaliteti:
slaganje sa tvrdnjom na
skali 1-7
DESKRIPTIVNA STATISTIKA
mere centralne tendencije i mere varijabilnosti
parametri (populacija) i statistici (uzorak)
Aritmetička sredina
mera centralne tendencije
• Aritmetička sredina nekog seta kvantitativnih podataka (numeričkog niza)
jeste suma svih vrednosti podeljena sa ukupnim brojem objekata od kojih
se set sastoji
– Što je veći uzorak aritmetička sredina je preciznija
– Što je veća varijabilnost aritmetička sredina je manje pouzdana
Medijana i modus
mera centralne tendencije
• Medijana nekog kvantitativnog seta podatak jeste srednji broj u situaciji
kada se sve vrednosti poređaju od najniže do najviše. Nekada je medijana
bolja mera centralne tendencije u odnosu na aritmetičku sredinu, jer je
manje senztivna na eksptremno niske ili visoke vrednosti
– Ukoliko je niz brojeva neparan, onda je medijana broj u sredini
– Ukoliko je broj paran, onda je medijana srednja vrednost srednja dva
broja
 Modus je najčešća vrednost koja se pojavljuje u jednom setu brojeva.
Zašto je nekad bolje koristiti medijanu a ne AS?
mera centralne tendencije
Primer
U našem preduzeću prosečna plata je 400 EURO
AS = 400 euro
Preduzeće ima 6 radnika sa platama
100 euro, 100 euro, 150 euro, 150 euro, 400 euro, 1500 euro
Medijana = 150 euro
Mere raspršenja (varijabilnosti)
• Varijansa je centralni statistički pojam i predstavlja prosek
kvadrata odstupanja pojedinačnih vrednosti obeležja
(promenljive) od neke srednje vrednosti (najčešće
aritmetičke sredine)
• Standardna devijacija je kvadratni koren iz varijanse
Interpretacija standardne devijacije
• Ukoliko je distribucija normalna važi:
– Oko 68% varijanse će biti obuhvaćene +/- 1SD
– Oko 95% varijanse će biti obuhvaćene +/- 2SD
– Oko 99,7% varijanse će biti obuhvaćene +/- 3SD
Interpretacija standardne devijacije
•
Ukoliko je distribucija normalna važi:
– Oko 68% varijanse će biti obuhvaćene +/- 1SD
– Oko 95% varijanse će biti obuhvaćene +/- 2SD
– Oko 99,7% varijanse će biti obuhvaćene +/- 3SD
PRIMER
Ako su prosečna primanja u Crnoj Gori 300 EURO, sa standardnom
devijacijom 130 EURO, šta to znači?
– 68% populacije ima primanja između 170 euro i 430 euro (+/- 1SD)
– 95% populacije ima primanja izmedju 40 euro i 560 euro (+/- 2SD)
Model normalne distribucije
mere varijabilnosti
Odstupanje od normalnosti
Kurtosis
• Kurtozis je parametar koji pruža informaciju o
rasprostranjenosti distribucije po y osi
• Kurtozis za normalnu ditribuciju jednak je nuli.
• Ako je kurtozis veći od 0 distribucija je izdužena
(leptokurtična), a ako je manji od 0 raspodela je spljoštena
(platikurtična).
• Ako je kurtozis manji od -1.2 distribucija je U tipa.
• Ekstremno negativan ukazuje na bimodalnost
Leptokurtična distribucija
• Dodavanje ekstremno lakih i ekstremno teških
zadataka
Normalizacija
Platikurtična distribucija
• Dodavanje srednje teških zadataka
Skewnes
•Skjunis je parametar koji pokazuje da li je distribucija
asimetrična ulevo ili udesno
•Skjunis za normalnu ditribuciju jednak je nuli,
negativan je za negativno asimetričnu, a pozitivan za
pozitivno asimetričnu distribuciju.
•U intervalu od -0.5 do 0.5 je umerena asimetrija, a
izvan toga je znatna.
•Distribucija koeficijenta zakrivljenosti (odnosno
skjunisa) je normalna.
Negativno asimetrična distribucija
• Dodavanje težih zadataka ili skraćenje vremena po
zadatku
Pozitivno asimetrična distribucija
• Dodavanje lakih zadataka ili produžavanje vremena
po zadatku
Greška merenja (pouzdanost)
• Greška se veže uz svako merenje uključujući i
ona najsofisticiranija merenja u fizici
• Nepoznavanje greške merenja stvara nam
osećaj lažne sigurnosti
Intervali poverenja
95% i 99%
• Broj devijacija od aritmetičke sredine i polja
koje je pokriveno u okviru distribucije
• 95% interval poverenja je +/- 1,96 standardne
devijacije
• 99% interval poverenja je +/- 2,58 standardne
devijacije
Outliers / ekstremne vrednosti
Korelacioni pristup: predviđanje
socijalnog ponašanja
Povezanost ili asocijacija između dve varijable
Korelacija
• Korelacija predstavlja tip povezanosti između
varijabli u kojem mi nemamo nikakvu kontrolu nad
vrednostima varijabli
• Metrijske karakteristike varijabli moraju biti
minimalno ORDINALNE (bolje intervalne)
Aronson Social Psychology, 5/e
Copyright © 2005 by Prentice-Hall, Inc
Korelacioni pristup
Korelacioni metod je postupak sistematskog
merenja dve varijable i određivanja odnosa
među njima (tj., u kojoj meri se na osnovu
jedne može predvideti druga).
Koeficijent korelacije je statistički pokazatelj
koliko se dobro mogu predviđati vrednosti
jedne varijable na osnovu druge varijable.
Korelacioni pristup
Pozitivna korelacija pokazuje da porast
jedne varijable dovodi do porasta druge
varijable
Negativna korelacija pokazuje da porast
jedne varijable jeste povezan sa
smanjenjem vrednosti druge varijable
Korelacioni pristup
Korelacioni pristup
Korelacioni metod se oslanja na ankete,
istraživanja u kojima se na
reprezentativnom uzorku ljudi (često
anonimno) postavljaju pitanja o njihovim
stavovima i ponašanju.
Korelaciona analiza
• Korelaciona analiza ispituje samo kovarijaciju
između dve varijable.
• Korelaciona analiza ne govori ništa o prirodi
veze između varijabli koje kovariraju.
• Regresiona analiza nam govori o PRIRODI veze
između varijabli: U KOJOJ MERI SE VREDNOSTI
NA JEDNOJ VARIJABLI MOGU PREDVIDETI
DISTRIBUCIJOM VREDNOSTI DRUGE
VARIJABLE
Regresiona analiza
• Regresiona analiza ima za cilj PREDVIDJANJE
• Distribucijom vrednosti jedne varijable
predviđa se vrednost druge varijable
• Prediktorska analiza:
– Kriterijsumska varijabla (varijabla čije vrednosti
želimo da previdimo) - ZV
– Prediktorska varijabla (varijabla koja je osnov za
predikciju) - NV
Mere povezanosti – koeficijenti korelacije
• Mere povezanosti varijabli se nazivaju KOEFICIJENTI KORELACIJE
– Postoje različite vrste koeficijenata koje se mogu koristiti za različite tipove
promenljivih
– Kategoričke varijable: Tabele kontingencije – “ukrštanja” (C-koeficijent i χ² test)
– Numeričke varijable: Linearna korelacija (Pirsonov koeficijent)
• Postoje statistički testovi koji utvrđuju da li je povezanost STATISTIČKI
ZNAČAJNA
– Da li imamo dovoljno razloga da verujemo da zabeležena korelacija nije
slučajna već da odražava stvarnu povezanost pojava
Analiza i interpretacija podataka
•
Interpretacija korelacija – neka pitanja
Prvo pitanje: da li je povezanost statistički značajna?
Drugo pitanje: da li je korelacija znatna – da li ima praktični značaj?
– Na značajnost mogu da utiču neki faktori kao što je veličina uzorka (veliki uzorak –
statistički značajne, ali praktično male korelacije)
– Procenjujemo u odnosu na to kakvu povezanost očekujemo
•
U psihologiji je najčešći slučaj da neka pojava zavisi od mnogo faktora
Treće pitanje: zaključivanje o uzročnim odnosima: KORELACIJA ≠ KAUZACIJA
– Korelacija je samo jedan od uslova za utvrđivanje uzročnosti - nije moguće isključiti
alternativna objašnjenja veze, npr.
•
•
“Prividna” korelacija - treća varijabla je nezavisno uticala i na jednu i na drugu varijablu
Indirektna, delimična uzročnost: jedna varijabla ne uzrokuje drugu samostalno ili nije ne
posredni uzrok zavisne varijable
Statistika zaključivanja
Nulta hipoteza (Fisher)
• Razlika aritmetičkih sredina
• Da li su razlike između aritmetičkih sredina
značajne?
• Nulta hipoteza je deifnisana negativno: IZMEĐU
DVE GRUPE ISPITANIKA NE POSTOJE RAZLIKE
• Nulta hipoteza nasuprot alternativnoj hipotezi
(kojih može biti više)
Primeri
• Dve grupe ispitanika različite starosti, i mera
stepena vezanosti za naciju
• Dve grupe ispitanika različite nacionalnosti, i
mera religioznosti
• Dve grupe adolescenata (podeljene po tipu
srednje škole: stručna i gimnazija) i sklonost
agresivnom ponašanju
Statistička značajnost testa
Standardi
• p<0.05 (95% verovatnoće) – na nivou 95%
verovatnoće odbacujemo nultu hipotezu (npr.
ne postoje razlike u stavu prema institucijama
između muškaraca i žena)
• p < 0.01 (99% verovatnoće) - na nivou 95%
verovatnoće odbacujemo nultu hipotezu (npr.
ne postoje razlike u stavu prema institucijama
između muškaraca i žena)
Aronson Social Psychology, 5/e
Copyright © 2005 by Prentice-Hall, Inc
Statistička značajnost testa
Standardi
• p<0.05 (95% verovatnoće)
• p < 0.01 (99% verovatnoće)
U jednom/ pet od 100 uzoraka (merenja)
možemo očekivati suprotan nalaz od našeg
5: 100 ili 1:100
NULTA HIPOTEZA GLASI - NE POSTOJI STATISTIČKI
ZNAČAJNA RAZLIKA IZMEĐU DVE ARITMETIČKE
SREDINE
AKO JE
• p<0.05 (95% verovatnoće)
• p < 0.01 (99% verovatnoće)
ODBACUJEMO NULTU HIPOTEZU
Hi kvadrat test
Neparametrijski test. Namenjen frekvencijama.
Ispituje se da li dobijena distribucija odstupa od oćekivane
distribucije (posmatrana i teorijska distribucija)
Kalkulacija se zasniva na odnosu između očekivane i
posmatrane frekvencije.
Tako je moguće odbaciti nultu hipotezu.
Interpretacija standardne devijacije
PRIMER
Ako su prosečna primanja u Crnoj Gori 300 EURO, sa standardnom
devijacijom 130 EURO, šta to znači?
– 68% populacije ima primanja između 170 euro i 430 euro (+/- 1SD)
– 95% populacije ima primanja izmedju 40 euro i 560 euro (+/- 2SD)
Ako je prosečna mesečna potrošnja na hranu u Crnoj Gori 200 EURO, sa
standardnom devijacijom 30 EURO, šta to znači?
Ako je prosečna cena sedmodnevnog letovanja za četvoročlanu porodicu
na crnogorskom primorju 2300 EURO, sa standardnom devijacijom 450
EURO, šta to znači?
Vežba 1
Radni staž u godinama
Broj radnika
0-4
12
5-9
20
10-14
28
15-19
19
20-24
11
ukupno
90
suma
1110
Izračunajte:
Prosečan radni staž radnika (12,33 godine)
Medijanu (n/2=45, medijalni razred 10-14 =12,33)
Vežba 2
Broj automobila
Broj porodica
0
180
1
220
2
130
3
85
ukupno
615
suma
735
Izračunajte:
Prosečan broj automobila po porodici (1,19)
Medijanu (n/2=307.5, medijalni razred 1)