S ANOVA Korelacije Hi

Download Report

Transcript S ANOVA Korelacije Hi

Ponavljanje osnovnih
statističkih pojmova
Mere centralne tendencije


Prosek AS
Medijana – srednji broj u situaciji kada se sve
vrednosti poređaju od najniže do najviše
Odstupanje od normalnosti
• Kurtozis je parametar koji pruža informaciju o
rasprostranjenosti distribucije po y osi
• Kurtozis za normalnu distribuciju jednak je nuli.
• Ako je kurtozis veći od 0 distribucija je izdužena
(leptokurtična), a ako je manji od 0 raspodela je spljoštena
(platikurtična).
Odstupanje od normalnosti
• Skjunis je parametar koji pokazuje da li je distribucija
asimetrična ulevo ili udesno
• Skjunis za normalnu ditribuciju jednak je nuli, negativan je za
negativno asimetričnu, a pozitivan za pozitivno asimetričnu
distribuciju.
• U intervalu od -0.5 do 0.5 je umerena asimetrija, a izvan toga
je znatna.
Mere raspršenja
• Varijansa je centralni statistički pojam i predstavlja prosek
kvadrata odstupanja pojedinačnih vrednosti obeležja
(promenljive) od neke srednje vrednosti (najčešće
aritmetičke sredine)
• Standardna devijacija je kvadratni koren iz varijanse
Interpretacija standardne devijacije
• Ukoliko je distribucija normalna važi:
– Oko 68% varijanse će biti obuhvaćene +/- 1SD
– Oko 95% varijanse će biti obuhvaćene +/- 2SD
– Oko 99,7% varijanse će biti obuhvaćene +/- 3SD
Interpretacija standardne devijacije
PRIMER
Ako su prosečna primanja u Crnoj Gori 300 EURO, sa standardnom
devijacijom 130 EURO, šta to znači?
– 68% populacije ima primanja između 170 euro i 430 euro (+/- 1SD)
– 95% populacije ima primanja izmedju 40 euro i 560 euro (+/- 2SD)
Ako je prosečna mesečna potrošnja na hranu u Crnoj Gori 200 EURO, sa
standardnom devijacijom 30 EURO, šta to znači?
Ako je prosečna cena sedmodnevnog letovanja za četvoročlanu porodicu
na crnogorskom primorju 2300 EURO, sa standardnom devijacijom 450
EURO, šta to znači?
Vežba 1
Radni staž u godinama
Broj radnika
0-4
12
5-9
20
10-14
28
15-19
19
20-24
11
ukupno
90
suma
1110
Izračunajte:
Prosečan radni staž radnika (12,33 godine)
Medijanu (n/2=45, medijalni razred 10-14 =12,33)
Vežba 2
Broj automobila
Broj porodica
0
180
1
220
2
130
3
85
ukupno
615
suma
735
Izračunajte:
Prosečan broj automobila po porodici (1,19)
Medijanu (n/2=307.5, medijalni razred 1)
Šta ako raspodela odstupa od
normalne
• Normalizacija skorova
• Z skorovi
• Z skor= posmatrana vrednost – AS / SD
Greška merenja (pouzdanost)
• Greška se veže uz svako merenje uključujući i
ona najsofisticiranija merenja u fizici
• Nepoznavanje greške merenja stvara nam
osećaj lažne sigurnosti
Intervali poverenja
95% i 99%
• Broj devijacija od aritmetičke sredine i polja
koje je pokriveno u okviru distribucije
• 95% interval poverenja je +/- 1,96 standardne
devijacije
• 99% interval poverenja je +/- 2,58 standardne
devijacije
Outliers / ekstremne vrednosti
Statistika zaključivanja
Nulta hipoteza
• Razlika aritmetičkih sredina
• Da li su razlike između aritmetičkih sredina
značajne?
• Nulta hipoteza je deifnisana negativno:
IZMEĐU DVE GRUPE ISPITANIKA NE POSTOJE
RAZLIKE
Primeri
• Dve grupe ispitanika različite starosti, i meru
stepena vezanosti za naciju
• Dve grupe ispitanika različite nacionalnosti, i
mera religioznosti
• Dve grupe adolescenata (podeljene po tipu
srednje škole: stručna i gimnazija) i sklonost
agresivnom ponašanju
Statistička značajnost testa
Standardi
• p<0.05 (95% verovatnoće) – na nivou 95%
verovatnoće odbacujemo nultu hipotezu (npr.
ne postoje razlike u stavu prema institucijama
između muškaraca i žena)
• p < 0.01 (99% verovatnoće) - na nivou 95%
verovatnoće odbacujemo nultu hipotezu (npr.
ne postoje razlike u stavu prema institucijama
između muškaraca i žena)
Statistička značajnost testa
Standardi
• p<0.05 (95% verovatnoće)
• p < 0.01 (99% verovatnoće)
U jednom/ pet od 100 uzoraka (merenja)
možemo očekivati suprotan nalaz od našeg
5: 100 ili 1:100
NULTA HIPOTEZA GLASI - NE POSTOJI STATISTIČKI
ZNAČAJNA RAZLIKA IZMEĐU DVE
ARITMETIČKE SREDINE
AKO JE
• p<0.05 (95% verovatnoće)
• p < 0.01 (99% verovatnoće)
ODBACUJEMO NULTU HIPOTEZU
T test i Z test
• SLIČNOST T TESTA I Z STATISTIKA
– Predstavljaju testiranje hipoteza
– Procena relativnog mesta testirane vrednosti u distribuciji svih
vrednosti na varijablama
– Upoređuju aritmetičke sredine
– Koriste zakon verovatnoće
• RAZLIKE T TESTA I Z STATISTIKA
– Z počiva na pretpostavci o normalnoj distribuciji T test na studentovoj
distribuciji
– Kod T testa koristimo stepen slobode
DF stepeni slobode
• Ključna pretpostavka na kojoj počiva T test
jeste da distribucija nije normalna (slična je
normalnoj ali nije identična)
• Razlog – mali broj slučajeva
• ŠTO JE VEĆI BROJ STEPENI SLOBODE
DISTRIBUCIJA JE BLIŽA NORMALNOJ
• Broj stepeni slobode direktno zavisi od broja
opserviranih vrednosti df=n-1
Polne razlike
ANOVA
• Poredi varijanse između dve ili više varijabli
• Prethodi mnogim drugim tehnikama, jer je
važan pokazatelj da li su varijanse varijabli koje
upoređujemo jednake ili ne
• Za izračuavanje F testa se koristi odnos između
unutargrupne varijanse i međugrupne
varijanse
Korelacioni pristup: predviđanje
socijalnog ponašanja
Povezanost ili asocijacija između dve varijable
Korelacija
Korelacija
• Korelacija predstavlja tip povezanosti između
varijabli u kojem mi nemamo nikakvu kontrolu nad
vrednostima varijabli
• Metrijske karakteristike varijabli moraju biti
minimalno ORDINALNE (bolje intervalne)
Korelacioni pristup
Korelacioni metod je postupak sistematskog
merenja dve varijable i određivanja odnosa
među njima (tj., u kojoj meri se na osnovu
jedne može predvideti druga).
Koeficijent korelacije je statistički pokazatelj
koliko se dobro mogu predviđati vrednosti
jedne varijable na osnovu druge varijable.
Korelacioni pristup
Pozitivna korelacija pokazuje da porast
jedne varijable dovodi do porasta druge
varijable
Negativna korelacija pokazuje da porast
jedne varijable jeste povezan sa
smanjenjem vrednosti druge varijable
Korelacioni pristup
Korelacioni pristup
Korelacioni metod se oslanja na ankete,
istraživanja u kojima se na
reprezentativnom uzorku ljudi (često
anonimno) postavljaju pitanja o njihovim
stavovima i ponašanju.
Korelacioni pristup
Ograničenja korelacionog metoda: Korelacija
ne znači uzročno posledičnu vezu
Korelacioni metod identifikuje samo povezanost varijabli,
ali ne i zašto su povezane.
Samo eksperimentalni metod, koji sistematski kontroliše i
manipuliše varijablama, može odrediti kauzalnost.
Korelaciona matrica
Povezanost kategorijalnih varijabli
Hi2 test
• Hi – kvadrat test
• Smirnov - Kolmogorljev test
Hi kvadrat test
Neparametrijski test. Ispituje se da li dobijena distribucija
odstupa od oćekivane distribucije (posmatrana i teorijska
distribucija)
Kalkulacija se zasniva na odnosu između očekivane i
posmatrane frekvencije.
Tako je moguće odbaciti nultu hipotezu.
Smirnov kolmogorov test
Tests of Normality
a
Kolmog orov-Smirnov
Statistic
df
Sig .
agrsum nasilnicko
ponasanje
.058
a. Lilliefors Significance Correction
1024
.000
Statistic
.982
Shapiro-Wilk
df
1024
Sig .
.000