Statistik - 2.58  SE  Parametar  Statistik + 2.58  SE

Download Report

Transcript Statistik - 2.58  SE  Parametar  Statistik + 2.58  SE

Statistika u istraživačkom procesu
– statističko zaključivanje i
statističko modelovanje
Goran Trajković
januar, 2013. godine
Statističko zaključivanje
Donošenje zaključka o populaciji na osnovu opservacija
iz uzorka. Zaključak je probabilističke prirode, jer se
donosi na osnovu uzoračkih podataka, i praćen je
izvesnim stepnom nesigurnosti
Ciljna populacija
Uzoračka populacija
Uzorak
Analiza
Uzoračka statistika
(uzorački statistik)
Statistički zaključak o populaciji
sa određenim stepenom
nesigurnosti
Parametri osnovnog skupa i uzoračke statistike
1. Parametar – statistička mera date varijable u populaciji
2. Uzoračka statistika – statistička mera date varijable u uzorku
Statistička
mera
Parametri
osnovnog
skupa
Uzoračke
statistike
Aritmetička
sredina

x
Varijansa
2
sd2
Standardna
devijacija

sd
Proporcija

p
Dva tipa statističkog zaključivanja
 Ocena vrednosti parametra u populaciji (npr.
aritmetička sredina ili proporcija)
 Testiranje hipoteza – testiranje pretpostavke o
vrednosti parametra
Ocena parametra (ocenjivanje)
Proces korišćenja informacija iz uzorka u cilju donošenja
zaključka o vrednosti populacionog parametra. Ocena može
biti data u obliku jedne vrednosti (tačkasta ocena) ili u obliku
intervala poverenja.
Interval poverenja – interval unutar kojeg se sa definisanom
verovatnoćom (nivo poverenja, koeficijent poverenja) nalazi
nepoznati parametar. Npr. za koeficijent poverenja of 95%
može se očekivati da će se nepozanti parametar sa
verovatnoćom od 0.95 nalaziti u datom intervalu poverenja,
odnosno da će u ponovljenom uzorkovanju 95% intervala
sadržati parametar. Definisana verovatnoća se odnosi na
interval poverenja, a ne na sam parametar. Granice inervala
poverenja nazivaju granicama poverenja.
Izračunavanje granica poverenja
Granice intervala poverenja na osnovu podataka iz velikih
uzoraka izračunavaju se, za koeficijent pouzdanosti od 95%, po
formuli:
Statistik  1.96SE
Ili, drugačije napisano:
Statistik - 1.96  SE  Parametar  Statistik + 1.96  SE
a za koeficijent pouzdanosti od 99%, po formuli:
Statistik  2.58SE
Ili, drugačije napisano:
Statistik - 2.58  SE  Parametar  Statistik + 2.58  SE
Preciznost i širina intervala poverenja
Preciznost intervala poverenja jednaka je polovini njegove
širine, npr. za velike uzorke i koeficijent pouzdanosti od
95% iznosiće 1.96SE
Veća širina intervala poverenja podrazumeva njegovu manju
preciznost
Širina intervala poverenja (i preciznost) zavise od:
1. Izabranog nivoa poverenja. 99% interval poverenja je širi
od 95% intervala poverenja
2. Veličine uzorka. Sa povećanjem uzorka smanjuje se širina
intervala poverenja
3. Varijabiliteta podataka. Sa povećanjem varijabiliteta raste i
širina intervala poverenja
Širok i neprecizan interval poverenja nastaje zbog visokog
koeficijenta poverenja, malog uzorka i velike varijabilnosti.
Interval poverenja aritmetičke sredine
sd
sd
xz
xz
n
n
Za velike uzorke (n>30)
sd
sd
x t
   x t
n
n
Za male uzorke (n30)
x – aritmetička sredina uzorka
z – kritična vrednost iz tablice normalne raspodele
(1.96 za 95% interval poverenja, 2.58 za 99% interval poverenja)
t – vrednost iz tablice t raspodele za odgovarajući broj stepena
slobode (DF) i nivo poverenja
sd – standardna devijacija
n – veličina uzorka
 – aritmetička sredina u populaciji
Primer:
Na uzorku od 140 bolesnika aritmet. sredina glikemije iznosi 6.8 mmol/L, a
standardna devijacija 1.4 mmol/L. Odrediti 95% i 99% intervale poverenja
aritmetičke sredine glikemije za tu populaciju bolesnika.
95% interval poverenja:
1.4
1.4
6.8  1.96
   6.8  1.96
140
140
6.57 mmol/L    7.03 mmol/L
99% interval poverenja:
1.4
1.4
6.8  2.575
   6.8  2.575
140
140
6.49    7.10
Interval poverenja proporcije
p1  p 
p1  p 
pz
  p z
n
n
p – proporcija posmatranog događaja u uzorku
z – kritična vrednost iz tablice normalne raspodele
(1.96 za 95% interval poverenja, 2.58 za 99% interval poverenja)
n – veličina uzorka
 – proporcija posmatranog događaja u populaciji
Primer:
Na uzorku od 155 učenika u jednoj opštini nađena je anemija kod 47 učenika.
Odrediti intervale poverenja u kome se sa verovatnoćama 0.95 i 0.99 nalazi
proporcija učenika sa anemijom u toj opštini.
Proporcija u uzorku:
47
p
 0.30
155
95% interval poverenja:
0.30 1  0.30
0.30 1  0.30
0.30  1.96
   0.30  1.96
155
155
0.23    0.37
99% interval poverenja:
0.30 1  0.30
0.30 1  0.30
0.30  2.575
   0.30  2.575
155
155
0.21    0.39
Hipoteza
•Pretpostavka o svetu oko nas
•Pretpostavka koju je moguće testirati i odbaciti
•Prepostavka koja je unapred navedena kao verovatna
istina, a koju istraživač ima nameru da testira na osnovu
podataka
Istraživačka hipoteza može imati fomu očekivanja,
verovanja, dedukcije ili sumnje. Pokretač je istraživanja i
zahteva aktuelno dokazivanje. Istraživačku hipotezu
prevodimo u statističke hipoteze kako bi mogle biti
testirane statističkim tehnikama.
Statistička hipoteza
•Statistička hipoteza je pretpostavka ili tvrđenje o jednoj ili
više populacija (pretpostavka o vrednostima parametara u
populaciji).
Uvek se formulišu dve hipoteze - nulta i alternativna:
•Nulta hipoteza (H0) je tvrđenje o tačnoj vrednosti
parametra u populaciji
•Alternativna hipoteza (HA ili H1) ili istraživačka hipoteza je
tvrđenje da je vrednost parametra u populaciji različita od
tvrđenja u nultoj hipotezi
Testiranje hipoteza – komplementarnost
nulte i alternativne hipoteze
•Nulta i alternativna hipoteza su komplementarne. Samo
jedna je tačna.
•U postupku testiranja hipoteza testira se samo nulta
hipoteza.
•Moguće odluke na osnovu statističke analize uzoračkih
podataka su: (1) prihvatanje H0 i odbacivanje H1, ili (2)
odbacivanje H0 i prihvatanje H1
Dvosmeno i jednosmerno testiranje
hipoteza
Dvosmerni test – test u kojem je alternativna hipoteza
dvosmerna (nije direktivna) odnosno ima oblik tvrđenja da je
jedan populacioni parametar ili veći ili manji od drugog:
H0: μ1 = μ2
H1: μ1 ≠ μ2
Jednosmerni test – test u kojem je alternativna hipoteza
jednosmerna (direktivna je) odnosno ima oblik tvrđenja da je
jedan populacioni parametar veći ili manji od drugog:
H1: μ1 > μ2
H1: μ1 < μ2
Testiranje hipoteza – matrica
statističkog odlučivanja
Naš zaključak
Prihvatamo nultu
hipotezu
Odbacujemo
nultu hipotezu
U prirodi
Nulta hipoteza
Nulta hipoteza
tačna
pogrešna
1- 
 greška greška drugog
tipa
 greška greška prvog
tipa
1- 
Greške u testiranju hipoteza
Greška prvog tipa – odbacivanje tačne nulte hipoteze.
Greška drugog tipa – neodbacivanje pogrešne nulte hipoteze.
Istovremeno se može napraviti samo jedan tip greške.
Greška prvog tipa se neposedno kontroliše izborom nivoa
značajnostii.
Greške prvog i drugog tipa su zavisne. Smanjenje verovatnoće
greške prvog tipa dovodi do povećanja verovatnoće greške
drugog tipa, i obrnuto.
Povećanje uzorka uopšteno smanjuje verovatnoću oba tipa
grešaka.
Verovatnoća greške drugog tipa se smanjuje sa povećanjem
razlike aritmetičkih sredina (kada se testira razlika aritmetičkih
sredina).
Snaga ili moć (1-) statističkog testa je verovatnoća
odbacivanja nulte hipoteze kada je alternativna hipoteza tačna.
Nivo značajnosti i p-vrednost
 ( nivo, nivo značajnosti) - maksimalno dozvoljena
greška prvog tipa. U procesu testiranja hipoteza
običajeno se bira nivo značajnosti od 0.05.
p-vrednost (opservirani nivo značajnosti, verovatnoća
značajnosti) – verovatnoća da se, pod pretpostavkom
tačne nulte hipoteze, na osnovu slučajnosti opserviraju
rezultati koji su jednaki ili ekstremniji od aktuelno
opserviranih. Ako je p-vrednost manja od nivoa
značajnosti (p0.05), odbacuje se nulta hipoteza i
dobijeni rezultati označava se statistički značajnim.
Koraci u testiranju hipoteza
1. Formulisati H0 i H1
2. Odabrati nivo značajnosti ( nivo)
3. Odabrati dvosmerno ili jednosmerno testiranje zavisno
od formulacije alternativne hipoteze
4. Odabrati statistički test i izračunati statistiku testa
(empirijska vrednost).
5. Odrediti oblast odbacivanja – teorijska (granična,
kritična) vrednost.
6. Uporediti empirijsku i teorijsku vrednost test statistike.
Odbaciti H0 i prihvatiti H1 ako je statistika testa u
regionu odbacivanja (p  ). Prihvatiti H0 ako statistika
testa nije u regionu odbacivanja (p > ).
Primer:
Formiran je uzorak od 90 ispitanika iz opšte populacije. Za svakog ispitanika
dobijen je podatak o statusu pušenja (pušač ili nepušač), i podatak da li je
ispitanik bolovao od akutne respiratorne infekcije u toku poslednje zime.
Postavljena je nulta hipoteza da su status pušenja i oboljevanja od akutne
respiratorne infekcije nezavisne varijable, odnosno da nema asocijacije između
njih.
Akutna respiratorna
infekcija
Da
Ne
Pušenje
Svega
Da
22
17
39
Ne
16
35
51
Ukupno
38
52
90
Pušenje i oboljevanja od akutne respiratorne infekcije u zimskom periodu nisu
nezavisne variajble. Između njih postoji statistički značajna asocijacija (hikvadrat=4.70, DF=1, p=0.030, koeficijent kontingencije=0.22).
Primer:
Dve grupe lečene su različitim tretmanima. Sedimentacija eritrocita (mm/h) je:
prva grupa: 15, 17, 20, 14, 19, 17, 18, 19
druga grupa: 16, 14, 17, 15, 18, 17, 16
Da li je razlika značajna? Testirati na nivou značajnosti 0.05.

x1
x12
x2
x2 2
15
17
20
225
289
400
16
14
17
256
196
289
14
19
17
196
361
289
15
18
17
225
324
289
18
324
16
256
19
139
361
2445
113
1835
x1
x


1
n1
139

 17.38 mm/h
8
sd1 
sd 2 
t
2
2
x

n

x

n 1
2
2
x

n

x

n 1
x2
x


2
n2
113

 16.14 mm/h
7
2445  8  17.382

 2.07
8 1
1835  7  16.142

 1.35
7 1
17.38  16.14
=1.35,
 (8  1)  2.07 2  (7  1)  1.352   1 1 

  
872

 8 7 
DF=8  7  2  13
Kritična vrednost u tablici t raspodele za DF = 13, nivo značajnosti 0.05 i
dvosmerno testiranje je 2.160. Statistika testa (1.35) je manja od kritične
vrednosti. Ne odbacuje se nulta hipoteza.
Zaključak:
Razlika nije statistički značajna (t=1.35, DF=13, p>0.05)
Model




Model je uprošćeno predstavljanje realne pojave
Modelom su reprodukovani samo neki aspekti realne
pojave
Dobar model bi trebalo da objašnjava pojavu što je
moguće vernije, ali ne bi trebalo da bude previše
komplikovan, time što bi se pokušala reproodukcija
svakog detalja, jer to može da ometa razumevanje
Model nam pomaže u razumevanju realne pojave na
uprošćen, brži i jeftiniji način
Statistički model





Statističkim modelom predstavljamo pojave koje sadrže
slučajnosti
Statistički modeli su statističke formulacije ili analize, u
uslovima moguće primene sa datim podacima, koji se
koriste za proveru pretpostavki i parametara u analizi.
Primeri statističkih modela su npr. linearni model i
binomni model
Statistički model počinje pretpostavkom o odnosu dve
varijable u ispitivanoj populaciji i ocenom populacionih
parametara na osnovu uzoračkih podataka. Bez
pretpostavljenog modela analiza nije moguća.
Modelom se opisuje struktura podataka na takav način da
omogući razumevanje pretpostavljenog procesa koji je
generisao podatke
Izbor modela je od presudnog značaja za analizu.
Planiranje istraživanja obuhvata i pretpostavke o modelu
koji je moguće primeniti što može biti promenjeno posle
eksploracije podataka
Varijable u statističkom modelu





Statistički modeli se koriste da opišu ponašanje jedne ili
više varijabli, pri čemu se neke od njih posmatraju kao
varijable eksplanatori (nezavisne varijable), a neke kao
rezultujuće varijable (zavisne varijable). Modelom se
opisuje kako ponašanje rezultujuće varijable zavisi od
varijable eksplanatora
Eksplanatorna varijabla može biti npr. tretman u studijama
intervencije ili faktor povezan sa pojavom neke bolesti u
etiološkim studijama
Statistički model omogućava predikciju rezultujuće varijable
na osnovu ponavanja vrednosti eksplanatorne varijable
U statistički model je, zbog stohastičkog odnosa varijabli,
uvek uključena i greška modela
Statistički model je moguće unaprediti sa ciljem boljeg
razumevanja procesa i bolje predikcije
Izbor modela
Izbor modela zavisi od:
 Naučnog razumevanja, npr. proverene teorije na
osnovu koje se mogu predvideti očekivanja
 Prethodnog iskustva sa sličnim podacima
 Eksploracije podataka
 Dijagnostičkih informacija o aktuelno izabranom
modelu
Pretpostavke modela
Najčešće preptostavke statističkih modela:
1.
Normalnost raspodele ili normalnost raspodele grešaka.
Važnija je kod malih uzoraka jer sa porastom veličine
uzorka raspodela aritmetičkih sredina teži normalnoj
raspodeli bez obzira na raspodelu u populaciji
(Centralna granična teorema)
2.
Nezavisnost – opservacije su nezavisne ako se na
osnovu vrednosti jedne ne može prevideti vrednost
druge opservacije. Ova pretpostavka je narušena ako
postoje klasteri podataka. Unutar klastera postoji
povezanost/korelacija podataka. Klasterovanje se može
sprečiti randomizacijom u ekeperimentu ili slučajnim
uzorkovanjem u opservacionim istraživanjima
3.
Homogenost varijansi – varijansa rezultujuće varijable
je jednaka za sve vrednosti varijable eksplanatora
Valjanost modela
1.
2.
3.
Provera o ispunjenosti pretpostavki modela
Provera u kojoj meri ocene modela mogu biti pod
uticajem malog broja uticajnih opservacija kao što su
npr. ekstremne vrednosti
Provera odnosa broja varijabli eksplanatora i broja
opservacija. Uopšteno, broj opservacija mora biti
najmanje deset puta veći od broja varijabli
eksplanatora. Za svaku kvalitativnu varijablu broj
kategorija umanjen za jedan uzima se kao broj varijabli
eksplanatora
Formulacija statističkog modela
Mnogi modeli imaju oblik:
Y= μ+ε
gde je Y - Opservirana vrednost, μ - Predikcija modela.
ε - Statistička greška (rezidual)
Razlika opservirane vrednosti i predikcije jeste rezidual.
Primer:
Za dvanaest ispitanica ženskog pola data je starost i vrednosti sistolne
tenzije. Ispitati povezanost ova dva obeležja. Prognozirati sistolnu TA za
starost od 77 godina.
Starost
Sistolna
TA
1
39
125
2
59
165
3
71
170
4
75
150
5
73
185
6
55
155
7
51
180
8
70
160
9
41
145
10
45
140
11
63
135
12
35
130
Dijagram rasturanja starosti i
sistolne tenzije
200
Sistolna TA (mmHg)
ID
180
160
140
120
100
80
30
40
50
60
Starost (godine)
70
80
Prognozirana vrednost sistolne TA za starost od 77 godina iznosi:
y  a  bx  106.93  0.823 77  170.3
Sistolna TA (mmHg)
200
180
160
140
120
100
80
30
40
50
60
Starost (godine)
70
80