Nikic - Osnove vzorcenja na SURS

Download Report

Transcript Nikic - Osnove vzorcenja na SURS

Vzorčenje Na
SURS
Boro Nikić
Oddelek za vzorčenje in
anketno metodologijo
November, 2011
Zakaj vzorčenje? (1)
Preden začnemo z izvajanjem nekega
statističnega raziskovanja, najprej opredelimo
populacijo zanimanja (opazovana populacija),
eno ali več proučevanih spremenljivk in
populacijski parameter (ali več populacijskih
parametrov), ki nas pri tem raziskovanju
zanimajo.
2
Zakaj vzorčenje? (2)
Primer:
Populacija
zanimanja
Vsi polnoletni
prebivalci RS
Vsa gospodinjstva v
RS
Vsa podjetja v
gradbeni dejavnosti
Proučevana
spremenljivka
Populacijski
parameter
Izobrazba osebe
Delež
prebivalcev z
univerzitetno
izobrazbo
Število mobilnih
telefonov na
gospodinjstvo
Povprečno
število mobilnih
telefonov na
gospodinjstvo
Prihodek podjetja
(Investicije,
Inovacije,...)
Celotni prihodek
podjetij v
gradbeništvu,
delež prihodka
namenjen za
investicije..
3
Zakaj vzorčenje? (3)
Če bi hoteli dobiti (pravo) vrednost populacijskega
parametra, potem bi v raziskovanje vključili vse
elemente opazovane populacije.
Slabosti:
– Velika obremenitev poročevalskih enot
– Velika obremenitev oseb, ki raziskovanje izvajajo
– Stroški takega raziskovanja so lahko zelo visoki
– Izvajanje takega raziskovanja zahteva veliko časa
Zato velika večina raziskovanj poteka na podlagi
izbranega vzorca.
4
Terminologija (1)
• Populacija je množica, katere lastnosti statistično proučujemo.
Element populacije imenujemo statistična enota oziroma enota.
Število enot v populaciji označimo z N.
• Pri opazovanju populacije nas zanimajo lastnosti enot. Statistična
spremenljivka (statistični znak ali proučevana spremenljivka)
opisuje posamezno lastnost enote. Statistični spremenljivki ponavadi
pravimo kar spremenljivka. Proučevano spremenljivko označimo z
y, vrednost proučevane spremenljivke za enoto i pa yi.
• Populacijska lastnost ali parameter, ki nas pri nekam raziskovanju
zanima, je neka funkcija f(y1,y2,….,yN) vseh populacijskih vrednosti
proučevane spremenljivke y.
5
Terminologija (2)
Populacija:
U={1,2,…,N}
Vrednosti proučevane spremenljivke y:
{y1,y2,….,yN}
Populacijski parameter:
f(y1,y2,….,yN)
6
Primeri populacijskih parametrov (1)
Populacijska aritmetična sredina (AS):
y 
y1  y 2   y N
N
Populacijska vsota:
t y  y1  y 2    y N
7
Primeri populacijskih parametrov (2)
Populacijski delež (d):
Je poseben primer aritmetične sredine, pri kateri
proučevana spremenljivka zavzame le vrednosti 1
(enota ima lastnost, ki jo opazujemo) in 0 (enota nima
lastnosti, ki jo opazujemo).
Populacijsko razmerje:
Če sta spremenljivki x in y proučevani spremenljivki
pri nekem raziskovanju, potem je populacijsko
razmerje količnik njunih populacijskih vsot.
r 
ty
tx
8
Primeri populacijskih parametrov (3)
Populacijska varianca (meri razpršenost
podatkov okoli aritmetične sredine):
( y1  y )  ( y 2  y )    ( y N  y )
2

2

2
2
N
Populacijski standardni odklon (meri
razpršenost podatkov okoli aritmetične sredine
in ima isto enoto kot AS):
( y1  y )  ( y 2  y )    ( y N  y )
2
 
2
2
N
9
Primeri populacijskih parametrov (4)
Populacijska elementarna varianca in elementarni
odklon (zelo pomembna pri verjetnostnemu
vzorčenju):
( y1  y )  ( y 2  y )    ( y N  y )
2
S 
2
2
N 1
2
;
S 
S
2
Koeficient variacije (meri relativno razpršenost
podatkov okoli AS, je mera za primerjavo
razpršenosti podatkov okoli dveh AS):
cv 

y
10
Vzorčenje
Vzorec: Vsak del (podmnožico) populacije
zanimanja imenujemo vzorec. Izbrani vzorec
označimo s s ( s  U ) . Velikost vzorca
označimo z n.
Vzorce
delimo
na
verjetnostne
in
neverjetnostne vzorce. Ker lahko le na podlagi
izbranega verjetnostnega vzorca povemo več
o natančnosti ocen, se pri tej predstavitvi
omejimo na teorijo verjetnostnega vzorčenja.
11
Verjetnostno vzorčenje (1)
Verjetnostno vzorčenje je postopek izbire vzorca
iz populacije zanimanja, ki zadošča naslednjim
pogojem:
• Poznamo množico vseh vzorcev in verjetnosti njihovega
izbora, ki so možni pri tem postopku
• Vsak element populacije ima neničelno verjetnost izbora
v vzorec
• Z nekim naključnim mehanizmom izberemo natanko en
vzorec
Vzorec izbran z upoštevanjem
imenujemo verjetnostni vzorec.
zgornjih
zahtev
12
Verjetnostno vzorčenje (2)
Določitev verjetnosti izbora vzorcev populacije U
z upoštevanjem pogoja neničelnih verjetnosti
izbora elementov te populacije imenujemo
vzorčni načrt.
Najbolj znana vzorčna načrta sta
enostavno
slučajno vzorčenje s ponavljanjem (angl. Simple
random sampling with replacement, SRSWR) in
enostavno slučajno vzorčenje brez ponavljanja
(angl. Simple random sampling without
replacement, SRSWOR).
13
Verjetnostno vzorčenje (3)
SRSWR vzorčni načrt:
Pri tem vzorčnem načrtu imata vsak vzorec
s velikosti n in vsak element k enaki
verjetnosti izbora, pri čemer se izbrani
elementi populacije lahko ponavljajo.
Verjetnost izbora elementa k v vzorec je
k  1 (
N 1
)
n
N
verjetnost izbora vzorca s pa
p(s) 
1
N
n
14
Verjetnostno vzorčenje (4)
SRSWOR vzorčni načrt:
Pri tem vzorčnem načrtu imata vsak vzorec s
velikosti n in vsak element k enaki verjetnosti
izbora, pri čemer se izbrani elementi
populacije v vzorcu ne smejo
ponoviti.
Verjetnost izbora elementa k v vzorec je n/N,
verjetnost izbora vzorca s pa
p(s) 
1
N

n



15
Verjetnostno vzorčenje (5)
Pri SRSWR vzorčenju iz populacije izberemo
prvi element v vzorec z verjetnostjo 1/N, ta
element vrnemo v populacijo in nato izberemo
drugi element v vzorec z isto verjetnostjo in ga
vrnemo v populacijo ter s tem postopkom
nadaljujemo, dokler ne izberemo vseh n
elementov v vzorec. Torej, lahko se zgodi, da
imamo v vzorcu en sam element, ki “nastopa” nkrat in lahko se zgodi, da različni vzorci
vsebujejo enake elemente. Pri SRSWOR
vzorčenju se to ne more zgoditi.
16
Statistike (1)
Na
podlagi
izbranega
(verjetnostnega
ali
neverjetnostnega) vzorca izračunamo oceno (statistiko)
populacijskega parametra, ki je lahko bolj ali manj
natančna (točna).
V splošni teoriji s pojmom statistika označujemo realno
funkcijo, katere vrednosti (lahko) varirajo z različnimi izidi
nekega eksperimenta. Če je statistika izid izračunan na
podlagi slučajnega vzorca, potem je to slučajna
spremenljivka, ki ji rečemo cenilka.
17
Statistike (2)
Ker je statistika slučajna spremenljivka, ima
veliko statističnih lastnosti. Najpomembnejši
lastnosti
pri slučajnem vzorčenju sta
pričakovana vrednost in varianca.
Pričakovana vrednost diskretne slučajne
spremenljivke Y je definirana kot vsota
produktov njenih vrednosti z verjetnostmi
izidov, pri kateri so te vrednosti dosežene.
Torej
E (Y )   k  P (Y  k )
k
18
Statistike (3)
Varianca slučajne spremenljivke Y je pričakovana
vrednost kvadrata razlike slučajne spremenljivke in
njene pričakovane vrednosti. Torej
Var (Y )  E [( Y  E (Y )) ]
2
19
Statistike (4)
Če je slučajna spremenljivka cenilka,
potem njeno varianco imenujemo vzorčna
varianca,
njen
standardni
odklon
(kvadratni koren variance) pa standardna
napaka (označimo s se). Seveda želimo,
da bo pričakovana vrednost cenilke, ki jo
pri nekem vzorčnem načrtu izberemo,
enaka pravi populacijski vrednosti, njena
vzorčna varianca pa čim manjša.
20
Primeri cenilk
Denimo, da imamo pri SRSWOR vzorčnem
načrtu slučajni vzorec s={1,….,n}.
Cenilka populacijskega povprečja:
y  y2    yn
yˆ  1
n
Cenilka populacijske vsote:
tˆy  N
y1  y 2    y n
n
21
Cenilke
V splošnem je cenilka vsote (ne glede na
vzorčni načrt) enaka vsoti produktov obratnih
verjetnosti izbora elementov
vzorca z
vrednostmi proučevane spremenljivke:
tˆ 
w
k
 yk
k
Obratne verjetnosti izbora wk imenujemo
uteži. Vse ostale cenilke pa izrazimo kot
funkcijo cenilke vsote. Cenilka povprečje je:
ˆ
ˆy  t
N
22
Natančnost ocen (1)
Vzorčna napaka je razlika med populacijskim
parametrom in njegove ocene pridobljene na
podlagi podatkov izbranega vzorca.
Vzorčne napake v praksi nikoli ne poznamo, ker
ne poznamo populacijskega parametra. Lahko
pa vzorčno napako ocenimo, če izberemo
verjetnostni vzorec.
23
Natančnost ocen (2)
Če bi pri nekem vzorčnem načrtu (v veliki populaciji)
izbrali vse možne vzorce (dovolj velike velikosti) in
izračunali vse možne ocene, potem bi videli, da so te
ocene približno normalno porazdeljene okoli vrednosti
populacijskega parametra.
Če se spomnimo normalne porazdelitve neke
spremenljivke, potem vemo, da je približno 68% vrednosti
spremenljivke v intervalu širine 2 standardna odklona
okoli povprečne vrednosti spremenljivke in da je približno
95% vrednosti spremenljivke v intervalu širine 4
standardne odklone okoli povprečne vrednosti spr.
24
Natančnost ocen (3)
25
Natančnost ocen (4)
Statistiki so pokazali, da se ocene pri slučajnem
vzorčenju približno normalno porazdeljujejo okoli
prave vrednosti parametra. Še več, pokazali so,
kako izračunati standardno napako (se) pri
različnih vzorčnih načrtih. S pomočjo standardne
napake potem izračunamo (ocenimo) interval
zaupanja oz. koeficient variacije (CV) ocene, ki
sta glavni meri za natančnost ocen populacijskih
parametrov.
26
Natančnost ocen (5)
Če vemo, da je neka nepristranska cenilka
približno normalno porazdeljena in če poznamo
njeno vzorčno varianco, potem bi lahko vnaprej
povedali, kolikšna bo verjetnost, da bo ocena v
nekem intervalu okoli parametra (govorimo o
verjetnostnemu intervalu). Problem je v tem, da
parametra in variance cenilke ne poznamo.
Problem vzorčne variance rešimo tako, da
izračunamo njeno oceno na podlagi vzorca.
27
Natančnost ocen (6)
Problem verjetnosti, da je ocena parametra v
nekem intervalu okoli parametra, pa lahko z
nekaj premisleka obrnemo: Verjetnost, da je
ocena parametra v nekem intervalu okoli
parametra je enaka verjetnosti, da bo parameter
v intervalu iste širne okoli njegove ocene.
28
Natančnost ocen (7)
Interval zaupanja okoli parametra
Parameter-1,96*vzorčna varianca
Parameter-1,96*vzorčna varianca
Parameter
Ocena
ocena-1,96*vzorčna varianca
Parameter
ocena-1,96*vzorčna varianca
Ocena
Interval zaupanja okoli ocene
29
Natančnost ocen (8)
Pri enostavnem slučajnem vzorčenju brez
ponavljanja izračunamo oceno standardne
napake za aritmetično sredino po formuli:
se ( yˆ ) 
(1 
n
N
)
s
2
n
30
Natančnost ocen (9)
95% odstotni interval zaupanja (CI)
CI=[ocena-1,96*se; ocena+1,96*se]
Koeficient variacije (CV)
CV=ocena parametra/se
31
Natančnost ocen (10)
Verjetnostni interval je v splošnem slučajni
interval, saj sta meji intervala (ocena±1,96*se)
slučajni vrednosti. Pred izborom verjetnostnega
vzorca sprejmemo majhno tveganje (5%
verjetnost v našem primeru), da parameter ne
bo v tem intervalu. Ko pa ta interval določimo
(govorimo o intervalu zaupanja) na podlagi ocen
vzorca, potem več ne moremo govoriti o
verjetnosti, temveč samo o zaupanju (zaupamo,
da je prava vrednost v intervalu).
32
Stratificirani vzorčni načrt (1)
Ideja: Populacijo razdelimo na paroma
neprekrivajoče množice in nato iz vsake od teh
množic, neodvisno od drugih množic, izberemo
SRSWOR
vzorec. Te množice imenujemo
stratumi.
Populacija U
h2
h1
s1
h1,h2,h3,h4 - stratumi
s2
s=s1 U s2 U s3 U s4 - vzorec
s3
s4
h3
h4
33
Stratificirani vzorčni načrt (2)
Nekateri razlogi za uporabo:
• Različni načini anketriranja enot (npr. v en stratum
uvrstimo osebe s telefonskimi številkami, v drugi pa
osebe, ki nimajo telefonov in jih anketiramo na terenu)
• Z razdelitvijo na stratume zagotovimo razpršenost
vzorca
• Če hočemo objaviti ocene na domenah (podmnožicah
populacije) opazovanja, jih definiramo kot stratume
• Zmanjšamo vzorčno varianco (povečamo natančnost
cenilke)
34
Stratificirani vzorčni načrt (3)
Primeri:
1. Pri raziskovanjih podjetij stratume običajno
definiramo z velikostnimi razredi podjetij (npr.
0-49 zaposlenih, 50-249 in 250 in več
zaposlenih) ter razredi dejavnosti (npr.
dvomestna dejavnost podjetij glede na
klasifikacijo dejavnosti)
2. Pri raziskovanjih oseb in gospodinjstev
stratume običajno določajo regije, tipi naselij,
starostni razredi, spol,…
35
Stratificirani vzorčni načrt (4)
Ko določimo velikost vzorca n, moramo to velikost
alocirati(razporediti) med stratume. To lahko naredimo na tri
načine:
• V vsakem stratumu izberemo enako enot v vzorec
(enakomerna alokacija)
nh=const in Σnh=n
• V vsakem stratumu izberemo proporcionalno število enot
glede na velikost stratuma v vzorec (proporcionalna alokacija)
nh 
Nh
N
n
in Σnh=n
36
Stratificirani vzorčni načrt (5)
• V vsakem stratumu izberemo proporcionalno
število enot glede na velikost stratuma in
glede na elementarni standardni odklon
proučevane
spremenljivkev
vzorec
(proporcionalna alokacija)
nh 
N h  Sh
N
h
 Sh
n
in Σnh=n
37
Stratificirani vzorčni načrt (6)
Najbolj uporabljena alokacija je proporcionalna,
najbolj natančne ocen nam da optimalna
alokacija.
Cenilka vsote pri stratificiranem vzorčenju:
tˆy 

h
k
Nh
nh
y k ,h 
 tˆ
y ,h
h
38
Stratificirani vzorčni načrt (7)
Vzorčna varianca cenilke vsote je
Var ( tˆy )  Var (  tˆy , h )   Var ( tˆy , h )   N (1 
2
h
h
h
h
nh
Nh
2
)
Sh
nh
in njena ocena
Vˆar ( tˆy ) 
N
h
2
h
(1 
nh
2
)
sh
N h nh
Ta cenilka bo praviloma bolj natančna kot cenilka
SRSWOR načrta, če bodo stratumi med sabo čim bolj
nehomogeni, hkrati pa enote znotraj posameznega
stratuma čim bolj homogene.
39
Stratificiran vzorčni načrt (8)
Vse ostale cenilke pa izrazimo kot funkcijo
cenilke vsote. Npr. cenilka povprečja je
yˆ 
tˆy
N
in
Vˆar ( tˆy ) 
nh
 (1  N
h
h
2
)
sh
nh
40
Stratificiran vzorčni načrt (9)
Za
primerjavo
natančnosti
cenilk
poljubnega vzorčnega načrta in SRSWOR
vzorčnega načrta uporabljamo vzorčni
učinek Deff. To je razmerje med vzorčnima
variancama obeh cenilk.
Kot smo že povedali, je Deff stratificiranega
vzorčnega načrta praviloma manjši od 1.
41
Ostale cenilke parametrov (1)
Razmernostna cenilka
Če imamo dano pomožno spremenljivko x
(katere vrednosti poznamo pred izvajanjem
raziskovanja), ki je v dobri korelaciji s
proučevano spremenljivko, potem je
razmernostna cenilka
tˆy , Ratio 
tx
tˆx , HT
tˆy , HT
bolj točna kot HT cenilka
42
Ostale cenilke parametrov (2)
GREG cenilka
Dana ena ali več pomožnih spremenljivk
(spremenljivke, katerih podatke poznamo
pred izvajanjem raziskovanja), ki so v
dobri linearni povezanosti s proučevano
spremenljivko. Ocenimo parametre
linearnega modela z metodo najmanjših
kvadratov, napako pa s HT cenilko. Taki
cenilki pravimo “model assisted” cenilka.
Ostale cenilke parametrov (3)
Kalibracija in Raking
Kalibracijo uporabimo, če želimo določiti
take uteži, da je ocena vsote pomožne
spremenljivke enaka “pravi” vsoti (npr.
ocena strukture prebivalstva po spolu je
enaka populacijski strukturi)
Raking je kalibracija z več pomožnimi
spremenljivkami.
Vzorčenje na SURS-u (1)
Postopek, ki ga opravimo pri vzorčnem
raziskovanju na oddelku za vzorčenje:
1. Določitev vzorčnega okvira
2. Določitev vzorčnega načrta (skupaj z
velikostjo vzorca) in izbor vzorca
3. Imputacije in izračun uteži
4. Izračun natančnosti ocen
45
Vzorčni okvir (1)
Vzorčni okvir je seznam enot populacije
zanimanja
z
njihovimi
naslovi,
stratifikacijskimi spremenljivkami,...
Vzorčni okvir je približek populacije
zanimanja in naš cilj je, da je kar se da
podoben populaciji, saj nas lahko
nenatančno določen okvir privede do
resne pristranskosti ocen.
46
Vzorčni okvir (2)
Populacija
Vzorčni
okvir
Vzorec
47
Vzorčni načrti
Poslovne ankete:
• Stratificiran vzorčni načrt
• Sistematičen vzorčni načrt
• Zajem s pragom
Ankete oseb in gospodinjstev:
• Dvostopenjski vzorčni načrt
48
Izračun uteži (1)
Po izvedbi raziskovanja se
adresar s statusi, kjer ločimo:
ustvari
• Enote, ki so odgovorile na vprašalnik (t.i.
pozitivne in negativne enote)
• Enote, ki niso odgovorile na vprašalnik
(enota ni odgovorila na nobeno vprašanje
v vprašalniku)
• Neustrezne enote (enote, ki niso del
populacije zanimanja)
49
Izračun uteži (2)
S pomočjo statusov enot iz adresarja
izračunamo uteži neodgovora in nato
končne uteži, ki so produkt med utežmi
zaradi neodgovora in utežmi izbora (utež
izbora je enaka obratni vrednosti
verjetnosti izbora enote)
w NONR 
št. enot vzorc a
odgovori
 neustrezne
enote
50
Izračun uteži (3)
V resnici je izračun popravkov uteži zaradi
neodgovora precej bolj kompleksen, ker je
struktura neodgovora največkrat različna
od strukture neodgovora.
Izračun natančnosti ocen
Na koncu izračunamo natančnosti ocen
(ponavadi CV-je) in se na njihovi podlagi
odločimo ali ocene objavimo ali ne.
Zelo natančne ocene objavimo brez
posebnih oznak, manj natančne ocene
objavimo skupaj s črko M, premalo
natančne ocene ne objavimo, namesto
njih zapišemo črko N.
52
Standardni objavljanja vzorčnih
napak (1)
Oznake, ki jih uporabljamo so npr:
• Če je ocena natančna (npr. CV<10%), jo
objavimo brez oznak
• Če je ocena dovolj natančna (npr.
10%<CV<30%) jo objavimo skupaj s črko
M
• Če je ocena zelo nenatančna (npr.
CV>30%), jo ne objavimo, namesto nje
zapišemo oznako N
Standardni objavljanja vzorčnih napak (2)
•
Cestni blagovni prevoz glede na vrsto poslovnega subjekta in na vrsto prevoza, Slovenija, 2. četrtletje 2009
•
Skupaj
Javni prevoz
Prevoz za lastne potrebe
Pravne osebe Fizične osebe
•
1000 t
•
SKUPAJ 22.123
14.064
8.059
13.639
8.485
•
Notranji prevoz
17.215
9.659M
7.556
10.651
6564M
•
Mednarodni prevoz
4.908
4.405
503M
2.987
1.921
•
mio. tkm
•
SKUPAJ 3.898,9
3.584,4
314,5
2.404,9
1.494
•
Notranji prevoz
615,6
384,5
N
375,7
239,9
•
Mednarodni prevoz
3.283,3
3.200
83,4M
2.029,2
1.254,2
•
mio. km
•
SKUPAJ 267,7
234,8
32,9
163,5
104,2
•
Notranji prevoz
62
34,2
27,8
36,1
25,8
•
Mednarodni prevoz
205,7
200,6
5,1M
127,4
78,3
•
M - manj natančna ocena – previdna uporaba
•
N- nenatančna ocena
Izzivi na SURS
• Koordinirano vzorčenje
• Analiza neodgovora
• Vstavljanje manjkajočih podatkov
(neodgovor spremenljivke)
• Ocenjevanje parametrov na domenah (v
predstavitvi govorimo le o populacijskih
ocenah)
• Modeli in SAE („small area estimation“,
majhne domene)
55
Opombe (1)
Če je  k
neničelna verjetnost (verjetnost
prvega reda) izbora elementa k v vzorec in
kl
verjetnost (verjetnosti drugega reda)
izbora elementov k in l v vzorec, potem je
Horvitz-Thompsonova cenilka za vsoto:

tˆy , HT 
a
ks
k
yk
Opombe (2)
Vzorčna varianca HT cenilke:
Var ( tˆy , HT ) 
a k a l  a kl

a kl
k , l U
y kl
Ocena vzorčne variance HT cenilke:

Var ( tˆy , HT ) 
 (a
k , l s
k
a l  a kl ) y kl
Opombe (3)
- a je oznaka za obratno vrednost verjetnosti π
- pri HT cenilki morajo biti tudi verjetnosti drugega
reda neničelna števila
- Če so verjetnosti prvega reda enake za vsa k ter
verjetnosti druge reda enake za vsaka k in l,
potem takemu vzorčenju pravimo slučajno
vzorčenje
- Tipično vzorčenje, pri katerem verjetnost
drugega reda ni vselej neničelno število, je
stratificirano vzorčenje