średnia cechy pomocniczej X w populacji

Transcript średnia cechy pomocniczej X w populacji

Metoda reprezentacyjna i statystyka małych obszarów z SAS
Instytut Statystyki i Demografii SGH
dr Dorota Bartosińska
Zajęcia 4
Wnioskowanie statystyczne
o średniej, wartości globalnej i ilorazie
z prób złożonych
– zastosowanie procedury SURVEYMEANS.
Estymatory ilorazowe.
1
Struktura zajęć
1. Szacowane parametry populacji
2. Estymatory średniej dla różnych schematów
losowania próby
3. Ilorazowe estymatory średniej
4. Estymatory wartości globalnej
5. Estymator ilorazu
6. Pośrednie metody oceny wariancji estymatorów
7. Procedura SURVEYMEANS
8. Przykład zastosowania procedury SURVEYMEANS
2
1. Szacowane parametry populacji
Rozpatrujemy cechę ilościową Y:
Y – cecha badana
yi – wartości cechy badanej dla i-tej jednostki
N
1
1.1. Średnia cechy Y w populacji:
Y   yi
N i 1
1.2. Wartość globalna (suma wartości zmiennej)
Y   yi  NY
iU
1.3. Iloraz dwóch wartości globalnych/średnich
Y Y
R

X X
y

x
iU
iU
i
i
3
2. Estymatory średniej
dla różnych schematów losowania próby
2.1. Losowanie proste niezależne
Estymatorem średniej populacji jest średnia z próby:
n
1
y   yi
n i 1
Estymator ten jest nieobciążony, tzn.:
E y   Y
4
Wariancja estymatora średniej:
S
1
2
yi  Y 
D y 


n Nn i 1
2
N
2
D2 – wariancja estymatora
S2 – wariancja cechy badanej w populacji
Estymator wariancji estymatora:
2
n
s
1
2
 yi  y 
d y  

n n(n  1) i 1
2
d2 - estymator wariancji estymatora
s2 – estymator wariancji cechy badanej w populacji,
czyli wariancja w próbie
5
2.2. Losowanie proste zależne
Estymatorem średniej populacji jest średnia z próby:
1 n
y   yi
n i 1
Estymator ten jest nieobciążony:
Wariancja tego estymatora:
n S

D  y   1  
 N n
E y   Y
2
2
Estymatorem wariancji jest:
n s

d  y   1  
 N n
2
2
n

1  
 N  - poprawka
na bezzwrotność
losowania
6
2.3. Losowanie warstwowe
Estymatorem średniej populacji jest średnia z próby
warstwowej:
1
y
N

N
h
h
yh  Wh yh
h
Wariancja tego estymatora:
2
2


S
n
S
1
2
D  y   2  N h N h  nh  h  Wh2 1  h  h
nh
N h
h
 N h  nh
yh - średnia cechy badanej Y w h-tej warstwie
N h - liczebność populacji dla h-tej warstwy
nh - liczebność próby dla h-tej warstwy
Nh
Wh 
N
- udział liczebności h-tej warstwy w populacji
7
2.4. Warstwowanie po wylosowaniu próby
Zał. znane Wh
Estymator średniej:
y'  Wh yh
h
Wariancja tego estymatora:
D  y '  D
2
f 
2
prop
1 f
y  2
n
 1  W S
h
2
h
h
n
- frakcja, jaką stanowi próba w populacji
N
2
 y  - wariancja estymatora średniej w przyp. los.
Dprop
warstwowego proporcjonalnego
8
2.5. Losowanie dwustopniowe
los. dwustopniowe (los. proste zależne na obu stopniach):
I stopień – losujemy do próby m jednostek z M jednostek
populacji, g - numer jednostki losowania I stopnia
II stopień - losujemy do próby ng jednostek z Ng jednostek
i - numer jednostki losowania II stopnia
ng
m N
Estymator średniej:
1 M
y
y


m
n
g
N
g 1
g
i 1
gi
2
M


S
1 M 
m 2 1
2g
2
D y  2
1   S1   N g N g  ng 

N m  M 
M g 1
ng 
M
ng
1
2
2
1
2
2


S1 
Y

Y

g
S2 g 
ygi  yg

M  1 g 1
ng  1 i 1
2


9
3. Ilorazowe estymatory średniej
3.1. Ilorazowy estymator średniej bez warstwowania
yq  rX
- stosowany, gdy mamy informację o średniej cechy
dodatkowej X w populacji
- cecha dodatkowa X musi być skorelowana z cechą
badaną Y
- potrzebne są dane indywidualne o cesze pomocniczej
y
R - iloraz, r - estymator ilorazu: r 
x
X
x
y
- średnia cechy pomocniczej X w populacji
- średnia cechy pomocniczej X w próbie
- średnia cechy badanej Y w próbie
10
Ilorazowy estymator średniej
- jest obciążony
2
RS
n  x   xy S x S y

E yq   Y  1  
nX
 N
- jego wariancja:
2 2
2
R
S

2

RS
S

S
n
n 1 1



2
x
xy
x y
y
2


D yq   1  
 1    
Y

RX

i
i
n
 N
 N  n N 1 i
R - iloraz w populacji,
 xy - współczynnik korelacji między cechą pomocniczą
X i cechą badaną Y
Sx - odchylenie standardowe cechy pomocniczej X w
populacji
Sy - odchylenie standardowe cechy badanej Y w populacji
11
Ilorazowy estymator średniej
jest bardziej efektywny niż średnia z próby, gdy:
1 V (X )
 xy  
2 V (Y )
V(X) - współczynnik zmienności dla cechy pomocniczej X
V(Y) - współczynnik zmienności dla cechy badanej Y
Współczynnik zmienności cechy jest to iloraz odchylenia
standardowego cechy przez średnią arytmetyczną tej
cechy.
12
3.2. Ilorazowy warstwowy estymator średniej
yq  Wh rh X h
h
- stosowany, gdy mamy informację o średniej cechy
dodatkowej X w populacji dla każdej z H warstw
Rh – iloraz wartości globalnych lub średnich cechy badanej
Y i cechy pomocniczej X dla h-tej warstwy:
Yh
Rh 
Xh
- średnia cechy Y w populacji dla h-tej warstwy
- średnia cechy X w populacji dla h-tej warstwy
rh – estymator ilorazu wartości globalnych lub średnich
cechy badanej Y i cechy pomocniczej X dla h-tej warstwy:
yh
rh 
xh
- średnia cechy Y w próbie dla h-tej warstwy
- średnia cechy X w próbie dla h-tej warstwy
13
Wariancja ilorazowego warstwowego estymatora średniej
2 2
2
R
S

2

R
S
S

S
nh  h hx
hxy h hx hy
hy
2
2

D yq   Wh 1 
nh
h
 Nh 
hxy
- współczynnik korelacji między cechą badaną Y i
cechą pomocniczą X dla h-tej warstwy
2
hy - wariancja cechy badanej Y dla h-tej warstwy
2
hx - wariancja cechy pomocniczej X dla h-tej warstwy
Estymator ten jest obciążony, zgodny (obciążenie maleje
14
wraz ze wzrostem nh).
S
S
4. Estymatory wartości globalnej
Wartość globalna:
Y   yi  NY
iU
Estymator wartości globalnej otrzymamy, mnożąc
estymator średniej przez N:
y   yi  Ny
is
Wariancję estymatora wartości globalnej otrzymamy,
mnożąc wariancję estymatora średniej przez N2:
2
2 2
D y  N D y 
Estymator wariancji estymatora wartości globalnej:
d  y  N d  y 
2
2
2
15
5. Estymator ilorazu
- mają zastosowanie wzory podane przy ilorazowym
estymatorze średniej na r
16
6. Pośrednie metody oceny wariancji estymatorów
• W przypadku złożonych schematów losowania próby do
szacowania
parametrów
populacji
są
stosowane
estymatory warstwowe lub/i złożone „wielopiętrowe”
estymatory zaliczające się do estymatorów typu
ilorazowego.
• Ta złożoność schematów losowania próby i estymatorów
jest w praktyce omijana poprzez użycie w procesie
estymacji tzw. wag.
n
• Estymator średniej ma postać ilorazu:
ˆy  yˆ 
wˆ
w y
i 1
n
i
i
w
i 1
i
17
Bezpośrednia estymacja wariancji estymatorów parametrów
populacji jest utrudniona w przypadku złożonych schematów
losowania próby i złożonych estymatorów.
W takich sytuacjach do oceny wariancji estymatorów można
wykorzystać metody pośrednie:
linearyzację Taylora (ang. Taylor series linearization),
metodę bootstrapową,
metodę jackknife,
metodę półprób zrównoważonych (ang. balanced repeated
replication),
 metodę grup losowych (ang. interpenetrating sub-samples).




7. Procedura SURVEYMEANS
PROC SURVEYMEANS opcje słowa kluczowe statystyk;
BY zmienne grupujące ;
CLASS zmienne jakościowe ;
CLUSTER zmienne identyfikujące jednostki los. I stopnia;
DOMAIN zmienne domen< zmienna * zmienna
zmienna * zmienna *
zmienna ... > ;
RATIO < 'etykieta' > zmienna licznika / zmienna mianownika;
REPWEIGHTS zmienne < / opcje > ;
STRATA zmienne warstwujące < / opcje > ;
VAR zmienne analizowane ilościowe;
WEIGHT zmienna ważąca;
8. Przykład zastosowania procedury SURVEYMEANS
Dane:
Badanie Budżetów Gospodarstw Domowych GUS 2008
Populacja:
ok. 13 mln gospodarstw domowych w Polsce
Próba:
ok. 37 tys. gospodarstw domowych (0,3%)
Schemat losowania próby:
dwustopniowy, warstwowy, z różnymi prawdopodobieństwami
wyboru na I stopniu losowania.
Jednostki losowania I stopnia – terenowe punkty badań.
Jednostki losowania II stopnia – mieszkania.
Operaty losowania
Na I st. losowania – wykazy rejonów statystycznych,
opracowane dla potrzeb NSP 2002, aktualizowane co
roku, utworzono 783 tpb (w mieście 250 mieszkań, na
wsi 150), przed losowaniem powarstwowane
oddzielnie w każdym województwie według klasy
miejscowości.
Na II st. losowania – wykazy zamieszkanych mieszkań
w wylosowanych tpb, opracowane przez urzędy
statystyczne.
Konstrukcja wag
• Wagi pierwotne są odwrotnościami prawdopodobieństw wyboru do
próby poszczególnych jednostek: 1
Pij
• W przypadku losowania wielostopniowego prawdopodobieństwa
wylosowania jednostek do próby oraz wagi pierwotne otrzymuje się
przez przemnożenie odpowiednio prawdopodobieństw i wag ze
wszystkich stopni losowania próby.
• Prawdopodobieństwo wybrania j-tej jednostki losowania II stopnia w itej jednostce losowania I stopnia wynosi: P  P  P
ij
i
j /i
• Wagi pierwotne skorygowano danymi o strukturze gospodarstw
domowych
wg
liczby
osób
w
podziale
na
miasto
i wieś z NSP 2002.
• Suma wag jest estymatorem liczebności populacji
Prezentacja wybranych wyników
Oceny:
• parametrów
• błędów standardowych ocen
• współczynników zmienności ocen
• efekt schematu
Wydatki gospodarstw domowych – proc surveymeans
średnia
2 519,18
2 362,41
2 403,27
2 540,51
2 434,15
2 668,83
3 044,13
2 750,70
2 436,48
2 357,65
2 725,01
2 413,99
2 283,64
2 116,49
2 576,81
2 394,98
2 558,46
CV%
2,4
2,7
3,0
2,9
2,4
2,3
1,9
3,0
2,2
4,8
2,6
1,8
3,1
3,5
2,1
2,8
0,7
deff
1,937
2,693
2,328
1,882
2,430
2,673
2,633
1,743
2,135
4,904
2,171
2,506
2,287
3,080
2,271
2,592
2,459
Podregiony 66
20
18
18
18
16
Liczba podregionów
woj.
02
04
06
08
10
12
14
16
18
20
22
24
26
28
30
32
Polska
15
14
12
10
8
8
6
4
3
3
2
1
0
2-3
3-4
4-5
5-6
CV %
6-7
7-8
8-9