Transcript Document

Metoda reprezentacyjna i statystyka małych obszarów z SAS
Instytut Statystyki i Demografii SGH
dr Dorota Bartosińska
Zajęcia 6
Analiza regresji dla prób złożonych
– zastosowanie procedur SURVEYREG i SURVEYLOGISTIC.
Estymatory regresyjne.
1
Struktura zajęć
1. Rodzaje modeli
2. Procedury SAS do budowy modeli
3. Sposoby kodowania jakościowych zmiennych
objaśniających
3.1. Kodowanie z kategorią odniesienia
3.2. Kodowanie „effect”
3.3. Kodowanie porządkowe
3. Regresja dla prób złożonych
4. Składnia procedur SURVEYREG i SURVEYLOGISTIC
5. Przykłady zastosowania tych procedur
6. Estymatory regresyjne
2
1. Rodzaje modeli
- zależą od rodzaju zmiennej objaśnianej i zmiennych
objaśniających
Zmienna objaśniana:
1. Jakościowa → regresja logistyczna:
nominalna z dwiema kategoriami → regresja logistyczna binarna
porządkowa → regresja logistyczna uporządkowana
nominalna z więcej niż dwiema kategoriami → regresja logistyczna
wielomianowa
2.
Ilościowa → zm.objaśniające jakościowe →anova, manova
→ zm.objaśniające ilościowe →regresja
→ zm.objaśniająca czasowa → trend
3.
Czasowa → modele przeżycia
3
2. Procedury SAS do budowy modeli
• LOGISTIC (jakościowa zm. objaśniana, zm. objaśniające
jakościowe lub/i ilościowe)
• ANOVA (ilościowa zm. objaśniana, 1 zm. objaśniająca
jakościowa, ang. Analysis of Variance)
• REG (ilościowa zm. objaśniana, zm. objaśniające ilościowe)
• PHREG (czasowa zm. objaśniana)
• GENMOD (uogólniony model liniowy, ang. Generalized
Linear Model)
• GLM (ogólny model liniowy, ang. General Linear Model)
4
Informacje na stronie:
support.sas.com
documentation
Sas 9.2
Na dole strony:
Other Resources
SAS Procedures by Name and Product
SAS Language Reference by Name, Product, and Category
5
3. Sposoby kodowania
jakościowych zmiennych objaśniających
3.1. Kodowanie z kategorią odniesienia
nazwa_zmiennej (param=reference ref=first)
nazwa_zmiennej (param=reference ref=last)
nazwa_zmiennej (param=reference ref=‘nazwa_kategorii’)
Oszacowania parametrów strukturalnych zależą od wyboru
kategorii odniesienia.
Interpretacja – w porównaniu z kategorią odniesienia, która
nie powinna być rzadka, nie powinna być „inne”.
6
3.2. Kodowanie „effect”
nazwa_zmiennej (param=effect ref=first)
nazwa_zmiennej (param=effect ref=last)
nazwa_zmiennej (param=effect ref=‘nazwa_kategorii’)
Oszacowania parametrów strukturalnych nie zależą od wyboru
kategorii odniesienia.
Interpretacja – w porównaniu z poziomem przeciętnym,
stosowane także w analizie szeregów czasowych z
okresowością addytywną.
Oszacowanie parametru przy kategorii referencyjnej nie jest
wyświetlane, należy go obliczyć, wiedząc że suma oszacowań
parametrów = 0.
7
3.3. Kodowanie porządkowe (ang. ordinal)
nazwa_zmiennej (param=ordinal)
Stosowane dla zmiennych porządkowych
Interpretacja – w porównaniu z kategoriami poprzednimi.
Wieś
Małe miasto
Średnie miasto
Duże miasto
0
1
1
1
0
0
1
1
0
0
0
1
8
4. Regresja dla prób złożonych
Nie można bezpośrednio zastosować metod estymacji
opisanych w podręcznikach ekonometrii, ponieważ:
1) Macierz obserwacji na zmiennych objaśniających X jest
macierzą losową i nie można zakładać, że w każdej
możliwej próbie otrzymamy taką samą macierz X. Nie
możemy więc rozpatrywać wektora B przy ustalonej
macierzy X.
2) Poszczególne obserwacje próby nie są niezależne oraz
mają różne rozkłady (zależy to od zastosowanego
schematu losowania próby).
9
Model regresji: y=XTB+e
KMNK: B=(XTX)-1XTy
UMNK Aitkena: B=(XTMTX)-1XTMTy
Losowanie warstwowe: B 
W B
h
h
h
10
5. Składnia procedur SURVEYREG i
SURVEYLOGISTIC (podstawowe instrukcje)
PROC SURVEYREG < opcje > ;
BY zmienne grupujące;
CLASS zmienne ;
CLUSTER zmienne identyfikujące jednostki los. I stopnia;
CONTRAST 'etykieta' efekty values
< ... effect values > < / opcje > ;
ESTIMATE 'label' effect values
< ... effect values > < / opcje > ;
MODEL zmienna zależna = zmienne niezależne< /
opcje > ;
STRATA zmienne warstwujące < / opcje > ;
WEIGHT zmienna ważąca ;
PROC SURVEYLOGISTIC < opcje >;
BY zmienne grupujące ;
CLASS zmienne jakościowe <(v-opcje)> <zmienna <(v-opcje)>...
>
< / v-opcje >;
CLUSTER zmienne identyfikujące jednostki los. I stopnia;
CONTRAST 'etykieta' wartości efektu <,... wartości efektu ><
/opcje >;
FREQ zmienna ;
MODEL zdarzenia/próby = < efekty> < / opcje >;
MODEL zmienna zależna < (zmienna_opcje) > = zmienne
niezależne < efekty > < / opcje >;
STRATA zmienne warstwujące < / opcje > ;
< etykieta: > TEST równanie 1 < , ... , < równanie k >> < /opcja
>;
UNITS niezależna 1 = lista 1 < ... niezależna k = lista k > <
/opcja > ;
WEIGHT zmienna ważąca </ opcja >;
6. Przykłady zastosowania tych procedur
Regresja klasyczna
•
•
•
•
•
•
proc surveyreg data=db.zbior_db;
cluster tpb;
model wydg=dochg / deff;
strata warstwa /list;
weight waga_new;
run;
13
wyd=1429,11+0,38178doch
wyd=1608,17+0,33056doch
SE
t
p
SE
t
p
216,70
6,56
<0,0001
0,073956
5,16
<0,0001
R2=0,2591
Proc surveyreg
13,47565 0,00319
119,34
103,47
<0,0001 <0,0001
R2=0,2227
Proc reg
Regresja logistyczna
– proc surveylogistic
Ilorazy szans nieposiadania komputera
z dostępem do Internetu:
Czy GD posiada komputer z dostępem
do Internetu?
Tak
46%
Nie
54%
3.5
3
2.5
2
1.5
1
0.5
0
Klasa miejscowości
Liczba dzieci do 17 lat
Stan cywilny
Wykształcenie
• proc surveylogistic data=db.zbior_db;
• cluster tpb;
• class komputer klm dzieci stan_cyw
gredu;
• model komputer=klm dzieci stan_cyw
gredu;
• strata warstwa /list;
• weight waga_new;
• run;
16
• /*u15 komputer z dostępem do internetu ma liczby od 0
do 6, czyli jest to liczba posiadanych komputerów,
przerabiam na komputer=0 Nie i komputer=1 Tak*/
• data db.zbior_db;
• set db.zbior_db;
• if u15=0 then komputer=0;
• if u15=1 then komputer=1;
• if u15=2 then komputer=1;
• if u15=3 then komputer=1;
• if u15=4 then komputer=1;
• if u15=5 then komputer=1;
• if u15=6 then komputer=1;
• run;
17
•
•
•
•
•
•
•
•
•
•
/*stan cywilny łączę rozwiedziony 5+w separacji 3*/
data db.zbior_db;
set db.zbior_db;
if d4_9=1 then stan_cyw=1;
if d4_9=2 then stan_cyw=2;
if d4_9=3 then stan_cyw=3;
if d4_9=4 then stan_cyw=4;
if d4_9=5 then stan_cyw=3;
if d4_9=6 then stan_cyw=.;
run;
18
• /*liczba dzieci do lat 17 jest 0,1,2, potem pozostałe zmieniam
na 3+: 3,4,5,6,7,8,9,11*/
• data db.zbior_db;
• set db.zbior_db;
• if ld17=0 then dzieci=0;
• if ld17=1 then dzieci=1;
• if ld17=2 then dzieci=2;
• if ld17=3 then dzieci=3;
• if ld17=4 then dzieci=3;
• if ld17=5 then dzieci=3;
• if ld17=6 then dzieci=3;
• if ld17=7 then dzieci=3;
• if ld17=8 then dzieci=3;
• if ld17=9 then dzieci=3;
• if ld17=11 then dzieci=3;
• run;
19
Paramet
er
Estimat Standar
DF e
d
Wald
ChiError Square
Intercept
1 0,0707 0,0277
klm
miasto do
500tys.+
miasto do 200500tys.
miasto do 100200tys.
miasto do 20100tys.
klm
miasto do 20tys.
klm
klm
klm
wieś
1 -0,374
6,4925
Pr >
ChiSq
Effect
0,0108
95% Wald
Confidence
Limits
0,038 97,0309<,0001
klm 1 vs 6
0,387
0,3520,427
1 -0,271 0,0472 33,0189<,0001
klm 2 vs 6
0,429
0,3820,482
1 -0,1289 0,0552
5,4442
0,0196klm 3 vs 6
0,495
0,4330,566
1 0,1016 0,0376
7,3023
0,0069klm 4 vs 6
0,623
0,5680,684
1 0,0978 0,0458
4,5642
0,0326klm 5 vs 6
0,621
0,5550,695
0,5038
dzieci
0
1220,500
1 0,7639 0,0219
6<,0001
dzieci
1
1 -0,3608 0,0255 199,628<,0001
dzieci
2
1 -0,3648 0,0289 159,2528<,0001
3+
Point
Estimate
-0,0383
1,65499833
dzieci 0 vs
3
dzieci 1 vs
3
dzieci 2 vs
3
2,231
2,0112,474
0,724
0,650,808
0,722
0,6430,809
0,96242417
20
7. Estymatory regresyjne
Regresyjny estymator średniej
ylr  y  bX  x 
• może być stosowany, gdy cecha pomocnicza X jest
skorelowana z cechą badaną Y
• b – współczynnik regresji liniowej Y względem X
• estymator ten jest tak samo efektywny jak ilorazowy,
gdy linia regresji II rodzaju przechodzi przez początek
układu współrzędnych, wtedy
V (X )
 xy 
V (Y )
21
Wariancja regresyjnego estymatora średniej:

n  S 1 

D  ylr   1   
n
 N
2
2
y
2
xy

Obciążenie:

n
1
1 
3
2







E ylr   Y  1   

B
X

X

X

X
Y

Y

i
i
2
  i



N
n

1
S
N

1


i
 i

x
22
Regresyjny warstwowy estymator średniej
ylr  Wh yh  bh X h  xh 
h
• może być stosowany, gdy cecha pomocnicza X jest
skorelowana z cechą badaną Y w każdej z H warstw
• bh – współczynnik regresji liniowej Y względem X dla htej warstwy
• wariancja tego estymatora:


nh  S 1  
 
D  ylr   W 1 
nh
h
 Nh 
2
2
h
2
hy
2
hxy

23