Transcript Document
Metoda reprezentacyjna i statystyka małych obszarów z SAS Instytut Statystyki i Demografii SGH dr Dorota Bartosińska Zajęcia 6 Analiza regresji dla prób złożonych – zastosowanie procedur SURVEYREG i SURVEYLOGISTIC. Estymatory regresyjne. 1 Struktura zajęć 1. Rodzaje modeli 2. Procedury SAS do budowy modeli 3. Sposoby kodowania jakościowych zmiennych objaśniających 3.1. Kodowanie z kategorią odniesienia 3.2. Kodowanie „effect” 3.3. Kodowanie porządkowe 3. Regresja dla prób złożonych 4. Składnia procedur SURVEYREG i SURVEYLOGISTIC 5. Przykłady zastosowania tych procedur 6. Estymatory regresyjne 2 1. Rodzaje modeli - zależą od rodzaju zmiennej objaśnianej i zmiennych objaśniających Zmienna objaśniana: 1. Jakościowa → regresja logistyczna: nominalna z dwiema kategoriami → regresja logistyczna binarna porządkowa → regresja logistyczna uporządkowana nominalna z więcej niż dwiema kategoriami → regresja logistyczna wielomianowa 2. Ilościowa → zm.objaśniające jakościowe →anova, manova → zm.objaśniające ilościowe →regresja → zm.objaśniająca czasowa → trend 3. Czasowa → modele przeżycia 3 2. Procedury SAS do budowy modeli • LOGISTIC (jakościowa zm. objaśniana, zm. objaśniające jakościowe lub/i ilościowe) • ANOVA (ilościowa zm. objaśniana, 1 zm. objaśniająca jakościowa, ang. Analysis of Variance) • REG (ilościowa zm. objaśniana, zm. objaśniające ilościowe) • PHREG (czasowa zm. objaśniana) • GENMOD (uogólniony model liniowy, ang. Generalized Linear Model) • GLM (ogólny model liniowy, ang. General Linear Model) 4 Informacje na stronie: support.sas.com documentation Sas 9.2 Na dole strony: Other Resources SAS Procedures by Name and Product SAS Language Reference by Name, Product, and Category 5 3. Sposoby kodowania jakościowych zmiennych objaśniających 3.1. Kodowanie z kategorią odniesienia nazwa_zmiennej (param=reference ref=first) nazwa_zmiennej (param=reference ref=last) nazwa_zmiennej (param=reference ref=‘nazwa_kategorii’) Oszacowania parametrów strukturalnych zależą od wyboru kategorii odniesienia. Interpretacja – w porównaniu z kategorią odniesienia, która nie powinna być rzadka, nie powinna być „inne”. 6 3.2. Kodowanie „effect” nazwa_zmiennej (param=effect ref=first) nazwa_zmiennej (param=effect ref=last) nazwa_zmiennej (param=effect ref=‘nazwa_kategorii’) Oszacowania parametrów strukturalnych nie zależą od wyboru kategorii odniesienia. Interpretacja – w porównaniu z poziomem przeciętnym, stosowane także w analizie szeregów czasowych z okresowością addytywną. Oszacowanie parametru przy kategorii referencyjnej nie jest wyświetlane, należy go obliczyć, wiedząc że suma oszacowań parametrów = 0. 7 3.3. Kodowanie porządkowe (ang. ordinal) nazwa_zmiennej (param=ordinal) Stosowane dla zmiennych porządkowych Interpretacja – w porównaniu z kategoriami poprzednimi. Wieś Małe miasto Średnie miasto Duże miasto 0 1 1 1 0 0 1 1 0 0 0 1 8 4. Regresja dla prób złożonych Nie można bezpośrednio zastosować metod estymacji opisanych w podręcznikach ekonometrii, ponieważ: 1) Macierz obserwacji na zmiennych objaśniających X jest macierzą losową i nie można zakładać, że w każdej możliwej próbie otrzymamy taką samą macierz X. Nie możemy więc rozpatrywać wektora B przy ustalonej macierzy X. 2) Poszczególne obserwacje próby nie są niezależne oraz mają różne rozkłady (zależy to od zastosowanego schematu losowania próby). 9 Model regresji: y=XTB+e KMNK: B=(XTX)-1XTy UMNK Aitkena: B=(XTMTX)-1XTMTy Losowanie warstwowe: B W B h h h 10 5. Składnia procedur SURVEYREG i SURVEYLOGISTIC (podstawowe instrukcje) PROC SURVEYREG < opcje > ; BY zmienne grupujące; CLASS zmienne ; CLUSTER zmienne identyfikujące jednostki los. I stopnia; CONTRAST 'etykieta' efekty values < ... effect values > < / opcje > ; ESTIMATE 'label' effect values < ... effect values > < / opcje > ; MODEL zmienna zależna = zmienne niezależne< / opcje > ; STRATA zmienne warstwujące < / opcje > ; WEIGHT zmienna ważąca ; PROC SURVEYLOGISTIC < opcje >; BY zmienne grupujące ; CLASS zmienne jakościowe <(v-opcje)> <zmienna <(v-opcje)>... > < / v-opcje >; CLUSTER zmienne identyfikujące jednostki los. I stopnia; CONTRAST 'etykieta' wartości efektu <,... wartości efektu >< /opcje >; FREQ zmienna ; MODEL zdarzenia/próby = < efekty> < / opcje >; MODEL zmienna zależna < (zmienna_opcje) > = zmienne niezależne < efekty > < / opcje >; STRATA zmienne warstwujące < / opcje > ; < etykieta: > TEST równanie 1 < , ... , < równanie k >> < /opcja >; UNITS niezależna 1 = lista 1 < ... niezależna k = lista k > < /opcja > ; WEIGHT zmienna ważąca </ opcja >; 6. Przykłady zastosowania tych procedur Regresja klasyczna • • • • • • proc surveyreg data=db.zbior_db; cluster tpb; model wydg=dochg / deff; strata warstwa /list; weight waga_new; run; 13 wyd=1429,11+0,38178doch wyd=1608,17+0,33056doch SE t p SE t p 216,70 6,56 <0,0001 0,073956 5,16 <0,0001 R2=0,2591 Proc surveyreg 13,47565 0,00319 119,34 103,47 <0,0001 <0,0001 R2=0,2227 Proc reg Regresja logistyczna – proc surveylogistic Ilorazy szans nieposiadania komputera z dostępem do Internetu: Czy GD posiada komputer z dostępem do Internetu? Tak 46% Nie 54% 3.5 3 2.5 2 1.5 1 0.5 0 Klasa miejscowości Liczba dzieci do 17 lat Stan cywilny Wykształcenie • proc surveylogistic data=db.zbior_db; • cluster tpb; • class komputer klm dzieci stan_cyw gredu; • model komputer=klm dzieci stan_cyw gredu; • strata warstwa /list; • weight waga_new; • run; 16 • /*u15 komputer z dostępem do internetu ma liczby od 0 do 6, czyli jest to liczba posiadanych komputerów, przerabiam na komputer=0 Nie i komputer=1 Tak*/ • data db.zbior_db; • set db.zbior_db; • if u15=0 then komputer=0; • if u15=1 then komputer=1; • if u15=2 then komputer=1; • if u15=3 then komputer=1; • if u15=4 then komputer=1; • if u15=5 then komputer=1; • if u15=6 then komputer=1; • run; 17 • • • • • • • • • • /*stan cywilny łączę rozwiedziony 5+w separacji 3*/ data db.zbior_db; set db.zbior_db; if d4_9=1 then stan_cyw=1; if d4_9=2 then stan_cyw=2; if d4_9=3 then stan_cyw=3; if d4_9=4 then stan_cyw=4; if d4_9=5 then stan_cyw=3; if d4_9=6 then stan_cyw=.; run; 18 • /*liczba dzieci do lat 17 jest 0,1,2, potem pozostałe zmieniam na 3+: 3,4,5,6,7,8,9,11*/ • data db.zbior_db; • set db.zbior_db; • if ld17=0 then dzieci=0; • if ld17=1 then dzieci=1; • if ld17=2 then dzieci=2; • if ld17=3 then dzieci=3; • if ld17=4 then dzieci=3; • if ld17=5 then dzieci=3; • if ld17=6 then dzieci=3; • if ld17=7 then dzieci=3; • if ld17=8 then dzieci=3; • if ld17=9 then dzieci=3; • if ld17=11 then dzieci=3; • run; 19 Paramet er Estimat Standar DF e d Wald ChiError Square Intercept 1 0,0707 0,0277 klm miasto do 500tys.+ miasto do 200500tys. miasto do 100200tys. miasto do 20100tys. klm miasto do 20tys. klm klm klm wieś 1 -0,374 6,4925 Pr > ChiSq Effect 0,0108 95% Wald Confidence Limits 0,038 97,0309<,0001 klm 1 vs 6 0,387 0,3520,427 1 -0,271 0,0472 33,0189<,0001 klm 2 vs 6 0,429 0,3820,482 1 -0,1289 0,0552 5,4442 0,0196klm 3 vs 6 0,495 0,4330,566 1 0,1016 0,0376 7,3023 0,0069klm 4 vs 6 0,623 0,5680,684 1 0,0978 0,0458 4,5642 0,0326klm 5 vs 6 0,621 0,5550,695 0,5038 dzieci 0 1220,500 1 0,7639 0,0219 6<,0001 dzieci 1 1 -0,3608 0,0255 199,628<,0001 dzieci 2 1 -0,3648 0,0289 159,2528<,0001 3+ Point Estimate -0,0383 1,65499833 dzieci 0 vs 3 dzieci 1 vs 3 dzieci 2 vs 3 2,231 2,0112,474 0,724 0,650,808 0,722 0,6430,809 0,96242417 20 7. Estymatory regresyjne Regresyjny estymator średniej ylr y bX x • może być stosowany, gdy cecha pomocnicza X jest skorelowana z cechą badaną Y • b – współczynnik regresji liniowej Y względem X • estymator ten jest tak samo efektywny jak ilorazowy, gdy linia regresji II rodzaju przechodzi przez początek układu współrzędnych, wtedy V (X ) xy V (Y ) 21 Wariancja regresyjnego estymatora średniej: n S 1 D ylr 1 n N 2 2 y 2 xy Obciążenie: n 1 1 3 2 E ylr Y 1 B X X X X Y Y i i 2 i N n 1 S N 1 i i x 22 Regresyjny warstwowy estymator średniej ylr Wh yh bh X h xh h • może być stosowany, gdy cecha pomocnicza X jest skorelowana z cechą badaną Y w każdej z H warstw • bh – współczynnik regresji liniowej Y względem X dla htej warstwy • wariancja tego estymatora: nh S 1 D ylr W 1 nh h Nh 2 2 h 2 hy 2 hxy 23