Transcript Document
Seminarium magisterskie
Zajęcia trzecie – modele zmiennej nieciągłej.
Modele bardziej skomplikowane niż OLS
Można sobie z łatwością wyobrazić liniowy model np.. prawdopodobieństwa, co można zapisać jako P(y = 1|x) = b
0 + x
b Sęk w tym, że wartości dopasowane niekoniecznie muszą się zawierać w przedziale między 0 a 1.
By uniknąć tego problemu, można modelować model prawdopodobieństwa (czyli funkcji), jako G( b
0 + x
b ), gdzie 0<G(z)<1 Podobnym problemem może być tzw. „obcięta” zmienna zależna albo kategoryczna zmienna zależna.
Efektem takiego rozumowania są modele klasy logit, probit i tobit, estymowane nie za pomocą OLS lecz MLE.
Model probitowy i logitowy
Model probitowy Wybieramy sobie G(z), jako standardową funkcję dystrybuanty (czyli skumulowanego rozkładu, tj. cdf) G(z) = F(z) ≡ ∫f(v)dv, gdzie f(z) ma rozkład normalny f(z) = (2p) -1/2 exp(-z 2 /2) Nie jest liniowy względem parametrów, więc nie spełnione jest założenie GM, więc OLS nie jest dobry (BLUE) – stosuje się MLE Ma to swoje zalety (odporność) i wady (nie da się tak samo jak w przypadku MNK określić, że jest to dobry/zły model).
Model logitowy Można też założyć inny kształt G(z) – funkcje logistyczną G(z) = exp(z)/[1 + exp(z)] = Λ(z) Obie funkcją mają podobny kształt – rosną z z, najszybciej w okolicach 0
Słabości, siły i interpretacja
Nie ma żadnego ścisłego ogólnego powodu, by preferować jedno albo drugie Trochę inaczej się je estymuje, ale od strony technicznej – nie użytkownika Interpretacja: Najbardziej nas obchodzi „wpływ” x na P(y = 1|x), czyli ∂p/ ∂x Ponieważ to nie jest model liniowy, to współczynnik o tym nie mówi – tzw. efekty krańcowe ∂p/ ∂x
j
= g(b
0
+xb)b
j
, gdzie g(z) is dG/dz Normalnie: wolno interpretować tylko znaki i istotność
Przykład: Train (2002)
• Przyjmijmy, że są dwa typy osób - a oraz b – tak samo reprezentowane w populacji, przy czym zachodzi
V a V b
b
x a
b
x b
wówczas
P a
Pr
F
b
y i
x a
1
x a
ale
P b P
1 2
P a
P b
F
Seminarium magisterskie - zajęcia 3
Pr
F
b
y i
x b
1
x b
6
F P b P
P a V a V V b
Seminarium magisterskie - zajęcia 3
V
7
Wnioski z tego przykładu
P(V) będzie zaniżone, gdy częstotliwość jest mała w próbie i odwrotnie, gdy częstotliwość jest duża By ekstrapolować wnioski na całą populację, trzeba się zawsze zastanowić: do jakiego stopnia ta populacja jest reprezentatywna czy nie było jakiegoś „dobierania próby” Wielkości oszacowań parametrów w modelach tego typu nie odzwierciedlają realnej skali oddziaływania Pr
y i
x i
1
x i dF d
b b
x i x i
b
Seminarium magisterskie - zajęcia 3
Pr Pr
y i
y i x ik
x ij
1 1
x i x i
b b
k j
8
F
P b
V
P
V
P a
V V a V c
Seminarium magisterskie - zajęcia 3
V b V
9
Efekty krańcowe
W modelu logitowym Pr
y i x i
1
x i
i
1
x i
b W modelu probitowym Pr
y i
x i
1
x i
x i
b • Efekty siłą rzeczy największe tam gdzie środek rozkładu, najmniejsze na jego ogonach • Co ma sens: czynniki egzogeniczne są ważne tam, gdzie faktycznie „wybiera się” którąś z alternatyw
Seminarium magisterskie - zajęcia 3 10
Logit i probit nie różnią się zasadniczo…
-6 -4 Comparison of Logit and Probit 1.00
0.80
0.60
0.40
0.20
-2 Std. Normal 0.00
0 Std. Logit 2 Scaled Logit 4
Seminarium magisterskie - zajęcia 3
6
11
Przykład: Green i nauczanie
Porównanie modeli wyestymowanych przy różnych założeniach dotyczących natury rozkładu LPM, logit, probit oraz Weibull Zmienna zależna: czy wyniki studenta poprawiły się pomiędzy dwoma okresami egzaminów Zmienne niezależne: GPA: wyjściowa średnia (przed przyjściem do danej szkoły) TUCE: wynik w pierwszej sesji egzaminacyjnej, PSI: kontakt z nowymi metodami dydaktycznymi
Seminarium magisterskie - zajęcia 3 12
Przykład: Greene i nauczanie…
Variable Linear Coefficient Estimate Logit Probit Weibull Linear Marginal Impacts Logit Probit Weibull Const.
GPA TUCE PSI -1.50
-13.02
.46
.01
.38
2.83
.10
2.38
-7.45
-10.63
1.63
.05
1.43
2.29
.04
1.56
- .46
.01
.38
- .53
.02
.45
- .53
.02
.47
- .48
.01
.32
Seminarium magisterskie - zajęcia 3 13
Przykład: niedożywienie w Vietnamie (dzieci <10 lat)
Child's age (months) Child's age squared (/100) Child is male Dependent variable = 1 if height-for-age z-score less than -2 LPM (OLS) Logit (MLE) Partial Coeff.
0.0079*** (0.00075) -0.0053*** (0.00058) 0.0563*** Coeff.
0.0403*** (0.00394) Effect 0.0100*** (0.00100) -0.0271*** -0.0068*** (0.00293) (0.00074) 0.2675*** 0.0661*** Probit (MLE) Coeff.
0.0245*** (0.00238) 0.1614*** Partial Effect 0.0097*** (0.00100) -0.0165*** -0.0066*** (0.00177) (0.00071) 0.0639*** (log) Hhold. Consumption per capita Safe drinking water Satifactory sanitation (0.01281) -0.1849*** (0.01726) -0.0447* (0.02685) -0.057** (0.06072) -0.9403*** -0.2347*** (0.09026) -0.2017* (0.11669) (0.01489) (0.02255) -0.0504* (0.02906) -0.3344*** -0.0822*** (0.03688) (0.05301) -0.1208* (0.07146) (0.01451) -0.5639*** -0.2248*** (0.02116) -0.0482* (0.02844) -0.1982*** -0.0782*** Years of schooling of head of household (0.02306) 0.0013
(0.00219) (0.11838) 0.0047
(0.01070) (0.02860) 0.0012
(0.00267) (0.06990) 0.0028
(0.00642) (0.02728) 0.0011
(0.00256) Mother has primary school diploma Intercept Sample size -0.0041
(0.02008) 1.5681*** (0.13511) 5218 -0.0106
(0.09218) 5.4812*** (0.69589) -0.0027
(0.02301) -0.0079
(0.05571) 3.2734*** (0.41134) -0.0031
(0.02221)
Notes:
Robust standard errors in parenthesis. Adjusted for clustering and heteroskedasticity.
***, ** & * indicate significance at 1%, 5% & 10% respectively.
Partial effects calculated at medians of regressors LPM - linear probability model, OLS - ordinary least squares, MLE - maximum likelihood estimator
Seminarium magisterskie - zajęcia 3 14
Jak to działa w STATA
Standardowy syntax:
Zamiast reg piszemy logit/probit Otrzymanie efektów krańcowych: mfx compute Można pójść na skróty: dprobit
Można także standardowo korzystać z opcji
predict Można obejrzeć „dopasowane” prawdopodobieństwo i porównać z prawdziwym Można szacować cząstkowe „dopasowane” prawdopodobieństwa (w podpróbach albo po cechach), żeby zwiększać interpretowalność wyników
Seminarium magisterskie - zajęcia 3 15
Jak wiedzieć, czy to dobry model…
Estymacja MLE a nie OLS, więc nie można używać R2. Cały czas zostają kryteria informacyjne, ale one tylko powiedzą, który model „mniej zły” a nie czy są dobre Podobnie tzw. log-likelihood, L w estymacji MLE Porównać modele tak jak z testem F, czyli model z restrykcjami, model bez i LR = 2( L ur – L r ) ~ c 2
q
Jest tzw. pseudo-R2=1 – L ur / L r , ale jego interpretacja nie jest taka, jak R2 Można popatrzeć, czy przewidziane prawdopodobieństwo jest względnie bliskie realizacji: prob>.5 => y=1 i vice versa Powstają dwie miary: dobre zgadywanie 0 i dobre zgadywanie 1
Seminarium magisterskie - zajęcia 3 16
Modele zmiennej latentnej
Czasem wiemy, że dzieje się coś ciągłego, ale widzimy to tylko binarnie – wtedy mowa o tzw. modelach zmiennej latentnej Jest sobie jakaś zmienna y*, którą modelujemy jako y* = b
0
+xb + u, ale obserwujemy tylko y = 1, if y* > 0 oraz y =0 if y* ≤ 0, Przykład: zatrudnialność, odporność organizmu, itp Estymacja probit/logit nie będzie adekwatna – są na to modele W szczególności, ta nieobserwowana zmienna y* nie musi przejawiać się w formule 0/1 y* = xb + u, u|x ~ Normal(0,s 2 ) ale obserwujemy tylko y = max(0, y*)
To się nazywa model TOBITOWY
Wykorzystujemy MLE by uzyskać zarówno b jak i s Co ważne b szacuje oddziaływanie x na y*, czyli zmienną latentną – nie na y
Seminarium magisterskie - zajęcia 3 17
Interpretacja w modelu tobitowym
Jeśli interesuje nas zaiste y* - interpretujemy normalnie Jeśli jednak interesuje nas y a nie y* (większość przypadków) pojawia się kłopot: E(y|x) = F(xb/s)xb + sf(xb/s), więc ∂E(y|x)/∂x
j
= b j F(xb/s) Jeśli więc nie jest spełnione założenie o normalności składnika losowego lub o homoscedastycznośći, to całe to oszacowanie traci sens Dlatego powstały modele, które trochę próbują się na ten problem uodpornić – tzw. ZMIENNE OBCIĘTE W ogólniejszym przypadku: y = xb + u, u|x,c ~ Normal(0,s 2 ), ale obserwujemy tylko w = min(y,c) albo w = max(y,c) Jest jeszcze możliwość zmiennej WYBRAKOWANEJ (ang. truncated regression), gdzie nie została zmienna ocenzurowana, lecz po prostu jej nie ma powyżej/poniżej pewnej wartości.
Seminarium magisterskie - zajęcia 3 18
Jak to się robi w STATA
Standardowe komendy: tobit y cala_lista_x , ll(17) ul(24) truncreg y cala_lista_x, ll(0) Zawsze mfx compute Interesujące opcje predict: pr(a,b) e(a,b) => Pr(a < y < b) => E(y | a < y < b) ystar(a,b) => E(y*),y* = max{a, min(y,b)}
Jeśli zmienna jest „wybrakowana” w nielosowy sposób mamy pewien problem…
Seminarium magisterskie - zajęcia 3 19
Problem z losowością próby…
Jeśli nie ma pewnych obserwacji w sposób nielosowy, estymator MLE albo OLS są obciążone. Mechanizm jest podobny to problemu zmiennej pominiętej, gdzie pomijaną zmienną jest to … jak dobrano do próby: E(y|z, s = 1) = xb + rl(zg), gdzie l(c) to tzw. odwrotność ilorazu Millsa : f(c)/F(c) Model Heckmana dla przykładu: bezrobocie a zarobki
Seminarium magisterskie - zajęcia 3 20
Problem z losowością próby…
Potrzebujemy estymatora l, by wyestymować model probitowy s (czyli czy obserwujemy y czy nie) bazując na zmiennych z Na podstawie tych estymatorów (g) możemy razem z danymi z oszacować odwrotność ilorazu Millsa Jak to już mamy, to można zrobić normalną regresję y na x i oszacowanie l – tak uzyskane oszacowania b będą zgodne Ważne: x musi być podzbiorem z, w innym przypadku nie ma właściwej identyfikacji Stąd problemy ze stabilnością rozwiązań i tzw. instrumentami Heckman w późniejszym artykule wykazał, że taka dwustopniowa estymacja (równanie po równaniu) daje nieefektywność (zbyt duże błędy standardowe) wobec łącznie wyestymowanego układu równań.
Stąd rozróżnienie na tzw. two-step oraz one-step
Seminarium magisterskie - zajęcia 3 21
Jak to zrobić w STATA
Oszacowanie modelu Heckmana jest proste, jeśli mamy te zmienne, co potrzeba: generate wageseen = (wage < .) heckman wage educ age, select(wageseen = married children educ age) heckman wage educ age, select(married children educ age) twostep Pytanie, czy to jest dobry model - czy zmienna za stan cywilny jest dobrym instrumentem… Można także robić to ręcznie (przy zastrzeżeniu nieefektywności) probit active all_activity_variables predict p1, xb generate phi = (1/sqrt(2*_pi))*exp(-(p1^2/2)) generate invmills = phi/normal(p1) reg ln_wage all_wage_variables invmills if WE==1
2011-04-07 Seminarium magisterskie - zajęcia 3 22
Przykład: wydatki na leczenie w Vietnamie
Table 3: Comparison of two-part and sample selection models (annual medical expenditure, Vietnam 1998)
Depenent variables: Participation - 1 if medical expenditure positive; Continuous - log of (positive) expenditure
body mass index (body mass index) 2 log(rental value of house) satisfactory sanitation house not of solid materials attended school, no diploma attended school & diploma head of hhold has diploma head of hhold school grade Sample size Test slope parameters all zero Two-part model Participation (probit) Continuous (OLS)
Coeff.
Rob. SE
-0.1382***
0.0332
Coeff.
Rob. SE
-0.0800***
0.0254
0.2820***
0.0820
0.3079***
0.0434
-0.2160***
0.0775
0.0900*
0.0528
0.0527
0.1110
0.0985
-0.0563
-0.0025
0.1320
0.0570
0.0078
0.1212* 0.5065***
0.0643
0.0264
-0.2362***
0.0434
0.1896***
0.0363
-0.2522***
0.0386
-0.1335***
0.0482
-0.1557***
0.0391
-0.0112**
0.0049
27368 Wald=515 p=0.0000
22645 F=134.2
p=0.0000
Participation (MLE)
Coeff.
-0.1117***
0.0297
0.2265*** 0.3393*** Sample selection model -0.2183*** 0.0831* 0.0173
0.0674
-0.0684
-0.0029
Rob. SE 0.0728
0.0350
0.0713
0.0459
0.1023
0.1221
0.0526
0.0070
Rho Wald=3448 p=0.0000
Continuous (MLE)
Coeff.
-0.0839
0.1761*** -0.0118** 0.8470
Wald (Rho=0) 324.6
Rob. SE
-0.1430***
0.0283
0.2488*** 0.6262***
0.0709
0.0378
-0.3283***
0.0605
0.2279***
0.0428
-0.2240***
0.0638
0.0774
0.0462
0.0059
0.0195
p=0.0000
Notes
: All models also include a 3rd degree polynomial in age, gender dummy, head of household dummy, quadratic in household size and regional dummies.
***, ** & * significant at 1%, 5% and 10% respectively.
MLE - maximum likelihood estimator; Rob. SE - robust to hetero. and clustering standard error; Rho - coefficient of correlation of errors; Wald (Rho=0) - Wald test of null of Rho=0.
2011-04-07 Seminarium magisterskie - zajęcia 3 23
Podsumowanie
Zmienna zależna może być bardzo pokręcona: Ze złą jakością danych ekonometria nic nie pomoże Ze źle zebranymi danymi czasem może pomóc: Modele szacowane MLE (probit/logit/tobit/trunc) pozwalają dostać sensowne oszacowania parametrów, ale zostają problem heteroscedastyczności i ewentualne skutki tzw. małej próby Model korekty Heckmana pozwala rozwiązać problem obciążenia estymatorów, jeśli próba nielosowa (najczęściej!) ale: Trzeba mieć dobry pomysł na instrument!
Trzeba się nieźle nieraz namęczyć, żeby algorytm dawał zgodne oszacowania
Seminarium magisterskie - zajęcia 3 24