Transcript Document

Seminarium magisterskie

Zajęcia trzecie – modele zmiennej nieciągłej.

Modele bardziej skomplikowane niż OLS

     Można sobie z łatwością wyobrazić liniowy model np.. prawdopodobieństwa, co można zapisać jako P(y = 1|x) = b

0 + x

b Sęk w tym, że wartości dopasowane niekoniecznie muszą się zawierać w przedziale między 0 a 1.

By uniknąć tego problemu, można modelować model prawdopodobieństwa (czyli funkcji), jako G( b

0 + x

b ), gdzie 0<G(z)<1 Podobnym problemem może być tzw. „obcięta” zmienna zależna albo kategoryczna zmienna zależna.

Efektem takiego rozumowania są modele klasy logit, probit i tobit, estymowane nie za pomocą OLS lecz MLE.

  

Model probitowy i logitowy

Model probitowy  Wybieramy sobie G(z), jako standardową funkcję dystrybuanty (czyli skumulowanego rozkładu, tj. cdf) G(z) = F(z) ≡ ∫f(v)dv, gdzie f(z) ma rozkład normalny f(z) = (2p) -1/2 exp(-z 2 /2)   Nie jest liniowy względem parametrów, więc nie spełnione jest założenie GM, więc OLS nie jest dobry (BLUE) – stosuje się MLE Ma to swoje zalety (odporność) i wady (nie da się tak samo jak w przypadku MNK określić, że jest to dobry/zły model).

Model logitowy  Można też założyć inny kształt G(z) – funkcje logistyczną G(z) = exp(z)/[1 + exp(z)] = Λ(z) Obie funkcją mają podobny kształt – rosną z z, najszybciej w okolicach 0

Słabości, siły i interpretacja

   Nie ma żadnego ścisłego ogólnego powodu, by preferować jedno albo drugie Trochę inaczej się je estymuje, ale od strony technicznej – nie użytkownika Interpretacja:    Najbardziej nas obchodzi „wpływ” x na P(y = 1|x), czyli ∂p/ ∂x Ponieważ to nie jest model liniowy, to współczynnik o tym nie mówi – tzw. efekty krańcowe ∂p/ ∂x

j

= g(b

0

+xb)b

j

, gdzie g(z) is dG/dz Normalnie: wolno interpretować tylko znaki i istotność

Przykład: Train (2002)

• Przyjmijmy, że są dwa typy osób - a oraz b – tak samo reprezentowane w populacji, przy czym zachodzi

V a V b

 b 

x a

 b 

x b

wówczas

P a

  Pr

F

 b

y i

x a

  1

x a

ale

P b P

 1 2 

P a

P b

  

F

Seminarium magisterskie - zajęcia 3

  Pr

F

 b

y i

x b

 1 

x b

6

F P b P

 

P a V a V V b

Seminarium magisterskie - zajęcia 3

V

7

Wnioski z tego przykładu

   P(V) będzie zaniżone, gdy częstotliwość jest mała w próbie i odwrotnie, gdy częstotliwość jest duża By ekstrapolować wnioski na całą populację, trzeba się zawsze zastanowić:   do jakiego stopnia ta populacja jest reprezentatywna czy nie było jakiegoś „dobierania próby” Wielkości oszacowań parametrów w modelach tego typu nie odzwierciedlają realnej skali oddziaływania  Pr

y i

x i

 1

x i dF d

  b b  

x i x i

    b

Seminarium magisterskie - zajęcia 3

  Pr Pr 

y i

 

y i x ik

x ij

1 1

x i x i

 b b

k j

8

F

P b

V

P

V

P a

V V a V c

Seminarium magisterskie - zajęcia 3

V b V

9

Efekty krańcowe

W modelu logitowym  Pr   

y i x i

 1

x i

   

i

  1  

x i

   b W modelu probitowym  Pr

y i

x i

 1

x i

 

x i

 b • Efekty siłą rzeczy największe tam gdzie środek rozkładu, najmniejsze na jego ogonach • Co ma sens: czynniki egzogeniczne są ważne tam, gdzie faktycznie „wybiera się” którąś z alternatyw

Seminarium magisterskie - zajęcia 3 10

Logit i probit nie różnią się zasadniczo…

-6 -4 Comparison of Logit and Probit 1.00

0.80

0.60

0.40

0.20

-2 Std. Normal 0.00

0 Std. Logit 2 Scaled Logit 4

Seminarium magisterskie - zajęcia 3

6

11

  

Przykład: Green i nauczanie

Porównanie modeli wyestymowanych przy różnych założeniach dotyczących natury rozkładu  LPM, logit, probit oraz Weibull Zmienna zależna: czy wyniki studenta poprawiły się pomiędzy dwoma okresami egzaminów Zmienne niezależne:    GPA: wyjściowa średnia (przed przyjściem do danej szkoły) TUCE: wynik w pierwszej sesji egzaminacyjnej, PSI: kontakt z nowymi metodami dydaktycznymi

Seminarium magisterskie - zajęcia 3 12

Przykład: Greene i nauczanie…

Variable Linear Coefficient Estimate Logit Probit Weibull Linear Marginal Impacts Logit Probit Weibull Const.

GPA TUCE PSI -1.50

-13.02

.46

.01

.38

2.83

.10

2.38

-7.45

-10.63

1.63

.05

1.43

2.29

.04

1.56

- .46

.01

.38

- .53

.02

.45

- .53

.02

.47

- .48

.01

.32

Seminarium magisterskie - zajęcia 3 13

Przykład: niedożywienie w Vietnamie (dzieci <10 lat)

Child's age (months) Child's age squared (/100) Child is male Dependent variable = 1 if height-for-age z-score less than -2 LPM (OLS) Logit (MLE) Partial Coeff.

0.0079*** (0.00075) -0.0053*** (0.00058) 0.0563*** Coeff.

0.0403*** (0.00394) Effect 0.0100*** (0.00100) -0.0271*** -0.0068*** (0.00293) (0.00074) 0.2675*** 0.0661*** Probit (MLE) Coeff.

0.0245*** (0.00238) 0.1614*** Partial Effect 0.0097*** (0.00100) -0.0165*** -0.0066*** (0.00177) (0.00071) 0.0639*** (log) Hhold. Consumption per capita Safe drinking water Satifactory sanitation (0.01281) -0.1849*** (0.01726) -0.0447* (0.02685) -0.057** (0.06072) -0.9403*** -0.2347*** (0.09026) -0.2017* (0.11669) (0.01489) (0.02255) -0.0504* (0.02906) -0.3344*** -0.0822*** (0.03688) (0.05301) -0.1208* (0.07146) (0.01451) -0.5639*** -0.2248*** (0.02116) -0.0482* (0.02844) -0.1982*** -0.0782*** Years of schooling of head of household (0.02306) 0.0013

(0.00219) (0.11838) 0.0047

(0.01070) (0.02860) 0.0012

(0.00267) (0.06990) 0.0028

(0.00642) (0.02728) 0.0011

(0.00256) Mother has primary school diploma Intercept Sample size -0.0041

(0.02008) 1.5681*** (0.13511) 5218 -0.0106

(0.09218) 5.4812*** (0.69589) -0.0027

(0.02301) -0.0079

(0.05571) 3.2734*** (0.41134) -0.0031

(0.02221)

Notes:

Robust standard errors in parenthesis. Adjusted for clustering and heteroskedasticity.

***, ** & * indicate significance at 1%, 5% & 10% respectively.

Partial effects calculated at medians of regressors LPM - linear probability model, OLS - ordinary least squares, MLE - maximum likelihood estimator

Seminarium magisterskie - zajęcia 3 14

Jak to działa w STATA

 

Standardowy syntax:

   Zamiast reg piszemy logit/probit Otrzymanie efektów krańcowych: mfx compute Można pójść na skróty: dprobit

Można także standardowo korzystać z opcji

predict   Można obejrzeć „dopasowane” prawdopodobieństwo i porównać z prawdziwym Można szacować cząstkowe „dopasowane” prawdopodobieństwa (w podpróbach albo po cechach), żeby zwiększać interpretowalność wyników

Seminarium magisterskie - zajęcia 3 15

Jak wiedzieć, czy to dobry model…

      Estymacja MLE a nie OLS, więc nie można używać R2. Cały czas zostają kryteria informacyjne, ale one tylko powiedzą, który model „mniej zły” a nie czy są dobre Podobnie tzw. log-likelihood, L w estymacji MLE  Porównać modele tak jak z testem F, czyli model z restrykcjami, model bez i LR = 2( L ur – L r ) ~ c 2

q

Jest tzw. pseudo-R2=1 – L ur / L r , ale jego interpretacja nie jest taka, jak R2 Można popatrzeć, czy przewidziane prawdopodobieństwo jest względnie bliskie realizacji: prob>.5 => y=1 i vice versa Powstają dwie miary: dobre zgadywanie 0 i dobre zgadywanie 1

Seminarium magisterskie - zajęcia 3 16

       

Modele zmiennej latentnej

Czasem wiemy, że dzieje się coś ciągłego, ale widzimy to tylko binarnie – wtedy mowa o tzw. modelach zmiennej latentnej Jest sobie jakaś zmienna y*, którą modelujemy jako y* = b

0

+xb + u, ale obserwujemy tylko y = 1, if y* > 0 oraz y =0 if y* ≤ 0, Przykład: zatrudnialność, odporność organizmu, itp Estymacja probit/logit nie będzie adekwatna – są na to modele W szczególności, ta nieobserwowana zmienna y* nie musi przejawiać się w formule 0/1 y* = xb + u, u|x ~ Normal(0,s 2 ) ale obserwujemy tylko y = max(0, y*)

To się nazywa model TOBITOWY

Wykorzystujemy MLE by uzyskać zarówno b jak i s Co ważne b szacuje oddziaływanie x na y*, czyli zmienną latentną – nie na y

Seminarium magisterskie - zajęcia 3 17

     

Interpretacja w modelu tobitowym

Jeśli interesuje nas zaiste y* - interpretujemy normalnie Jeśli jednak interesuje nas y a nie y* (większość przypadków) pojawia się kłopot: E(y|x) = F(xb/s)xb + sf(xb/s), więc ∂E(y|x)/∂x

j

= b j F(xb/s) Jeśli więc nie jest spełnione założenie o normalności składnika losowego lub o homoscedastycznośći, to całe to oszacowanie traci sens Dlatego powstały modele, które trochę próbują się na ten problem uodpornić – tzw. ZMIENNE OBCIĘTE W ogólniejszym przypadku: y = xb + u, u|x,c ~ Normal(0,s 2 ), ale obserwujemy tylko w = min(y,c) albo w = max(y,c) Jest jeszcze możliwość zmiennej WYBRAKOWANEJ (ang. truncated regression), gdzie nie została zmienna ocenzurowana, lecz po prostu jej nie ma powyżej/poniżej pewnej wartości.

Seminarium magisterskie - zajęcia 3 18

Jak to się robi w STATA

    Standardowe komendy:  tobit y cala_lista_x , ll(17) ul(24)  truncreg y cala_lista_x, ll(0) Zawsze mfx compute Interesujące opcje predict:   pr(a,b) e(a,b) => Pr(a < y < b) => E(y | a < y < b)  ystar(a,b) => E(y*),y* = max{a, min(y,b)}

Jeśli zmienna jest „wybrakowana” w nielosowy sposób mamy pewien problem…

Seminarium magisterskie - zajęcia 3 19

Problem z losowością próby…

    Jeśli nie ma pewnych obserwacji w sposób nielosowy, estymator MLE albo OLS są obciążone. Mechanizm jest podobny to problemu zmiennej pominiętej, gdzie pomijaną zmienną jest to … jak dobrano do próby: E(y|z, s = 1) = xb + rl(zg), gdzie l(c) to tzw. odwrotność ilorazu Millsa : f(c)/F(c) Model Heckmana dla przykładu: bezrobocie a zarobki

Seminarium magisterskie - zajęcia 3 20

    

Problem z losowością próby…

Potrzebujemy estymatora l, by wyestymować model probitowy s (czyli czy obserwujemy y czy nie) bazując na zmiennych z Na podstawie tych estymatorów (g) możemy razem z danymi z oszacować odwrotność ilorazu Millsa Jak to już mamy, to można zrobić normalną regresję y na x i oszacowanie l – tak uzyskane oszacowania b będą zgodne Ważne: x musi być podzbiorem z, w innym przypadku nie ma właściwej identyfikacji  Stąd problemy ze stabilnością rozwiązań i tzw. instrumentami Heckman w późniejszym artykule wykazał, że taka dwustopniowa estymacja (równanie po równaniu) daje nieefektywność (zbyt duże błędy standardowe) wobec łącznie wyestymowanego układu równań.

 Stąd rozróżnienie na tzw. two-step oraz one-step

Seminarium magisterskie - zajęcia 3 21

Jak to zrobić w STATA

   Oszacowanie modelu Heckmana jest proste, jeśli mamy te zmienne, co potrzeba:  generate wageseen = (wage < .)   heckman wage educ age, select(wageseen = married children educ age) heckman wage educ age, select(married children educ age) twostep Pytanie, czy to jest dobry model - czy zmienna za stan cywilny jest dobrym instrumentem… Można także robić to ręcznie (przy zastrzeżeniu nieefektywności)  probit active all_activity_variables     predict p1, xb generate phi = (1/sqrt(2*_pi))*exp(-(p1^2/2)) generate invmills = phi/normal(p1) reg ln_wage all_wage_variables invmills if WE==1

2011-04-07 Seminarium magisterskie - zajęcia 3 22

Przykład: wydatki na leczenie w Vietnamie

Table 3: Comparison of two-part and sample selection models (annual medical expenditure, Vietnam 1998)

Depenent variables: Participation - 1 if medical expenditure positive; Continuous - log of (positive) expenditure

body mass index (body mass index) 2 log(rental value of house) satisfactory sanitation house not of solid materials attended school, no diploma attended school & diploma head of hhold has diploma head of hhold school grade Sample size Test slope parameters all zero Two-part model Participation (probit) Continuous (OLS)

Coeff.

Rob. SE

-0.1382***

0.0332

Coeff.

Rob. SE

-0.0800***

0.0254

0.2820***

0.0820

0.3079***

0.0434

-0.2160***

0.0775

0.0900*

0.0528

0.0527

0.1110

0.0985

-0.0563

-0.0025

0.1320

0.0570

0.0078

0.1212* 0.5065***

0.0643

0.0264

-0.2362***

0.0434

0.1896***

0.0363

-0.2522***

0.0386

-0.1335***

0.0482

-0.1557***

0.0391

-0.0112**

0.0049

27368 Wald=515 p=0.0000

22645 F=134.2

p=0.0000

Participation (MLE)

Coeff.

-0.1117***

0.0297

0.2265*** 0.3393*** Sample selection model -0.2183*** 0.0831* 0.0173

0.0674

-0.0684

-0.0029

Rob. SE 0.0728

0.0350

0.0713

0.0459

0.1023

0.1221

0.0526

0.0070

Rho Wald=3448 p=0.0000

Continuous (MLE)

Coeff.

-0.0839

0.1761*** -0.0118** 0.8470

Wald (Rho=0) 324.6

Rob. SE

-0.1430***

0.0283

0.2488*** 0.6262***

0.0709

0.0378

-0.3283***

0.0605

0.2279***

0.0428

-0.2240***

0.0638

0.0774

0.0462

0.0059

0.0195

p=0.0000

Notes

: All models also include a 3rd degree polynomial in age, gender dummy, head of household dummy, quadratic in household size and regional dummies.

***, ** & * significant at 1%, 5% and 10% respectively.

MLE - maximum likelihood estimator; Rob. SE - robust to hetero. and clustering standard error; Rho - coefficient of correlation of errors; Wald (Rho=0) - Wald test of null of Rho=0.

2011-04-07 Seminarium magisterskie - zajęcia 3 23

Podsumowanie

Zmienna zależna może być bardzo pokręcona:   Ze złą jakością danych ekonometria nic nie pomoże Ze źle zebranymi danymi czasem może pomóc:  Modele szacowane MLE (probit/logit/tobit/trunc) pozwalają dostać sensowne oszacowania parametrów, ale zostają problem heteroscedastyczności i ewentualne skutki tzw. małej próby  Model korekty Heckmana pozwala rozwiązać problem obciążenia estymatorów, jeśli próba nielosowa (najczęściej!) ale:  Trzeba mieć dobry pomysł na instrument!

 Trzeba się nieźle nieraz namęczyć, żeby algorytm dawał zgodne oszacowania

Seminarium magisterskie - zajęcia 3 24