variable - Universidad de San Andrés

Transcript variable - Universidad de San Andrés

Profesores:
Mariana Marchionni
Walter Sosa Escudero
Asistentes:
María Edo
Amely Gibbons
 Introducción
Stata.
básica a econometría usando
 Datos: J. Biddle
and D. Hamermesh (1990),
“Sleep and the allocation of time”, The
Journal of Political Economy, Vol. 98, No.5,
Part 1, pp. 922-943.
 Objetivo
del trabajo: modelar cómo afecta
el mercado laboral las horas de sueño
PASO I: abrimos la base y exploramos las
variables
 cd
"C:\Users\DE\Dropbox\Econometrí
a 2014\x - Tutorial 2”
 use sleep.dta, clear
 describe totwrk slpnaps male
black yrsmarr
Paso II: estadísticos descriptivos básicos de las
variables
 sum slpnaps totwrk male black
yrsmarr
 tab male black, row nofreq
Supongan que quieren ver qué diferencia de
minutos dormidos hay entre los que trabajan
menos de 20 horas y el resto. ¿Cómo harían?
a) Generar una variable que distinga a la
muestra entre los que trabajan menos de 20
horas y el resto:
gen part_time=(totwrk<=1200)
b) Miramos cómo se distribuye la muestra de
acuerdo a esta clasificación:
tab part_time
c) Miramos la diferencia de minutos dormidos
entre un grupo y el otro:
table part_time, c(mean slpnaps)



Paso III: mirar correlación, covarianza y regresiones
corr slpnaps totwrk [correlación entre las
variables]
corr slpnaps totwrk, c [covarianza entre las
variables]
regress slpnaps totwrk yrsmarr age educ male black
Source
SS (Sum of
Squares)
Df (Degrees of
freedom)
MS (Mean Squares)
Model
SEC
k-1
SEC/k-1
Residual
SRC
N-k
SRC/N-k
Total
STC=SEC+SRC
N-1
STC/N-1
 k: cantidad
de variables
 n: cantidad de observaciones
 SEC: Suma Explicada de Cuadrados
 SRC: Suma de Residuos Cuadrados
 STC: Suma Total de Cuadrados



Interpretación Coeficiente: un aumento en un minuto
trabajado, disminuye en 0.197 los minutos que se duermen.
¿En cuánto disminuyen los minutos de sueño si aumenta en
una hora la cantidad de tiempo trabajado?
Test t: Ho: el coeficiente es igual a 0. Ha: el coeficiente es
distinto de 0. ¿Qué concluimos si el valor obtenido de t es 9.85?



predict yest (gen yest=cons+ 𝛽*x) [se obtiene la predicción
lineal del modelo estimado (sólo después de ejecutar el comando
regress).
predict resid, residual (gen resid=y-cons-𝛽*x) [genera
una variable con los errores estimados (sólo después de ejecutar
el comando regress)].
test totwrk[testea si los coeficientes son iguales a 0-> Ho:
coeficiente=0]
Rechazo Ho con una significatividad del 1%

test black=male [testea si los coeficientes son iguales]
Rechazo Ho con una significatividad del
10%

Después de correr una regresión, Stata guarda información de la misma. Los
siguientes son algunos de los comandos que guarda:
•

e(N)
Number of observations
e(mss)
Sum of squares
e(r2)
R-squared
e(r2_a)
Adjusted R-squared
e(F)
F statistic
Se pueden ver con el comando display
También guarda los coeficientes:
• _b[_cons]: es el coeficiente de la constante.
• _b[variable]: es el coeficiente de la variable.
¿Cómo podemos obtener una variable idéntica a yest?
NOTA: Recuerden que todos estos comandos se refieren a la regresión
ejecutada más recientemente.

regress slpnaps totwrk yrsmarr age educ male black

findit outreg2
• outreg2 from
http://fmwww.bc.edu/RePEc/bocode/o
• click here to install

outreg2 using nombre_archivo,
excel

outreg2 using nombre_archivo,
word


El estimador de MC que obtenemos 𝛽𝑜𝑏𝑠 es una
realización de una variable aleatoria 𝛽
Queremos inferir, a partir de este 𝛽𝑜𝑏𝑠 , información
acerca del valor del verdadero parámetro 𝛽.
• Por ejemplo, ¿ 𝛽 = 0? Es decir, ¿ 𝑋 es relevante para explicar Y?


Para responder a preguntas como estas necesitamos
recurrir a los test de hipótesis.
El test de hipótesis requiere conocer alguna
información sobre 𝛽
• i. 𝐸 𝛽
• ii. 𝑉 𝛽
• iii. Distribución de 𝛽

Esta información ya la tenemos:
• 𝐸 𝛽 = 𝛽 (Obtenida utilizando los supuestos 1 y 4).
• 𝑉 𝛽 = 𝜎 2 / 𝑥𝑖2 (Obtenida utilizando los supuestos 1, 2 y
4)
• 𝛽~𝑁(𝛽,
𝜎2
)
𝑥𝑖2
(Obtenida agregando el supuesto 5)
𝑁𝑜𝑡𝑎: 𝑥𝑖 = 𝑋𝑖 − 𝑋

Calculamos:
𝐻𝑜 : 𝛽 = 0 𝑣𝑠 𝐻𝐴 : 𝛽 ≠ 0
• El t observado (i.e. el valor de
𝛽−𝛽
𝑆2
𝑥2
𝑖
dados los datos y la
hipótesis nula)
• El t crítico (dado el nivel de significatividad del test y las
hipótesis planteadas -> tabla)
z crítico
t crítico

Comparamos t crítico y t observado:
• rechazamos la hipótesis nula en caso de que el valor absoluto
del t observado fuera mayor al t crítico.

En este caso, como la cantidad de observaciones es
grande, el t crítico es igual al z crítico = 1.96 < |-9.85|

Rechazo H0, rechazo la hipótesis de que el coeficiente
es igual a 0 al nivel de significatividad del 5%.

Podemos continuar testeando para distintos niveles de
significatividad.
¿Cuál es la probabilidad de haber obtenido este resultado
(𝜷 =-0.197406 ) si la hipótesis nula es cierta (es decir, si en
realidad 𝜷 = 𝟎)?
Esta probabilidad es el p-valor.


¿Es una “casualidad” haber obtenido el valor resultante?
¿Cómo se calcula el p-valor? Es el área debajo de la curva de la
distribución de 𝛽 a partir del valor t observado.
𝐻𝑜 : 𝛽 = 0 𝑣𝑠 𝐻𝐴 : 𝛽 ≠ 0
Ejemplo: 𝑡𝑜𝑏𝑠 = 2

P-valor: 𝑃𝑟𝐻0 |𝑡| > |𝑡𝑜𝑏𝑠 |
Nivel de significatividad
Una vez obtenido el p-valor, necesitamos fijar un criterio para
tomar decisiones acerca de si rechazar o no la hipótesis nula.
Nivel de
significatividad
Rechazamos Ho si
10%
5%
1%
p-valor<0.1
p-valor<0.05
p-valor<0.01