sum - Universidad de San Andrés

Download Report

Transcript sum - Universidad de San Andrés

Profesores:
Walter Sosa Escudero
Mariana Marchionni
Asistentes:
María Edo
Camila Navajas
 Organización
de la parte práctica del
curso
 Introducción a Stata
• Interface
• Datos
• Comandos
• Gráficos
• Do-file


Página web del curso:
http://faculty.udesa.edu.ar/WalterSosa/Econometria/
Trabajos Prácticos:
• Reglas:
 grupos de 3 personas (máximo)
 Entrega: impresa (en casillero) y por correo electrónico, en PDF. Esperar acuse de
recibo.

Monografía. Entrega: con el final.

Metodología clases prácticas:
• Introducción a Stata
• Desarrollo de ejemplos econométricos
• Desarrollo de ejercicios teóricos y empíricos
• Espacio de consulta para la realización de los trabajos prácticos y la
monografía.
 Stata
es un sistema que permite la gestión
de base de datos y la realización de
cálculos estadísticos y econométricos.
 Fuentes de información:
• Hamilton, L., 2012, Statistics with Stata: Version 12,
Duxbury Press, New York.
• Baum., C., 2006, An Introduction to Modern
Econometrics with Stata, Stata Press.
 Ambos libros están en reserva en la biblioteca.
• www.stata.com
 La
interface de Stata comprende el entorno
de trabajo.
 Las diferentes ventanas que conforman la
interface son:
• Ventana “Review”: historial de comandos.
• Ventana “Variables”: expone las variables que
comprenden el dataset actualmente en memoria.
• Ventana “Stata Results”: es la ventana más grande
color negro. Muestra los resultados obtenidos de la
aplicación de los comandos.
• Ventana “Stata comand”: en esta ventana el usuario
introduce comandosmediante el teclado.

Estructura: tabla, en donde cada columna representa a una variable y
cada fila a una observación.
Observació
n



Variable 1 Variable 2 …
Variable
K
1
Dato 1, 1
Dato 2, 1
…
Dato K, 1
2
Dato 1, 2
Dato 2, 2
…
Dato K, 2
…
…
…
…
…
N
Dato 1, N
Dato 2, N
…
Dato K, N
En cada celda se pueden guardar datos de diferentes tipos.
El tipo de dato es el mismo para las observaciones de una misma
variable
A partir de ahora, utilizaremos una base de datos extraída de la EPH,
correspondiente al tercer trimestre de 2011 para ejemplificar.

Establecer un directorio:
• cd "C:\Users\DE\Dropbox\econometría 2015\x - Tutorial
1”
• Archivo -> Change Working Directory…

Lectura de Datos en Stata: distintas opciones
Base de datos en formato Stata (.dta): podemos abrirlo
directamente en Stata.
use eph_2011_t3.dta.
•
•
Base de datos en excel: tenemos un archivo excel con
datos, llamado eph_2011_t3.xls. Cada columna
representa una variable; la primera fila contiene los
nombres de dichas variables.
Dos métodos:

Método 1 (Copy & Paste):
• Abrir el archivo “eph_2011_t3.xls” en Excel
• Abrir Stata.
• En Excel, pintar todo el rango de datos que se desea llevar a
•
•
•
•
•
•
Stata (incluyendo los nombres de las variables].
Clickear Edicion/Copiar.
Pasar a Stata, abrir el editor de Stata clickeando en el botón
Editor.
En esta ventana, clickear Edit/Paste,
Los nombres de las variables aparecerán en la ventana
Variables.
Nota: Este método puede tener problemas si no se dispone de
suficiente memoria RAM, por lo que es útil chequear si todos
los datos han sido importado correctamente.
Nota II: Stata requiere criterios particulares para los nombres
de las variables.

Método 2 (Insheet)
• Grabar el archivo conteniendo los datos en Excel como CSV (separa
las columnas en comas].
• Ir a Archivo, Guardar como, CSV (delimitado por comas], Guardar
• Ahora tenemos el archivo eph_2011_t3.csv
• El archivo está en la siguiente ruta:
c: \Users\DE\Dropbox\econometría 2015 \ x – Tutorial 1\
eph_2011_t3.csv
• Para leer los datos desde Stata, ingresar el siguiente comando:
insheet using "c:\Users\DE\Dropbox\Econometría 2015\x - Tutorial
1\eph_2011_t3.csv", comma
• Stata creará una nueva base de datos, y los nombres de las variables
aparecerán en la ventana “Variables”.
 Una
vez que la base de datos ha sido
abierta en Stata, puede grabarse en formato
Stata:
• Archivo -> Guardar Como -> eph_2011_t3.dta
 Una
vez grabada con la extensión .dta
puede abrirse directamente desde Stata:
• Archivo -> Abrir
• use eph_2011_t3.dta, clear [clear limpia la base de
A
datos, se usa si o si antes de abrir una nueva]
partir de ahora, abrir directamente desde
Stata el archivo eph_2011_t3.dta original
(contiene las etiquetas de las variables)
Stata trabaja mediante la especificación por parte
del usuario de órdenes que se denominan comandos
 Existe una determinada sintaxis que debe ser
respetada. Tiene la siguiente estructura general:

[by varlist:] comando [varlist] [=exp] [if exp] [in range]
[weight] [, opciones]
Los corchetes indican elementos opcionales.
Todos los elementos que acompañan a un comando
son opciones, de hecho existen comandos que
comprenden sólo una palabra.
 Para conocer las opciones de los comandos:
help comando


• display _N [cantidad de observaciones en la
base de datos]
• describe [describe el dataset]
• describe ch04 [describe una variable en
particular]
• list [muestra todas las variables y
observaciones – para interrumpir clickear “break”]
• list CODUSU ch04 [muestra observaciones
para las variables seleccionadas]
• sort CODUSU [ordena las observaciones en
forma ascendente de acuerdo a los valores de
CODUSU]
• summarize [muestra resumen de todas las variables]
• summarize CODUSU ch04 [muestra resumen
variables seleccionadas]
• summarize CODUSU, detail [muestra resumen
más detallado de variables seleccionadas]
• summ
• tabulate ch04 [tabula la variable seleccionada]
• tab ch04 ch07 [tabula las variables seleccionadas]
• tab ch04 ch07, row [tabula las variables
seleccionadas incluyendo porcentajes además de
frecuencias]
Posibles estadísticos:


tabstat ch04 [muestra
la media de la variable
seleccionada]
tabstat ch04,
statistics (mean sum
count max) [genera una
tabla que muestra los
estadisticos descriptivos
indicados entre paréntesis]
statname Definición
mean
promedio
count
Cuenta las observaciones que no son
nulas
n
Igual que count
sum
Suma
max
Máximo
min
Mínimo
range
Rango = max – min
sd
Desvío Estándar
variance Varianza
cv
Coeficiente de variación (sd/mean)
semean Desvió estándar del promedio
(sd/sqrt(n))
p1
Primer percentil
median
Mediana (p50)
p99
Percentil 99°
iqr
Rango intercuartil= p75 - p25

generate ingreso=tot_p12/7 [genero una variable
nueva que contiene el ingreso medido en dólares]
• gen obs=_n [genera una nueva variable llamada “obs” que
enumera las observaciones según su orden]
• gen obs_total=_N [crea una variable cuyo valor siempre es el
mismo y ese valor es la cantidad de observaciones]
• gen nulo=.
• gen x=uniform()[genera una variable con números aleatorios
entre 0 y 1]
• gen edad2=ch06^2 [genera una variable que es el cuadrado
de la edad]

egen horas = rowtotal(pp3e_tot pp3f_tot)
[genera una variable que es la suma horizontal de las variables
seleccionadas]
Preserve and restore ≈ ctrl+Z!
En Stata no existe un comando “Deshacer”
• preserve [guarda provisionalmente la base de datos]
• restore [vuelve a la versión guardada provisionalmente]
 Modificar la base de datos como en Excel
• edit
 label var ingreso “Ingreso total en Dólares”
[etiqueta la variable “Ingreso”]
 rename ingreso ingreso_dolares
[cambia el nombre de la variable ingreso]
 replace ch04=0 if ch04==2 [ahora cuando la variable es igual a 0
significa que el individuo es mujer]
 drop horas
[elimina la variable horas]
 keep if ch06<60 [borra las observaciones de aquellos que
tienen menos de 60 años]

 La
expresión “if”
• sum horas if ch04==1 [ejecuta el comando
summarize en la submuestra seleccionada: los
hombres]
• tab horas if (ch04==1 & ch06>30) [tabula la
variable horas en la submuestra seleccionada:
hombres mayores de 30 años]
• tab horas if (ch04==1 & ch06>30)|
(ch04==2 & ch06<30) [tabula la variable horas en
la submuestra seleccionada: hombres mayores de 30
años o mujeres menores de 30 años]
Aritméticos
Lógicos
Relacionados
+ adición
- resta
* multiplicación
&y
|o
! no
> mayor a
< menor a
>= mayor o igual a
/ división
<= menor o igual a
^ potencia
== igual a
!= distinto a
• Ej: sum horas if (ch04==1 & ch06>30)|(ch04==2 & ch06<30)

[resume estadísticas de la variable horas en la submuestra
seleccionada: hombres mayores de 30 años o mujeres menores
de 30 años]
Operador jerárquico: el paréntesis determina el orden de
aplicación de las sentencias condicionales

La expresión “in”: el comando solo se utiliza para
las observaciones especificadas.
• sum horas in 1/10 [muestra observaciones entre
la 1era y la 10ma]
• sum horas in -10/-1 [muestra observaciones entre
10ma empezando de abajo y la primera empezando
de abajo]

[, options]:
• sum horas, detail
[produce estadísticas adicionales, la
asimetría, los cuatro valores menores y
mayores y varios percentiles]
• sum horas, meanonly [suprime la presentación de
los resultados y el cálculo de la varianza]
 Stata
provee una serie de herramientas
gráficas muy útiles a través del comando
graph.
 En econometría, lo más usado son
diagramas de dispersión o líneas.
Disponibles a través del comando twoway
(scatter or line)
 Ejemplo: twoway scatter ingreso horas if
horas<500 & ingreso>0
 Para
más información: help graph |
help twoway



Hasta ahora, introdujimos los comandos en la ventana “Stata
commands”.
Es recomendable, en cambio, armar do files. Son archivos de
texto que se guardan con extension “do”, y que contienen
una lista de comandos de Stata.
Algunas ventajas:
• Permite ejecutar una sucesión de comandos de Stata de una sola vez
• Permite construir programas y rutinas elementales, que pueden ser
reutilizadas en diversas situaciones o con otras bases de datos.
• Proveen una forma eficiente de progresar en el análisis de datos, ya
que es fácil corregir errores o reproducir resultados obtenidos con
anterioridad.

Armando un Do-file
• Copiar en c:\micarpeta el archivo eph_2011_t3.dta. Esta
será nuestra carpeta de trabajo.
• En Stata, clickear el botón “New Do-file Editor” del menú
o escribir “doedit” en la ventana de comandos
• En el archivo escribimos:
 cd c:\micarpeta [Stata buscará archivos
en esa carpeta]
 use eph_2011_t3.dta, clear [Stata
abrirá la base de datos]
 Describe
 Summarize ch04
 Exit
• Guardar el do-file en “c: \micarpeta” con el nombre
eph. Se guardará como “eph.do”.
• El do-file puede:
 Ejecutarse parcialmente: abrir el do-file, pintar los
comandos a ejecutarse, clickear botón “Execute (Do)”
 Ejecutarse totalmente: introducir el comando do eph en la
ventana de comando
Nota: pueden incorporarse comentarios dentro del
archivo DO de la siguiente manera:
/* Este es un comentario */
También es un comentario una línea iniciada con
asterisco *



Antes de empezar: existe un comando que genera un
archivo llamado log.
Son útiles para llevar un registro de todo lo que
aparece en la ventana "resultados“.
Los log-file graban tanto el historial de los comandos
como los resultados.
• log using "c:\Users\DE\Dropbox\Econometría
2014\x - Tutorial 1\ eph_2011_t3.smcl" [options]
 replace
 append
• log close

Se puede abrir el log file con el Bloc de notas o
mediante la opción “File -> Log -> View".