sum - Universidad de San Andrés
Download
Report
Transcript sum - Universidad de San Andrés
Profesores:
Walter Sosa Escudero
Mariana Marchionni
Asistentes:
María Edo
Camila Navajas
Organización
de la parte práctica del
curso
Introducción a Stata
• Interface
• Datos
• Comandos
• Gráficos
• Do-file
Página web del curso:
http://faculty.udesa.edu.ar/WalterSosa/Econometria/
Trabajos Prácticos:
• Reglas:
grupos de 3 personas (máximo)
Entrega: impresa (en casillero) y por correo electrónico, en PDF. Esperar acuse de
recibo.
Monografía. Entrega: con el final.
Metodología clases prácticas:
• Introducción a Stata
• Desarrollo de ejemplos econométricos
• Desarrollo de ejercicios teóricos y empíricos
• Espacio de consulta para la realización de los trabajos prácticos y la
monografía.
Stata
es un sistema que permite la gestión
de base de datos y la realización de
cálculos estadísticos y econométricos.
Fuentes de información:
• Hamilton, L., 2012, Statistics with Stata: Version 12,
Duxbury Press, New York.
• Baum., C., 2006, An Introduction to Modern
Econometrics with Stata, Stata Press.
Ambos libros están en reserva en la biblioteca.
• www.stata.com
La
interface de Stata comprende el entorno
de trabajo.
Las diferentes ventanas que conforman la
interface son:
• Ventana “Review”: historial de comandos.
• Ventana “Variables”: expone las variables que
comprenden el dataset actualmente en memoria.
• Ventana “Stata Results”: es la ventana más grande
color negro. Muestra los resultados obtenidos de la
aplicación de los comandos.
• Ventana “Stata comand”: en esta ventana el usuario
introduce comandosmediante el teclado.
Estructura: tabla, en donde cada columna representa a una variable y
cada fila a una observación.
Observació
n
Variable 1 Variable 2 …
Variable
K
1
Dato 1, 1
Dato 2, 1
…
Dato K, 1
2
Dato 1, 2
Dato 2, 2
…
Dato K, 2
…
…
…
…
…
N
Dato 1, N
Dato 2, N
…
Dato K, N
En cada celda se pueden guardar datos de diferentes tipos.
El tipo de dato es el mismo para las observaciones de una misma
variable
A partir de ahora, utilizaremos una base de datos extraída de la EPH,
correspondiente al tercer trimestre de 2011 para ejemplificar.
Establecer un directorio:
• cd "C:\Users\DE\Dropbox\econometría 2015\x - Tutorial
1”
• Archivo -> Change Working Directory…
Lectura de Datos en Stata: distintas opciones
Base de datos en formato Stata (.dta): podemos abrirlo
directamente en Stata.
use eph_2011_t3.dta.
•
•
Base de datos en excel: tenemos un archivo excel con
datos, llamado eph_2011_t3.xls. Cada columna
representa una variable; la primera fila contiene los
nombres de dichas variables.
Dos métodos:
Método 1 (Copy & Paste):
• Abrir el archivo “eph_2011_t3.xls” en Excel
• Abrir Stata.
• En Excel, pintar todo el rango de datos que se desea llevar a
•
•
•
•
•
•
Stata (incluyendo los nombres de las variables].
Clickear Edicion/Copiar.
Pasar a Stata, abrir el editor de Stata clickeando en el botón
Editor.
En esta ventana, clickear Edit/Paste,
Los nombres de las variables aparecerán en la ventana
Variables.
Nota: Este método puede tener problemas si no se dispone de
suficiente memoria RAM, por lo que es útil chequear si todos
los datos han sido importado correctamente.
Nota II: Stata requiere criterios particulares para los nombres
de las variables.
Método 2 (Insheet)
• Grabar el archivo conteniendo los datos en Excel como CSV (separa
las columnas en comas].
• Ir a Archivo, Guardar como, CSV (delimitado por comas], Guardar
• Ahora tenemos el archivo eph_2011_t3.csv
• El archivo está en la siguiente ruta:
c: \Users\DE\Dropbox\econometría 2015 \ x – Tutorial 1\
eph_2011_t3.csv
• Para leer los datos desde Stata, ingresar el siguiente comando:
insheet using "c:\Users\DE\Dropbox\Econometría 2015\x - Tutorial
1\eph_2011_t3.csv", comma
• Stata creará una nueva base de datos, y los nombres de las variables
aparecerán en la ventana “Variables”.
Una
vez que la base de datos ha sido
abierta en Stata, puede grabarse en formato
Stata:
• Archivo -> Guardar Como -> eph_2011_t3.dta
Una
vez grabada con la extensión .dta
puede abrirse directamente desde Stata:
• Archivo -> Abrir
• use eph_2011_t3.dta, clear [clear limpia la base de
A
datos, se usa si o si antes de abrir una nueva]
partir de ahora, abrir directamente desde
Stata el archivo eph_2011_t3.dta original
(contiene las etiquetas de las variables)
Stata trabaja mediante la especificación por parte
del usuario de órdenes que se denominan comandos
Existe una determinada sintaxis que debe ser
respetada. Tiene la siguiente estructura general:
[by varlist:] comando [varlist] [=exp] [if exp] [in range]
[weight] [, opciones]
Los corchetes indican elementos opcionales.
Todos los elementos que acompañan a un comando
son opciones, de hecho existen comandos que
comprenden sólo una palabra.
Para conocer las opciones de los comandos:
help comando
• display _N [cantidad de observaciones en la
base de datos]
• describe [describe el dataset]
• describe ch04 [describe una variable en
particular]
• list [muestra todas las variables y
observaciones – para interrumpir clickear “break”]
• list CODUSU ch04 [muestra observaciones
para las variables seleccionadas]
• sort CODUSU [ordena las observaciones en
forma ascendente de acuerdo a los valores de
CODUSU]
• summarize [muestra resumen de todas las variables]
• summarize CODUSU ch04 [muestra resumen
variables seleccionadas]
• summarize CODUSU, detail [muestra resumen
más detallado de variables seleccionadas]
• summ
• tabulate ch04 [tabula la variable seleccionada]
• tab ch04 ch07 [tabula las variables seleccionadas]
• tab ch04 ch07, row [tabula las variables
seleccionadas incluyendo porcentajes además de
frecuencias]
Posibles estadísticos:
tabstat ch04 [muestra
la media de la variable
seleccionada]
tabstat ch04,
statistics (mean sum
count max) [genera una
tabla que muestra los
estadisticos descriptivos
indicados entre paréntesis]
statname Definición
mean
promedio
count
Cuenta las observaciones que no son
nulas
n
Igual que count
sum
Suma
max
Máximo
min
Mínimo
range
Rango = max – min
sd
Desvío Estándar
variance Varianza
cv
Coeficiente de variación (sd/mean)
semean Desvió estándar del promedio
(sd/sqrt(n))
p1
Primer percentil
median
Mediana (p50)
p99
Percentil 99°
iqr
Rango intercuartil= p75 - p25
generate ingreso=tot_p12/7 [genero una variable
nueva que contiene el ingreso medido en dólares]
• gen obs=_n [genera una nueva variable llamada “obs” que
enumera las observaciones según su orden]
• gen obs_total=_N [crea una variable cuyo valor siempre es el
mismo y ese valor es la cantidad de observaciones]
• gen nulo=.
• gen x=uniform()[genera una variable con números aleatorios
entre 0 y 1]
• gen edad2=ch06^2 [genera una variable que es el cuadrado
de la edad]
egen horas = rowtotal(pp3e_tot pp3f_tot)
[genera una variable que es la suma horizontal de las variables
seleccionadas]
Preserve and restore ≈ ctrl+Z!
En Stata no existe un comando “Deshacer”
• preserve [guarda provisionalmente la base de datos]
• restore [vuelve a la versión guardada provisionalmente]
Modificar la base de datos como en Excel
• edit
label var ingreso “Ingreso total en Dólares”
[etiqueta la variable “Ingreso”]
rename ingreso ingreso_dolares
[cambia el nombre de la variable ingreso]
replace ch04=0 if ch04==2 [ahora cuando la variable es igual a 0
significa que el individuo es mujer]
drop horas
[elimina la variable horas]
keep if ch06<60 [borra las observaciones de aquellos que
tienen menos de 60 años]
La
expresión “if”
• sum horas if ch04==1 [ejecuta el comando
summarize en la submuestra seleccionada: los
hombres]
• tab horas if (ch04==1 & ch06>30) [tabula la
variable horas en la submuestra seleccionada:
hombres mayores de 30 años]
• tab horas if (ch04==1 & ch06>30)|
(ch04==2 & ch06<30) [tabula la variable horas en
la submuestra seleccionada: hombres mayores de 30
años o mujeres menores de 30 años]
Aritméticos
Lógicos
Relacionados
+ adición
- resta
* multiplicación
&y
|o
! no
> mayor a
< menor a
>= mayor o igual a
/ división
<= menor o igual a
^ potencia
== igual a
!= distinto a
• Ej: sum horas if (ch04==1 & ch06>30)|(ch04==2 & ch06<30)
[resume estadísticas de la variable horas en la submuestra
seleccionada: hombres mayores de 30 años o mujeres menores
de 30 años]
Operador jerárquico: el paréntesis determina el orden de
aplicación de las sentencias condicionales
La expresión “in”: el comando solo se utiliza para
las observaciones especificadas.
• sum horas in 1/10 [muestra observaciones entre
la 1era y la 10ma]
• sum horas in -10/-1 [muestra observaciones entre
10ma empezando de abajo y la primera empezando
de abajo]
[, options]:
• sum horas, detail
[produce estadísticas adicionales, la
asimetría, los cuatro valores menores y
mayores y varios percentiles]
• sum horas, meanonly [suprime la presentación de
los resultados y el cálculo de la varianza]
Stata
provee una serie de herramientas
gráficas muy útiles a través del comando
graph.
En econometría, lo más usado son
diagramas de dispersión o líneas.
Disponibles a través del comando twoway
(scatter or line)
Ejemplo: twoway scatter ingreso horas if
horas<500 & ingreso>0
Para
más información: help graph |
help twoway
Hasta ahora, introdujimos los comandos en la ventana “Stata
commands”.
Es recomendable, en cambio, armar do files. Son archivos de
texto que se guardan con extension “do”, y que contienen
una lista de comandos de Stata.
Algunas ventajas:
• Permite ejecutar una sucesión de comandos de Stata de una sola vez
• Permite construir programas y rutinas elementales, que pueden ser
reutilizadas en diversas situaciones o con otras bases de datos.
• Proveen una forma eficiente de progresar en el análisis de datos, ya
que es fácil corregir errores o reproducir resultados obtenidos con
anterioridad.
Armando un Do-file
• Copiar en c:\micarpeta el archivo eph_2011_t3.dta. Esta
será nuestra carpeta de trabajo.
• En Stata, clickear el botón “New Do-file Editor” del menú
o escribir “doedit” en la ventana de comandos
• En el archivo escribimos:
cd c:\micarpeta [Stata buscará archivos
en esa carpeta]
use eph_2011_t3.dta, clear [Stata
abrirá la base de datos]
Describe
Summarize ch04
Exit
• Guardar el do-file en “c: \micarpeta” con el nombre
eph. Se guardará como “eph.do”.
• El do-file puede:
Ejecutarse parcialmente: abrir el do-file, pintar los
comandos a ejecutarse, clickear botón “Execute (Do)”
Ejecutarse totalmente: introducir el comando do eph en la
ventana de comando
Nota: pueden incorporarse comentarios dentro del
archivo DO de la siguiente manera:
/* Este es un comentario */
También es un comentario una línea iniciada con
asterisco *
Antes de empezar: existe un comando que genera un
archivo llamado log.
Son útiles para llevar un registro de todo lo que
aparece en la ventana "resultados“.
Los log-file graban tanto el historial de los comandos
como los resultados.
• log using "c:\Users\DE\Dropbox\Econometría
2014\x - Tutorial 1\ eph_2011_t3.smcl" [options]
replace
append
• log close
Se puede abrir el log file con el Bloc de notas o
mediante la opción “File -> Log -> View".