2. Muestreo y mediciones

Download Report

Transcript 2. Muestreo y mediciones

2. Muestreo y Mediciones
• Variable – una característica que puede variar
su valor entre los sujetos de una muestra o
una población
• Tipos de variables
– Categóricas (también llamadas cualitativas)
– Cuantitativas
(Hay diferentes métodos estadísticos para cada
tipo)
Variable categórica – la escala de
medición es un conjunto de categorías
• Ejemplos:
– Raza – grupo étnico (caucásico, afro-americano,
hispano)
– Afiliación religiosa
– Carrera profesional
– Identificación política (Dem., Rep., Indep.)
– Vegetariano? (si, no)
– Evaluación de salud mental (buena, formación de
síntomas leves, formación de síntomas moderados,
deteriorada)
Variable cuantitativa – posibles
valores difieren en magnitud
• Ejemplos:
– Edad, altura, peso, IMC (índice de masa corporal)
– Ingreso annual
– Promedio escolar
– Tiempo utilizado en Internet el día de ayer
– Tiempo de reacción a un estímulo
(p. ej., experimento de uso de celular mientras se
maneja)
– Número de “eventos personales” en el año pasado
Escalas de medición
Para variables categóricas, dos tipos:
• Escala nominal – categorías no ordenadas
– Preferencia para presidente, raza, género, afiliación
religiosa, carrera profesional, temas de opinión (a favor
o en contra, sí vs. no)
• Escala ordinal – categorías ordenadas
– Ideología política (muy liberal, liberal, moderada,
conservadora, muy conservadora)
– Ansiedad, estrés, auto-estima (alta, media, baja)
– Discapacidad mental (ninguna, leve, moderada, severa)
– Gasto gubernamental en salud (superior, igual, inferior)
• Para variables cuantitativas, conjunto de valores posibles,
escala de intervalo (p. ej., intervalo numérido entre cada
par de valores posibles)
• Nota: En la práctica, variables categóricas ordinales con
frecuencia son tratadas como de intervalo asignándoles
valores a las categorías
(p. ej., el promedio escolar está compuesto de
calificaciones A, B, C, D, E una escala ordinal, pero se
calcula utilizando los valores 4, 3, 2, 1, 0)
• El orden del tipo de variables del nivel más alto al más bajo
de diferenciación entre niveles:
intervalo  ordinal  nominal
Otra clasificación: Discreta/Continua
• Variable discreta – los posibles valores son un
conjunto de números separados, tales como 0,
1, 2, …
– Ejemplo: Número de …
Mensajes de e-mail enviados el día anterior
• Variables continuas – número infinito de
posibles valores
– Ejemplo: Número de horas utilizando Internet en
el día anterior
(En la práctica, la distinción no es clara)
Qué tipo de variable es …?
1. Núm. de películas vistas en el verano (0, 1, 2, 3,
4, …)
2. Tipo de música favorita (rock, jazz, folcrórica,
clásica, otra)
•
Cuantitativa o categórica?
•
Nominal, ordinal, o escala de intervalo?
•
Continua o discreta?
Datos recolectados en un estudio
• Encuesta: Muestrar personas de una población y
entrevistarlas
– Ejemplo: General Social Survey. Resultados desde
1972 en sda.berkeley.edu/GSS
(p. ej., teclear “heaven” y “sex” como nombres de
variables)
• Experimento: Comparar respuestas de sujetos en
condiciones diferentes, donde los sujetos son
asignados a las condiciones
– Ejemplo: Estudio de salud – La aspirina reduce la
posibilidad de ataque al corazón?
Aleatorización
• Aleatorización – el mecanismo para obtener datos
confiables reduciendo posibles sesgos
• Notación: n = tamaño de muestra
• Muestreo aleatorio simple: En una encuesta, cada
muestra de tamaño n posible tiene la misma
oportunidad de ser seleccionada
• Este es un ejemplo de un método de muestreo
probabilístico – Podemos especificar la probabilidad de
que una determinada muestra sea seleccionada
Cómo se implementa el muestreo
aleatorio?
• Se utilizan “tablas de números aleatorios” o
software estadístico que genere números
aleatorios
• Marco muestral (lista de todos los sujetos en
la población) debe existir para implemental el
muestreo aleatorio simple
• Otros métodos de muestreo probabilístico son:
sistemático, estratificado, de conglomerados
(libro de texto, pp. 21-24)
• En muestreo no-probabilístico, no se pueden
especificar la probabilidad de las muestras
posibles. Inferencias basadas en estas muestras
pueden ser muy poco confiables
• Ejemplo: muestras de voluntarios, tales como
encuestas en internet, por lo general están muy
sesgadas
Ejemplos: Muestras de voluntarios
• Lou Dobbs (CNN) preguntó en (Agosto 26) Uberliberal Bill
Maher says the American people are too stupid to decide
whether Obama's unwritten health-care legislation is
right for them, and that the president should just ram it
through Congress. Do you believe that the president
knows best on health care?”
Yes, I agree we need his reforms 5%
No thanks, I'll decide for myself 95%
• Ejemplo en libro de texto (p. 20) sobre las respuestas del
cuestionario en el libro Women in Love
(p. ej., se concluye que 70% de las mujeres casadas al
menos 5 años tienen relaciones extramaritales)
Experimentos vs. estudios
observacionales
• Encuestas son estudios observacionales (sólo se
observan sujetos sin manipulación experimental)
• Experimentos: Investigador asigna sujetos a
condiciones experimentales
– Sujetos deben ser asignados a condiciones
aleatoriamente (“tratamientos”)
– Aleatorización “equilibra” los grupos de tratamientos
con respecto a otras variables que pueden afectar la
respuesta (p. ej., características demográficas), se
hace más fácil evaluar causa y efecto
Error muestral
• El error muestral de una estadística es el error que
ocurre cuando se usa una estadística muestral para
predecir el valor de un parámetro poblacional
• Aleatorización protege contra sesgos, el error muestral
tiende a fluctuar alrededor de 0 con un tamaño
predecible
– Existen métodos para predecir la magnitud (margen de
error) p. ej., cuando se estima un porcentaje, se tiene no
más de +3% ó -3% cuando n es aprox. 1000 (p. ej.,
encuesta de Gallup)
• La dirección y el tamaño del sesgo se desconocen
cuando no se puede emplear aleatorización
Otros factores
• Otros factores además del error muestral pueden
causar que los resultados varíen de una muestra
a otra:
– Sesgo muestral (p. ej., muestreo no-probabilístico)
– Sesgo de respuesta (p. ej., preguntas mal redactadas,
similares a aquéllas en encuestas de Lou Dobbs en
loudobbsradio.com/surveyarchive)
– Sesgo de no respuesta (sub-cobertura, información
faltante)
• Leer ejemplos pp. 19-21 del libro de texto
Nota: Resultados de encuestas pueden depender
mucho en la redacción de las preguntas
Ejemplo: Encuesta del New York Times en 2006:
• “Favor gasoline tax?” 12% yes
• “Favor gasoline tax …
– to reduce U.S. dependence on foreign oil?” 55% yes
– to reduce global warming?” 59% yes