Imputación - Departamento de Probabilidad y Estadística

Download Report

Transcript Imputación - Departamento de Probabilidad y Estadística

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO
INSTITUTO DE INVESTIGACIONES
EN MATEMÁTICAS APLICADAS
Y EN SISTEMAS
Especialización en Estadística Aplicada
Técnicas de Muestreo I
Imputación
Técnicas
de Muestreo I
INTRODUCCIÓN
IMPUTACIÓN
IMPUTACIÓN. Asignar o reemplazar valores
INTRODUCCIÓN
 MÉTODOS
 COMPARACIÓN
 CONSIDERACIONES
 CONCLUSIONES
La presencia de valores perdidos (missing values) o datos faltantes,
es un problema común de cualquier base de datos, los cuales de
acuerdo a la cantidad podrán o no ser ignorados.
La eliminación de valores limita la representatividad o validez
externa de los resultados del estudio.
Las razones para la ausencia de datos pueden ser diversas: fallos
en los instrumentos de medida, los sujetos no asisten a la entrevista
(en diseños longitudinales pueden abandonar el estudio), no
contestan a una serie de preguntas.
Desde hace ya varias décadas, se ha buscado la forma de llenar
estos espacios vacíos, con el fin de obtener un conjunto de datos
completos para analizarlos métodos estadísticos tradicionales.
Técnicas
de Muestreo I
INTRODUCCIÓN
IMPUTACIÓN
INTRODUCCIÓN
 MÉTODOS
 COMPARACIÓN
 CONSIDERACIONES
En la práctica se habla de pérdidas máximas entre 1 y 20% de la
información dependiendo de la exactitud del estudio y del área de
investigación entre otros factores.
 CONCLUSIONES
Por ejemplo, en medicina, la precisión es un factor muy importante
en la obtención de resultados y estudios profundos, no pueden
permitir la imputación de muchos valores que nunca serán reales,
sólo para poderlos hacer análisis estadístico, mientras que en las
ciencias sociales permite porcentajes de valores imputados más
altos.
Técnicas
de Muestreo I
Tipos de datos pérdidos
IMPUTACIÓN
INTRODUCCIÓN
MCAR. Missing completely at random
 MÉTODOS
 COMPARACIÓN
 CONSIDERACIONES
 CONCLUSIONES
Datos faltantes completamente al azar, el mecanismo MCAR es
equivalente a borrar aleatoriamente una submuestra de una
población hipotética en la cual cada observación tiene igual
probabilidad de ser eliminada.
MAR. Missing at random
Datos faltantes al azar, los patrones de los datos ausentes se
pueden predecir a partir de la información contenida en otras
variables y no de la variable que está incompleta.
MNAR. Missing not at random
El patrón de los datos ausentes no es aleatorio y no se puede
predecir a partir de la información contenida en otras variables, el
proceso de ausencia de los datos sólo se explica por los datos que
están ausentes.
Técnicas
de Muestreo I
IMPUTACIÓN
MÉTODOS DE IMPUTACIÓN
 INTRODUCCIÓN
 MÉTODOS
 COMPARACIÓN
 CONSIDERACIONES
 CONCLUSIONES
Análisis completos de casos
Listwise deletion
•
Descarta cualquier caso con valores perdidos
•
Se puede perder mucha información (50%)
•
Es común perder información de sólo un tipo de variable
•
El análisis se realiza con submuestras
•
En MCAR el análisis es insesgado (raro)
•
Se pierde poder en la prueba de hipótesis
Técnicas
de Muestreo I
Pairwise deletion
IMPUTACIÓN
 INTRODUCCIÓN
 MÉTODOS
 COMPARACIÓN
 CONSIDERACIONES
 CONCLUSIONES
•
Utiliza todos los datos disponibles
•
Se enfoca en la matriz de varianzas y covarianzas
•
Se obtienen correlaciones distintas con cada submuestra
•
Tiene sesgos incluso con MCAR
•
No se puede especificar el tamaño de muestra y no se puede calcular el error
estándar
•
La matriz puede no quedar definida positiva
•
Se prefiere a listwise deletion o substitución por la media
Técnicas
de Muestreo I
Sustitución con la media
IMPUTACIÓN
 INTRODUCCIÓN
 MÉTODOS
•
La media no siempre es un buen estimador
•
Atenúa la varianza, afecta la covarianzas y correlaciones
•
Reduce el efecto en variables con muchos datos perdidos
•
Aumenta efecto en variables con pocos datos perdidos
•
No recomendable
•
Variación, media con error aleatorio añadido
 COMPARACIÓN
 CONSIDERACIONES
 CONCLUSIONES
Técnicas
de Muestreo I
Cold deck
IMPUTACIÓN
 INTRODUCCIÓN
 MÉTODOS
•
Determinística, lógica
•
Los datos se imputan con base a distribuciones de valores válidos (previos
 COMPARACIÓN
estudios o censos)
 CONSIDERACIONES
 CONCLUSIONES
•
Incorpora sesgos si la fuente no está actualizada
Hot deck
•
Utiliza una o más variables para estimar la respuesta más parecida de
acuerdo a individuos de las mismas características
•
Utiliza una matriz de imputación (donador) que se actualiza así el proceso de
imputación es dinámico
•
El proceso cambia con cada imputación.
•
Usa métodos basados en clusters o
•
Métodos basados en distancias (vecino más cercano)
Técnicas
de Muestreo I
Imputación
Regresión simple
IMPUTACIÓN
 INTRODUCCIÓN
•
La muestra se divide en variables (Y) y variables con (Y’ perdidos)
•
Se estima el modelo de regresión de las Y y se predicen los datos perdidos
•
A mayor correlación entre Y e Y’ mejor imputación
•
Tiene sesgos en las varianzas, en las covarianzas no
 MÉTODOS
 COMPARACIÓN
 CONSIDERACIONES
 CONCLUSIONES
Técnicas
de Muestreo I
Imputación
Enfoques actuales MAR
IMPUTACIÓN
 INTRODUCCIÓN
Información completa máxima verosimilitud (FIML)
 MÉTODOS
 COMPARACIÓN
 CONSIDERACIONES
 CONCLUSIONES
•
Realiza la imputación y la estimación de parámetros en un solo paso
•
Utiliza la función ML en para cada dato y al final produce un estimado general
de la función ML
•
Emplea el algoritmo EM
•
En el paso E, lee los datos y obtiene sumas, sumas de cuadrados y productos
cruzados, si encuentra un valor perdido realiza una estimación y obtiene el
mejor valor usando regresiones con todas las variables observadas
•
Después del paso E en el paso M crea la matriz de varianzas y covarianzas
creando la primera iteración y calcula la ecuación de regression
•
Utiliza los datos de la primera iteración para la segunda y etc., hasta que los
datos no cambian (convergencia)
Técnicas
de Muestreo I
Imputación
Enfoques actuales
IMPUTACIÓN
 INTRODUCCIÓN
• Imputación múltiple
 MÉTODOS
 COMPARACIÓN
• Reemplaza cada dato perdido con dos o mas valores aceptables
 CONSIDERACIONES
 CONCLUSIONES
representando una distribución de posibilidades (Rubin, 1987).
• El resultado son m datasets completas (cada una analizada con métodos
estandar, y se promedian los parámetros estimados).
• Los datasets se pueden generar de métodos simples como el hot-deck o la
regresión.
Técnicas
de Muestreo I
DATASET CON M IMPUTACIONES
IMPUTACIÓN
k variables
m imputations
 INTRODUCCIÓN
 MÉTODOS
 CONSIDERACIONES
 CONCLUSIONES
N units in the survey
 COMPARACIÓN
Cada renglón es un vector de
imputaciones de tamaño m,
…más útil cuando
la fracción de
valores perdidio no
es muy alta
Técnicas
de Muestreo I
El proceso de llenar los valores:
IMPUTACIÓN
 INTRODUCCIÓN
 MÉTODOS
 COMPARACIÓN
 CONSIDERACIONES
 CONCLUSIONES
•
Perspectiva Bayesiana (Rubin, 1987): obtiene multiples imputaciones
que simulan distribuciones bayesianas de valores perdidos, la
distribución es condicional de los valores perdidos dados los datos
observados
Pr( | X , Yobs , Rinc , I )
donde, obs = set de valores observados
inc = set de unidades incluidas en la muestra
I = indicador de inclusión
Técnicas
de Muestreo I
IMPUTACIÓN
•
 INTRODUCCIÓN
 MÉTODOS
 COMPARACIÓN
 CONSIDERACIONES
 CONCLUSIONES
•
Superpone un modelo de probabilidad en los datos completos junto
con un mecanismo de no respuesta (ej., regresión simple o un
modelo loglineal)
Crea las imputaciones en un proceso de 2-pasos bayesianos:
1. Especifica distribuciones previas y genera un modelo de
parámetros desconocido
2. Simula m valores independientes a partir de la distribución
condicional de datos dada por los valores originales
Después se analiza la nueva distribución con métodos estándar
Técnicas
de Muestreo I
IMPUTACIÓN
• En modelos más complejos se utilizan técnicas computacionales que emplean las
Cadenas de Markov Monte Carlo (MCMC)
 INTRODUCCIÓN
 MÉTODOS
• También : aproximación Bayesian bootstrap (Rubin)
 COMPARACIÓN
 CONSIDERACIONES
 CONCLUSIONES
• Modelamiento con scores de propensión de grupos de muestreo (Lavori)
• Obtiene un estimado de m repetidos, completos y estimados
m
  ˆ j m
j 1
m
• Con
W  W j m
j 1
m

B   ˆ j  
j 1
T  W  (1  m1 ) B
 /(m 1)
2
– el promedio de m varianzas repetidas
– varianza entre imputaciones
-varianza total
Técnicas
de Muestreo I
IMPUTACIÓN
• La eficiencia relativa del estimador finito para m se calcula con la formula
de Rubin
 INTRODUCCIÓN
V (  )   
 1  
V ( m )  m 
 MÉTODOS
 COMPARACIÓN
 CONSIDERACIONES
 CONCLUSIONES
1
con  la tasa de información perdida para la cantidad que se estima
• En este ejemplo. Para gama pequeña , m =2 or 3 es completamente
eficiente.

m
0.1
0.3
0.5
0.7
0.9
1
95
88
82
77
73
2
98
93
89
86
83
3
98
95
93
90
88
5
99
97
95
94
92

100
100
100
100
100
Técnicas
de Muestreo I
IMPUTACIÓN
 INTRODUCCIÓN
•Métodos para MNAR
 MÉTODOS
 COMPARACIÓN
 CONSIDERACIONES
 CONCLUSIONES
–Modelos de mezclas de patrones
–Modelos de selección
–Modelos de parámetros compartidos
–Ponderación con probabilidad inversa
Técnicas
de Muestreo I
IMPUTACIÓN
Paquetes libres
 INTRODUCCIÓN
 MÉTODOS
 COMPARACIÓN
 CONSIDERACIONES
 CONCLUSIONES
Imputación
simple
Imputación
múltiple
Amelia
X
X
IVEware
X
X
Norm
X
X
MICE
X
X
Paquete
Mx
FIML
X
Técnicas
de Muestreo I
IMPUTACIÓN
Paquetes comerciales
 INTRODUCCIÓN
 MÉTODOS
 COMPARACIÓN
 CONSIDERACIONES
 CONCLUSIONES
Paquete
Imputación
simple
SAS (MI)
Imputación
múltiple
X
SPSS (EM)
X
Stata (ice)
X
X
FIML
Técnicas
de Muestreo I
IMPUTACIÓN
Paquetes para FIML
 INTRODUCCIÓN
 MÉTODOS
 COMPARACIÓN
Paquete
 CONSIDERACIONES
Imputación
simple
Imputación
múltiple
FIML
 CONCLUSIONES
AMOS
X
EQS
X
HLM
X
LISREL
X
Mplus
X
X
Técnicas
de Muestreo I
IMPUTACIÓN
Paquetes comerciales
 INTRODUCCIÓN
 MÉTODOS
 COMPARACIÓN
 CONSIDERACIONES
 CONCLUSIONES
Paquete
Imputación
simple
SAS (MI)
Imputación
múltiple
X
SPSS (EM)
X
Stata (ice)
X
X
FIML
Técnicas
de Muestreo I
IMPUTACIÓN
Paquetes para FIML
 INTRODUCCIÓN
 MÉTODOS
 COMPARACIÓN
Paquete
 CONSIDERACIONES
Imputación
simple
Imputación
múltiple
FIML
 CONCLUSIONES
AMOS
X
EQS
X
HLM
X
LISREL
X
Mplus
X
X
Técnicas
de Muestreo I
COMPARACIÓN MÉTODOS DE IMPUTACIÓN
IMPUTACIÓN
IMPUTACIÓN DE LA EDAD
 INTRODUCCIÓN
 MÉTODOS
 COMPARACIÓN
 CONSIDERACIONES
 CONCLUSIONES
Situación
Datos completos
Datos sin 8%
Datos imputados (media)
N
32,561
29,956
32,561
Media
38.58
38.63
38.63
S
13.640
13.670
13.057
Asimetría
0.559
0.558
0.584
Curtosis
-0.166
-0.165
0.106
Datos imputados (mediana)
32,561
38.58
13.065
0.615
0.124
Datos imputados (Hot-deck)
32,561
38.57
13.576
0.561
-0.171
Datos imputados (Regresión)
32,561
38.63
13.060
0.577
0.113
Situación
Datos completos
Datos sin 15%
Datos imputados (media)
N
32,561
27,677
32,561
Media
38.58
38.66
38.66
S
13.640
13.687
13.552
Asimetría
0.559
0.558
0.608
Curtosis
-0.166
-0.164
0.372
Datos imputados (mediana)
32,561
38.39
12.566
0.669
0.410
Datos imputados (Hot-deck)
32,561
38.63
13.701
0.564
-0.162
Datos imputados (Regresión)
32,561
38.66
12.564
0.569
0.155
Técnicas
de Muestreo I
IMPUTACIÓN
 INTRODUCCIÓN
 MÉTODOS
 COMPARACIÓN
 CONSIDERACIONES
 CONCLUSIONES
COMPARACIÓN MÉTODOS DE IMPUTACIÓN
Técnicas
de Muestreo I
IMPUTACIÓN
CONSIDERACIONES PARA SELECCIONAR EL MÉTODO DE
IMPUTACIÓN
 INTRODUCCIÓN
 MÉTODOS
 COMPARACIÓN
 CONSIDERACIONES
 CONCLUSIONES
•
IMPORTANCIA DE LA VARIABLE A IMPUTAR.
•
TIPO DE VARIABLE A IMPUTAR.
•
PARÁMETROS QUE SE DESEAN ESTIMAR.
•
TASAS DE NO RESPUESTA.
•
INFORMACIÓN AUXILIAR DISPONIBLE
•
RECURSOS DISPONIBLES
•
TAMAÑO DE LA MUESTRA
Técnicas
de Muestreo I
VENTAJAS
IMPUTACIÓN
 INTRODUCCIÓN
•
SE OBTIENE
COMPLETA.
BASE
•
•
DISMINUIR EL SESGO (SI
SE APLICÓ UN MÉTODO
ADECUADO)
AUMENTAR
EL
SUBESTIMAR
SOBRESTIMAR
VARIANZA.
•
RESULTADOS
CONFIABLES
•
RESTA EFICIENCIA A LA
FASE DE INFERENCIA.
•
ANALISIS FUTURO NO SE
DISTINGUE
ENTRE
VALORES
REALES
E
IMPUTADOS.
 MÉTODOS
 COMPARACIÓN
 CONSIDERACIONES
 CONCLUSIONES
DESVENTAJAS
UNA
SESGO,
O
LA
NO
Técnicas
de Muestreo I
CONCLUSIONES
IMPUTACIÓN
•
MINIMIZAR LA FALTA DE RESPUESTA TOTAL Y PARCIAL EN
UNA ENCUESTA, A FIN DE EVITAR LA IMPUTACIÓN.
•
NO EXISTE EL MEJOR MÉTODO DE IMPUTACIÓN, CADA
SITUACIÓN ES DIFERENTE, EL MÉTODO DEPENDE DE LA
VARIABLE DE ESTUDIO, PORCENTAJE DE DATOS
FALTANTES , TIPO DE ENCUESTA, USO DE LA
INFORMACIÓN IMPUTADA, ETC.
•
MÉTODOS
MÁS
RECOMENDADOS
SON:
MÁXIMA
VEROSIMILITUD, EL IMPUTACIÓN MÚLTIPLE Y HOTDECK
•
CUANDO LAS TASA DE NO RESPUESTA ES MUY ELEVADA
(MAS DE 20%) SE RECOMIENDA PRESCINDIR DE LA
INFORMACIÓN.
•
HACER SIMULACIONES, QUITAR VALORES A UNA BASE DE
DATOS, APLICAR MÉTODOS DE IMPUTACIÓN Y EVALUAR.
 INTRODUCCIÓN
 MÉTODOS
 COMPARACIÓN
 CONSIDERACIONES
 CONCLUSIONES