DISEÑO Y ANÁLISIS DE ENCUESTAS

Download Report

Transcript DISEÑO Y ANÁLISIS DE ENCUESTAS

Aspectos relevantes en el
diseño y análisis de las
encuestas de salud pública.
María del Mar Rueda García
Dpto. de Estadística e I.O.
Universidad de Granada
Las encuestas de salud
pública


-
Son un elemento esencial para la toma
de decisiones
Proporcionan conocimiento
Situación epidemiológica
Tendencias de salud
Hábitos de vida
Utilización de servicios sanitarios
Objetivos


Monotorizar las tendencias en la salud
percibida, los hábitos de vida y la
utilización de servicios sanitarios
Identificar los principales grupos de
riesgo en la salud, en los hábitos de
vida y en el acceso a los servicios
sanitarios.
Principales aspectos en las
encuestas de salud pública





Diseño muestral
Inferencia
Estimación de las varianzas
Tratamiento de datos faltantes
Software para el análisis de los datos
Diseño muestral
Se determina atendiendo a



objetivos primarios de la encuesta
restricciones económicas, temporales y
materiales
tamaño y características de la
población bajo estudio
Diseños muestrales
d=(S,p)
p:S→R
s=(i1,i2,…,in(s)) 0<p(s)<1


La selección de las unidades es
aleatoria
Se puede determinar de antemano
cuál es la probabilidad de que cada
individuo sea seleccionado
Principales diseños usados en
encuestas de salud






Muestreo por conglomerados
Muestreo estratificado
Muestreo sistemático
Muestreo con probabilidades
proporcionales al tamaño
Diseños muestrales complejos
Muestreo de unidades raras
Muestreo estratificado
Procedimiento: Dividir la
población en estratos
disjuntos (ciudades, pueblos,
distritos, áreas rurales,…) y
seleccionar en cada uno una
muestra
Razones: Poder hacer
estimaciones separadas en
cada estrato, asegurar la
representación de todos los
estratos, menor error,…
Muestreo por conglomerados


Objetivo: seleccionar
muestras cuando no se
tiene un listado de
individuos
Procedimiento: se
seleccionan grupos de
unidades (conglomerados)
y se muestrean unidades
de los conglomerados
seleccionados
Muestreo polietápico
Procedimiento: seleccionar una muestra de
conglomerados (UP) y dentro de éstos seleccionar
otra muestra de elementos (US) . Dentro de las US
se muestrean otros elementos (UT)…
Uso: Es más barato y sólo necesita un marco de las
unidades seleccionadas en cada etapa.
Muestreo por conglomerados
Muestreo bietápico
Muestreo trietápico
Muestreo sistemático
Problema: no se tiene un listado de las
unidades, no se conoce el tamaño de
la población, es difícil localizar las
unidades,…
Procedimiento: Se elige un número
aleatorio i, y se analizan las
unidades: i,i+k,i+2k,…i+(n-1)k
Hogares como unidades de
muestreo



El listado es fácil de obtener
Las unidades dentro del hogar son
heterogéneas (sexo, edad,…)
La información se obtiene a partir de
-una unidad representativa
- una unidad muestreada (Kish grid)
Muestreo estratificado
polietápico de hogares


Se utilizan para elaborar el marco y agrupar
entrevistadores de forma que el coste sea
pequeño
Es el diseño más usado tanto en países
desarrollados como en vías de desarrollo.
Estructura típica de un
diseño muestral de hogares
característica
Posible definición
Estrato
Regiones
Tipo de comunidad
U Primaria
Secciones censales
Pueblos en áreas rurales
Manzanas en áreas urbanas
U Secundaria
Viviendas
U Terciaria
Miembros de las viviendas
U observación
Individuos
National Health Interview
Survey (EEUU)







Población marco: mujeres 15-44 años que viven en
hogares.
1900 UPs (pueblos o conjuntos de éstos)
UP se estratificaron usando variables
socioeconómicas y demográficas.
Se seleccionan 198 UP con probabilidades
proporcionales al tamaño dentro de cada estrato.
Dentro de cada UP se selecciono una muestra de
manzanas (US)
Dentro de cada US se selecciona una muestra de
aprox. 8 hogares (UT)
43007 hogares en la muestra
Tetanus toxoid inmunization sample
survey BURUNDI (World Health
Organization)





Estrato 1: Bujumbura (estrato urbano)
Estrato 2: resto del pais (estrato rural)
UP (areas geográficas) en cada estrato con
probabilidades proporcionales al tamaño
US viviendas con probabilidades iguales
Todas las mujeres de la vivienda nacidas en
el último año son seleccionadas
Muestreo de unidades poco
frecuentes.


Obtener estimaciones con precisión
satisfactoria suele ser muy costoso
Ejemplo: m.a.s.
P=0.02, n=800 error relativo=50%
P=0.02, n=80000 error relativo=5%

Diseños muestrales usados: Muestreo
inverso, muestreo de redes, muestreo dual,
muestreo en bola de nieve
Muestreo inverso


Fija de antemano el número de
unidades raras a incluir en la muestra.
Se continúa el muestreo hasta
completar dicho número cualquiera
que sea el tamaño total de la muestra
Muestreo en bola de nieve



seleccionar una muestra inicial de n
individuos de forma probabilística
en cada entrevista cada individuo
nombra a otros K nuevos individuos de
la población en estudio que han de
entrevistarse.
inmigrantes, minorías étnicas, personas
con dificultades o marginados
Muestreo de nexos (network sampling)
Ejemplo: En una encuesta destinada a estudiar la
ocurrencia de una rara enfermedad se selecciona una
muestra aleatoria de centros médicos. De los registros
de cada centro médico de la muestra, se obtienen los
ficheros de los pacientes tratados en el centro de esa
enfermedad. No obstante un paciente dado puede
haber sido tratado por más de un centro. Cuanto mayor
sea el número de centros en los cuales haya sido
tratado un enfermo, más probabilidad tiene éste de
pertenecer a la muestra.
Muestreo de nexos (network
sampling)


Se selecciona una muestra aleatoria de unidades de
selección, y todas las unidades de observación que están
asociadas con cada unidad seleccionada se incluyen en la
muestra y son observadas. La multiplicidad del individuo
es el número de unidades de selección al cual está ligado.
Se define un nexo como el conjunto de unidades de
observación con un determinado patrón de ligadura.
Uso: por la imposibilidad de realizar un muestreo
convencional
Muestreo dual

La estimación se realiza a partir de dos
encuestas independientes
Encuesta 2
N~ x1*x2/x12
E
n
c
u
e
s
t
a
1
SI
SI
x12
NO
x2
NO
x1
Inferencia
Formulación de resultados acerca de la
población completa en base a la parte
seleccionada

Inferencia basada en el diseño

Inferencia basada en el modelo
(la
aleatorización proviene del diseño muestral)
(la
aleatorización proviene del modelo estocástico)
Tipos de análisis

Estudios descriptivos
- parámetros fijos
- basada en el diseño

Estudios analíticos
- relaciones complejas
(asociación, causalidad,…)
Estudios descriptivos
-
Media de una variable Y = ∑Uyi/N
-
Total de una variable T = ∑Uyi
-
Proporción de individuos que
presentan una característica.
P= ∑UAi/N
Estimador de HorvitzThompson
d= (Sd,pd) diseño muestral
πi = p(i sea seleccionada)

Tˆy  

ks
yk
k
Propiedades: Insesgado, tiene un
estimador simple de su varianza, es
admisible, consistente, …
El uso de información auxiliar


Sea y= variable objeto de estudio
Sea x= variable auxiliar que está
relacionada con la variable y.
U
x
y, x
s
La información auxiliar se puede utilizar


- en la fase de selección (muestreo
estratificado, m. con probabilidades
desiguales)
- en la fase de estimación
Estimadores indirectos

Sea Tx conocido, en la muestra s se
observan y, x.
Tˆy   
ks
yk
k
Tˆy  Tˆy   c (T x  Tˆx  )
Si c=1 estimador de diferencia
Si c=Ty/Tx=R estimador de razón
Si c=b= coef. De regresión, estimador de regresión
Estimadores de calibración.
yk
ˆT 
    dkyk
y
k s
k s
k
La calibración consiste en sustituir, en el estimador de
H-T, dk, por otros pesos k , tan cercanos como sea
posible, con respecto a una métrica dada, a dk y
respetando la ecuación de calibración :

k s
k
x k  T(x )
Estimador de calibración
Tˆ yreg  Tˆ y 

'
 k y k  Tˆ y  ( T ( x )  Tˆ x  ) Bˆ s
k s
1
ˆ
B s  Ts  d k q k x k y k
k s
ESTIMADOR DE REGRESIÓN GENERALIZADO
(Cassel, Särndal y Wretman,1976)
Estimadores de
verosimilitud empírica
(Chen y Qin, 1993)
Consiste en sustituir, en el estimador de H-T, dk,
por otros pesos pk que se obtienen maximizando la
función de verosimilitud empírica sujeta a las
restricciones
Σspi=1
Σspiui=0
TVE=Σspiyi
Σuui/N =0
Ejemplo



Estudio sobre la mortalidad por cáncer de
mama en los estados de Carolina y Georgia
Variable a estudio: número de muertes por
cáncer de mama
Variable auxiliar: número de mujeres
adultas en la población
Cocientes entre las varianzas de los estimadores
indirectos de la media respecto al estimador de
Horvitz-Thompson
n
Estima
Horvitz-T
Razón
Hartley-R
GREG
Calibración
Ver. Empir.
40
80
100
140
200
1
0.069
0.071
0.076
0.072
0.136
1
0.065
0.065
0.072
0.068
0.084
1
0.070
0.070
0.078
0.074
0.105
1
0.063
0.062
0.065
0.064
0.079
1
0.063
0.062
0.066
0.064
0.066
Cocientes entre las varianzas de los estimadores
indirectos de la mediana respecto al estimador directo
n
Estima
directo
Razón
Chambers
Diferencia
Calibración
Ver. Empir.
40
80
100
140
200
1
0.473
0.353
0.415
0.388
0.403
1
0.461
0.258
0.445
0.423
0.413
1
0.442
0.231
0.423
0.429
0.409
1
0.436
0.227
0.420
0.394
0.386
1
0.508
0.258
0.528
0.468
0.442
Estudios analíticos



Contraste de significación de proporciones
Ho: p1-p2=0
H1: p1-p2<>0
Regresión
yN= XNβ + εN
Análisis categórico de datos
tabla de contingencia a x b
Contraste de significación de
proporciones

H0: p1-p2=0
H1: p1-p2<>0
-
Modelo superpoblación pob.1.
pob.2.
-
-
Ii i.i.d.
Ji i.i.d.
Independie.
Problemas potenciales: mala especificación del modelo y
la muestra no representa la distribución
Consecuencias: los estimadores son sesgados y los errores
incorrectos
Contraste de significación
de proporciones

Aproximación basada en el diseño
1 fase
produce la población finita
2 fase
produce la muestra
Se considera el mismo modelo de superpoblación
DHT= p1HT-p2HT es diseño insesgado de D
V(DHT) puede ser estimada insesgadamente por el
estimador basado en el diseño
Los estimadores son robustos
Determinación del tamaño
muestral.





Tipo de análisis empleado
El nivel de precisión requerida
Homogeneidad de la población
Información disponible
Diseño muestral usado
Errores en las encuestas
Es la diferencia entre el valor estimado
y el parámetro desconocido: ‫׀‬est -θ ‫׀‬
Tipos:
Errores de muestreo
Errores ajenos al muestreo
Errores de muestreo




Son los debidos a haber analizado sólo una
parte de la población
Se define como V(est)1/2
Se puede determinar el error que se comete
con un muestra concreta
Se puede fijar de antemano y seleccionar el
tamaño de muestra necesario para obtener
ese error máximo
Estimación de errores
muestrales

permite decidir acerca del grado de validez o
confianza de los datos en relación con el uso
que se va a hacer de ellos.
Parametro
Diseño
lineal
No lineal
simple
a
b
complejo
c
d
Estimación de errores
muestrales

a- Expresión algebraica de la varianza
Aproximación lineal (Taylor)

b,c,d
Replicación de muestras
grupos aleatorios, semimuestras
Exploración intensiva de muestras
bootstrap, jackknife
Errores ajenos al muestreo





Tienen lugar tanto en censos como en muestras
Son debidos a muchos factores: falta de respuesta,
recogida, registro y procesamiento incorrecto de los
datos, marcos imperfectos, errores de campo,
errores de respuesta…
Imposible cuantificarlos en su totalidad
Su tratamiento es muy caro
Suelen ser el principal problema de las encuestas
Tipos de errores ajenos al
muestreo

De observación

De no observación
sobrecobertura
medida
procesamiento
cobertura
falta de respuesta
Tratamiento de la falta de
respuesta




Primario: Encuestas repetidas, encuestas delegadas,
sustitución de unidades, uso de incentivos, método de Kish y
Hace,…
En la fase de campo: métodos de Hansen y Hurvitz, de
Politz y Simmons, de Demming, respuesta aleatorizada,…
En la fase de procesamiento: métodos gráficos, de Platek,
de Thompsen, …
En la fase de análisis: Imputación (de registro donante, de
regresión, probabilística, múltiple), formulación de estimadores
con datos parcialmente faltantes.
Software para el análisis de
encuestas por muestreo

De propósito general (C, Visual basic,
fortran, matlab, hojas de cálculo,…)

De aplicaciones estadísticas
(SPSS,
Statgraphics, SAS, Splus, R,…)

Específico de muestreo
Wesvar, survey…)
(Sudaan, PcCarp,
Software de muestreo


Obtención de muestras desde
diseños muestrales
Cálculos asociados al proceso
de estimación
Comparativa

Diseños muestrales disponibles

Métodos de estimación de la varianza

Análisis estadísticos realizados

Apariencia

Disponibilidad y precios
Recomendaciones



Es necesario el uso de un software específico para
el análisis de datos de muestras complejas.
Si ya se utiliza previamente un software general
que incluya la estimación usando el diseño muestral
o tenga algún modulo optativo, utilizar dicho
software.(Stata, SAS, Epi Info, SPSS)
Si el software usado no lo incluye hay que
considerar un software especializado (SUDAAN,
WESVAR, PC-CARP, CENVAR)
Recomendaciones

Para pequeños usuarios usar un programa
gratuito (Epi Info, CENVAR, WESVAR 2, R)

Para grandes empresas, institutos de
estadística, centros de estudios, …
-adquirir una licencia (WESVAR, PC-CARP, STATA,
SUDAAN, SAS)
-utilizar su propio código
PROBLEMAS RELACIONADOS
CON LOS MEDICAMENTOS
EN LOS USUARIOS DEL
SERVICIO DE URGENCIAS

Instituto de Salud Carlos
III
Gracias por su atención