Diseños de Muestreo

Download Report

Transcript Diseños de Muestreo

Sesión Técnica 5
Diseños de Muestreo
PRIMERA PARTE
Diseño de muestreo y diseño de
la encuesta
Diseño de muestreo de una encuesta: conjunto
de técnicas para seleccionar una muestra
probabilística y los métodos de estimación
empleados para inferir los valores de los
parámetros de interés a partir de la muestra.
Diseño de la encuesta: definiciones, métodos y
procedimientos concernientes a todas las fases
necesarias para conducir la operación.
Conceptos previos
Poblaciones: Una población (U) es un conjunto
de (N) elementos. Un elemento se denotará
por i.
Variables: Cada elemento tiene asociados
valores de variables de interés. Sea yi el valor
de la variable y en el i-ésimo elemento.
Parámetros: Son valores desconocidos de la
población que nos interesa estimar.
Muestra: Una parte (de tamaño n) de la
población. Una muestra se denotará por M.
Conceptos previos (cont.)
• Conjunto de observaciones: A cada elemento
seleccionado en la muestra la “observamos” y
tendremos al conjunto de observaciones: O :
{yi: i Є M}.
• Estimador: Función (T) de las observaciones
(T=t(O)), que usamos para estimar los
parámetros.
• Error de muestreo: Error proveniente de
observar M y no U. (“Error intrínseco”)
• Errores no de muestreo: Los otros errores.
Conceptos previos (cont.)
¿Cómo se mide el error de muestreo?
Como veremos más adelante la varianza estimada del
estimador juega un papel clave porque ella es una
medida de la variabilidad entre las estimaciones que
esperaríamos si se tomaran muchas muestras. El
problema es que la varianza depende de la unidad
de medida, por ello es conveniente utilizar el
Coeficiente de Variación que es libre de unidad de
medida:
var muestral
o usar intervalos de
CV 
estimación del parámetro
confianza
Diseños de muestreo más comunes
• Muestreo Aleatorio Simple (MAS)
• Muestreo Aleatorio Estratificado (MAE)
• Muestreo por conglomerados:
– Con selección MAS
– Con selección proporcional al tamaño (PPT) u
otro diseño de probabilidad variable.
• Muestreo sistemático
• Muestreo en varias etapas
MUESTREO ALEATORIO
SIMPLE
Muestreo Aleatorio Simple (1)
• Definición: M.A.S. es el diseño en el cual cada
muestra posible tiene igual probabilidad de
selección ( 1C ).
• Una consecuencia es que en MAS cada elemento
de la población tiene la misma probabilidad de ser
seleccionado en la muestra (n/N ).
• Estos procedimientos de muestreo se conocen
como Métodos de selección equiprobables
(EPSEM).
• MAS es EPSEM pero no todos los EPSEM son
MAS.
N
n
Muestreo Aleatorio Simple (2)
¿Cómo se selecciona una MAS? Por definición,
cada elemento (i) de los N de la población tiene
igual probabilidad de ser seleccionado (pi =
n/N). Una forma práctica es elegir n de a uno y
sin reponer sorteando n números aleatorios
distintos entre 1 y N. Usando una “tabla de
números aleatorios” o un programa de cómputo
(por ejemplo la función “ALEATORIO” de
Excel® ).
Muestreo Aleatorio Simple (3)
Estimadores insesgados:
- Para la media poblacional (μ), la media
1
muestral: y   y i
n iεM
- Para el total poblacional (Nμ): Yˆ  Ny
- Para la varianza poblacional la varianza
muestral corregida: vaˆ r( y )  (1 - n )s n 2 siendo
1
2
s 
(y

y
)
 i
n 1 iεM
2
n
N
Muestreo Aleatorio Simple (4)
• Intervalos de confianza:
Un intervalo de confianza (IC) al (1-α)% es un
intervalo que contiene al verdadero valor del
parámetro poblacional con probabilidad igual
a 1-α.
• IC para la media (n>50): y  z1α vaˆ r( y )
siendo z1α el valor de la distribución Normal
Estándar que acumula 1-α/2 de probabilidad:
α = 0.1
α = 0.05
z1-α = 1.645
z1-α = 1.96
α = 0.01
z1-α = 2.576
Muestreo Aleatorio Simple (5)
Determinación del tamaño de la muestra:
Sea e el error máximo permitido (en la
unidad original), entonces el n que
garantiza ese error máximo para la
estimación de μ al nivel de confianza 1-α
N(z1-α ) σ
en el MAS es: n 
2
2
2
Ne  (z 1- ) 
2
Problema: ¿σ?
2
Muestreo Aleatorio Simple (6)
• Caso particular: Estimación de proporciones (o
porcentajes).
Si el objetivo es estimar una proporción, las cosas se
simplifican porque la proporción no es más que la media de
una variable “y” que sólo toma los valores 0 ó 1. Los
estimadores insesgados son:
-Para la proporción poblacional: la proporción observada en la
muestra
-La estimación de la varianza se simplifica porque en este
caso s2=(n/n-1)(p(1-p))
-Para los intervalos de confianza hay que tener cuidado con la
aproximación Normal (ver tabla en las Notas)
-En la determinación del n, σ2 puede acotarse por 0.25
Muestreo Aleatorio Simple (7)
Estimación de una razón (o cociente): Dos casos:
a) La razón es el parámetro a estimar
b) La razón la estimamos para estimar otro parámetro.
Caso a): Se quiere estimar el cociente y/x (por ejemplo:
rendimiento=producción/área) y se estima la media de “y” y
y
la media de “x” y se usa como estimador a:
r
ˆ 
x
Caso b): Se tiene información auxiliar sobre “x” sea “X”, se usa
esa información para estimar el total (o la media de Y)
mediante:
ˆ  X y  Xrˆ
Y
x
Con MAS, r̂ es un estimador sesgado de la verdadera razón
MUESTREO ALEATORIO
ESTRATIFICADO
Muestreo Aleatorio Estratificado (1)
• Definición: La población de N elementos se
divide en L grupos llamados estratos. Se
toman luego M.A.S. dentro de cada estrato.
• Consecuencia: la probabilidad de selección
de un elemento de la población ya no es
constante (depende del estrato al cual
pertenece).
• ¿Cuándo es más eficiente? Cuando los
estratos son muy homogéneos
internamente y heterogéneos entre ellos.
Muestreo Aleatorio Estratificado (2)
Sean: Nh = tamaño de la población del estrato h.
nh = tamaño de la muestra del estrato h.
yhi = valor de y en la i-ésima unidad del
estrato h
μh = media poblacional en el estrato h
L
L
h 1
h 1
Por tanto:  N h  N ;  n h  n ;
L
Nh
μh
h 1 N
μ
Muestreo Aleatorio Estratificado (3)
Estimadores insesgados:
- Para la media poblacional (μ):
L
y est
- Para el total poblacional (Nμ):
Nh

yh
h 1 N
Yˆ  N y est
- Para la varianza poblacional (σ2):
2
N
s
vaˆ r( y est )   h2 (N h  n h ) h
nh
h N
donde sh2 se define como antes, pero a
nivel del estrato
Muestreo Aleatorio Estratificado (4)
• Intervalos de confianza:
Lo ya desarrollado para el M.A.S. vale aquí
sustituyendo y por y est (cuidado con la
aproximación Normal)
• Determinación del tamaño de muestra:
Ahora debemos determinar tantos tamaños
de muestra como estratos (L). Se
determina el tamaño n de la muestra total
y se distribuye entre los estratos, ¿cómo?
Muestreo Aleatorio Estratificado (5)
• Asignaciones usuales:
• Distribución proporcional: asignamos a cada
estrato una proporción de n, igual a la
proporción de N del estrato: nh = n(Nh /N) ;
• Distribución óptima: además de Nh considera la
dispersión de los valores de y en el estrato:
N hσ h
nh  n
 N hσ h
h
Muestreo Aleatorio Estratificado (6)
• Determinación del n:
1) En el caso de “asignación proporcional”:
Nz12α
n 2 2 2
N e  z 1α  N hσ h2
h
2) En el caso de la “asignación óptima”:
2


z 12α   N hσ h 

n  2 2  h2
N e  z 1α  N hσ h2
h
Muestreo Aleatorio Estratificado (7)
• Problemas a resolver:
1) ¿Cómo aproximar los L valores σh ?
2) ¿L?
3) ¿Puntos de corte de los estratos?
4) ¿Qué variable de estratificación usar?
5) ¿Cómo controlar el error de estimación
de varios parámetros a la vez? (este
problema vale para todos los diseños)
Muchas gracias
Sesión Técnica 5
Diseños de Muestreo
SEGUNDA PARTE
Post estratificación
• Concepto: Se desea clasificar las unidades de una
población en grupos a partir de la muestra y luego
de haber realizado la encuesta, pero el diseño no
fue estratificado.
• Supongamos que extrajimos n unidades mediante
M.A.S. y luego se desea post-estratificar la
población en L estratos. La diferencia con el M.A.E.
es que los nh pasan a ser variables aleatorias
(cambian de muestra a muestra). Lo interesante ( e
intuitivo) es que el valor esperado de esa variable
aleatoria es: n  n NN es decir “en promedio” la
muestra de n unidades se va a distribuir como en la
asignación proporcional.
h
h
Muestreo por conglomerados(1)
• Definición: La población se divide en grupos
(“conglomerados”) y cada grupo pasa a ser una
unidad de muestreo.
• Tipos:
a) Si la unidad final de muestreo es el conglomerado:
“Muestreo por conglomerados mono-etápico”
b) Si los conglomerados seleccionados se sub-muestrean:
“Muestreo por conglomerados poli-etápico” (en dos
etapas, en tres etapas, etc.). En este caso se tendrán:
“Unidades primarias de muestreo (UPM ó PSU),
unidades secundarias de muestreo (USM ó SSU), y así
sucesivamente.
• ¿Cuándo es más eficiente? Cuando los conglomerados son
muy heterogéneos dentro y homogéneos entre sí
Muestreo por conglomerados(2)
Razones para usar el Muestreo por
conglomerados:
1. Construcción de marcos: listamos solo
los elementos de los conglomerados
seleccionados.
2. Economía de recursos: una vez en el
conglomerado es más económico visitar los
elementos del conglomerado que
elementos dispersos.
Muestreo por conglomerados mono-etápico (1)
• Concepto: La población se divide en N
conglomerados y hay Mj unidades en el j-ésimo
conglomerado. Llamando M al Nnúmero de unidades
originales de la población: M   M j
j1
Sea yjk el valor de la variable en la k-ésima unidad
secundaria del j-ésimo conglomerado. Entonces, el
M
total poblacional de Y es Y  N y  N y
j

j1 k 1
jk

j1
j
La media por unidad es: μ  Y
M
La media por conglomerado es:
congl 
Y
N
Muestreo por conglomerados mono-etápico (2)
• Caso 1: De los N conglomerados elegimos n
mediante M.A.S y “barremos” todas las
unidades de los conglomerados
seleccionados. Los estimadores insesgados
de la media y la varianza surgen facilmente del
MAS ya que cada conglomerado es ahora una
unidad que tiene asociada el total del valor de
la variable en el conglomerado (es decir la
suma de los valores de y para los elementos
del conglomerado).
(Observación: en este caso no hay contribución a la varianza muestral de la
varianza dentro del conglomerado porque se “censan” todos los elementos
del conglomerado, es decir el total de cada conglomerado muestreado se
obtiene “sin error de muestreo”
Muestreo por conglomerados mono-etápico (3)
Si la variable y está altamente correlacionada
con el tamaño del conglomerado, se demuestra
que el estimador de razón:
n
M
yr  rˆ

N
y
j 1
n
M
j 1
j
M
N
j
es muy eficiente. Es sesgado pero el sesgo
disminuye rápidamente al aumentar n.
(Ver estimador de la varianza en las notas § 2.3.2 (fórmula [35]))
Muestreo por conglomerados mono-etápico (4)
• Caso 2: De los N conglomerados elegimos n
mediante muestreo con probabilidad
proporcional al tamaño (ppt) (con repetición) y
“barremos” todas las unidades de los
conglomerados seleccionados. Es decir que el
conglomerado “j” lo elegimos con probabilidad
Mj/M. ¿Cómo se hace? Se forma la suma
acumulativa de las Mj y se forman intervalos
con extremos en los acumulados
consecutivos, elegido un número al azar se
observa a qué conglomerado de la lista
corresponde.
Muestreo por conglomerados mono-etápico (5)
• Ejemplo:
Conglomerado
Tamaño (Mj) Σ Mj
Rango asignado
1
20
20
1-20
2
10
30
21-30
3
45
75
31-75
4
67
142
76-142
5
50
192
143-192
6
16
208
193-208
7
25
233
209-233
8
13
246
234-246
Seleccionamos números al azar entre 1 y 246, sale por ejemplo el 123,
entonces el conglomerado 4 es seleccionado y así sucesivamente, con
reemplazo, es decir volvemos a sortear un número entre 1 y 246, sale
por ejemplo el 78, el conglomerado 4 es nuevamente incluido, luego,
en la tercera extracción obtenemos el 205, entra el conglomerado 6,
etc.
Muestreo en varias etapas (sub-muestreo)
• Concepto: La población se divide en grupos
(conglomerados que son unidades primarias
de muestreo: UPM), se muestrean
conglomerados pero en lugar de “barrerlos”
se selecciona una muestra de unidades del
conglomerado (unidades secundarias de
muestreo: USM), luego en una tercera etapa
puede a su vez submuestrearse y así
sucesivamente.
• Es el diseño complejo más utilizado en las encuestas.
• Pueden combinarse distintos diseños en las diferentes
etapas
Muestreo en dos etapas (1)
• Caso 1: M.A.S. en ambas etapas.
Primera etapa: se eligen n UPM de las N con M.A.S.
Primera etapa: se eligen mi USM con M.A.S de la i-ésima
UPM seleccionada.
Observación: se agrega ahora la varianza muestral entre
USM dentro de las UPM.
Estimadores: el total de la j-ésima UPM seleccionada
se
m
yˆ j  M j yˆ j siendo yˆ j   yij
estimará por
i 1
Y la media poblacional es insesgadamente estimada por:
j
1 n
yˆ   yˆ j
n j1
Varianza y estimador ver Notas §2.5.2 fórmulas [40] y [41]
Muestreo en dos etapas (2)
• Caso 2: UPM elegidas con ppt y USM con
M.A.S
En este caso un estimador insesgado del total
M
ˆ
Y

yˆ

es:
n
y la estimación de la varianza se simplifica:
n
ppt
j1
j

Yˆppt 
M
 yˆ j 

vâr(Yˆppt ) 


n(n  1) j 1 
M 
2
n
2
Un caso particular muy utilizado en los muestreos
agrícolas es el muestreo de áreas.
Caso particular: Muestreo de áreas.
• Concepto: Las UPM son áreas contiguas de
terreno (por ejemplo segmentos censales o
subdivisiones de ellos). Se estratifican (por
ejemplo, por uso del suelo) y se seleccionan ppt
(con reposición). Luego las UPM seleccionadas
se segmentan (el tamaño del segmento está en
función del estrato) y se selecciona UN
segmento al azar (M.A.S) por UPM sorteada.
Esta forma de proceder simplifica mucho las
cosas como veremos en la siguiente diapositiva.
Muestreo de áreas
Asignada la UPM a su estrato y definido el tamaño que tendrán
todos los segmentos de ese estrato queda determinado el
número de segmentos (aproximado) de cada UPM. Sea Mjh el
número de segmentos de la j-ésima UPM del estrato h, en la
población. En la primera etapa elegimos la muestra de UPM con
probabilidad proporcional al número de segmentos: Mjh /Mh luego
en la UPM seleccionada elegimos 1 segmento aleatoriamente.
¿Cuál es la probabilidad de inclusión de un segmento del estrato
h en la muestra? Pr(segmento sea seleccionado/salió la
UPM)xPr(UPM) = (1/Mjh)x(Mjh /Mh )=1/Mh es decir es igual a sacar
1 segmento del total de segmentos del estrato.
Y esto simplifica mucho las cosas. VER: FAO: “Encuestas
Agrícolas con Múltiples Marcos de Muestreo”.Vol 1. (Cap 4)
Muestreo sistemático (1)
• Sólo la primera unidad es seleccionada
aleatoriamente y luego se elige una cada
“tantas” hasta completar las n. Si la
población tiene N unidades y k=N/n,
elegimos aleatoriamente un número entre
1 y k y luego una de cada k.
Muestreo sistemático (2)
Propiedades: 1)es un diseño EPSEM ya que cada unidad tiene
la misma probabilidad de ser seleccionada (aunque no es
equivalente al M.A.S.).
2) Puede tratarse como un diseño por conglomerados donde
elegimos un conglomerado de k conglomerados posibles o
como un diseño estratificado en n estratos y elegimos una
unidad de cada uno.
3) No se puede estimar insesgadamente la varianza.
4) Cuando k no es entero hay que usar “muestreo sistemático
circular”
5) Es muy simple y cuando la correlación entre las unidades
disminuye con la distancia entre ellas es muy eficiente.
Elección de un diseño
• Elementos a considerar:
1) Presupuesto
2) Facilidades computacionales
3) Personal capacitado disponible
4) Información de base
5) Marcos disponibles y costo de
elaboración/actualización
6) Niveles de precisión requeridos
7) Nivel de desagregación de los datos
Estimación de la varianza(1)
A fin de calcular el error de muestreo (en
cualquier diseño) es necesario estimar la
varianza muestral de los estimadores. En
algunos casos ello no es posible, por ejemplo en
el muestreo sistemático usual. En otros no hay
una expresión algebraica para la varianza
estimada o ésta es muy compleja. Por ello se han
diseñado diversos métodos para estimarla. Los
paquetes estadísticos más usados en general
incorporan alguno de ellos.
Estimación de la varianza(2)
Algunos métodos:
• Linearización: Estimadores no lineales, se aproximan por el
desarrollo en series de Taylor y se desechan los términos
mayores a los de primer orden. Caso más común: estimación
de la varianza de estimadores de razón.
• Grupos aleatorios (Muestreo replicado): La muestra total de n
se divide en R grupos (de tamaño n/R), de manera que cada
grupo es una versión “en pequeño” de toda la encuesta. Si las
muestras de cada grupo son independientes, y siendo θ̂ rel
parámetro estimado por la r-ésima muestra, se demuestra que
R
un estimador insesgado de la varianza de θˆ  1  θˆ r es:
Vˆ ˆ  
»2
R
r 1
1
ˆr  ˆ  Caso más común: estimación de la

R( R  1) r 1
R
varianza en el muestreo sistemático
(con R arranques aleatorios).
Estimación de la varianza(3)
• Replicas balanceadas (BBR): La muestra se divide en H
estratos con 2 unidades por estrato. Hay 2H maneras de
elegir una submuestra de tamaño H con una unidad por
estrato. Se toman R de estas muestras asignado los
valores 1 y -1 a cada unidad en cada estrato. Cada
submuestra así obtenida es un vector (αr ) de H
componentes 1 y -1 que corresponden a H unidades
“etiquetadas” con 1 y -1. Se eligen aquellos que sean
ortogonales 2 a 2. Siendo θˆ (α r ) el estimador de θ para el
r-ésimo vector, una estimación de la varianza es:
2
R
1
ˆ( r )  ˆ
Vˆ ˆ  

R( R  1) r 1
siendo
R
1
θˆ   θˆ r
R r 1
Estimación de la varianza(4)
• Jacknife: La muestra se divide aleatoriamente en k
grupos de m observaciones cada uno (n=mk). Se estima
el parámetro con toda la muestra (θ̂) y con las unidades
de k-1 grupos (se omite el grupo α-ésimo). Sea
k
1
θˆα  kθˆ  (k  1 )θˆ(α ) y ˆ  ˆ entonces un
k  1
estimador de la varianza es:
2
k
1

Vˆ ˆ  
ˆ  ˆ 

k (k  1)  1
• Bootstrap: Como las anteriores es una técnica de remuestreo donde R muestras independientes de tamaño
n con reposición son independientemente extraídas de
la muestra de n original y se producen R estimaciones y
se estima la varianza entre elllas.
Software
Todos los métodos de estimación de la
varianza son muy intensivos en cálculo y
requieren de paquetes específicos. Dentro
de los paquetes estadísticos más comunes
los métodos incorporados son:
SAS: Linearización
Stata: Linearización
SUDAAN (software desarrollado para el análisis de diseños complejos) :
Linearización, Jacknife, BRR, Bootstrap
Osiris (para Mac): BRR y Jacknife
R: Linearización, Jacknife, BRR, Bootstrap
Muchas gracias