Distribuciones de muestreo

Download Report

Transcript Distribuciones de muestreo

Distribuciones Muestrales
Ing. Raúl Alvarez Guale, MPC
Población
• Unidad: Una sola entidad, por lo general, un
objeto o una persona, cuyas características
son de interés.
• Población de Unidades: colección completa de
unidades acerca de la cual se busca
información
Población
• En estadística, el uso del término de población
es una herencia de los días cuando la
estadística se aplicaba principalmente a
fenómenos sociológicos económicos.
• Definición: Una población estadística es el
conjunto de todas las mediciones (o registro
de algún rasgo de calidad) correspondientes a
cada unidad de población de unidades, acerca
de la cual se busca información.
Población
Poblaciones, Unidades y variables
Población
Unidad
Variable/característica
Todos los alumnos
actualmente inscritos en la
universidad
alumno
Promedio
Número de créditos
Horas de trabajo por semana
Especialidad
Diestro/zurdo
Todos los restaurantes de
comida rápida en el campus
restaurante
Número de empleados
Número de asientos
Todas la tarjetas de circuito
impreso fabricadas durante un
mes
tarjeta
Tipo de defectos
Número de defectos
Ubicación de defectos
Muestra
• Una muestra de una población estadística es
el subconjunto de mediciones que realmente
se recolectan en el curso de una investigación
Población
Muestra
Muestra aleatoria: Población Finita
• Un conjunto de Observaciones X1, X2, …, Xn,
constituye constituye una muestra aleatoroa
de tamaño n a partir de una población de
tamaño N, si sus valores se eligen de modo
que cada subconjunto de N elementos de la
población tiene la misma probabilidad de salir
Muestra aleatoria: Población Infinita
• Un conjunto de Observaciones X1, X2, …, Xn,
constituye una muestra aleatoria de tamaño n
a partir de una población infinita f(x) si:
1. Cada Xi es una variable aleatoria cuya
distribución está dada por f)x)
2. Estas n variables aleatorias son
independientes.
• El ejecutivo de un restaurante recibe un reporte que
indica que el monto promedio gastado por un adulto
en un restaurante gourmet es de $302.45 por año. La
cifra fue obtenida de una muestra de 540 adultos de
Nuevo México. Preguntas:
– ¿Qué se puede inferir de la media poblacional?
– ¿Cuán cercana está la cifra de $302.45 de la media
poblacional?
– ¿Basta la muestra de 540 individuos, de una
población de 2 millones, para obtener un “buen”
estimado de la media poblacional?
• El gerente de control de calidad de una empresa
productora de kits de reparación de plomería
selecciona una muestra aleatoria de estos kits y los
inspecciona para detectar fallas. De la muestra de 233
kits, se tienen 18 defectuosos, esto es, el 7.7%.
Preguntas:
– ¿Qué se puede inferir respecto del total de 13,300
kits producidos?
– ¿El porcentaje de kits defectuosos del conjunto
total estará alrededor de 7.7%? ¿Cuán cercano?
– ¿Debe inspeccionarse una muestra más amplia?
Las respuestas a las preguntas anteriores requieren el
entendimiento de las distribuciones muestrales.
Cada vez que se toman muestras de una población,
pueden ocurrir diferentes muestras y cada muestra
tener diferentes items. Por lo tanto las medidas
estimadas a partir de una muestra, estadísticos,
constituyen variables aleatorias, las cuales deben de
ser descritas por las denominadas distribuciones
muestrales.
El entendimiento de las distribuciones
muestrales es la base para el desarrollo de los
temas de:
• Estimación estadística
• Prueba de hipótesis
Objetivos
• Definir el concepto de error muestral.
• Determinar la media y desviación estándar para la
distribución muestral de la media muestral, x.
_
• Determinar la media y desviación estándar para la
distribución muestral de la proporción muestral, p.
• Describir el Teorema del Límite Central y su importancia
• Aplicar distribuciones muestrales para x y p.
Error Muestral
• Estadísticos (muestra) son usados para estimar
parámetros (población)
ej.: x es un estimador de la media poblacional, μ
Problemas:
– Diferentes muestras proporcionan diferentes estimados
de los parámetros de la población.
– Los resultados muestrales presentan variabilidad, por lo
tanto, existe error muestral.
Recordar: Con una muestra aleatoria se busca conseguir un grupo
representativo de la población.
͞x1
Población
Media μ
Muestra1
͞x2
Muestra 2
Valores
que
puede
tomar la
variable
aleatoria
͞
x
Muestra n
͞xn
Describir ͞x
A través de
una
distribución
muestral
Cálculo del Error Muestral
• Error Muestral:
Es la diferencia entre un valor (estadístico) calculado de la
muestra y su correspondiente valor (parámetro) calculado
de la población
Ejemplo: (Para la media)
ErrorMuestral x - μ
Donde:
x  Media muestral
μ  Media poblacional
¡Siempre
presente dado
que se usa una
muestra!
Recordatorio
Media Poblacional:
x

μ
N
La media
poblacional
NO varía
i
Ver Tema 3
Media Muestral:
x

x
i
n
Donde:
μ = Media poblacional
x = Media muestral
xi = Valores en la población o muestra
N = Tamaño de la población
n = Tamaño de la muestra
La media muestral
puede VARIAR
cuando diferentes
muestras son
tomadas de la
población
Ejemplo
Si la media poblacional es μ = 98.6 °C y una
muestra de n = 5 temperaturas da una media
muestral de x= 99.2 °C, entonces el error
muestral es:
x  μ  99.2 98.6 0.6  C
Errores Muestrales
• Diferentes muestras darán diferentes errores
muestrales.
• El error muestral puede ser positivo o negativo (x
puede ser mayor que o menor que μ).
• El tamaño del error depende de la muestra
seleccionada.
• Es decir, un mayor tamaño de muestra no necesariamente
produce un error pequeño si la muestra no es
representativa.
7-18
Distribución Muestral
Una distribución muestral es una
distribución de probabilidad de los
posibles valores de un estadístico para
muestras (del mismo tamaño)
seleccionadas de una población.
͞x1
Población
Media μ
Muestra1
͞x2
Muestra 2
Valores
que
puede
tomar la
variable
aleatoria
͞
x
Muestra n
͞xn
Describir ͞x
A través de
una
distribución
muestral
Desarrollo de una Distribución
Muestral
Supongamos una población…
Tamaño de población N=4
Variable aleatoria, x, es la
edad de los individuos
Valores de x: 18, 20,
22, 24 (años)
A
B
C
D
Desarrollo de una Distribución
Muestral
(continuación)
Medidas de resumen para la distribución de la población:
x

μ
P(x)
i
N
0.3
18  20  22  24

 21
4
σ
2
(x

μ)
 i
N
0.2
0.1
0
 2.236
18
20
22
24
A
B
C
D
Distribución Uniforme
7-22
x
Desarrollo de una
Distribución Muestral
Considerar todas las muestras posibles de tamaño n=2
16 Medias
Muestrales
1era 2da Observación
Obs. 18 20 22 24
18 18 19 20 21
20 19 20 21 22
16 muestras posibles
(muestreo con
remplazo)
22 20 21 22 23
24 21 22 23 24
Desarrollo de una
Distribución Muestral
Distribución Muestral (todas las medias muestrales)
Distribución de
medias muestrales
16 Medias muestrales
1era 2da Observación
Obs. 18 20 22 24
18 18 19 20 21
P(x)
.3
20 19 20 21 22
.2
22 20 21 22 23
.1
24 21 22 23 24
0
Probabilidad de ocurrencia de
una particular media muestral
18 19
20 21 22 23
24
(No es distribución uniforme)
_
x
Desarrollo de una
Distribución Muestral
Medidas de resumen de esta distribución muestral:
μx
x


18  19  21   24

 21
N
16
σx 

i
Promedio de
las medias
muestrales
2
(
x

μ
)
 i x
N
(18 - 21)  (19 - 21)    (24 - 21)
 1.58
16
2
2
2
Comparando la Población con su
Distribución Muestral
Distribución de la
Población
N=4
μ  21
Distribución de la Media
Muestral
n=2
σ  2.236 μx  21
P(x)
.3
P(x)
.3
.2
.2
.1
.1
0
x
0
18
20
22
24
A
B
C
D
18 19
σ x  1.58
20 21 22 23
24
_
x
Propiedades de una Distribución
Muestral
• Para cualquier población,
– El valor promedio de todas las posibles medias muestrales calculadas
de todas las posibles muestras aleatorias de un tamaño dado de la
población es igual a la media poblacional.
Es considerado un
estimador “insesgado”
μx  μ
Teorema
– La desviación estándar de todas las posibles medias muestrales
calculadas de todas las posibles muestras aleatorias de tamaño n es
igual a la desviación estándar poblacional dividida por la raíz
cuadrada del tamaño de muestra.
Llamado también
error estándar
σ
σx 
n
Teorema
Si una Población es Normal
Si una población es normal con media μ y
desviación estándar σ, la distribución muestral
de x también es normal con
y
σ
σx 
n
μx  μ
Teorema 3
A medida que n se incrementa la dispersión de la distribución
muestral se reduce
7-28
Propiedades de la Distribución
Muestral
• La media muestral es un estimador
insesgado
Distribución
Poblacional Normal
μ
μx  μ
Distribución
Muestral Normal
(tiene la misma media)
μx
Propiedades de la Distribución
Muestral
• La media muestral es un estimador consistente
(el valor de x se acerca a μ a medida que n crece):
Población
x
Tamaño de
muestra
pequeño
Si n crece,
σ x  σ/ n decrece
Tamaño de
muestra
grande
μ
Valor Z para la Distribución Muestral
de x
• El valor z para la distribución muestral de x:
(x  μ)
z
σ
n
Donde:
x
= Media muestral
μ = Media poblacional
σ = Desviación estándar poblacional
n = Tamaño de muestra
Corrección por Población Finita
• Aplicar la Corrección por Población Finita si:
– La muestra es grande relativa a la población
(n es mayor al 5% de N)
y…
– El muestreo es sin remplazo
Entonces
z
(x  μ)
σ Nn
n N 1
Donde: El factor de corrección por población finita es:
7-32
Nn
N 1
Teorema del Límite Central
Mientras el
tamaño de
muestra sea
suficientemente
grande…
n↑
La distribución
muestral se
hará casi
normal sin
considerar la
forma de la
población
Teorema del límite Central
Si 𝑥 es la media de una muestra aleatoria de
tamaño n tomada de una población con media 𝜇 y
varianza 𝜎 2 , entonces la forma de la distribución
𝑥−μ
𝑧= 𝜎
𝑛
Conforme n→ ∞es una distribución norma estándar
n(z;0,1) (Con media cero y varianza 1).
Se considera una buena aproximación cuando n>=
30.
¿Qué es suficientemente grande?
• Para la mayoría de las distribuciones, n > 30
dará una distribución muestral que es casi
normal.
• Para distribuciones simétricas, n > 15 es
suficiente.
• Para poblaciones con distribución normal, la
distribución muestral de la media será siempre
normal.
Usando la Distribución Muestral para
Medias
1.
2.
3.
4.
5.
Calcular la media muestral.
Definir la distribución muestral.
Definir la probabilidad de interés a calcular.
Convertir la media muestral a un valor z.
Encontrar la probabilidad usando la tabla de
distribución normal estándar.
Ejemplo1: Teorema límite central
Suponer una población con media μ = 8 y
desviación estándar σ = 3. Además una muestra
aleatoria de tamaño n = 36 es seleccionada.
¿Cuál es la probabilidad que la media de la
muestra esté entre 7.8 y 8.2?
Ejemplo1: Teorema límite central
Solución:
Incluso si la población no tiene distribución
normal, el teorema del límite central puede ser
usado (n > 30)
Entonces la distribución de muestreo de x es
aproximadamente normal con media μx = μ = 8
y desviación estándar
σ
3
σx 

 0.5
n
36
Ejemplo1: Teorema límite central


 7.8- 8
x -μ
8.2 - 8 
P(7.8 x  8.2)  P



3
σ
3


36
n
36 

 P(-0.4 z  0.4)  0.3108
Distribución de la Población
?
???
??
?
??
μ8
Distribución Muestral
Distribución Normal Estándar
0.1554
0.1554
?
?
Muestrear
Estandarizar
?
x
7.8
μx  8
8.2
x
-0.4
μz  0
0.4
z
Ejemplo 2: Teorema límite central
Una empresa de material eléctrico fabrica
bombillas de luz que tienen una duración que se
distribuye aproximadamente en forma normal,
con media de 800 horas y desviación estándar
de 40 horas. Encuentre la probabilidad de que
una muestra aleatoria de 16 bombillas tenga
una vida promedio menos de 775 horas.
Ejemplo 2: Teorema límite central
𝑥
= 𝑒𝑠 𝑒𝑙 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑑𝑒 𝑑𝑢𝑟𝑎𝑐𝑖ó𝑛 𝑑𝑒 𝑢𝑛𝑎 𝑏𝑜𝑚𝑏𝑖𝑙𝑙𝑎
μ = 800
𝜎 = 40
n = 16
𝑥 = 775
𝑃(𝑥 < 775)
Ejemplo 2: Teorema límite central
𝑃(𝑥 < 775) → 𝑃
𝑥−μ
𝜎
𝑛
<
775−μ
𝜎
𝑛
775 − μ
775 − 800
𝑃 𝑧<
→𝑃 𝑧<
𝜎
40
𝑛
16
𝑃 𝑧 < −2.5 =?
Ejemplo 2: Teorema límite central
En la tabla acumulada 𝑃 𝑧 < 2.5 = 0.9938
Entonces
𝑃 𝑧 < −2.5 = 1 − 𝐹(𝑧)
𝑃 𝑧 < −2.5 = 1 − 0.9938
𝑃 𝑧 < −2.5 = 0.0062
Ejemplo 3: Teorema límite central
Determinar la probabilidad de que el mismo
grupo aleatorio tenga una vida útil de 810 y 820
horas
𝑃(820 > 𝑥 > 810)
Ejemplo 3: Teorema límite central
820 − μ 𝑥 − μ 810 − μ
𝑃
> 𝜎 >
𝜎
𝜎
𝑛
𝑛
𝑛
820 − μ
810 − μ
𝑃
>𝑧>
𝜎
𝜎
𝑛
𝑛
820 − 800
810 − 800
𝑃
>𝑧>
40
40
16
16
Ejemplo 3: Teorema límite central
𝑃 2>𝑧>1
Ejemplo 3: Teorema límite central
𝑃 2>𝑧 >1 =𝐹 2 −𝐹 1
𝑃 2 > 𝑧 > 1 = 0.9772 − 0.8413
𝑃 2 > 𝑧 > 1 = 0.1359
Distribución muestral de la diferencia
entre dos promedios
Teorema:
Si se extraen al azar muestras independientes de
tamaños n1 y n2 de dos poblaciones, discretas o
continuas, con medias μ1y μ2 y varianzas σ12 y
σ22 respectivamente, entonces la distribuión
muestral de las diferncias de las medias, x1 −
x2 , esta distribuido aproximadamente de forma
normal con medias y varianzas dadas por:
Distribución muestral de la diferencia
entre dos promedios
μ𝑥1−𝑥2 = 𝜇1 − 𝜇2
σ2𝑥1−𝑥2
z=
σ12 σ22
=
+
𝑛1 𝑛2
(𝑥1 − 𝑥2) − (𝜇1 − 𝜇2 )
σ12 σ22
+
𝑛1 𝑛2
Ejemplo1: Diferencia de medias
Se lleva a cabo dos experimentos independientes
en los que se compara dos tipos diferentes de
pintura. Se pintan 18 especímenes con el tipo A y
en cada uno se registra el tiempo de secado en
horas. Lo mismo se hace con el tipo B. Se sabe que
las desviaciones estándar de la población son
ambas a 1. Suponiendo que el tiempo promedio de
secado es igual para los dos tipos de pintura,
encuentre 𝑃(𝑥𝐴 − 𝑥𝐵 > 1), donde 𝑥𝐴 𝑦 𝑥𝐵 , son los
tiempo de promedio de secado para muestras de
tamaño 𝑛𝐴 = 𝑛𝐵 = 18
Ejemplo1: Diferencia de medias
𝑃(𝑥𝐴 − 𝑥𝐵 > 1)
𝑃
𝑥𝐴 − 𝑥𝐵 − 𝜇𝐴 − 𝜇𝐵
σ𝐴2 σ2𝐵
+
𝑛𝐴 𝑛𝐵
𝑃
𝑧>
>
1 − 𝜇𝐴 − 𝜇𝐵
1 − 𝜇𝐴 − 𝜇𝐵
σ𝐴2 σ2𝐵
+
𝑛𝐴 𝑛𝐵
σ𝐴2 σ2𝐵
+
𝑛𝐴 𝑛𝐵
Ejemplo1: Diferencia de medias
𝑃
𝑧>
𝑃
𝑃
1−0
1
1
+
18 18
𝑧>
𝑧>
1
2
18
1
1
9
Ejemplo1: Diferencia de medias
𝑃 𝑧 > 3 = 1 − 𝐹 3 = 0.0013
La tabla da = 0.9987
Ejemplo
Los cinescopios para televisión del fabricante A
tiene una duración media de 6.5 años y una
desviación estándar de 0.9 años; mientras que de
los fabricantes B tienen una duración media de 6.0
años y una desviación estándar de 0.8 años. ¿Cuál
es la probabilidad de que de una muestra aleatoria
de 36 cinescopios del fabricante A tengan una
duración media que sea al menos de 1 año más que
la duración media de una muestra de 49
cinescopios del fabricante B?
Ejemplo 2: Diferencia de medias
𝑃(𝑥𝐴 − 𝑥𝐵 > 1)
𝑃
𝑥𝐴 − 𝑥𝐵 − 𝜇𝐴 − 𝜇𝐵
σ𝐴2 σ2𝐵
+
𝑛𝐴 𝑛𝐵
𝑃
𝑧>
>
1 − 𝜇𝐴 − 𝜇𝐵
1 − 𝜇𝐴 − 𝜇𝐵
σ𝐴2 σ2𝐵
+
𝑛𝐴 𝑛𝐵
σ𝐴2 σ2𝐵
+
𝑛𝐴 𝑛𝐵
Ejemplo 2: Diferencia de medias
𝑃
𝑃
𝑧>
𝑧>
1 − 6.5 − 6
0.9𝐴2 0.82𝐵
+
36
44
1 − 6.5 − 6
0.92 0.82
+
36
49
𝑃 𝑧 > 2.6537 = 0.004
Distribución Muestral de una
Proporción
El objeto del muestreo es la estimación de la proporción de
una población que satisface un determinado atributo.
Ejemplos:
• Un contador puede estar interesado en determinar la
proporción de saldos de cuentas por cobrar que están
correctas.
• Un supervisor de producción puede desear determinar el
porcentaje de productos libre de defectos.
• El departamento de investigación de mercados podría
desear conocer la proporción de compradores potenciales
que efectivamente compraran el producto.
Distribución Muestral de una
Proporción
• En todos estos casos se puede seleccionar una
muestra, calcular la proporción muestral y tomar una
decisión basada en los resultados de la muestra.
• Al igual que las medias muestrales, las proporciones
muestrales están sujetas al error muestral. La
distribución muestral de estas proporciones son un
medio para evaluar la magnitud potencial de estos
errores muestrales.
Proporción Poblacional, π
π = Proporción de la población que tiene
alguna característica
• Proporción muestral ( p ) proporciona un
estimado de π :
x
Número de éxitos en la muestra
p

n
Tamaño de la muestra
• Si hay dos resultados, p tiene distribución
binomial
Distribución Muestral de p
• Aproximado por una
distribución normal si:
nπ

5
–
n(1 π ) 5
P( p )
.3
.2
.1
0
0
Donde
μp  π
Distribución Muestral
y
.2
.4
.6
π (1 π )
σp 
n
(Donde π = Proporción poblacional)
8
1
p
Teorema 5
Valores Z para Proporciones
Estandarizar p a un valor z con la fórmula:
pπ
z

σp
• Si el muestreo es sin remplazo y n es
mayor al 5% del tamaño poblacional,
entonces
debe usar elσ
factor
de
p
corrección por población finita:
7-61
pπ
π (1 π )
n
σp 
π (1  π ) N  n
n
N 1
1.
2.
3.
4.
5.
6.
Usando la Distribución Muestral para
Proporciones
Determinar la proporción poblacional, p.
Calcular la proporción muestral, p.
Determinar la media y desviación estándar
de la distribución muestral.
Definir el evento de interés.
Si np y n(1-p) son ambos mayores que 5,
entonces convertir p a valor z.
Usar la tabla de la distribución normal
estándar para determinar la probabilidad.
Ejemplo1 : Distribución Muestral de
una Proporción
• Si la proporción verdadera de votantes que
apoyan la propuesta A es π = 0.4. ¿Cuál es la
probabilidad que una muestra de tamaño 200
dé una proporción muestral entre 0.40 y 0.45?

Es decir: Si π = 0.4 y n = 200. ¿Cuánto es
P(0.40 ≤ p ≤ 0.45)?
Ejemplo1 : Distribución Muestral de
una Proporción
Si π = 0.4 y n = 200. ¿Cuánto es
P(0.40 ≤ p ≤ 0.45)?
Determinar σp:
Convertir a
la normal
estándar
(valor z):
π(1 π)
0.4(1 0.4)
σp 

 0.03464
n
200
0.45 0.40 
 0.40 0.40
P(0.40 p  0.45)  P
z

.03464 
 .03464
 P(0  z  1.44)
Ejemplo1 : Distribución Muestral de
una Proporción
Si π = 0.4 y n = 200. ¿Cuánto es
P(0.40 ≤ p ≤ 0.45)?
Usar la tabla normal estándar:
Distribución
Muestral
P(0 ≤ z ≤ 1.44) = 0.4251
Distribución Normal
Estándar
0.4251
Estandarizar
0.40
0.45
p
0
1.44
z
Ejemplo1 : Distribución Muestral de
una Proporción
• Se discutió el error muestral.
• Se introdujo distribuciones muestrales.
• Se describió la distribución muestral de la media
– Para poblaciones normales.
– Usando el Teorema del Límite Central (normalidad
desconocida).
• Se describió la distribución muestral de la proporción.
• Se calculó probabilidades usando distribuciones
muestrales.
• Se discutió el muestreo de poblaciones finitas.