Inferencia basada en dos muestras

Download Report

Transcript Inferencia basada en dos muestras

Inferencia basada en
dos muestras
Inferencia basada en dos muestras
Hay dos muestras:
m1={X11, X21,…, Xn1}
m2={X12, X22,…, Xn2}
Cada muestra proviene de una
población
Ejemplos
 Comparar
el contenido de ácidos
grasos en semillas de dos variedades
distintas.
 Comparar el aumento de peso en
animales alimentados con dos pasturas
diferentes.
 Comparar el efecto de dos dosis de un
fungicida.
Ejemplos


Comparar los porcentajes de preñez
bajo dos protocolos de inseminación
artificial.
Comparar los porcentajes de lecturas
positivas para una virosis en pruebas
Elisa estándar y DAS-Elisa.
Inferencia basada en dos
muestras
El objetivo de la inferencia puede ser:
 Estimar la diferencia entre las
medias de las poblaciones (1-2) de
las cuales proceden las muestras
Contrastar hipótesis
diferencia (1-2)

sobre
la
Inferencia basada en dos muestras
Si el contraste es bilateral:
H0 : 1  2 = 0
H1 : 1  2  0
Inferencia basada en dos muestras
Si el contraste es unilateral derecho:
H0 : 1  2 vs. H1 : 1  2
Si el contraste es unilateral izquierdo:
H0 : 1  2 vs. H1 : 1  2
Inferencia basada en dos muestras


Muestras
independientes
Muestras
dependientes
Varianzas
poblacionales
conocidas
Varianzas
poblacionales
desconocidas
varianzas
iguales
varianzas
diferentes
Inferencia basada en dos muestras
El estadístico a usar en el contraste
de medias depende de:
La naturaleza de las muestras
Si se conocen las varianzas
poblacionales
Si las varianzas poblacionales son
iguales o diferentes
Inferencia basada en dos muestras
Muestras independientes
Varianzas poblacionales conocidas
La inferencia se basa en el estadístico:
X

Z
1
 X 2    1  2 
  12  22 



 n1 n2 
~ N (0,1)
usualmente las varianzas son desconocidas
Inferencia basada en dos muestras
Muestras independientes
Varianzas poblacionales desconocidas
¿Cómo son las varianzas poblacionales?
¿Son iguales o diferentes?
H0 :   
2
1
2
2
H1 :   
2
1
2
2
Inferencia basada en dos muestras
Muestras independientes: Varianzas
poblacionales desconocidas e iguales
La inferencia acerca de las medias se basa en el
estadístico:
 X1  X 2    1  2 
T
1 1
S   
 n1 n2 
~ Tn1  n2 2
2
p
2
2
(
n

1)
S

(
n

1)
S
1
2
2
S p2  1
n1  n2  2
Prueba T para muestras
independientes cuando las
varianzas son homogéneas
Inferencia basada en dos muestras
Muestras independientes: Varianzas
poblacionales desconocidas e iguales
Intervalo de confianza bilateral para la
diferencia de medias está dado por:
 x1  x2   t(1 / 2) ; n n 2
1
2
1 1
s   
 n1 n2 
2
p
Inferencia basada en dos muestras
Muestras independientes: Varianzas
poblacionales desconocidas diferentes
La inferencia acerca de las medias se basa en el
estadístico:
X 1  X 2    1  2 

T
~ tv
 S12 S22 
  
n
n

1
2 
S

S
 


2
1
n1
2

2
2
2
n2 
S

S

 n 
 n 
1
2 


n1  1
n2  1
2
1
2
2
2
2
Prueba T para muestras
independientes cuando las
varianzas no son homogéneas
Caso Normal-Muestras independientes
Muestras independientes: Varianzas
poblacionales desconocidas diferentes
Intervalo de confianza bilateral 1- para
la diferencia de medias :
 x1  x2   t(1 / 2) ;
s
s 
  
 n1 n2 
2
1
2
2
Ejemplo
Se desea determinar si al usar fertilización
nitrogenada en maíz, se modifica el
promedio del peso del grano. Se realiza un
ensayo en el cual se aplica fertilización a 24
parcelas experimentales y otras 24 parcelas
no se fertilizan. Al finalizar el ensayo se
registran los valores de la variable en
estudio en mg.
Las hipótesis propuestas son
H0: 1= 2 vs H1: 1  2
Ejemplo
Los resultados del ensayo son los
siguientes:
Fertilización
n
X
S2
Con
fertilizante
24
311.00
1953.25
Sin
fertilizante
24
261.98
1722.82
Inferencia basada en dos muestras
¿Las varianzas poblacionales son iguales o
diferentes?
Hipótesis
H0 :   
2
1
Estadístico
2
2
H1 :   
2
1
2
2
2
1
2
2
s
F
~ F( n1 1,n2 1)
s
Inferencia basada en dos muestras
Contraste para la homogeneidad
de varianzas
1953.95
F
 1.13
1722.82
Bajo H0 se
distribuye como
una F con 23 y 23
grados de libertad
Prueba F
Función de densidad
1.0
Densidad
0.8
0.5
F de Snedecor(23,23,0): p(evento)=0.0500
La región de aceptación para
un nivel de significación del
5% está delimitada por 0.43
y 2.31, correspondientes a
los cuantiles /2 y (1 - /2)
respectivamente
0.3
0.0
0.00 0.21 0.42 0.63 0.84 1.04 1.25 1.46 1.67 1.88 2.09 2.30 2.51 2.72 2.93 3.13 3.34 3.55
Variable
Tabla F
25
0.001
0.025
0.050
0.950
0.975
0.990
1
0.0721
0.1759
0.2358
249.260
998.087
6239.86
2
0.1084
0.2330
0.2954
19.4557
39.4575
99.4587
23
0.2712
0.4434
0. 5066
1.9963
2.2871
2.6857
Ejemplo
Como F=1.13 está en el intervalo
(0.43; 2.31) se acepta H0: 12= 22
Se concluye que no hay diferencias entre
las varianzas poblacionales.
Se cumple el supuesto de homogeneidad
de varianzas
Prueba T
X

T
1
 X 2    1  2 
1 1
S   
 n1 n2 
~ Tn1  n2 2
2
p
Reemplazando:
Prueba T
(23) 1953.95  (23) 1722.82
S 
 1838.385
24  24  2
2
p
T
 311  261.98   0 
1 
 1
1838.385   
 24 24 
 3.96
Prueba T
La región de
aceptación para un
nivel de significación
del 5% está delimitada
por -2.013 y 2.013,
correspondientes a los
cuantiles /2 y (1 /2) respectivamente
y 46 grados de libertad
Función de densidad
T Student(46): p(evento)=0.0500
0.40
Densidad
0.30
0.20
0.10
0.00
-5.11
-4.09
-3.07
-2.04
-1.02
0.00
Variable
1.02
2.04
3.07
4.09
5.11
Prueba T
Como T=3.96 no pertenece al intervalo
(-2.013; 2.013) se rechaza H0: 1= 2
Se concluye que hay diferencias entre las
medias.
El intervalo de confianza [24.11;73.94]
construido con una confianza del 95%
incluye al verdadero valor de la diferencia
entre las medias
Prueba T para muestras independientes
Ejemplo para uso de software
En un estudio para analizar la evolución
de tubérculos almacenados, se deseaba
comparar dos épocas de cosecha: Abril
y Agosto, las que determinan diferentes periodos de almacenamiento.
La variable en estudio fue la pérdida de
peso por deshidratación (en gr).
El archivo Época contiene las observaciones del estudio.
Inferencia basada en dos muestras
Muestras dependientes
 Los
datos se obtienen de muestras
que están relacionadas, es decir, los
resultados del primer grupo no son
independientes de los del segundo.
Ejemplo -Muestras dependientes
Se
quiere comparar el efecto de dos virus
sobre plantas de tabaco.
Se seleccionaron al azar 8 plantas y en cada
una de ellas se tomaron 2 hojas apicales.
Sobre cada hoja se aplicaron los preparados
conteniendo los virus cuyos efectos se
querían evaluar.
La variable de respuesta fue la superficie en
mm2 de las lesiones locales que aparecían
como pequeñas manchas oscuras en las
hojas.
Ejemplo
Preparado 1
Preparado 2
di
31
18
13
20
17
3
18
14
4
17
11
6
9
10
-1
8
7
1
10
5
5
7
6
1
X 1= 15
X 2 = 11
d= 4
H0 : 1  2 = 0
H1 : 1  2  0
o bien:
H0 :  = 0
H1 :   0
Caso Normal-Muestras dependientes

La inferencia se basa en el siguiente
estadístico, que depende de la media y la
varianza de las diferencias y del valor
hipotetizado para el promedio poblacional de
las diferencias ()
D  

T
~t
 S D2 


 n 
n 1
Caso Normal-Muestras dependientes

La prueba de hipótesis para la diferencia
de medias basada en este estadístico se
conoce como prueba T para muestras
apareadas.

Intervalo de confianza bilateral 1- para la
diferencia de medias () está dado por:
 D  t
(1 / 2); n 1
S 


 n 
2
D
Ejemplo
D   4  0

T

 2.63
 S D2 
 
 n 
4.30
8
Fijando  = 0.05, la región de aceptación
es el intervalo (t/2=-2.365 , t1- /2= 2.365),
con 7 grados de libertad
Ejemplo
Como T=2.63 es mayor que t1- /2= 2.365,
se rechaza H0: 1= 2
Se concluye que las diferencias observadas
entre las áreas dañadas por uno u otro
virus son estadísticamente significativas.
Prueba T para muestras apareadas
Ejemplo para uso de software
Para estudiar el efecto de la polinización sobre el peso promedio de las
semillas obtenidas, se efectuó un
experimento sobre 10 plantas. La
mitad de cada planta fue polinizada y
la otra mitad no. Se pesaron las
semillas de cada mitad por separado,
registrándose de cada planta un par de
observaciones. El archivo Poliniza contiene los valores registrados
Resumen
Muestras
Normales
Independientes
Varianzas
Homogéneas
Apareadas
Varianzas
Heterogéneas
Prueba T
Prueba T para
observaciones
Prueba T’
apareadas