6. Pruebas de significancia

Download Report

Transcript 6. Pruebas de significancia

6. Inferencia estadística: Pruebas de significancia
• Objetivo: Usar métodos estadísticos para verificar
hipótesis tales como
– “Salud mental tiende a ser mejor para niveles más
altos de status socioeconómico (SES)” (un efecto)
– “Para tratar anorexia, terapias de comportamiento
cognitivo y familiar tienen el mismo efecto” (no
efecto)
1
• Hipótesis: Predicciones sobre la población expresadas
en términos de parámetros para ciertas variables.
• Una prueba de significancia usa datos para resumir
evidencia sobre una hipótesis comparando
estimaciones muestrales de parámetros con valores
predichos por las hipótesis.
• Respondemos a preguntas como, “Si la hipótesis fuera
verdad, sería improbable obtener estimaciones como
las que obtuvimos?”
2
Cinco partes de una prueba de significancia
1. Supuestos
–
–
–
–
sobre los tipos de datos (cuantitativos, categóricos),
métodos de muestreo (aleatorio),
distribución de la población (binaria, normal),
tamaño de muestra (grande?)
2. Hipótesis
– Hipótesis nula (H0): Afirmación que parámetro(s) toma(n)
valor(es) determinado(s) (Generalmente: “no efecto”)
– Hipótesis alternativa (Ha): establece que valores del
parámetro caen en algún rango alternativo de valores (un
“efecto”)
p.1 ejemplos?
3
3. Prueba estadística: Compara datos con lo que la hip. Nula
H0 predice, a menudo encontrando el número de errores
estándar entre la estimación muestral y el valor del
parámetro en H0
4. Valor-p (P): Una medida de probabilidad de evidencia
sobre H0, dando la probabilidad (bajo el supuesto de que
H0 es verdadera) que la estadística de prueba sea igual al
valor observado o uno incluso un valor más extremo en la
dirección predicha por Ha.
–
Entre más pequeño el valor-p, más fuerte la evidencia contra H0.
5. Conclusión:
–
–
Si no se necesita una decisión, reportar e interpretar el
valor-p
Si se necesita una decisión, seleccionar el punto de corte
(como 0.05 ó 0.01) y rechazar H0 si el valor-p ≤ ese valor 4
5. Conclusión (continuación)
– El nivel mínimo más comúnmente aceptado es
0.05, y se dice que la prueba es significativa a un
nivel de 0.05 si el valor-p ≤ 0.05.
– Si el valor-p no es lo suficientemente pequeño, no
rechazamos H0 (entonces, H0 es no
necesariamente verdardera, pero sí plausible)
– Proceso es análago al sistema judicial Americano
• H0: Acusado es inocente
• Ha: Acusado es culpable
5
Prueba de significancia para la media
1. Supuestos: Aleatorización, variable cuantitativa,
distribución de la población normal
2. Hipótesis nula: H0: µ = µ0 donde µ0 es un valor
determinado para la media poblacional (típicamente
“no efecto” o “sin cambios” del estándar)
Hipótesis alternativa: Ha: µ  µ0 (alternativa de doslados incluye ambos > y < valores de la nula)
3. Estadística de prueba: El número de errores estándar
que la media muestral cae del valor de H0
y  0
t
se
where se  s / n
6
— Cuando H0 es verdadera, la dist. muestral de la estadística
de prueba-t tiene una distribución t con df = n - 1.
4. Valor-p: Bajo el supuesto que H0 es verdadera, la
probabilidad que la prueba estadística sea igual al valor
observado o incluso un valor más extremo (es decir, más
grande en valor absoluto), provee más fuerza en la
evidencia contra H0
– Esta es una probabilidad de dos-colas, para una Ha de
dos-lados
5. Conclusión: Reportar e interpretar valor-p. Si es
necesario, tomar una decisión sobre H0.
7
Ejemplo: Estudio de anorexia (anteriormente visto)
• Peso medido antes y después del periodo de
tratamiento
y = peso al final – peso al inicio
• En capítulos anteriores, encontramos IC para la media
poblacional de y con base en n=17 niñas recibiendo
“terapia familiar”, con los datos
y = 11.4, 11.0, 5.5, 9.4, 13.6, -2.9, -0.1, 7.4, 21.5, -5.3,
-3.8, 13.4, 13.1, 9.0, 3.9, 5.7, 10.7
8
Hay evidencia de que la terapia familiar tenga un efecto?
• Sea µ = media del cambio en peso poblacional
• Probar H0: µ = 0 (no efecto) contra Ha: µ  0.
• Datos tienen
--------------------------------------------------------------------------------------Variable
N
Mean
Std.Dev. Std. Error Mean
weight_change 17
7.265
7.157
1.736
----------------------------------------------------------------------------------------
Recordar que el error estándar (se) se obtiene con
se  s / n  7.157 / 17  1.736
9
• Prueba estadística (df = 16):
y  0 7.265  0
t

 4.2
se
1.736
• Valor-p: P = 2P(t > 4.2) = 0.0007
– Nota que tabla t (Tabla B, p. 593) nos dice que P(t > 3.686) =
0.001, entonces la prueba estadística t = 3.686 (ó -3.686)
tendría valor-p = 0.002
– Interpretación: Si H0 fuera verdadera, habría una probabilidad
= 0.0007 de obtener una media muestral de al menos 4.2
errores estándar del valor 0 de la nula.
• Conclusión: Evidencia muy fuerte que la media población difere
de 0. (Específicamente, parece que µ > 0, como fue sugerido
por el IC del 95% CI (3.6, 10.9) que econtramos en las notas del
Cap. 5)
10
Resultados de SPSS
One-Sample Statistics
N Mean Std. Deviation Std. Error Mean
weight_change
17 7.265
7.1574
1.7359
One-Sample Test
Test Value = 0
t df Sig. (2-tailed) Mean
95% Confidence
diff. Interval of the Difference
Lower
Upper
weight_change 4.185 16
.001
7.2647
3.58
10.945
11
Equivalencia entre los resultados de
la prueba de significancia y el intervalo de confianza
• Cuando el valor-p ≤ 0.05 en una prueba de dos-lados,
un intervalo de confianza del 95% para µ no contiene el
valor de H0 de µ (tal como 0)
• Cuando valor-p > 0.05 en una prueba de dos-lados, un
intervalo de confianza del 95% necesariamente
contiene el valor de H0 de µ
(Esto es cierto para pruebas de dos-lados)
• Un intervalo de confianza tiene más información acerca
del valore real de µ
12
Ejemplo
• Asume media muestral = 7.265, s = 7.16,
basado en n = 4 (en lugar de n = 17)
• Entonces,
se  s / n  7.16 / 4  3.58
and t  (7.265  0) / 3.58  2.0
con df = 3, tiene valor-p dos-lados = 0.14.
• Evidencia no muy fuerte contral la hipótesis nula.
Es plausible que µ = 0.
• Margen de error = 3.182(3.58) = 11.4, y un intervalo de
confianza del 95% es (-4.1, 18.7), el que contiene 0 (de
acuerdo con los resultados de la prueba)
13
Prueba de un-lado para la media
• Ejemplo: Si el estudio predice que la terapia familiar
tiene un efecto positivo, podemos usar Ha: µ > 0
• Datos apoyan esta hipótesis si t está lejos de la cola
derecha, entonces valor-p = probabilidad cola-derecha.
valor-p: P = P(t > 2.0) = 0.07 (para el caso n = 4)
• Para Ha: µ < 0, valor-p = probabilidad cola-izquiera
valor-p: P = P(t < 2.0) = 0.93
• En la práctica, pruebas de dos-colas son más comunes
14
Tomando una decisión
• El nivel- es un número fijo, también llamado nivel de
significancia, como
– Si valor-p ≤ , “se rechaza H0”
– Si valor-p > , “no se rechaza H0”
– Nota: Decimos “No se rechaza H0” en lugar de
“Aceptar H0” porque el valor de H0 uno de todos los
valores plausibles.
• Ejemplo (n = 4, dos-colas): Asume  = 0.05. Ya que el
valor-p = 0.14, no se rechaza H0 . Pero 0 es sólo un
valor en el rangos de valores posibles en el intervalo de
confianza del 95% (-4.1, 18.7).
15
Efecto del tamaño de muestra en las pruebas
• Con n grande (digamos, n > 30), no es importante el supuesto de
distribución normal de la población por el Teorema Central del
Límite.
• Para n pequeña, las pruebas-t de dos-lados son robustas contra
violaciones de este supuesto. Pruebas de un-lado no son
robustas.
• Para una media y desviación estándar muestrales observados, a
mayor tamaño de muesta n, más grande la prueba estadística
(porque el error estándar en el denominador es más pequeño) y
más pequeño el valor-p. (es decir, con más datos tenemos más
evidencia)
• Estamos más propensos a rechazar una H0 falsa cuando tenemos
un tamaño de muestra más grande (entonces a prueba tiene
más “poder”)
• Con un tamaño de muestra grande n, “significancia estadítica”
no es igual a “significancia práctica.”
16
Ejemplo
• Asume el estudio de anorexia tiene un cambio de peso
con
y  1.0, s  2.0, for n  400
• Prueba
Then se  2.0 / 400  0.1,
t  (1.0  0) / 0.1  10.0,
P  value = 0.000000.......
IC del 95% es 1.0 ± 1.96(0.1), ó (0.8, 1.2).
• Esto muestra que el efecto es positivo, pero que es muy
pequeño para términos prácticos.
17
Prueba de significancia para una proporción 
• Supuestos:
– Variable categórica
– Aleatorización
– Muesta grande (pero dos-lados ok para casi toda n)
• Hipótesis:
– Hipótesis nula: H0:   0
– Hipótesis alternativa : Ha:   0 (dos-lados)
– Ha:  > 0
Ha:  < 0 (un-lado)
– Establecer las hipótesis antes de obtener los datos
18
• Prueba estadística:
Nota
z
ˆ   0
ˆ   0


 0 (1   0 ) / n
ˆ
 ˆ  se0   0 (1   0 ) / n , not se  ˆ (1  ˆ ) / n as in a CI
Como en la prueba para la media, la prueba estadística tiene la
forma
(estimación del parámetro – valor H0)/(error estándar)
= núm. de errores estándar del estimador del valor de H0
• Valor-p:
Ha:   0 valor-p = prob. 2-colas de la dist. normal estándar
Ha:  > 0 valor-p = prob. cola-derecha de la dist. normal est.
Ha:  < 0 valor-p = prob. cola-izquierda de la dist. normal est.
• Conclusión: Como en la prueba para la media (p.ej., rechazar H0
si valor-p ≤ )
19
Ejemplo: Pueden los perros oler cáncer?
(British Medical Journal, Sept. 25, 2004)
• En cada ensayo, una muestra de orina del cáncer de
vejiga colocada entre seis muestras de control de la
orina
• Los perros hacen una selección correcta, mejor que si
adivinaran al azar?
• En 54 ensayos, los perros hace una selección correcta
22 veces.
Sea  = probabilidad de acierto, para un determinado
ensayo
H0:  = 1/7 (= 0.143, no efecto), Ha:  > 1/7
Proporción muestral = 22/54 = 0.407
20
Error estándar
se0   0 (1   0 ) / n  (1/ 7)(6 / 7) / 54  0.0476
• Prueba estadística
z = (muesta – nula)/se0 = [0.407 – (1/7)]/0.0476 = 5.6
• Valor-p = prob. cola derecha de la normal estándar
= 0.00000001
• Esta es evidencia extremadamente fuerte que la
selección de los perros es mejor que adivinar
aleatoriamente (para la población conceptual que
representa esta muestra
• Para un punto de corte estándar  de 0.05, rechazamos
H0 y concluimos que  > 1/7.
21
• Advertencia: como en la mayoría de los estudios médicos,
los sujetos fueron una muestra de conveniencia. No es
realista buscar una muestra aleatoria de pacientes de
cáncer de vejiga o de perros para el experimento.
• A pesar de que las muestras no son aleatorias, es
importante emplear la aleatorización en el experimento, en
la colocación de la muestra de orina de pacientes de cáncer
de vejiga entre las 6 muestras de control.
22
Decisiones en pruebas
• Nivel- (nivel de significancia): Pre-especificado punto
de corte para rechazar H0 si el valor-p es menor a este
valor (típicamente 0.05 ó 0.01)
P-Value
.05
> .05
H0 Conclusion
Reject
Do not Reject
Ha Conclusion
Accept
Do not Accept
• Región de rechazo: Valores de la estadística de prueba
para los que rechazamos la hipótesis nula
• Para pruebas de dos-lados con  = 0.05, rechazamos H0
si |z| 1.96
23
Tipos de errores
• Error Tipo I: Rechazar H0 cuando es verdadera
• Error Tipo II: No rechazar H0 cuando es falsa
Resultado
de la prueba
Estado
verdadero
H0 Verdadera
H0 Falsa
Rechazar H0
No rechazar H0
Error Tipo I
Correcto
Correcto
Error Tipo II
24
P(Error Tipo I)
• Asume nivel- = 0.05. P(Error Tipo I) = P(rechazar nula,
dado que es verdadera) = P(|z| > 1.96) = 0.05
– Es decir, nivel- es la P(Error Tipo I).
• Dado que le “damos es beneficio de la duda a la nula” al
hacer esta prueba, por lo general se escoge  pequeña,
usualmente 0.05, se considera 0.01 es muy cauteloso para
no rechazar la nula cuando sea cierta.
• Como en los ICs, no usamos  demasiado pequeña, ya que
a medida que  disminuye,  = P(Type II error) aumenta
(Piensa en la analogía a un juicio)
• Es mejor reportar el valor-p que simplemente decir que
rechazamos H0
(Son valor-p = 0.049 y 0.051 muy diferentes?) (Ve ej. 6.24)
25
P(Error Tipo II)
• P(Error tipo II) =  depende del verdadero valor del
parámetro (del rango de valores en Ha ).
• Entre más lejos el valor verdadero del parámetro del
valor de la nula, más fácil es rechazar la nula, y P(Error
tipo II) disminuye. (ver gráfica de dist. nula y alternativa)
• Poder de la prueba= 1 -  = P(rechazar nula, dado que
es falsa)
• En la práctica, queremos una n lo suficientemente
grande tal que P(Error tipo II) es pequeña para el
tamaño del efecto que esperamos.
26
Ejemplo: Probando nuevo tratamiento para anorexia
• Para un nuevo tratamiento , esperamos el cambio en peso =
alrededor a 10 libras, con desv. est. de alrededor a 10. Si
nuestro estudio tendrá n = 20, cuál es P(Error tipo II) si
planeamos probar H0: µ = 0 contra Ha: µ > 0, usando  =
0.05?
• No rechazamos H0: µ = 0 si obtenemos valor-p > 0.05
• Obtenemos valor-p = 0.05 si la prueba estadística t = 1.729
(es decir, con df = 19, 0.05 es la prob. de la cola-derecha
arriba de 1.729, entonces la “región de rechazo” incluye
valores de t > 1.729)
• Con n = 20, esperamos un error estándar de
se  10 / 20  2.24
27
• Obtenemos t = 1.729 si la media muestral es
1.729(2.24) = 3.87. Es decir, t = (3.87 – 0)/2.24 = 1.729.
• Así, obtenemos t < 1.729 y valor-p > 0.05 (y cometemos
un error Tipo II) si la media muestral < 3.87.
• Pero, si en realidad µ = 10, una media muestral de 3.87
está (3.87 – 10)/2.24 = -2.74 errores estándar de µ
(es decir, 2.74 errores estándar abajo de µ = 10)
• Cuando df = 19, la probabilidad de caer al menos 2.74
errores estándar abajo de la media es de 0.007. Así,
existen muy poca posibilidad de un error tipo II.
• Pero, si µ es en realidad sólo 5? (ejercicio; > 0.007 or <
0.007?)
28
Limitaciones de pruebas de significancia
• Significancia estadística no implica significancia
práctica (Recuerda ejemplo en p. 17 de estas notas)
• Pruebas de significancia no nos dan información sobre
el tamaño del efecto (como lo hace el IC)
• Algunas pruebas puede resultar ser “estadísticamente
significativas” sólo por casualidad
(y algunas revistas sólo reporta resultados
“significativos”!)
29
Ejemplo: Son muchos de los “descubrimientos” médicos, en
realidad errores Tipo I?
• Realidad: La mayoría de estudios médicos son “nosignificativos,” no se encuentra un efecto.
• En investigación médica, cuando un efecto existe pero no es
fuerte, puede no ser detectado con los tamaños de muestra
prácticos para el estudio.
• (Un artículo de British Medical Journal en 2001 estimató
que cuando un efecto realmente existe, P(Error tipo I) =
0.50!)
• En estudios médicos, asume que un efecto realmente existe
8% de las veces. Podría un porcentaje substancial de
“descubrimientos” médicos (es decir, resultados
significativos) en realidad ser errores tipo I?
30
Solución simple
• Dibuja un diagrama de árbol para morstrar que esperaríaramos
que pasara con muchos estudios (digamos, 1000)
Verdadero
efecto?
Decisión
Rechazar nula?
Sí (40)
Sí (80) --------------|
No (40)
1000 estudios---|
Sí (46 = .05 x 920)
No (920) -----------|
No (874)
De los estudios con hipótesis nula rechazada, la tasa de error
Tipo I = 46/(46+40) = 0.53
31
• Moraleja: Sé escéptico cuando oirgas reportes de
nuevos avances médicos.
• Puede no ser un efecto real
(es decir, todo el estudio puede ser de tipo I!)
• Si un efecto real existe, podemos estar viendo el
resultado en la cola-derecha de la distribución muestral
de los posibles efectos de la muestra, y el efecto real
puede ser mucho más débil que el reportado.
(dibujo de lo que quiero decir con esto)
32
Caso real: Un estudio en 1993 estimó que las inyecciones
de magnesio podrían duplicar la posibilidad de
sobrevivir un ataque al corazón.
Un estudio más grande de 58,000 pacientes de ataque
cardiaco no encontró ningún efecto en absoluto.
33
Imagen de Agresti and Franklin, Statistics: The Art and Science of
Learning from Data (p. 468)
34
La distribución binomial
Si
• Cada observación es binaria (una de dos categorías)
• Probabilidades para cada observ.:  para categoría 1
1 -  para categoría 2
• Las observaciones son independientes, entonces para n
observaciones, el número x en la categoría 1 tiene
n!
P( x) 
 x (1   )n x , x  0,1,..., n
x !(n  x)!
• Esta puede ser usada para llevar a cabo pruebas sobre 
cuando n es demasiado pequeña para contar con métodos
para muestras grandes (p.ej., cuando se espera que el
número de observaciones en cada categoría < alrededor de
10)
35
Ejemplo: Ejercicio 6.33 (Percepción extrasensorial)
• Persona dice ser capaz de adivinar con frecuencia el resultado
de cara o cruz en la otra habitación correctamente
•  = probabilidad de adivinar correctamence (en cualquier
lanzamiento)
• H0:  = 0.50 (adivinando al azar)
• Ha:  > 0.50 (mejor que adivinar al azar)
• Experimento: n = 5 lanzamientos, x = 4 correctos. Encuentre
el valor-p, e interprételo. (No se puede asumir que esta
propoción muestral tiene una dist. normal. Los conteos
esperados son 5(0.50) = 2.5 correctos, 2.5 incorrectos, que
son menos de 10; se necesita n ≥ 20 para usar TCL)
36
La distribución binomial para n = 5,  = 0.50
P(0) 
n!
5!
 x (1   )n  x 
(0.50)0 (0.50)5  (0.50)5  1/ 32
x !(n  x)!
0!5!
n!
5!
x
n x
P(1) 
 (1   ) 
(0.50)1 (0.50) 4  5(0.50)5  5 / 32
x !(n  x)!
1!4!
P(2) 
n!
5!
 x (1   )n x 
(0.50) 2 (0.50)3  10(0.50)5  10 / 32
x !(n  x)!
2!3!
5!
0.53 (1  0.5) 2  10 / 32
3!2!
5!
P(4) 
0.54 (1  0.5)1  5 / 32
4!1!
5!
P(5) 
0.55 (1  0.5)0  1/ 32
5!0!
P(3) 
37
• Para Ha :  > 0.50,
valor-p es la probabilidad del resultado observado o
uno incluso más extremo en la cola-derecha
= P(4) + P(5) = 6/32 = 0.19
No hay mucha evidencia que apoye esta afirmación
Necesitaríamos observar x = 5 en n = 5 ensayos para
rechazar la nula a un nivel de 0.05
(Entonces, valor-p = 1/32 < 0.05)
38
Notas sobre la distribución binomial
• La binomial es la distribución de probabilidad más
importante para datos categóricos
• Se puede usar la binomial para encontrar prob. para
ejemplos en el Cap. 4 donde construimos dist.
muestrales para el número (o proporción) que apoyan
al nuevo plan de sistema de salud con n = 4 personas
• Dist. binomial para x = número en la categoría 1 tiene
  E( x)  n ,   n (1   )
mientras que la proporción muestral ˆ = x/n tiene
E(ˆ )   ,  ˆ   (1   ) / n
39
Ejemplo
• Resultados de una proporción con n = 1000,  = 0.50
• x = número en la categoría de interés tiene
  E( x)  n  1000(0.50)  500,   n (1   )  1000(0.50)(0.50)  15.8
• proporción ˆ en la categoría de interés tiene
E(ˆ )    0.50,  ˆ   (1   ) / n  (0.50)(0.50) /1000  0.0158
• El efecto de n? A medida que n aumenta, la dispersión
de la distribución aumenta para el número, disminuye
para la proporción. Se vuelve más con forma de
campana a medida que n aumenta. Ver gráficas en p.
171 .
40
Revisión de preguntas de pruebas de significancia
Una minoría de Americanos cree que el matrimonio entre
personas del mismo sexo debe ser legal? Cuál es la
hipótesis alternativa apropiada?
a.
b.
c.
d.
e.
Ha :   0.50
Ha :ˆ < 0.50
Ha :  > 0.00
Ha :  < 0.50
Ha :   0.50
41
Qué le pasa a la P(Error tipo II)
1. Cuando se disminuye la P(Error tipo I) de 0.05 a 0.01
para tomar una decisión?
2. Cuando la proporción poblacional real se acerca al
valor de la hipótesis nula?
a. Disminuye
b. Aumenta
c. Permanece igual
42
Practiquemos con otro ejercicio (tarea opcional ej. 6.21)
Pregunta de opción múltiple, 4 opciones. Prueba si la
probabilidad de una respuesta correcta es más alta
que la que uno esperaría si se adivinaran
aleatoriamente las respuestas.
a. Establece las hipótesis
b. Para 400 estudientes, 125 obtienen respuestas
correctas. Encuentra valor-p e interprétalo.
(respuesta: valor-p = 0.002)
43