Curso de Bioestadística Parte 9 Comparación de dos medias

Download Report

Transcript Curso de Bioestadística Parte 9 Comparación de dos medias

Curso de Bioestadística
Parte 9
Comparación de dos medias
Dr. en C. Nicolás Padilla Raygoza
Departamento de Enfermería y Obstetricia
División Ciencias de la Salud e Ingenierías
Campus Celaya-Salvatierra
Universidad de Guanajuato México
Presentación
 Médico Cirujano por la Universidad Autónoma de Guadalajara.
 Pediatra por el Consejo Mexicano de Certificación en Pediatría.
 Diplomado en Epidemiología, Escuela de Higiene y Medicina





Tropical de Londres, Universidad de Londres.
Master en Ciencias con enfoque en Epidemiología, Atlantic
International University.
Doctorado en Ciencias con enfoque en Epidemiología, Atlantic
International University.
Profesor Titular A, Tiempo Completo, Universidad de
Guanajuato.
Nivel 1 del Sistema Nacional de Investigadores
[email protected] [email protected]
Competencias
 Aplicará prueba de Z para obtener inferencias de la




comparación de dos medias pareadas.
Aplicará prueba de Z para obtener inferencias de dos
medias independientes.
Aplicará prueba de t para dos medias pareadas en
una muestra pequeña.
Aplicará prueba de t para dos medias independientes
en una muestra pequeña.
Obtendrá el intervalo de confianza para dos medias
pareadas e independientes.
Introducción
 Con frecuencia queremos hacer
comparaciones de dos grupos.
 Los métodos estadísticos usados para la
comparación de dos medias dependen de
cómo las dos medias fueron obtenidas. Los
datos pueden ser obtenidos de muestras
pareadas o no pareadas.
Datos pareados
 ¿Cómo obtenemos datos pareados?

Muestras pareadas ocurren cuando las
observaciones individuales en la primera
muestra son pareadas a las observaciones
individuales de la segunda muestra.
 Para datos cuantitativos usualmente ocurre
cuando hay mediciones repetidas en la
misma persona.
Ejemplo
 En un estudio para determinar si las
mediciones de peso al nacer son adecuadas,
se comparó el peso al nacer de recién
nacidos de un hospital en Celaya, Gto.
 Las mediciones fueron realizadas por
diferentes personas, para controlar el sesgo
de medición, estando un observador cegado
a la medición del otro observador.
Datos no pareados
 ¿Cómo obtenemos datos no pareados?

Obtenemos datos no pareados cuando
observaciones individuales en una muestra
son independientes de las observaciones
individuales de la segunda.
Ejemplo
 Para estudiar los efectos de un nuevo medicamento
para tratar la carga parasitaria de Ascaris
lumbricoides, los pacientes fueron aleatorizados para
recibir nitazoxanida (grupo A) y albendazol (grupo B).
 El efecto del medicamento en cada grupo fue medido
y comparado.
 En el análisis de datos pareados calculamos la
diferencia entre la primera y la segunda medición.
Esto nos da una muestra de diferencias, para luego
aplicar los métodos de análisis para datos
cuantitativos de una muestra.
Análisis de datos cuantitativos
pareados
 Cuando analizamos datos pareados, lo primero es calcular la
diferencia entre las dos observaciones individuales en cada par.
 Se midieron los pesos al nacer del recién nacidos en Celaya,
por dos observadores.
Paciente
Observador 1 (g)
Observador 2 (g)
Diferencia
(d)
1
2970
3010
- 40
2
3525
3650
-125
3
3100
3125
- 25
4
2750
2550
200
5
4000
4050
- 50
6
3200
3300
-200
7
3000
3000
0
8
2500
2700
-200
9
3200
3400
-200
10
3900
3700
200
Análisis de datos cuantitativos
pareados
 Para evaluar la diferencia en mediciones pareadas podemos calcular la
media de las diferencias y su intervalo de confianza; también podemos
calcular si la media de las diferencias es significativamente diferente de
0.
 La notación que usamos para indicar la media de las diferencias y
desviación estándar en la muestra y la población se muestran:
Media de
las
diferencias
Desviación
estándar
Población
Muestra
_
δ
_
d
σ
s
Intervalo de confianza
 Si no hay diferencia entre las mediciones
pareadas, la media de las diferencias será 0.
 Para calcular el intervalo de confianza de la
media de las diferencias de la muestra y
probar la hipótesis de que es igual a 0,
necesitamos conocer:



La media de las diferencias
La desviación estándar de las diferencias
El error estándar de la media de las
diferencias
Intervalo de confianza
 Podemos calcular el intervalo de confianza
alrededor de la media de las diferencias de la
muestra en la misma forma que los hicimos
para la media de una muestra.
 El intervalo de confianza al 95% nos dice que
tenemos 95% de confianza de que la
verdadera media de la población está entre el
intervalo de confianza al 95% a los lados de
la media de la muestra.
Intervalo de confianza
 La fórmula general para el intervalo de confianza al
95% es:

Estimación de la muestra ±1.96 x ES de la estimación
de la muestra
 Entonces el intervalo de confianza al 95% para la
media de las diferencias es:

δ±1.96 x (s(δ)/√n)
 δ es la media de las diferencias.
 1.96 es el multiplicador que usamos al calcular el
intervalo de confianza al 95%.
 Si lo calculamos al 90% usamos 1.64 como
multiplicador.
Ejemplo
 Intervalo de confianza al 95%




d de pesos al nacer = -34.0
s= 140.94
ES= 140.94/√10=44.60
-34±1.96 (44.60) = -121.42 a 53.42
Ejemplo
 Intervalo de confianza al 90%




d de pesos al nacer = -34.0
s= 140.94
ES= 140.94/√10=44.60
-34±1.64 (44.60) = -107.14 a 39.1
Prueba de hipótesis para una media de
diferencias
 Un intervalo de confianza al 95% nos da un
rango de valores a los lados de la media de
las diferencias que estamos confiados en un
95% que incluye la media de diferencias en
la población.
 También podemos calcular la probabilidad de
que, en promedio, no hay diferencia entre las
observaciones pareadas en la población,
usando una prueba de hipótesis.
Prueba de hipótesis para una media de
diferencias
 La hipótesis nula es que la media de las
diferencias en la población es cero:
Ho: δ = 0

Esto es equivalente a decir que la distribución
de la media de las diferencias de la muestra
es Normal, con media 0 y un error estándar
que depende de la desviación estándar de la
diferencia en la población.
 La hipótesis alternativa es que la media de la
diferencia en la población no es cero:
HA: δ ≠ 0
Prueba de hipótesis para una media de
diferencias
 La prueba de hipótesis:

Para probar la hipótesis nula calculamos la
prueba Z
Media de las diferencias de la muestra –
media de las diferencias de la hipótesis
d-0
z = ----------------------------------------------------- = -----------error estándar de la diferencia de
ES(d)
medias de la muestra

Donde la media de las diferencias de la hipótesis es cero.
Prueba de hipótesis para una media de
diferencias
 Calcular el valor de z en la prueba de
hipótesis, nos dice a cuantos errores
estándar de la media observada está el
centro de la distribución, definida por la
hipótesis nula.
δ-0
Z= ----------------S(δ) /√n
Ejemplo
 Hemos visto que la media de la diferencia de
peso en 10 recién nacidos fue de -34, con
s=140.9 e intervalos de confianza al 95% de
-121.42 a 53.42 gr.
 Queremos encontrar si las mediciones
tomadas por los dos observadores fueron
realmente diferentes.
Ejemplo
 Debemos señalar la hipótesis nula:



“En promedio, todas las mediciones posibles
tomadas por los dos observadores son
idénticas”, o
La media de las diferencias en la población es
cero.
La hipótesis alternativa será: la media de la
diferencia en la población no es cero.
Ejemplo
-34 – 0
Para probar la hipótesis calculamos z = ----------- = - 0.76
44.52
Asumiendo que la media de las diferencias está
Normalmente distribuida con media de cero, el resultado de
la prueba dice que la media de las diferencias estimada está
a -0.76 errores estándar del centro de la distribución.
 Refiriendo el valor de z de -0.76 a las tablas de dos colas de
la distribución Normal estándar el valor de p es 0.44.
 La conclusión es que aceptamos la hipótesis nula y decimos la
variación de muestreo es una probable explicación para las
diferencias en las medias.

Como obtener el valor de p
 En la tabla de la distribución Normal o Z,
buscamos en la columna Z el valor que
obtuvimos con nuestra prueba y vemos en la
columna p el valor que corresponde.
 Esta tabla se puede encontrar en libros de
texto de Bioestadística.
Muestras pareadas pequeñas
 Cuando el tamaño de muestra es pequeño, la
distribución de las muestras no es
exactamente Normal, pero sigue la
distribución t.
 Por este motivo, si el tamaño de muestra es
pequeños (menos de 50) usamos los valores
de la distribución t, para el cálculo del
intervalo de confianza y prueba de hipótesis.
Intervalo de confianza para muestras
pareadas pequeñas
 La fórmula para el intervalo de confianza al 95% es
estimación ± t0.05 (ES)
 Donde estimación es la media de las diferencias
 t0.05 es el valor de la distribución t a 0.05 de p con n-1
grados de libertad.
 La primera columna de la distribución t es grados de
libertad que corresponde a n-1. Vamos a la derecha
hasta donde cruce el valor que corresponda con p
0.05 y ese es el multiplicador que usamos para el
intervalo de confianza.
Prueba de hipótesis para muestras
pareadas pequeñas
 La fórmula para la prueba de hipótesis es:
t = media de diferencias – 0 /ES
 La fórmula es similar que la prueba de Z, sólo
que el resultado, para obtener el valor de p,
se busca en la tabla de la distribución t.
 La primer columna es grados de libertad (n-1)
y se busca a la derecha el valor de t que
obtuvimos y en la columna se comprueba el
valor de p.
Análisis de muestras independientes
 Difiere del análisis de datos pareados, ya que
observamos la diferencia entre dos medias
independientes en lugar de la media de las
diferencias de dos observaciones pareadas.
 Ejemplos


¿Los fumadores tienen diferente presión arterial que
los no fumadores?
En una muestra de fumadores y no fumadores:
 La presión arterial sistólica fue en promedio de 148 y
entre no fumadores de 138.
 La diferencia en medias es 148-138 =10.
Análisis de muestras independientes
 Notación:



Ya que estamos observando dos poblaciones
independientes y dos muestras son necesarias,
necesitamos notaciones adicionales. Que se muestran en la
tabla de abajo:
Recuerde que usamos letras griegas para parámetros de la
población y letras latinas para estimaciones de la muestra:
Los números inferiores nos sirven para diferenciar entre la
muestra 1 y la muestra 2, y entre las poblaciones 1 y 2.
Población
Muestra
1
2
1
2
_
_
Media
μ1
μ2
X1
X2
Desviación estándar
σ1
σ2
s1
s2
Distribución de muestreo para dos
muestras independientes
 La distribución de muestreo de la diferencia entre
dos medias independientes es encontrada usando
los mismos procedimientos usados para una sola
muestra.
 Tomamos repetidamente muestras aleatorias de
tamaño n1 y de tamaño n2 de una segunda
población y cada vez calculamos las medias (x1,x2)
y las desviaciones estándar (s1, s2) en ambas
poblaciones y luego medimos la diferencia entre las
medias para cada par de muestras.
 El resultado es una distribución de muestreo de
diferencias entre las dos medias independientes.
Distribución de muestreo para dos
muestras independientes
 Generando esta distribución podemos ver que:
1.- La media de la distribución de muestreo es el valor de la
población, que es la diferencia entre las dos medias de la
población.
2.- La desviación estándar de la distribución de muestreo depende
de n1 y n2, que son los tamaños de muestra.
3.- La forma de la distribución se vuelve más parecida a la Normal
cuando n1 y n2, se incrementan.
 Sabemos que la distribución de muestreo de cualquier
estimación de la muestra puede ser inferida de los datos
reunidos de sólo una muestra.
 Los mismos principios aplican en este caso: la distribución de
muestreo de la diferencia de medias puede ser inferida de sólo
un grupo de dos muestras. Para realizar esto, necesitamos:


La diferencia entre las dos medias de las muestras
El error estándar de la diferencia entre las dos medias de las muestras
Error estándar para la distribución de
la diferencia de medias
 El error estándar de la diferencia entre dos medias
independientes es la combinación de los errores
estándar de las dos distribuciones de muestreo
independiente.
 Sabemos que el error estándar de una media de la
muestra es:
s
ES = -------√n
 Varianza de la media es el cuadrado del error
estándar: Varianza = σ2 / n
Error estándar para la distribución de
la diferencia de medias
 Se puede mostrar que la varianza de dos medias independientes es
igual a la suma de las varianzas de las dos medias de las muestras, ya
que:
σ1
σ2
ES (X1) = ------ES (X2) = -------n
n
_
_
σ2 1
σ22
Varianza (X1 –X2) = varianza de X1 + varianza de X2 = --------- + ------n1
n2
 Las varianzas son sumadas debido a que cada una de las muestras
contribuye al error de muestreo de la distribución de las diferencias.
 Entonces, el error estándar de la diferencia entre dos muestras
independientes es dado por:
σ21
ES (X1 – X2) = √ ------n1
σ22
+ -----n2
Error estándar para la distribución de
la diferencia de medias
 En la mayoría de las situaciones no
conocemos las desviaciones estándar de la
población (σ1 y σ2); en la práctica
comúnmente, usamos las desviaciones
estándar de la muestra (s1 y s2), por lo que:
ES(X1 – X2) = √
s 21
------n1
s 21
+ --------n2
Intervalo de confianza para la
diferencia de dos medias
 Asumiendo que la distribución de muestreo
de (X1 – X2) es Normal, podemos calcular el
intervalo de confianza para la diferencia entre
dos medias usando la fórmula general:
Diferencia en medias ± 1.96 (ES (X1 –X2))

Para un intervalo de confianza al 95%,
asumiendo distribución Normal:
_
_
(X1 – X2) ± 1.96 [√(s21 / n1) + (s21 / n2)]
Ejemplo
 En un estudio para evaluar la eficacia de la solución
de rehidratación oral (SRO) en niños con diarrea
aguda, 40 niños estuvieron en el grupo de
tratamiento y 40 en el grupo control. Se midió la
duración media en horas de la diarrea y la desviación
estándar.
Grupo
n Media de duración de diarrea
s
Tratamiento 40
72
10
Control
40
120
12
Ejemplo
 Para calcular el intervalo de confianza al 95% para la
diferencia en medias de muestras independientes,
necesitamos primero calcular la diferencia en medias
y el error estándar:
_
_
X1 – X2 = 72 – 120 = - 48 horas
s21 s22
102 122
ES(X1 – X2) = √ -----+ ----- = √------ + ---- =√2.5+3.6 = 2.47
n1 n2
40
40
95% IC = -48 ± 1.96 (2.47)= - 52.8 a – 43.16
Ejemplo
 La diferencia en medias fue de -48 horas con
un error estándar de 2.47.
 Los intervalos de confianza al 95% nos dicen
que tenemos 95% de confianza en que la
diferencia en las medias de la duración de
diarrea en toda la población está entre – 52.8
horas y -43.16 horas.
 Como no incluye la unidad, puedo adelantar
que las diferencias en las medias son
estadísticamente significativas.
Prueba de hipótesis para dos medias
independientes
 Para calcular la probabilidad (valor de p) de que las dos medias
son iguales, usamos la prueba de hipótesis.
 Usamos la prueba de z en la misma forma, que lo hicimos para
la media de diferencias de muestras pareadas:
 La hipótesis nula es que las dos medias son iguales: Ho:
μ1 – μ2 = 0
 La hipótesis alternativa es: H1: μ1 - μ2 ≠ 0
 Así, la fórmula para la prueba de z es:
_
_
(X1 – X2) - 0
z = -----------------ES(X1 –X2)
ES (X1 –X2) = √(s21 /n1) + (s21 /n2)
Ejemplo
 Apliquemos la prueba de hipótesis para el estudio de solución de
rehidratación oral, de que la duración de la diarrea es en promedio la
misma para ambos grupos.

La diferencia de medias es – 48 horas. El error estándar es 2.47.
- 48 - 0
Z = ----------- = - 19.43
2.47




Esto nos dice que la diferencia observada es -19.43 errores estándar
del centro de la distribución (0).
El valor de p, para z = - 19.43 es <0.0001
Si no hubiera diferencia en la duración de la diarrea entre los dos
grupos, debería haber una pequeña oportunidad (p<0.0001) de
observar una diferencia tan extrema como la observamos.
Podemos decir que es más probable que la diferencia entre las dos
medias sea diferentes, o sea, que la diferencia en el promedio del
grupo con SRO con el control, son estadísticamente diferentes.
Muestras pequeñas con dos medias
independientes
 Cuando comparamos dos muestras independientes
que son pequeñas, usamos la distribución t en lugar
de la distribución Normal para calcular los intervalos
de confianza y para probar hipótesis.
 El procedimiento es similar al que hemos usado para
datos de una muestra, con una excepción: el cálculo
del error estándar.
 La varianza común:
Con muestras pequeñas estimamos una varianza
común usando los datos de dos muestras
independientes. Es el promedio de las dos varianzas:
(n1 – 1)s21 + (n2 -1)s21
S2 = --------------------------(n1 – 1) + (n2 -1)

Muestras pequeñas con dos medias
independientes
 El error estándar de la diferencia entre la
media de la muestra es:
ES(X1-X2) = s x √1/n1 + 1/n2
Ejemplo
 En un estudio para el tratamiento de anemia
por deficiencia de hierro, con dos tipos
diferentes de hierro, se aleatorizaron los
escolares de un pueblo, para recibir uno u
otro tratamiento.
 Al inicio, los niveles de hemoglobina (HB) en
g/Dl. eran similares en ambos grupos.
 Después de 3 meses de tratamiento se
midieron los niveles de HB.
Ejemplo
Hemoglobina
n Media (g/Dl.) s
Hierro A 15
14.8
0.5
Hierro B 13
12.1
1.1
Intervalo de confianza al 95% = diferencia de
medias ± multiplicador t0.05 x ES
Multiplicador t0.05 con n-2 grados de libertad =
2.056
S2 = (15-1)0.52 + (13 -1)1.12 /15-1 + 13-1 =3.5
+14.52/26 = 18/26 =0.69
Ejemplo
Hemoglobina
n Media (g/Dl.) s
Hierro A 15
14.8
0.5
Hierro B 13
12.1
1.1
Intervalo de confianza al 95% = 14.8 - 12.1 ±
2.056 x 1.21
ES = s √1/n1 + 1/n2 = √0.69 x√1/15 + 1/13=
0.83 x 0.379 = 0.32
IC95% = 2.7± 0.66 = 2.04 a 3.36
Ejemplo
Hemoglobina
n Media (g/Dl.) s
Hierro A 15
14.8
0.5
Hierro B 13
12.1
1.1
Ho: µ1=µ2 o µ1-µ2= 0
HA: µ1≠µ2 o µ1-µ2≠ 0
t= (14.8 - 12.1)-0 / 0.32 = 8.44
gl n-2 = 26 p<0.05
Bibliografía
 1.- Last JM. A dictionary of epidemiology.
New York, 4ª ed. Oxford University Press,
2001:173.
 2.- Kirkwood BR. Essentials of medical
ststistics. Oxford, Blackwell Science, 1988: 14.
 3.- Altman DG. Practical statistics for medical
research. Boca Ratón, Chapman & Hall/
CRC; 1991: 1-9.