Prueba T Student (paramétrica)
Download
Report
Transcript Prueba T Student (paramétrica)
Bioestadística Aplicada I
NMRCD – Programa GEIS
UPCH – FASPA
ABE Perú
Sexta clase:
Métodos paramétricos y no
paramétricos
Medias, varianza y correlación
Pruebas para variables continuas
Bioestadística Aplicada
Porqué usamos pruebas no
paramétricas?:
Porque no siempre se cumplen todos los
supuestos requeridos por las pruebas de
hipótesis tradicionales (paramétricas):
Distribución normal
Tamaño de muestra “grande”
Varianzas iguales (?)
Si la distribucion de la poblacion es sesgada
(Por lo que la media no es buen indicador de
tendencia central)
Bioestadística Aplicada
Cómo se aplican estas pruebas:
Aplicar una transformación a los datos originales,
convertiéndolos en rangos, valores positivo o
negativo, etc.
Con los datos transformados, calcular un
estadístico en base a los datos (a veces también
se calcula su promedio y error estándar)
Con el estadístico y los parámetros calculados,
realizar una prueba de hipótesis de acuerdo a
una cierta distribución paramétrica (Normal, Jicuadrado, Binomial, etc.)
Bioestadística Aplicada
Transformaciones de datos
Si los datos tienen una distribución
sesgada, en ocasiones pueden
transformarse para eliminar los sesgos
En algunos casos se puede emplear un
test paramétrico después de la
transformación
Bioestadística Aplicada
Ejemplo:
Si trabajamos con parasitemia, con
frecuencia tendremos que aplicar una
transformación
Log
Bioestadística Aplicada
Comando ‘gladder’:
Bioestadística Aplicada
Análisis con variables numéricas:
Análisis
Paramétrico
No paramétrico
Describir un grupo
, 2
Mediana, rango
intercuartil
Comparar un grupo T Student de una
a un valor
muestra
Prueba Wilcoxon
Comparar medias
en 2 grupos
T Student de dos
muestras
Mann-Whitney
Comparar medias
en 2 grupos
apareados
T Student
apareada
Prueba Wilcoxon
Comparar medias
en 3 o mas grupos
ANOVA
Kruskal-Wallis
Correlación entre
dos variables
Pearson (lineal)
Spearman
(monotónica)
Bioestadística Aplicada
Comparación de una muestra
contra una constante
Se piensa que la edad de inicio del consumo
de cigarrillos es la adolescencia
Puntualmente se plantea que el consumo se
inicia a los 15 años
Si la distribución es sesgada o la muestra es
pequeña, una prueba paramétrica sobre la
media puede ser poco relevante
Bioestadística Aplicada
.1
0
.05
Fraction
.15
.2
histogram p59, fraction
0
20
40
¿qué edad tenía ud. cuando fumó cigarrillos por primera vez?
Bioestadística Aplicada
60
Prueba T Student de una muestra
Bioestadística Aplicada
Aunque no es necesario, hagamos
la prueba no paramétrica:
Bioestadística Aplicada
Prueba signrank (Wilcoxon):
Ho: Mediana de la diferencia = 0
p59 – 15 = 0
ó
p59 = 0
Asume una distribución uniforme
alrededor de cero
Compara puntajes esperados con
observados
Bioestadística Aplicada
Comparación entre dos muestras
independientes
Se piensa que la edad de inicio del consumo
de cigarrillos varía entre varones y mujeres
Si la distribución es sesgada, una prueba
paramétrica sobre la media puede ser poco
relevante
Si los tamaños de muestra son pequeños (n
< 30), el TLC no se cumplirá y la prueba T
podría llevar a conclusiones erróneas
Bioestadística Aplicada
Prueba T Student (paramétrica):
Ho: varones = mujeres
Bioestadística Aplicada
Ha: varones mujeres
Igualdad de varianzas:
La prueba T de Student de grupos
independientes difiere si las varianzas
difieren entre los grupos, debiendo
agregarse la opción “unequal”
Para evaluar si las varianzas son
comparables o no se utiliza el comando
sdtest
Bioestadística Aplicada
Prueba de Varianzas (sdtest)
Ho: 2varones = 2mujeres Ha: 2varones 2mujeres
Bioestadística Aplicada
T Student con varianzas
diferentes:
Bioestadística Aplicada
Prueba de Mann-Whitney:
Equivalente no paramétrico a una prueba de
hipótesis de promedios para dos muestras
Determina si una variable tiene valores mas
altos en una población que en otra. NO
COMPARA LOS PROMEDIOS!!!
Util si el tamaño de muestra es pequeño o la
distribución es demasiado sesgada
Bioestadística Aplicada
0
20
40
60
Qué son los puntajes correlativos?
.5
Varones
Bioestadística Aplicada
1
1.5
inf_sexo
Mujeres
2
2.5
Prueba de Mann-Whitney:
Ho: Fumarvarones = Fumarmujeres
Bioestadística Aplicada
Ha: Fumarvarones Fumarmujeres
Interpretación
Se están comparando “valores” o la
“distribución”, no los promedios
Si en un grupo los puntajes observados
son mayores a los esperados, ese
grupo tiene mayores “valores”
Bioestadística Aplicada
Comparación de dos grupos
apareados
Es una sola muestra, en verdad, en la que se
han medido dos valores
Se puede calcular la diferencia entre los
valores y sería una prueba de una sola
muestra
Qué comienza primero, alcohol o tabaco?
Prueba no paramétrica útil si es muestra
pequeña o distribución muy sesgada
Bioestadística Aplicada
Prueba T Student apareada:
Ho: μfumar = μtomar
Bioestadística Aplicada
Ha: μfumar μtomar
Prueba signrank (Wilcoxon):
Bioestadística Aplicada
Análisis de Varianza:
Prueba paramétrica para determinar si hay
diferencias en el promedio de una variable
cuantitativa (inicio fumar) entre tres o más
poblaciones (estratos sociales). Supuestos:
Distribución normal en todas las poblaciones (no
es necesario si el tamaño de muestra es
“grande”)
Varianzas comparables entre poblaciones
Observaciones (muestras) independientes
Bioestadística Aplicada
Comparación de Varianzas:
Se usa en el ANOVA para determinar si hay
diferencias entre promedios de varias
muestras
También se usa ANOVA en el análisis de
regresión, siendo un caso particular del
ANOVA
Utiliza la prueba estadística F
Bioestadística Aplicada
Las hipótesis:
Hipótesis nula, Ho:
X-inicioAlto = X-inicioMedio = X-inicioBajo
Hipótesis alternativa, Ha:
Existen diferencias en la edad de inicio
de fumar promedios de al menos dos
estratos sociales
Bioestadística Aplicada
Bioestadística Aplicada
Prueba de Kruskal-Wallis:
Extensión de la prueba de Mann-Whitney a
mas de dos poblaciones
Equivalente no paramétrico del análisis de
varianza
TAMPOCO COMPARA PROMEDIOS:
determina si una población tiene valores
diferentes (mas altos o mas bajos) que las
otras poblaciones
Bioestadística Aplicada
0
20
40
60
Los puntajes correlativos:
.5
1
Bioestadística Aplicada
1.5
2
estrato social
2.5
3
3.5
En Stata:
Bioestadística Aplicada
Determinando pares diferentes:
Bioestadística Aplicada
Correlación r de Pearson
Mide el grado de asociación lineal entre dos
variables numéricas
-1 <= r <= 1, r = 0 indica independencia
Se calcula en stata con el comando “pwcorr”
Requiere muestras “grandes”, distribuciones
cruzadas no sesgadas
Bioestadística Aplicada
Las hipótesis:
Hipótesis nula (Ho):
rfumar - tomar = 0
Hipótesis alternativa (Ha):
rfumar - tomar 0
Bioestadística Aplicada
0
20
p59b
40
60
scatter p59 p89
0
Bioestadística Aplicada
10
20
p89b
30
40
50
Resultados:
Bioestadística Aplicada
Correlación de puntajes
(Spearman):
Equivalente no paramétrico a la prueba de
correlación lineal de Pearson. Se aplica cuando
la correlación no es lineal, la muestra es
pequeña o existen valores muy extremos
Determina si dos variables cuantitativa u
cualitativa-ordinal están correlacionadas positiva
(una crece y la otra también) o negativamente
(una crece y la otra disminuye)
Al igual que las pruebas de Mann-Whitney y
Kruskal-Wallis, también utiliza datos por rangos
Bioestadística Aplicada
Las hipótesis:
Hipótesis nula, Ho:
ρ-puntajesfumar - tomar = 0
Hipótesis alternativa, Ha:
ρ- puntajesfumar - tomar 0
Bioestadística Aplicada
Resultados:
Bioestadística Aplicada
Que debemos llevar a casa hoy:
Alternativas disponibles cuando no se
cumplen las condiciones para usar
pruebas parámetricas
Como aplicar e interpretar las pruebas de
Wilcoxon, Mann-Whitney, Kruskal-Wallis y
Spearman
Limitaciones de las pruebas no
paramétricas
Bioestadística Aplicada