Prueba T Student (paramétrica)

Download Report

Transcript Prueba T Student (paramétrica)

Bioestadística Aplicada I
NMRCD – Programa GEIS
UPCH – FASPA
ABE Perú
Sexta clase:

Métodos paramétricos y no
paramétricos

Medias, varianza y correlación

Pruebas para variables continuas
Bioestadística Aplicada
Porqué usamos pruebas no
paramétricas?:
Porque no siempre se cumplen todos los
supuestos requeridos por las pruebas de
hipótesis tradicionales (paramétricas):
 Distribución normal
 Tamaño de muestra “grande”
 Varianzas iguales (?)
Si la distribucion de la poblacion es sesgada
(Por lo que la media no es buen indicador de
tendencia central)
Bioestadística Aplicada
Cómo se aplican estas pruebas:

Aplicar una transformación a los datos originales,
convertiéndolos en rangos, valores positivo o
negativo, etc.

Con los datos transformados, calcular un
estadístico en base a los datos (a veces también
se calcula su promedio y error estándar)

Con el estadístico y los parámetros calculados,
realizar una prueba de hipótesis de acuerdo a
una cierta distribución paramétrica (Normal, Jicuadrado, Binomial, etc.)
Bioestadística Aplicada
Transformaciones de datos

Si los datos tienen una distribución
sesgada, en ocasiones pueden
transformarse para eliminar los sesgos

En algunos casos se puede emplear un
test paramétrico después de la
transformación
Bioestadística Aplicada
Ejemplo:
Si trabajamos con parasitemia, con
frecuencia tendremos que aplicar una
transformación
Log
Bioestadística Aplicada
Comando ‘gladder’:
Bioestadística Aplicada
Análisis con variables numéricas:
Análisis
Paramétrico
No paramétrico
Describir un grupo
, 2
Mediana, rango
intercuartil
Comparar un grupo T Student de una
a un valor
muestra
Prueba Wilcoxon
Comparar medias
en 2 grupos
T Student de dos
muestras
Mann-Whitney
Comparar medias
en 2 grupos
apareados
T Student
apareada
Prueba Wilcoxon
Comparar medias
en 3 o mas grupos
ANOVA
Kruskal-Wallis
Correlación entre
dos variables
Pearson (lineal)
Spearman
(monotónica)
Bioestadística Aplicada
Comparación de una muestra
contra una constante

Se piensa que la edad de inicio del consumo
de cigarrillos es la adolescencia

Puntualmente se plantea que el consumo se
inicia a los 15 años

Si la distribución es sesgada o la muestra es
pequeña, una prueba paramétrica sobre la
media puede ser poco relevante
Bioestadística Aplicada
.1
0
.05
Fraction
.15
.2
histogram p59, fraction
0
20
40
¿qué edad tenía ud. cuando fumó cigarrillos por primera vez?
Bioestadística Aplicada
60
Prueba T Student de una muestra
Bioestadística Aplicada
Aunque no es necesario, hagamos
la prueba no paramétrica:
Bioestadística Aplicada
Prueba signrank (Wilcoxon):

Ho: Mediana de la diferencia = 0
p59 – 15 = 0
ó
p59 = 0

Asume una distribución uniforme
alrededor de cero

Compara puntajes esperados con
observados
Bioestadística Aplicada
Comparación entre dos muestras
independientes

Se piensa que la edad de inicio del consumo
de cigarrillos varía entre varones y mujeres

Si la distribución es sesgada, una prueba
paramétrica sobre la media puede ser poco
relevante

Si los tamaños de muestra son pequeños (n
< 30), el TLC no se cumplirá y la prueba T
podría llevar a conclusiones erróneas
Bioestadística Aplicada
Prueba T Student (paramétrica):
Ho: varones =  mujeres
Bioestadística Aplicada
Ha: varones   mujeres
Igualdad de varianzas:

La prueba T de Student de grupos
independientes difiere si las varianzas
difieren entre los grupos, debiendo
agregarse la opción “unequal”

Para evaluar si las varianzas son
comparables o no se utiliza el comando
sdtest
Bioestadística Aplicada
Prueba de Varianzas (sdtest)
Ho: 2varones = 2mujeres Ha: 2varones  2mujeres
Bioestadística Aplicada
T Student con varianzas
diferentes:
Bioestadística Aplicada
Prueba de Mann-Whitney:

Equivalente no paramétrico a una prueba de
hipótesis de promedios para dos muestras

Determina si una variable tiene valores mas
altos en una población que en otra. NO
COMPARA LOS PROMEDIOS!!!

Util si el tamaño de muestra es pequeño o la
distribución es demasiado sesgada
Bioestadística Aplicada
0
20
40
60
Qué son los puntajes correlativos?
.5
Varones
Bioestadística Aplicada
1
1.5
inf_sexo
Mujeres
2
2.5
Prueba de Mann-Whitney:
Ho: Fumarvarones = Fumarmujeres
Bioestadística Aplicada
Ha: Fumarvarones  Fumarmujeres
Interpretación

Se están comparando “valores” o la
“distribución”, no los promedios

Si en un grupo los puntajes observados
son mayores a los esperados, ese
grupo tiene mayores “valores”
Bioestadística Aplicada
Comparación de dos grupos
apareados

Es una sola muestra, en verdad, en la que se
han medido dos valores

Se puede calcular la diferencia entre los
valores y sería una prueba de una sola
muestra

Qué comienza primero, alcohol o tabaco?

Prueba no paramétrica útil si es muestra
pequeña o distribución muy sesgada
Bioestadística Aplicada
Prueba T Student apareada:
Ho: μfumar = μtomar
Bioestadística Aplicada
Ha: μfumar  μtomar
Prueba signrank (Wilcoxon):
Bioestadística Aplicada
Análisis de Varianza:
Prueba paramétrica para determinar si hay
diferencias en el promedio de una variable
cuantitativa (inicio fumar) entre tres o más
poblaciones (estratos sociales). Supuestos:

Distribución normal en todas las poblaciones (no
es necesario si el tamaño de muestra es
“grande”)

Varianzas comparables entre poblaciones

Observaciones (muestras) independientes
Bioestadística Aplicada
Comparación de Varianzas:

Se usa en el ANOVA para determinar si hay
diferencias entre promedios de varias
muestras

También se usa ANOVA en el análisis de
regresión, siendo un caso particular del
ANOVA

Utiliza la prueba estadística F
Bioestadística Aplicada
Las hipótesis:

Hipótesis nula, Ho:
X-inicioAlto = X-inicioMedio = X-inicioBajo

Hipótesis alternativa, Ha:
Existen diferencias en la edad de inicio
de fumar promedios de al menos dos
estratos sociales
Bioestadística Aplicada
Bioestadística Aplicada
Prueba de Kruskal-Wallis:

Extensión de la prueba de Mann-Whitney a
mas de dos poblaciones

Equivalente no paramétrico del análisis de
varianza

TAMPOCO COMPARA PROMEDIOS:
determina si una población tiene valores
diferentes (mas altos o mas bajos) que las
otras poblaciones
Bioestadística Aplicada
0
20
40
60
Los puntajes correlativos:
.5
1
Bioestadística Aplicada
1.5
2
estrato social
2.5
3
3.5
En Stata:
Bioestadística Aplicada
Determinando pares diferentes:
Bioestadística Aplicada
Correlación r de Pearson

Mide el grado de asociación lineal entre dos
variables numéricas

-1 <= r <= 1, r = 0 indica independencia

Se calcula en stata con el comando “pwcorr”

Requiere muestras “grandes”, distribuciones
cruzadas no sesgadas
Bioestadística Aplicada
Las hipótesis:

Hipótesis nula (Ho):
rfumar - tomar = 0

Hipótesis alternativa (Ha):
rfumar - tomar  0
Bioestadística Aplicada
0
20
p59b
40
60
scatter p59 p89
0
Bioestadística Aplicada
10
20
p89b
30
40
50
Resultados:
Bioestadística Aplicada
Correlación de puntajes
(Spearman):

Equivalente no paramétrico a la prueba de
correlación lineal de Pearson. Se aplica cuando
la correlación no es lineal, la muestra es
pequeña o existen valores muy extremos

Determina si dos variables cuantitativa u
cualitativa-ordinal están correlacionadas positiva
(una crece y la otra también) o negativamente
(una crece y la otra disminuye)

Al igual que las pruebas de Mann-Whitney y
Kruskal-Wallis, también utiliza datos por rangos
Bioestadística Aplicada
Las hipótesis:

Hipótesis nula, Ho:
ρ-puntajesfumar - tomar = 0

Hipótesis alternativa, Ha:
ρ- puntajesfumar - tomar  0
Bioestadística Aplicada
Resultados:
Bioestadística Aplicada
Que debemos llevar a casa hoy:

Alternativas disponibles cuando no se
cumplen las condiciones para usar
pruebas parámetricas

Como aplicar e interpretar las pruebas de
Wilcoxon, Mann-Whitney, Kruskal-Wallis y
Spearman

Limitaciones de las pruebas no
paramétricas
Bioestadística Aplicada