Implicaciones causales erróneas a partir de correlación

Download Report

Transcript Implicaciones causales erróneas a partir de correlación

ESTADÍSTICA PARA LA GESTIÓN
(EN SISTEMAS
DE
SALUD)
Profesor: Germán Lobos
[email protected]
Talca, 14 noviembre de 2014
1
Técnicas
cuantitativas
• El análisis estadístico se usa para
manipular, resumir e investigar datos
con el fin de obtener información útil en
la toma de decisiones
2
Cuidado con…
Relaciones espurias, implicaciones
causales erróneas y mentiras
estadísticas
3
Las personas altas tienen
ingresos más altos que las
personas bajas.
Para tener más ingresos hay
que ser una persona alta.
En algunas economías en crecimiento se
constató que a medida que aumentaba el
número de palomas, en los pueblos
aumentaba la tasa de natalidad.
¿Será cierto lo que nos contaban las abuelas?
(Variable de Confusión: población)
5
Durante el verano en una
ciudad aumenta la venta
de helados y la tasa de
asesinatos.
¿Será que el aumento en
la venta de helados es la
causa de un aumento en
la tasa de asesinatos?
(VC: ola de calor)
6
Implicaciones causales
erróneas a partir de
correlación estadística
Un reciente estudio mostró que los niños de pie grande saben
leer mejor que los de pie pequeño.
¿Permitirá el tamaño del pie medir la capacidad de lectura de
los niños?
No. El estudio se hizo sobre escolares que están en crecimiento. Lo
que mostró el estudio es que los niños mayores, cuyos pies son más
grandes, leen mejor que los menores.
Implicaciones causales
erróneas a partir de
correlación estadística
Otro estudio mostró que en una ciudad se produjo un rápido
aumento de mortalidad por paro cardíaco y un fuerte incremento
en el consumo de cerveza.
¿Es posible que beber cerveza sea causa de que aumente la
probabilidad de ataque al corazón?
No. En ambos casos el aumento fue debido a un veloz incremento
de la población.
Implicaciones causales
erróneas a partir de
correlación estadística
Las estadísticas muestran que casi todos los accidentes de tránsito
dentro de la ciudad de Talca se producen entre vehículos que circulan a
velocidad moderada. Muy pocos ocurren a más de 100 km / hora.
¿Significa esto que resulta más seguro conducir a gran velocidad?
No. Con frecuencia, las correlaciones estadísticas no reflejan causas y
efectos. Casi todo el mundo circula a velocidad moderada, y como es
natural, la mayoría de los accidentes se producen a estas velocidades.
Mentiras
estadísticas
El alcohol está presente en el 33% de los accidentes
de tránsito, lo cual quiere decir que el resto, un 67%
han sido causados por personas sobrias...
Estadísticamente hablando es más peligroso conducir
sobrio.
Mentiras
estadísticas
Las cifras indican que el número más elevado de
víctimas se produce en el último vagón del tren.
Lo más conveniente sería retirar ese dichoso último
vagón de cada tren.
Mirando con lupa la correlación
La correlación es una medida que indica la fuerza y dirección de una
relación entre dos variables.
Existe correlación entre A y B si al aumentar los valores de A lo hacen
también los de B y viceversa.
Hay varios coeficientes de correlación, uno de los más usados es el
coeficiente de correlación de Pearson, donde el valor del coeficiente
oscila entre -1 y +1.
Tipos de datos: constante
y variable (1)
• Una constante tiene un valor numérico
fijo. Ejemplos:
• π ≈ 3,1415… relación entre longitud y radio… l/2r
• е(1) = 2,7182… ln(e)=1… me debes 100.000 monedas
de oro y ln(100000)=11,5129… que es е^11,5129…
• Los números son, por supuesto, constantes…
13
Tipos de datos: constante
y variable (2)
• Una variable es un elemento de
interés que puede tomar muchos
valores numéricos diferentes. Puede
ser cualitativa (categórica, discreta) o
cuantitativa.
14
Tipos de datos: variable
cualitativa y cuantitativa (3)
•
Una variable cualitativa puede clasificarse
pero no medirse. Puede ser nominal u ordinal:
•
N… la ciudad de origen, género, color de ojos,
•
O… grado de desnutrición, diagnóstico del paciente,
profesión, raza, países que conoces, estado civil,
¿quiénes fueron a la fiesta?, ¿cuáles universidades?
intensidad de consumo de alcohol, grado de aversión
al riesgo, medalla en el campeonato, jerarquía del
profesor
Tipos de datos: variable
cualitativa y cuantitativa (4)
•
Una variable cuantitativa es aquella cuyos
valores se pueden expresar en cantidades
numéricas. Puede ser discreta o continua:
•
D… número de hijos, número de pacientes atendidos,
•
C… peso y talla, edad, presión arterial, nivel de
unidades vecinales en la ciudad, buses en el
terminal, personas en el concierto, número de
acciones vendidas,
colesterol, producción de trigo, consumo eléctrico,
gasto en consumo, vida útil de la máquina
Escalas de medición: Datos
medidos en una escala nominal
(1) (ningún atributo)
• Consisten en categorías mutuamente
excluyentes en las que se registra el
número de observaciones, las cuales no
tienen un orden lógico.
•
Colores, hombre/mujer, urbano/rural,
tren/bus/avión, carreras universitarias,
ciudades.
17
Escala de medición: Datos
medidos en una escala ordinal
(2) (1 atributo: Orden)
• Consisten en categorías mutuamente
excluyentes en las que hay implícito un
orden.
• Niveles de escolaridad, grado de
aversión al riesgo, nivel de satisfacción
con la vida, frío/caliente.
18
Escala de medición: Datos de
intervalo (3) (Dos atributos: Orden,
Distancia)
•
•
•
•
La escala de intervalos es un conjunto de
valores numéricos para los que la distancia
entre números sucesivos es de tamaño
constante y medible. El punto cero es
arbitrario.
Con los datos ordinales no se pueden medir las
distancias entre las categorías, con los de
intervalo sí.
ºC (-10, 0, 10)
Saldo cuenta corriente: (-50.000, 0, +50.000)
19
Escala de medición: Datos de
razón (4) (Tres atributos: Orden,
Distancia, Origen)
•
La escala de razón consiste en medidas
numéricas para las cuales las distancias entre
los números tienen un tamaño constante y
conocido , y donde la razón entre los números
tiene algún significado. Existe un punto cero
fijo, no arbitrario.
•
Vida útil de un equipo, peso de los animales,
escala de sueldos, períodos que transcurren,
tasa de interés.
20
Puede ser útil convertir escala de
razón en categorías
•
•
Menos de 20 años (0), entre 20 y 40 (1), entre
40 y 60 (2), entre 60 y 80 (3), más de 80 (4)
Rendimiento de los trabajadores deficiente (0),
Regular (1), Bueno (2), Excelente (3)
21
Características de los niveles de
medida
Escala de medida
Características
Estadísticas apropiadas
Nominal
Clasificación única
Moda
Ordinal
Jerarquización o
calificación
Mediana, percentiles
Intervalo
Diferencia conocida entre
dos puntos cualesquiera
Media, D.S.
Razón
Diferencia conocida entre
dos puntos cualesquiera.
Cero único o verdadero
Media, D.S.
22
¿Discretas o continuas?
-
Número de acciones vendidas cada día en la Bolsa
Temperaturas registradas cada hora en un observatorio
Período de duración de un automóvil
El diámetro de las ruedas de varios automóviles
Número de hijos de 50 familias
Censo anual de los chilenos
Los barcos que llegan al puerto de San Antonio
El consumo de agua de las familias de Talca
Las manzanas que vende La Ramada
Partos de una vaca
Promedio de notas del curso de economía
El número de hermanos de los alumnos de métodos cuantitativos
23
¿Nominal u ordinal?
-
Estado civil
Posición final en la Copa América
Jerarquía de un profesor de la Universidad
Nivel educacional
Estado de salud de una persona
Profesión
Grado militar
Nacionalidad
Color favorito
Calidad de un servicio
24
Características de los niveles de
medida
•
Los datos primarios se recogen específicamente
para el análisis deseado.
•
Los datos secundarios ya se han compilados y están
disponibles para el análisis estadístico.
•
Las técnicas de recogida de datos incluyen grupos
de interés (Focus Group), teléfono, cuestionario
por correo, puerta a puerta, “abordaje”, registros,
observación, entrevista, experimento.
25
Pruebas estadísticas para evaluar hipótesis
acerca de la relación entre dos variables
(análisis no paramétricos)
Dos consideraciones:
1.
la mayoría de estos análisis no requieren
ningún supuesto sobre la forma de la
distribución poblacional,
2.
el nivel de medición de las variables puede
ser datos de intervalo, datos de razón, o
bien datos nominales u ordinales.
26
¿Cuáles son las pruebas más utilizadas?

Coeficiente de correlación de Pearson,

Chi-cuadrado de Pearson,

Coeficiente de contingencia,

Rho de Spearman.
27
Coeficientes de correlación para tablas de contingencia (o tabulaciones cruzadas)
Coeficiente
Coeficiente de
correlación de
Pearson
Chi-cuadrado
de Pearson
rho de
Spearman
Nivel de
medición de
las variables
(ambas)
Interpretación

Cuantitativas.
Discreta o
continua
Varía de -1 a +1. Supone que la
distribución poblacional de las variables
es Normal. Se debe evitar establecer
relaciones de causa-efecto a partir de
una correlación significativa.

Cualitativas o
categóricas.
Nominal u
ordinal
Contrasta la hipótesis de que dos
variables categóricas son independientes.
No mide la intensidad de la asociación.
No considera relaciones causales.
Ordinal
Es una medida de asociación entre
órdenes de rango. Se debe evitar
establecer relaciones de causa-efecto a
partir de una correlación significativa.
Para tablas
Notación
de
contingencia
rs
Cualquier
tamaño
28
Coeficiente de
contingencia
V de Cramer
Lambda
Coeficiente de
incertidumbre

Cualquier
tamaño
V
Mayores de
22
b
Nominal
Su valor mínimo es 0 (ausencia de
correlación), pero su valor máximo
depende del tamaño de la tabla de
contingencia. Con tablas 22 varía de 0 a
0,707. Con tablas de 33 varía de 0 a
0,816.
Nominal
Varía de 0 a +1 con variables nominales.
“Cero” es nula correlación y “más uno”
representa una correlación perfecta.
Cualquier
tamaño
Nominal
Cualquier
tamaño
Nominal
Se utiliza con variables nominales y varía
de 0 a +1. Un valor igual a 1 significa que
la variable independiente pronostica
perfectamente la variable dependiente.
Un valor igual a 0 significa que la variable
independiente no ayuda en absoluto a
pronosticar la variable dependiente.
Se utiliza con variables nominales y varía
de 0 a +1. Por ejemplo, un valor de 0,83
indica que el conocimiento de una
variable reduce en un 83% el error al
pronosticar los valores de la otra
variable.
29
Gamma
d de Somers
Tau-b de
Kendall
Eta
r
Cualquier
tamaño
Ordinal
d
Cualquier
tamaño
Ordinal
Tau-b
Cualquier
tamaño,
pero más
apropiado
para tablas
con igual
número de
filas y
columnas
Ordinal
Cualquier
tamaño
Una variables
es categórica
nominal y la
otra es
cuantitativa
Varía de -1 a +1. Los valores próximos a
1, en valor absoluto, indican una fuerte
relación entre las dos variables. Los
valores próximos a cero indican que hay
poca o ninguna relación entre las dos
variables.
Varía de -1 a +1. Los valores próximos a
1, en valor absoluto, indican una fuerte
relación entre las dos variables. Los
valores próximos a cero indican que hay
poca o ninguna relación entre las dos
variables.
El signo del coeficiente indica la
dirección de la relación y su valor
absoluto indica la magnitud de la misma,
de tal modo que los mayores valores
absolutos indican relaciones más fuertes.
Los valores posibles van de -1 a 1, pero
un valor de -1 o +1 sólo se puede obtener
a partir de tablas cuadradas. Se debe
evitar establecer relaciones de causaefecto a partir de una correlación
significativa.
Varía entre 0 y +1. El valor 0 indica que
no hay asociación entre las variables de
fila y de columna. Los valores cercanos a
1 indican que hay gran relación entre las
variables. Eta resulta apropiada para una
variable dependiente cuantitativa (por
ejemplo, ingresos) y una variable
independiente con un número limitado de
categorías (por ejemplo, género).
30