ESTADISTICA Y DISEÑO EXPERIMENTAL

Download Report

Transcript ESTADISTICA Y DISEÑO EXPERIMENTAL

REGRESION LINEAL II
Mario Briones L.
MV, MSc.
2005
Correlación entre las líneas
eléctricas y el cáncer
Epidemiólogos del Instituto
Karolinska de Suecia investigaron
durante 25 años a 500.000 personas
que vivían a menos de 300 metros
de una línea eléctrica de alto voltaje.
 Observaron que los niños tenían
mayor incidencia de leucemia.

Correlación entre las líneas
eléctricas y el cáncer

Los hallazgos descritos obligaron al
gobierno sueco a considerar
reglamentos que reducirían la
construcción de casas cercanas a las
líneas eléctricas de alto voltaje.
Correlación entre las líneas
eléctricas y el cáncer

En un artículo acerca del estudio, la
revista Time informó que “aunque
las investigaciones no demuestran
una relación de causa y efecto, sí
indican una inequívoca correlación
entre el grado de exposición y el
riesgo de leucemia infantil”.
Errores comunes respecto a
la correlación

Se debe tener cuidado de evitar
concluir que la correlación implica
causalidad


No utilizar tasas o promedios


Variables ocultas
Pérdida de variación entre individuos
Supuesto de linearidad de la relación
Pautas para utilizar la
ecuación de regresión
Si no existe una correlación lineal
significativa, no utilice la ecuación
de regresión para hacer predicciones
 En la formulación de predicciones
(valores predichos de Y), no efectuar
estas predicciones fuera del ámbito
de valores observados de X

peso en gramos
Relación entre la edad en días y el peso en gramos, en perdices
(Notoprocta perdicaria)
160
140
120
100
80
60
40
20
0
y = 2,4721x + 16,311
0
10
20
días de edad
30
peso en gramos
Relación entre la edad en días y el peso en gramos, en perdices
(Notoprocta perdicaria)
400
350
300
250
200
150
100
50
0
y = 2,4721x + 16,311
0
50
100
días de edad
150
Pautas para utilizar la
ecuación de regresión
Una ecuación de regresión basada
en datos viejos no necesariamente
sigue siendo válida en el presente
 No se deben efectuar predicciones
para una población diferente de
aquella desde la cual se extrajo la
muestra de datos.

10
9
Desviación no explicada
^
Y-Y
8
Desviación total
Y- Y
valores de Y
7
Desviación explicada
^
Y-Y
6
Promedio de Y
5
4
^
Y= b0+b1X
3
2
1
0
0
2
4
valores de X
6
8
Error estándar de la
regresión
EEregresión 

 ( y  y)
2
n2
El error estándar de una regresión lineal
es una medida de la desviación de los
puntos de datos a partir de la línea de
regresión
Error estándar de la
regresión

Fórmula equivalente:
EEregresión 
Y
2
 b0  Y  b1  XY
n2
Error estándar de la regresión
Ejemplo de cálculo
suma
suma2
b0
b1
error estándar
estatura (pulgadas)
53
67,5
72
72
73,5
68,5
73
37
516,5
34525,75
-351,66
9,66
66,60
peso (libras)
80
344
416
348
262
360
332
34
2176
728520
XY
4240,0
23220,0
29952,0
25056,0
19257,0
24660,0
24236,0
1258,0
151879
Error de los estimadores b0
y b1

También es posible determinar un
error estándar para la pendiente y
para la constante, de modo que es
posible construir intervalos de
confianza para estos estimadores.
Error de los estimadores b0
y b1
Al calcular el intervalo de confianza
de una probabilidad dada (ej.95%)
para la pendiente de la recta, es
posible comprobar directamente la
hipótesis nula respecto de este
estimador:
 H0: la pendiente es igual a cero
 HA: la pendiente es distinta de cero

Error de los estimadores b0
y b1

Si con un nivel de probabilidad
predeterminado se puede decir que
la pendiente de una ecuación de
regresión lineal es diferente de cero,
entonces la regresión puede
considerarse significativa
(significativamente diferente de
cero)
Error de los estimadores b0
y b1
Al ser diferente de cero, la
pendiente indica una relación “real”
entre la variable X y la variable Y.
 Puede interpretarse como “un efecto
significativo” de la varianza de X
sobre la varianza de Y

y = -0,0882x + 733,72
R2 = 0,0213
830
Puntaje PAA Matemáticas
780
730
680
630
580
530
480
350
400
450
500
550
600
650
notas Enseñanza Media
700
750
800
850
800
puntaje en la PAA Matemáticas
750
700
650
600
550
500
1970
y = -3,6081x + 7863,3
R2 = 0,1295
1975
1980
1985
1990
año de egreso de la enseñanza media
1995
2000
2005
Resumen
Estadísticas de la regresión
Coeficiente de correlación0,359927926
múltiple
Coeficiente de determinación
0,129548112
R^2
R^2 ajustado
0,128722256
Error típico
46,13564205
Observaciones
1056
ANÁLISIS DE VARIANZA
Grados de libertad
Suma de cuadrados
Promedio de los cuadradosF
Valor crítico de F
Regresión
1 333887,427 333887,427 156,865315 1,1939E-33
Residuos
1054 2243436,33 2128,49747
Total
1055 2577323,76
Intercepción
Agno Egreso
Coeficientes
Error típico Estadístico t Probabilidad Inferior 95% Superior 95%
7863,250796 573,574772 13,7091992 1,7529E-39 6737,77284 8988,72875
-3,608128092 0,28808357 -12,5245884 1,1939E-33 -4,17341045 -3,04284573
Coeficiente de determinación

Al elevar al cuadrado el coeficiente
de correlación lineal de Pearson se
obtiene el COEFICIENTE DE
DETERMINACIÓN, que indica, en
proporción, la magnitud de la
varianza total de Y que es explicada
por la varianza de X