Transcript (SX i )a +

CORRELACION Y
REGRESION LINEAL:
Introducción
Mario Briones L.
MV, MSc
Correlación lineal de
Pearson.
Medida de la estrechez de la
asociación entre dos variables
cuantitativas.
 Asociación: fluctuación en conjunto
de dos variables

Correlación lineal de
Pearson:

Muchas veces en que se dispone de
datos en pares, se desea conocer si
ambas variables está relacionadas o
son independientes
Considere los siguientes
datos:

Valores de pluviometría para once localidades a
diferente altura sobre el nivel del mar:
4
5
6
7
8
9
10
11
1162
844
1008
956
825
899
801
1186
634
430
573
438
474
409
504
708
Gráfico de la asociación
750
pluviometría (mm)
700
650
600
Promedio de Y= 530 mts
550
500
450
400
350
300
700
Promedio de X= 959.2 mts
800
900
1000
1100
1200
altura sobre el nivel del mar (mts)
1300
COVARIANZA: Medida de la variación
en conjunto de dos variables:
CONCEPTO:
cov
( XY )

n
x

n 1
1
j
  x  y i   y 
j 1
FORMULA DE CALCULO:
cov
( XY )


X iYi
 X  Y 

j
i
n
n 1
Donde n es el número de pares de valores X Y
En el ejemplo:
16380 
COV
XY
10551  5829
11

 13079 . 42
10
Atención! La función COVAR de Excel divide por n...
Covarianza en el ejemplo:

Cov(XY)= 13.079,41

El signo positivo indica que valores por
sobre el promedio de X tienden a estar
asociados con valores por sobre el
promedio de Y
Valores negativos indican que valores por
sobre el promedio de X tienden a estar
asociados con valores por debajo del
promedio de Y

Estandarización de la
medición

Pearson, matemático Inglés,
desarrolló un índice, que divide la
covarianza por el producto de las
desviaciones estándares de X y de Y
 ( rho ) 
Cov ( XY )
 X Y
En la población
r 
Cov
( XY )
s X sY
En la muestra
Correlación lineal de
Pearson:
El índice r, fluctúa entre –1 y +1
 Si la fluctuación en conjunto es
estrecha, el valor de r se acerca a –
1 o +1.
 Si la fluctuación en conjunto es baja,
el valor de r se acerca a cero.

Coeficiente de correlación
de Pearson en el ejemplo:
r 
Cov ( XY )
s X sY
r 
13079 . 42
147 . 9  103 . 4
 0 . 856
Es la correlación observada
diferente de cero? (H0??)
t
r XY
1 r
z 
2
XY
N 1
N< 30
r XY
1 r
2
XY
N 1
N> 30
N es la cantidad de pares XY
Es la correlación observada
diferente de cero, en el ejemplo?
t
0 . 856
1  0 . 733
10
t
0 . 856
0 . 163
t  5 . 25
En la tabla de t,
con alfa= 0.05 (dos colas)
y 10 grados de libertad
(n-1), el valor crítico
es 2.22
Por lo tanto se puede
rechazar H0 respecto
del valor poblacional de
rho:
Hay una asociación significativa
entre la altura sobre el nivel del
mar y la cantidad de precipitación
(P<0.05) (en la población)
N
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
35
40
45
50
60
70
80
90
100
0.1
0.9
0.805
0.729
0.669
0.621
0.582
0.549
0.521
0.497
0.476
0.458
0.441
0.426
0.412
0.4
0.389
0.378
0.369
0.36
0.352
0.344
0.337
0.33
0.323
0.317
0.311
0.306
0.283
0.264
0.248
0.235
0.214
0.198
0.185
0.174
0.165
alfa
0.05
0.95
0.878
0.811
0.754
0.707
0.666
0.632
0.602
0.576
0.553
0.532
0.514
0.497
0.482
0.468
0.456
0.444
0.433
0.423
0.413
0.404
0.396
0.388
0.381
0.374
0.367
0.361
0.334
0.312
0.294
0.279
0.254
0.235
0.22
0.207
0.197
0.01
0.99
0.959
0.917
0.875
0.834
0.798
0.765
0.735
0.708
0.684
0.661
0.641
0.623
0.606
0.59
0.575
0.561
0.549
0.537
0.526
0.515
0.505
0.496
0.487
0.479
0.471
0.463
0.43
0.403
0.38
0.361
0.33
0.306
0.286
0.27
0.256
0.001
0.999
0.991
0.974
0.951
0.925
0.898
0.872
0.847
0.823
0.801
0.78
0.76
0.742
0.725
0.708
0.693
0.679
0.665
0.652
0.64
0.629
0.618
0.607
0.597
0.588
0.579
0.57
0.532
0.501
0.474
0.451
0.414
0.385
0.361
0.341
0.324
Otra opción es comparar
el valor de r calculado
con el valor de r de la tabla
adjunta.
Si el valor de r calculado
es mayor que el r del
número de grados de
libertad de la correlación
(n-1)=10
valor crítico= 0.632
Transformación de Fisher del
coeficiente de correlación
z rxy
1 r 
 0 . 5  ln 

1 r 
Z tiene distribución aproximadamente normal, con
media  y error estándar:
1
ee 
0 .5
( N  3)
Transformación de Fisher en
el ejemplo:
z rxy
 1  0 . 856 
 0 . 5  ln 

 1  0 . 856 
 1 . 856 
 0 . 5  ln 

 . 144 
 0 . 5  2 . 55
 1 . 275
Intervalo de confianza del
coeficiente de correlación
z rxy  ( z P dos colas )
1
N -3
Para obtener el intervalo de confianza en “unidades
de correlación” se transforman de modo inverso usando
el mismo método de r a z
En INTERNET:
http://faculty.vassar.edu/lowry/rho.html?
Intervalo de confianza en el
ejemplo:
1 . 275  1 . 96
1
11 - 3
1 . 275  1 . 96 0 . 1111
1 . 275  0 . 653
Según la página de Internet, el intervalo de
confianza de 95% para r=0.856
límite inferior=0.527
límite superior=0.961
Comparación de
coeficientes de correlación
z 
z rxy 1  z rxy 2
 1   1 

  

 n1  3   n 2  3 
Se utilizan los coeficientes transformados
Correlación entre las líneas
eléctricas y el cáncer
Epidemiólogos del Instituto
Karolinska de Suecia investigaron
durante 25 años a 500.000 personas
que vivían a menos de 300 metros
de una línea eléctrica de alto voltaje.
 Observaron que los niños tenían
mayor incidencia de leucemia.

Correlación entre las líneas
eléctricas y el cáncer

Los hallazgos descritos obligaron al
gobierno sueco a considerar
reglamentos que reducirían la
construcción de casas cercanas a las
líneas eléctricas de alto voltaje.
Correlación entre las líneas
eléctricas y el cáncer

En un artículo acerca del estudio, la
revista Time informó que “aunque
las investigaciones no demuestran
una relación de causa y efecto, sí
indican una inequívoca correlación
entre el grado de exposición y el
riesgo de leucemia infantil”.
Errores comunes respecto a
la correlación

Se debe tener cuidado de evitar
concluir que la correlación implica
causalidad


No utilizar tasas o promedios


Variables ocultas
Pérdida de variación entre individuos
Supuesto de linearidad de la relación
Correlación y regresión
lineal:
Si existe una conexión biológica (o
de otro tipo) entre las variables X e
Y, entonces puede formularse un
modelo lineal que represente esta
asociación.
 El modelo se basa en la covarianza y
en su forma más sencilla es una
línea recta (Y= a + bX)

Ejemplo: Rendimiento promedio de plantas de soya
(gr/planta) obtenidos en respuesta a los niveles
indicados de exposición al ozono en la la fase de
crecimiento.
X
Y
ozono (ppm)
rendimiento (gr/pl)
0.02
0.07
0.11
0.15
SXi= 0.35
X= 0.0875
SX2i= 0.0399
242
237
231
201
SXiYi= 76.99
SYi= 911
Y= 227.75
SY2i= 208495
MODELO


Asumiendo una relación lineal entre el
rendimiento y el nivel del ozono, el
modelo establece que la media verdadera
de la variable dependiente cambia a una
tasa constante en la medida que la
variable dependiente aumenta o
disminuye.
La relación funcional entre la media
verdadera de Yi, E(Yi) y Xi es la ecuación
de la línea recta:
MODELO
E (Y i )  a  b ( X i )



Donde
a= intercepto (valor de E(Y)cuando X es
igual a cero
b= pendiente de la línea (tasa de cambio
de E(Y) ante un cambio unitario en X.
SUPUESTOS


Las observaciones de la variable
dependiente Yi se asumen como
observaciones aleatorias tomadas de
poblaciones de variables aleatorias
donde la media de cada población está
dada por E(Yi).
La desviación de una observación Yi desde
la media de su población, E(Yi) se
considera añadiendo un término de error
aleatorio ei para dar el siguiente modelo:
SUPUESTOS
Yi  a  b X i  e i


El subíndice indica cada unidad de
observación en particular, i= 1, 2, …n. Los
Xi son las n ésimas observaciones de la
variable dependiente, que se supone son
tomadas sin error.
Es decir, son constantes conocidas; los Yi
y los Xi son observaciones pareadas,
tomadas en cada unidad observacional.
rendimiento soya (gr/planta)
Rendim iento de soya frente a diferentes concentraciones de
ozono
250
240
230
220
210
200
190
180
170
0
0.05
0.1
0.15
concentración de ozono (ppm)
0.2
ESTIMACION DE MINIMOS
CUADRADOS


Los parámetros en el modelo son b y a, a ser
estimados desde los datos (muestra). Si no
existiese error aleatorio en Yi, cualquier par de
puntos podría ser utilizado para resolver los
valores de los parámetros.
La variación aleatoria de Y, sin embargo, hace
que cada par de valores de resultados diferentes
(Todos los estimadores serían idénticos sólo si
los datos observados cayeran exactamente sobre
una línea recta.)
ESTIMACION DE MINIMOS
CUADRADOS

Por lo tanto, el método de resolución debe
combinar toda la información para dar una sola
solución que sea la “mejor” en base a algún
criterio.

El procedimiento de estimación de mínimos
cuadrados utiliza el criterio de que la solución
debe dar la suma más pequeña posible para las
desviaciones al cuadrado desde los valores
observados de Yi hasta sus medias verdaderas
dadas por la solución.
ESTIMACION DE MINIMOS
CUADRADOS

Sean b y a los estimadores numéricos de
los parámetros b y a, respectivamente, y
sea
Yˆi  a  bX


i
el promedio estimado de Y para cada Xi,
i= 1, 2,…, n.
Se debe observar que Yi es obtenida
sustituyendo los parámetros en la forma
funcional del modelo que relaciona E(Yi)
con Xi, dado por la ecuación de la recta.
El principio de los mínimos cuadrados escoge valores de a y b
que minimizan la suma de cuadrados de los residuales, SC(Res):
n
SC ( RES ) 

2
ˆ
(Y i  Y i )
i 1
SC ( RES ) 
e
2
i
Donde e i  (Yi  Yˆi ) es el valor residual observado para la
iésima observación. La suma indicada por S es sobre todos los
valores del conjunto como lo indican los índices i= 1 hasta n
Los estimadores de b y a se obtienen usando cálculo para
encontrar los valores que minimizan SC(Res). Las derivadas de
SC(Res) con respecto a b y a son definidas iguales a cero.
Las ecuaciones normales son:
n(a) + (SXi)b= SYi
(SXi)a + (SX2i)b= SXiYi
Resolviendo las ecuaciones simultáneamente para a y b, da los
estimadores para a y b:
S(Xi-X)(Yi-Y) Sxiyi
b=
=
S(Xi-X)2
Sx2i
a= Y - bX
Para facilidad de cálculo:
Sx2i= SX2i -
(SXi)2
n
Sxiyi= SXiYi -
(SXi)(SYi)
n
Lo que da la siguiente fórmula de cálculo para la pendiente:
b

X iYi 

X
2
i
(  X i )(  Y i )

(
n
2
Xi)
n
Cálculo de la pendiente (b)
X
Y
ozono (ppm)
rendimiento (gr/pl)

0.02
0.07
0.11
0.15
X i  0 . 35
X  0 . 0875

X i  0 . 0399
2

b

X iYi 

X
2
i

(
n
Y
 911
i
Y  227 . 75
Y
2
i
 208495
X i Y i  76 . 99
(  X i )(  Y i )
n
2
Xi)
242
237
231
201
76 . 99 
( 0 . 35 )( 911 )
b
0 . 0399 
4
2
( 0 . 35 )
4
  293 . 53
Cálculo de la constante (a)
y ecuación:
a  Y bX
a= 227.75 - (-293.531)(0.08875)= 253.434
La ecuación de mínimo cuadrado que caracteriza el efecto del ozono
sobre el rendimiento promedio de la soya en este estudio, asumiendo
que el modelo lineal es correcto es:
Yˆ  253 . 4  293 . 5 X i