regresion linea

Download Report

Transcript regresion linea

Regresión y Correlación
Contenido
 Introducción
 Modelo de regresión lineal
 Estimación de la regresión
 Coeficiente de correlación
2
Objetivos
 Introducir el concepto de modelos estadísticos
 Describir las características y propiedades del
modelo de regresión lineal
 Describir los métodos de estimación y pruebas
de hipótesis de la regresión lineal
 Describir las propiedades y características del
coeficiente de correlación
3
Introducción
Entre diferentes características (variables),
pueden existir relaciones de tipo matemático. Tal es
el caso de la relación entre la estatura y el peso de
seres vivos, o del rendimiento y el número de
plantas por unidad de área. Estas relaciones no
siguen una ecuación matemática exacta, pero se
pueden aproximar
usando los métodos
estadísticos de regresión.
4
Relaciones entre variables
Una relación se refiere a la correspondencia entre
dos o más variables.
Los tipos de relaciones entre variables están
definidos por dos criterios: La naturaleza de la
relación y el patrón (o perfil) de la misma.
La naturaleza de la relación:
Mientras que todas las relaciones hablan de la
correspondencia entre dos variables, hay un tipo especial de
relación que expresa que las dos variables no solamente tienen
correspondencia, sino que además, una variable causa la otra.
5
Naturaleza de las relaciones entre variables
Existe una distinción importante entre una relación
funcional o percibida y una relación causal.
Una relación funcional dice simplemente que dos
cosas ocurren de manera sincronizada.
Por ejemplo, se puede hablar de una relación
funcional entre proteína de un alimento y otros
componentes como agua, carbohidratos, grasas o
cenizas. Cuando cambia el contenido de proteína,
alguno de los otros componentes puede cambiar.
6
Naturaleza de las relaciones entre variables
Una relación causal es aquella donde el
cambio de una variable ocasiona el cambios
de otra u otras variables asociadas a la
primera.
Esta relación puede ser de antecedenteconsecuente o de causa-efecto.
7
Ejercicio
Describa algunas variables en su área de
conocimientos que estén relacionadas.
Defina si la relación es causal o meramente
funcional.
8
Forma de las relaciones entre variables
Patrones de relaciones
Existen diversos tipos de
patrones que describen una
relación entre variables.
El primero es la falta de
relación entre las variables. Si se
conocen los valores en una
variable, no se pueden deducir los
valores en la otra.
Por ejemplo, no se espera
encontrar una relación entre la altura
de los árboles en la Unison y el
promedio de calificaciones de los
alumnos de este grupo.
Si se conoce el promedio de
calificaciones, no se puede predecir la
altura de los árboles en cuestión, o
viceversa.
9
Forma de las relaciones entre variables
En segundo lugar, está la relación positiva. En
una relación positiva, los valores altos en una
variable se asocian a valores altos en la otra y los
valores bajos en una se asocian a valores bajos en la
otra.
Por otra parte, una relación negativa implica que
los valores altos en una variable están asociados a
valores bajos en la otra. Esto también a veces se
llama una relación inversa.
10
Salario
Presión Arterial
Forma de las relaciones entre variables
Años de Escolaridad
Relación Positiva
Ejercicio físico
Relación Negativa
11
El patrón de una relación
puede ser más complejo.
En este ejemplo, el eje
horizontal representa la dosis de
una
medicina
para
una
enfermedad y el eje vertical
representa una medición de la
severidad de la enfermedad.
Mientras que se eleva la dosis, la
severidad de la enfermedad baja. Pero
en un cierto punto, el paciente
comienza a experimentar los efectos
secundarios negativos asociados a
una dosis demasiado alta, y la
severidad de la enfermedad comienza
a aumentar otra vez.
Severidad de enfermedad
Forma de las relaciones entre variables
Dosis
12
Introducción
En estadística, se llama modelo lineal a una
ecuación algebraica que tiene como variable
dependiente (Y), la característica observada, la cual
es aleatoria; y como variables independientes (V, W,
X, etc.), se consideran todas aquellas características
que se relacionan con la variable dependiente Y en
forma lineal.
13
Introducción
Los modelos lineales se escriben como:
Yi  α  βXi  εi
Yi  β0  β1Xi  β2Xi2  εi
Yi  β0  β1Xi  β2 Wi  β3 Zi  εi
14
Ejemplo
En un estudio de la relación entre tiempo de
cocción y textura de carne de res, se obtuvo una
muestra de 7 pares de valores de tiempos de cocción
y textura, los cuales pueden ser observados en el
gráfico de dispersión de la figura.
680
620
T
E
X
T
U
R
A
560
500
440
380
320
7
8
9
10
11
12
TIEMPO DE COCCION
15
Ejemplo (Cont.)
Supongamos que el modelo de relación
planteado entre textura de carne y tiempo de
cocción es
Yi =  + ßX + i
Donde Yi = Textura de carne, Xi = Tiempo de
Cocción en horas,  es la ordenada en el origen, ß
es la pendiente de la recta, y i es el error aleatorio
de cada observación de textura de carne (Yi ).
16
Ejemplo (Cont.)
Si la relación fuera perfecta, conociendo  y
ß, y estableciendo un tiempo de cocción, se
podría calcular la textura de la carne con ls
ecuación:
Textura =  + ß*(Tiempo de cocción)
En la realidad sabemos que esto no es
posible, ya que la textura de la carne puede variar
con otros factores además del tiempo de cocción.
17
¿Cuándo se aplica la regresión?
Existen diferentes razones para realizar el
análisis de regresión. Las que se mencionan a
continuación son las más frecuentes en las
ciencias de los alimentos.
 Cuando se quiere conocer la forma de la relación
entre una variable aleatoria (la dependiente, Y) y
una variable no aleatoria (la independiente, X).
 Cuando se quiere predecir Y a través de X.
 Cuando se quiere examinar el comportamiento de
Y en un rango de valores de X.
18
Modelo de regresion lineal
El modelo de regresión lineal es un caso
particular de los modelos estadísticos lineales en el
que se presenta la relación de una variable aleatoria
con otras variables en forma de ecuación lineal.
El modelo de regresión lineal simple se
representa por la ecuación:
Yi =  + Xi + i, i=1,2,...,n
Donde Yi es la variable aleatoria respuesta, Xi es
una variable no aleatoria,  y  son los parámetros del
modelo, y i es el error aleatorio del modelo, el cual es
independiente para cada observación.
19
Regresión lineal simple
Los métodos de estimación de la regresión
lineal simple nos permitirán estimar el modelo que
relaciona Y con X, y representar promedialmente
ese modelo por medio de una recta.
También nos permitirán probar la hipótesis
estadística para establecer con un cierto grado de
certeza, si la relación supuesta es debida al azar, o
es real.
Además, estos métodos nos permiten
predecir valores de Y de una nueva muestra,
cuando conocemos el valor de X.
20
Regresión lineal simple
Una de las formas de examinar la asociación
entre la variable respuesta (Y) y la variable
independiente (X), es la de obtener un diagrama de
dispersión o gráfica de puntos como la que se ve en
la figura.
70.00
65.00
Altura (cm)
La gráfica a la derecha
proviene de un
estudio para
determinar la relación
entre edad de infantes
(en meses) y su talla
(en cm).
60.00
55.00
50.00
10
11
12
13
14
15
16
17
18
Edad (meses)
21
Regresión lineal simple
El diagrama de dispersión permite visualizar el tipo de
relación que pudiera presentarse entre X y Y.
En esta gráfica se observa que cambiando la escala del
eje de las Y, se puede ver en forma más clara que la tendencia
lineal se distorsiona para las edades altas (de 15 meses en
adelante)
Altura (cm)
65.00
60.00
55.00
10
11
12
13
14
15
16
17
18
Edad (meses)
22
Suposiciones básicas del modelo de
regresión
Las suposiciones básicas que se deben hacer
para realizar el análisis de regresión incluyen las
siguientes:
a) Hay una relación lineal entre X y Y como la
expresada en el modelo:
Yi =  + Xi + i
b) Los errores i son aleatorios e independientes con
media igual a 0 y varianza 2
23
Suposiciones básicas del modelo de
regresión
c) Los valores de X son medidos sin error.
d) Para pruebas de hipótesis sobre parámetros del
modelo se debe suponer además, que los errores i
tienen distribución N (0, 2).
Esto último implica que la variable dependiente Y debe
de tener una distribución aproximadamente normal.
24
Estimación de regresión lineal simple
La recta estimada con las observaciones de una
muestra al azar de n pares de valores de xi y yi, se
representa como:

b
  
Yi  a  b  X i
={XiYi - [(Xi)(Yi)/n]} / [(Xi - X)2] =
=SPXY/ SCXX
SPXY = XiYi - [(Xi)( Yi)/n]
SCXX = Xi2 -[(Xi)2/n] y SCYY = Yi2 -[(Yi)2 /n]
Donde
aˆ  Y  bˆ X
25
Estimación de regresión lineal simple
La varianza estimada de las desviaciones del
modelo (llamada Varianza del Error) es:
s 2 
ˆ )2
(
Y

Y
 i i
(n  2)
O escrito de otro modo:
s2= { SCYY - [ (SPXY)2 / SCXX]} / (n-2)
26
Estimación de regresión lineal simple
Con el estimador de la varianza del error de
regresión (s2), se pueden obtener intervalos de
confianza para la recta de regresión y para los
parámetros  y .
Además, se pueden hacer pruebas de hipótesis
para los parámetros  y .
27
Estimación de regresión lineal simple
La prueba de hipótesis Ho: =0 vs. Ha: 0 es
una prueba de hipótesis sobre la existencia real de
la regresión entre X y Y.
Si =0, entonces para cualquier valor de X, el
resultado dará 0, y Y será igual a (+i) evidenciando
que no tiene relación con X.
28
Estimación de regresión lineal simple
El estadístico de prueba para la hipótesis

antedicha es:
b
tc 
sb
donde
s 
2
bˆ
s2
 (x i
X)
2
s2

SPXX
La regla de decisión será:
Si t c  t (  2, (n2 )) o t c  - t (  2, (n2 )) , se rechaza la
hipótesis H0 de que no existe regresión.
29
Prueba de hipótesis de la regresión
lineal
Hipótesis estadística
Ho: =0 vs. Ha: 0
Fijar el nivel de significancia de la prueba (α), o usar el
valor de p (Probabilidad de que el estadístico sea mayor
que el valor calculado)
2
Datos: n (número de observaciones), bˆ y sε
Estadístico de Prueba:

b
tc 
sb
s b 
2
s2
 (x i
X )2
s2

SPXX
Regla de decisión: Se rechaza la hipótesis nula H0 si:
t c  t (  2, (n2 )) o t c  - t (  2, (n2))
30
Coeficiente de determinación (R2)
El valor de R2 es una estimación de la
contribución relativa de la regresión de Y con X, a la
variación que ocurre en Y. Este valor se calcula como:
R2 = {(SPXY)2  SCXX}  SCYY =
(SPXY) 2
SCXX  SCYY
R2, llamado el coeficiente de determinación, es un
número que varía entre 0 y 1.
Se dice que la regresión entre X y Y explica el
R2100 % de la variación observada en Y. Este valor nos
da una idea de cuanto está explicando la variación que
hay en la variable dependiente Y, la asociación o
regresión con X.
31
Resumen de estimaciones
en regresión lineal simple
 Ecuación de la regresión
 Coeficiente de determinación
 Varianza del error
 Desviación estándar del error
 Gráfico de regresión con:
Diagrama de dispersión
Recta estimada de la regresión
32
Cálculos para la estimación de la
regresión lineal simple
Para estimar la regresión se forma el siguiente cuadro, el
cual permitirá calcular todos los estadísticos necesarios
X
Y
XY
X2
Y2
10
500
5000
100
250000
9
550
4950
81
302500
11
425
4675
121
180625
8
550
4400
64
302500
10
450
4500
100
202500
12
350
4200
144
122500
7
625
4375
49
390625
Suma=67
Suma=3450
Suma=32500
Suma=659
Suma=1751250
33
Estimación de la regresión lineal simple
Los estadísticos de la muestra son:
n=7
 Xi = 67
 Yi = 3450
 Xi2 = 659
 Yi2 = 1,751,250
 XiYi = 32,100
Las Sumas de Cuadrados para calcular
estimadores y la varianza del error son:
SCYY = 1,751,350 – [(3450)2/7]= 50,892.86
SCReg = [(-921.43)2]/17.71 = 47,940.75
SCError= 2, 952.11
los
34
Estimación de la regresión lineal simple
Los estimadores de los parámetros del modelo de regresión
son:
b(Est) = SPXY/SCXX = [32,100 - (67*3450/7)]/ [659-(672/7)]
= -921.43/17.71 = -52.03
a (Est) = 3450/7 - (-52.03*67/7) = 990.85
Es así, que la recta estimada será:
Yi = 990.85 - 52.02(Xi); donde i=1,2,....7
35
Estimación de la regresión lineal simple
Valores Observados
700
T
E
X
T
U
R
A
D
E
C
A
R
N
E
Linea de Regresión
600
550
Intervalo de
Confianza de 95%
500
450
400
350
Textura = 990.73 – 52.02 x Tiempo
300
TIEMPO DE COCCION(HORAS)
Gráfico de regresión
36
Uso del Excel para regresión
Los datos presentados son de un estudio sobre el
efecto de la temperatura en el consumo de
oxígeno de cierta especie animal.
Este es un experimento con 8 observaciones
realizadas a diferentes temperaturas, y para cada
una de ellas se mide el consumo de oxígeno.
Muestra
Temperatura
Oxígeno
1
2
-18
-15
5.2
4.7
3
-10
4.5
4
5
6
7
8
-5
0
5
10
19
3.6
3.4
3.1
2.7
1.8
37
Uso del Excel para regresión lineal simple
En el menú de herramientas, y submenú de
Análisis de datos, está la opción de regresión.
En la ventana activa debe llenar el rango de la
columna de los valores de Y (Oxígeno) y de los
valores de X (Temperatura). Además, podrá
escoger varias opciones gráficas que
aparecen en la ventana y que serán explicadas
durante los ejercicios.
38
Ejercicio
 Usando el Excel, introduzca los datos del
ejemplo anterior y realice el análisis de
regresión.
 Lea e interprete los resultados, resumiendo
éstos en un archivo de Word.
39
Ajuste de regresión usando JMP
Datos en JMP y
cálculo de regresión
lineal usando el
menú “Fit Y by X”
40
Ajuste de regresión usando JMP
Resultados del
ajuste de una
regresión lineal
simple usando el
menú “Fit Y by X”
41
Ajuste de regresión usando JMP
Linear Fit
OXIGENO = 3.4714223 - 0.0877587 TEMPERATURA
Summary of Fit
Ecuación de la regresión
0.980948
RSquare
RSquare Adj
0.977773
Root Mean Square Error
0.168249
Mean of Response
3.625
Observations (or Sum Wgts)
Valores de R2, R2 ajustado,
Desviación Estándar del Error,
Promedio de los valores de Y, y
número de observaciones (n).
8
Analysis of Variance
ANDEVA: Fuentes,
Grados de libertad,
Suma de cuadrados,
Cuadrados medios y
Valores de F con su
probabilidad (valor p).
Parámetro,
Estimación, Desv.
Estándar, Valor de t y
su probabilidad.
Resumen del modelo:
DF
Sum of Squares
Mean Square
F Ratio
Model
1
8.7451541
8.74515
308.9326
Error
6
0.1698459
0.02831
Prob > F
C. Total
7
8.9150000
Source
<.0001
Parameter Estimates
Estimate
Std Error
t Ratio
Prob>|t|
Intercept
3.4714223
0.060123
57.74
<.0001
TEMPERATURA
-0.087759
0.004993
-17.58
<.0001
Term
42
Ajuste de otros modelos de regresión usando JMP
Ejemplo del
JMP que se verá
en clase.
43
Ejercicio
 Usando el JMP, introduzca los datos del
ejemplo anterior y realice el análisis de
regresión.
 Lea e interprete los resultados, resumiendo
éstos en un archivo de Word.
 Compare los resultados con los obtenidos en
Excel.
44
Uso de Infostat para regresión
Para realizar regresiones en el Infostat se puede
importar el archivo de Excel (las columnas
deben estar debidamente formateadas, para
no tener problemas con los datos).
Una vez introducidos los datos se va al menú de
análisis estadístico y se escoge “Regresión
lineal”. Aparecerá una ventana donde se le
pide que escoja la variable dependiente (Y), y
el regresor o regresores (X) (variable
independiente).
45
Uso de Infostat para regresión
Al finalizar con la pantalla anterior aparecerá otra donde se ofrecen una
gran cantidad de opciones, las cuales se explicarán en el transcurso de los
ejercicios. La salida contiene varias pantallas que se pueden guardar en forma
independiente.
46
Evaluación de ajuste del modelo
Para evaluar el ajuste de un modelo de
regresión lineal se pueden usar varios criterios:
Los resultados de la prueba de F del análisis de
varianza de la regresión.
La desviación estándar del error de la regresión
El gráfico de las desviaciones de los valores
estimados de Y con respecto a los valores
ˆ  Y ) versus los valores de X.
observados: (Y
i
i
El análisis de la bondad de ajuste del modelo
(cuando se tiene más de un valor de Y para cada
X).
47
Evaluación de ajuste del modelo
Un buen ajuste del modelo de regresión
producirá un gráfico de las desviaciones como
el que se muestra en la figura.
2
(Y est. - Y obs.)
1.5
1
0.5
0
-0.5
-1
-1.5
0
2
4
6
8
10
12
14
16
18
X
Las desviaciones se distribuyen al azar para los valores de X. Recordar que
la suma de las desviaciones es igual a 0.
48
Dispersión de las desviaciones de la regresión lineal (i) con respecto a la variable
independiente (X).
+1
+1
O
O
-1
-1
Var. Independiente (X)
A
+1
+1
O
O
-1
-1
C
Var. Independiente (X)
Var. Independiente (X=Tiempo)
D
+1
+1
O
O
-1
-1
E
G
Var. Independiente (X)
B
Var. Independiente (X)
F
Var. Independiente (X)
+1
+1
O
O
-1
-1
Var. Independiente (X)
H
Var. Independiente (X)
49
Coeficiente de correlación
El coeficiente de correlación es un número que
sirve para medir en forma relativa el grado de
asociación lineal entre dos variables (X y Y).
El valor del coeficiente de correlación puede
variar entre -1 y 1. Cuando el valor del coeficiente de
correlación es negativo, esto indica una asociación
lineal inversa entre X y Y, esto es, cuando X sube Y
baja.
Los valores de correlación cercanos a -1 o a 1,
indican una fuerte asociación lineal entre X y Y. Los
valores de correlación cercanos a 0 indican falta de
asociación lineal entre X y Y.
50
Coeficiente de correlación
Cuando las variables X y Y tienen distribución
aproximadamente normal, y existe una asociación
lineal entre ellas, el coeficiente de correlación () es
un parámetro de la distribución bivariada normal.
Si las variables X o Y no tienen distribución
aproximadamente normal, o no hay suficientes
observaciones como para suponer que se
distribuyen normalmente, lo adecuado será recurrir a
la estimación no paramétrica de correlación, como
es la correlación de Kendall () y la de Spearman ().
51
Coeficiente de correlación
Si se toma una muestra aleatoria de pares de
valores (xi,yi), se podrá estimar el parámetro ,
mediante el coeficiente de correlación de la muestra (r)
llamado coeficiente de correlación de Pearson , el cual
es:
 x y  (  x )(  y ) / n
i
i
i
i
r
2
2
{ ( x  X)   (y  Y ) }
i
i
r
(SPXY)
(SCXX  SCYY )
52
Ejemplo
En este ejemplo nos interesa conocer si los cambios en
contenido de trimetilamina en pescado congelado, están de algún
modo asociados a los cambios en pH. Para calcular el coeficiente
de correlación de estas dos variables aleatorias, se usa un cuadro
similar al usado para regresión.
n=27
 Xi =38.42
 Yi = 108.46
 XiYi = 262.68
 Xi2 = 87.05
 Yi2 =897.85
Con estos datos el coeficiente de correlación entre
trimetilamina y pH es r= 0.87.
53
Coeficiente de correlación
r = 0.87
Trimetilamina
16.0
12.0
8.0
4.0
0.0
0.0
1.0
2.0
3.0
4.0
5.0
pH
54
Consideraciones sobre la correlación
Interesa conocer el valor del coeficiente
de correlación cuando:
 Existe una explicación para la asociación
entre X y Y.
Por deducción científica, o es una relación funcional
(participan en un mismo proceso), o cuando son componentes
de un organismo biológico, o se presume una relación por
razones científicas publicadas con anterioridad.
 Los valores de X y Y son ambas variables
aleatorias.
 La relación entre X y Y es lineal.
55
Consideraciones sobre la correlación
Un uso incorrecto del coeficiente de correlación
ocurre cuando éste se emplea para detectar causas o
efectos entre dos variables, cuando éstas causas o
efectos no tienen una explicación científica bien
definida y aceptada por los especialistas en la materia.
Por último se debe tomar en cuenta que el
coeficiente de correlación es sensible a la variación
que ocurre tanto en Y como en X. Cuando los datos
están muy dispersos el coeficiente de correlación baja,
aunque la pendiente de la recta de regresión se vea
bien definida.
56
Consideraciones sobre la correlación
r = -0.11
r =0.87
r =0.94
57
Resumen





Modelo de regresión
Modelo de regresión lineal
Ecuación de la recta
Estimación de la regresión
Coeficiente de correlación
58