Transcript Dependencia
LA RECTA DE REGRESIÓN
CONTENIDOS:
Dependencia funcional y dependencia estadística
Concepto de regresión
¿Es buena la aproximación?
Error cuadrático medio, varianza residual
coeficiente de determinación lineal
Independencia - Dependencia
Al estudiar dos características simultáneamente de una muestra:
– ¿están relacionadas? ¿interdependencia? ¿cómo lo hacen?
– altura vs peso. horas de estudio vs calificación en un examen.
El objetivo principal es determinar el modo en que se relacionan.
Dos variables pueden considerarse:
• Independientes ninguna explica el comportamiento de la otra
• Dependencia funcional (exacta) Y=f(x)
• Dependencia estadística está entre las dos anteriores
330
280
25, 00
20, 00
230
15, 00
180
10, 00
130
5, 00
80
r=0,1
30
140
150
160
170
180
190
0, 00
0, 00
20, 00
40, 00
60, 00
80, 00
200
Independencia estadística
Dependencia
estadística
Dependencia funcional
-
+
Grado de asociación entre dos variables
Estudio conjunto de dos variables
•
A la derecha tenemos los datos obtenido observando dos
variables estadísticas en varios individuos de una muestra.
– En cada fila tenemos los datos de un individuo
– Cada columna contiene los valores que toma una variable
sobre los individuos.
– Las individuos no se muestran en ningún orden particular.
•
•
Podemos representar las observaciones en un diagrama
de dispersión (‘scatterplot’). En él, cada individuo es un
punto cuyas coordenadas son los valores de las variables.
En primera instancia, pretendemos reconocer a partir del
diagrama si hay relación entre las variables, de qué tipo y,
si es posible predecir el valor de una de ellas en función de
la otra.
Altur
a en
cm.
Peso
en
Kg.
162
61
154
60
180
78
158
62
171
66
169
60
166
54
176
84
163
68
...
...
Diagramas de dispersión o nube de puntos
Altura y peso de 30 individuos.
100
90
Pesa 76 kg.
80
Mide 187 cm.
70
60
Pesa 50 kg.
50
Mide 161 cm.
40
30
140
150
160
170
180
190
200
Relación entre variables.
Altura y peso
de 30 individuos.
100
90
80
70
60
50
40
30
140
150
160
170
180
190
200
Relación entre variables.
Altura y peso
de 30 individuos.
100
90
80
70
60
50
40
30
140
150
160
170
180
190
200
Relación entre variables.
Altura y peso
de 30 individuos.
• ¿Qué recta explica mejor la relación peso-altura?
• mejor...¿en qué sentido?
100
90
80
70
60
50
40
30
140
150
160
170
180
190
200
RECTA DE REGRESIÓN
Pendiente
yn
yˆ i
yn1
y3
u3
yi
y1
ui
yi
y2
Ordenada
en el origen
x1
x2
x3
yi a bxi ui
xi
xn 1
xn
ui yi yˆi
Error: residuo
RECTA DE REGRESIÓN
Llamemos a “u” residuo, perturbación o error: es la diferencia que hay entre
el valor observado de la variable “y” y el valor que tendría (valor estimado)
si la relación fuera lineal, es decir, través de la recta de regresión
yi a bxi
IDEA: hacer MÍNIMA la suma de los CUADRADOS de los residuos.
u ( yi yˆi )
2
i
2
n
n
i 1
i 1
2
2
ˆ
u
(
y
y
)
i i i
n
2
n 2 n
2
min
ui ( yi yˆi ) yi a bxi
a ,b
i 1
i 1
i1
EQUIVALE a buscar los coeficientes de la recta hace MÍNIMA la suma de los
CUADRADOS de los residuos.
La recta de regresión de y sobre x es
yˆ y
S xy
S
2
x
x
S xy
S
2
x
x
Es decir, los valores de los coeficientes son
ay
Covarianza
S xy
S
2
x
x
b
S xy
S
2
x
1 n
1 n
S xy ( xk x )( yk y ) xk yk x y
n k 1
n k 1
¿Es la recta de regresión una buena aproximación de la nube de puntos?
Coeficiente de determinación:
n
R2
yˆ k y
2
yk
2
k 1
n
y
Diferencia entre el valor estimado y la media observada
Diferencia entre lo observado y la media observada
k 1
Varianza residual ó error cuadrático medio: Ayuda a medir la dependencia.
VR =
S
2
u
y
i
ˆi
y
N
2
S 2
SY 1 XY
S X SY
Coeficiente de correlación lineal de Pearson r:
S
S
yˆi y XY2 x XY2 xi
SX SX
SY
y r
xi x
SX
S XY
r
S X SY
Covarianza de dos variables X e Y
• La pendiente de la recta de regresión es Sxy/ S2X
• El signo de la covarianza indica si la posible
relación entre dos variables es directa o inversa.
– Directa: Sxy >0
– Inversa: Sxy <0
– Incorreladas: Sxy =0
• La covarianza no dice nada sobre el grado de
relación entre las variables.
Coef. de correlación lineal de
Pearson
• La coeficiente de correlación lineal de
Pearson de dos variables, r, nos indica si
los puntos tienen una tendencia a
disponerse alineadamente (excluyendo
rectas horizontales y verticales).
• tiene el mismo signo que Sxy por tanto de
su signo obtenemos el que la posible
relación sea directa o inversa.
• r es útil para determinar si hay relación
lineal entre dos variables
r
S xy
SxS y
Propiedades de r
•
•
•
•
Es adimensional
Sólo toma valores en [-1,1]
Las variables son incorreladas r=0
Relación lineal perfecta entre dos variables r=+1 o r=-1
– Excluimos los casos de puntos alineados horiz. o verticalmente.
• Cuanto más cerca esté r de +1 o -1 mejor será el grado de
relación lineal.
– Siempre que no existan observaciones anómalas.
Relación
inversa
perfecta
-1
Variables
incorreladas
0
Relación
directa
casi
perfecta
+1
Coeficiente de determinación
• No mide la validez del modelo de
regresión propuesto.
• Sí mide cuanto de la variabilidad se
explica por la ecuación de regresión
estimada.
Hemos usado materiales de:
– Julián de la Horra Navarro.
Estadística aplicada, 3ª edición. Díaz de Santos.
– G.C. Canavós.
Estadística y probabilidad. Métodos y aplicaciones. McGrawHill
– Francisco Javier Barón
http://www.bioestadistica.uma.es/baron/apuntes
– Sara Mateo
http://www.dea.uib.es/webpersonal/williamnilsson/archivos/Capitulo7.ppt
¿DE DÓNDE SALEN LOS COEFICIENTES DE LA RECTA DE REGRESIÓN?
¿Qué “a” y “b” minimizan la suma de los cuadrados de los errores cometidos?
n
n
(a, b) yi a bxi yi a bxi
2
i 1
Errores cometidos al
aproximar por una recta
i 1
El valor que hemos
aproximado para “y” con
la recta de regresión
y
na yi b xi
i
i
yi a bxi xi 0
2
b
i
i
i
i
2
xi yi a
xi b
xi
i
i
i
yi
a b
xi
i
i
i
yi abxi 0
x y y bx x
i
2
a
MINIMIZAR
2
xi yi
i
i
b xi2
i
i
i
bxnx b xi2
y x
n
i
i
a y bx
2
2
x
y
ynx
b
x
nx
i i i
i
i
S
S xy bS x2
b xy2
Sx
i