Transcript Dependencia
LA RECTA DE REGRESIÓN CONTENIDOS: Dependencia funcional y dependencia estadística Concepto de regresión ¿Es buena la aproximación? Error cuadrático medio, varianza residual coeficiente de determinación lineal Independencia - Dependencia Al estudiar dos características simultáneamente de una muestra: – ¿están relacionadas? ¿interdependencia? ¿cómo lo hacen? – altura vs peso. horas de estudio vs calificación en un examen. El objetivo principal es determinar el modo en que se relacionan. Dos variables pueden considerarse: • Independientes ninguna explica el comportamiento de la otra • Dependencia funcional (exacta) Y=f(x) • Dependencia estadística está entre las dos anteriores 330 280 25, 00 20, 00 230 15, 00 180 10, 00 130 5, 00 80 r=0,1 30 140 150 160 170 180 190 0, 00 0, 00 20, 00 40, 00 60, 00 80, 00 200 Independencia estadística Dependencia estadística Dependencia funcional - + Grado de asociación entre dos variables Estudio conjunto de dos variables • A la derecha tenemos los datos obtenido observando dos variables estadísticas en varios individuos de una muestra. – En cada fila tenemos los datos de un individuo – Cada columna contiene los valores que toma una variable sobre los individuos. – Las individuos no se muestran en ningún orden particular. • • Podemos representar las observaciones en un diagrama de dispersión (‘scatterplot’). En él, cada individuo es un punto cuyas coordenadas son los valores de las variables. En primera instancia, pretendemos reconocer a partir del diagrama si hay relación entre las variables, de qué tipo y, si es posible predecir el valor de una de ellas en función de la otra. Altur a en cm. Peso en Kg. 162 61 154 60 180 78 158 62 171 66 169 60 166 54 176 84 163 68 ... ... Diagramas de dispersión o nube de puntos Altura y peso de 30 individuos. 100 90 Pesa 76 kg. 80 Mide 187 cm. 70 60 Pesa 50 kg. 50 Mide 161 cm. 40 30 140 150 160 170 180 190 200 Relación entre variables. Altura y peso de 30 individuos. 100 90 80 70 60 50 40 30 140 150 160 170 180 190 200 Relación entre variables. Altura y peso de 30 individuos. 100 90 80 70 60 50 40 30 140 150 160 170 180 190 200 Relación entre variables. Altura y peso de 30 individuos. • ¿Qué recta explica mejor la relación peso-altura? • mejor...¿en qué sentido? 100 90 80 70 60 50 40 30 140 150 160 170 180 190 200 RECTA DE REGRESIÓN Pendiente yn yˆ i yn1 y3 u3 yi y1 ui yi y2 Ordenada en el origen x1 x2 x3 yi a bxi ui xi xn 1 xn ui yi yˆi Error: residuo RECTA DE REGRESIÓN Llamemos a “u” residuo, perturbación o error: es la diferencia que hay entre el valor observado de la variable “y” y el valor que tendría (valor estimado) si la relación fuera lineal, es decir, través de la recta de regresión yi a bxi IDEA: hacer MÍNIMA la suma de los CUADRADOS de los residuos. u ( yi yˆi ) 2 i 2 n n i 1 i 1 2 2 ˆ u ( y y ) i i i n 2 n 2 n 2 min ui ( yi yˆi ) yi a bxi a ,b i 1 i 1 i1 EQUIVALE a buscar los coeficientes de la recta hace MÍNIMA la suma de los CUADRADOS de los residuos. La recta de regresión de y sobre x es yˆ y S xy S 2 x x S xy S 2 x x Es decir, los valores de los coeficientes son ay Covarianza S xy S 2 x x b S xy S 2 x 1 n 1 n S xy ( xk x )( yk y ) xk yk x y n k 1 n k 1 ¿Es la recta de regresión una buena aproximación de la nube de puntos? Coeficiente de determinación: n R2 yˆ k y 2 yk 2 k 1 n y Diferencia entre el valor estimado y la media observada Diferencia entre lo observado y la media observada k 1 Varianza residual ó error cuadrático medio: Ayuda a medir la dependencia. VR = S 2 u y i ˆi y N 2 S 2 SY 1 XY S X SY Coeficiente de correlación lineal de Pearson r: S S yˆi y XY2 x XY2 xi SX SX SY y r xi x SX S XY r S X SY Covarianza de dos variables X e Y • La pendiente de la recta de regresión es Sxy/ S2X • El signo de la covarianza indica si la posible relación entre dos variables es directa o inversa. – Directa: Sxy >0 – Inversa: Sxy <0 – Incorreladas: Sxy =0 • La covarianza no dice nada sobre el grado de relación entre las variables. Coef. de correlación lineal de Pearson • La coeficiente de correlación lineal de Pearson de dos variables, r, nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales). • tiene el mismo signo que Sxy por tanto de su signo obtenemos el que la posible relación sea directa o inversa. • r es útil para determinar si hay relación lineal entre dos variables r S xy SxS y Propiedades de r • • • • Es adimensional Sólo toma valores en [-1,1] Las variables son incorreladas r=0 Relación lineal perfecta entre dos variables r=+1 o r=-1 – Excluimos los casos de puntos alineados horiz. o verticalmente. • Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal. – Siempre que no existan observaciones anómalas. Relación inversa perfecta -1 Variables incorreladas 0 Relación directa casi perfecta +1 Coeficiente de determinación • No mide la validez del modelo de regresión propuesto. • Sí mide cuanto de la variabilidad se explica por la ecuación de regresión estimada. Hemos usado materiales de: – Julián de la Horra Navarro. Estadística aplicada, 3ª edición. Díaz de Santos. – G.C. Canavós. Estadística y probabilidad. Métodos y aplicaciones. McGrawHill – Francisco Javier Barón http://www.bioestadistica.uma.es/baron/apuntes – Sara Mateo http://www.dea.uib.es/webpersonal/williamnilsson/archivos/Capitulo7.ppt ¿DE DÓNDE SALEN LOS COEFICIENTES DE LA RECTA DE REGRESIÓN? ¿Qué “a” y “b” minimizan la suma de los cuadrados de los errores cometidos? n n (a, b) yi a bxi yi a bxi 2 i 1 Errores cometidos al aproximar por una recta i 1 El valor que hemos aproximado para “y” con la recta de regresión y na yi b xi i i yi a bxi xi 0 2 b i i i i 2 xi yi a xi b xi i i i yi a b xi i i i yi abxi 0 x y y bx x i 2 a MINIMIZAR 2 xi yi i i b xi2 i i i bxnx b xi2 y x n i i a y bx 2 2 x y ynx b x nx i i i i i S S xy bS x2 b xy2 Sx i