Estadistica Basica Sesion 7

Download Report

Transcript Estadistica Basica Sesion 7

Curso de Estadística Básica

SESION 7 REGRESIÓN LINEAL MCC. Manuel Uribe Saldaña MCC. José Gonzalo Lugo Pérez

Estadística Básica

Objetivo

Representar datos de dos variables de forma tabular y gráfica. Comprender la distinción entre los propósitos básicos del análisis de correlación y regresión lineal. (Sesión 6 y 7)

Estadística Básica

Agenda Sesión 7

• • • •

Datos de dos variables Correlación lineal (Sesión 6) Regresión lineal (Sesión 7) Evaluación (Sesión 7)

Estadística Básica

Problema

Estadística Básica

Tabla de extensiones

No.

Suma

1 2 3 4 5 6 7 16 17 18 19 20 8 9 10 11 12 13 14 15

Incremento en horas (x)

40 65 84 40 70 68 110 90 65 35 30 85 90 90 50 75 90 70 70 40

1357 Incremento en Ventas (y)

$ 500.00

$ 1,000.00

$ 500.00

$ 4,000.00

$ 2,000.00

$ 5,000.00

$ 2,000.00

$ 4,000.00

$ 1,000.00

$ 10,000.00

$ 8,500.00

$ 2,000.00

$ 3,500.00

$ 1,000.00

$ 2,500.00

$ 5,000.00

$ 9,000.00

$ 3,000.00

$ 4,000.00

$ 500.00

$ 69,000.00

x2

1600 4225 7056 1600 4900 4624 12100 8100 4225 1225 900 7225 8100 8100 2500 5625 8100 4900 4900 1600

101605 y2

250000 1000000 250000 16000000 4000000 25000000 4000000 16000000 1000000 100000000 72250000 4000000 12250000 1000000 6250000 25000000 81000000 9000000 16000000 250000

394500000 xy

20000 65000 42000 160000 140000 340000 220000 360000 65000 350000 255000 170000 315000 90000 125000 375000 810000 210000 280000 20000

4412000

Estadística Básica

Cálculos

SC

(

x

)  

x

2    2

n

 9532 .

55

SC

(

y

)  

y

2    2

n

 156450000

SC

(

xy

)  

xy

 

x

y n

  269650

r

SC

(

xy

)

SC

(

x

)

SC

(

y

)   0 .

22080459

Estadística Básica

Conclusiones

No en están correlacionadas las variables “incremento horas” e “incremento en ventas” ya que el coeficiente de una correlación

r

= -0.22, lo que indica correlación muy débil o nula.

Estadística Básica

Regresión Lineal

• El análisis de regresión lineal encuentra la ecuación de la recta que describe mejor la relación entre las dos variables. Una aplicación de esta ecuación es hacer predicciones.

Estadística Básica

Ejemplos

• El éxito que tendrá un estudiante en la universidad con base en los resultados que obtuvo en el bachillerato.

• Averiguar la distancia necesaria para detener un automóvil conociendo su velocidad.

• El peso que debe tener un niño con base en la estatura.

• El número de sentadillas que realizará un estudiante con base en el número de lagartijas que realizó

Estadística Básica

Modelos o ecuaciones de predicción

La relación entre estas dos variables es una expresión algebraica que describe la relación matemática entre x y

y

. A continuación se presentan algunos ejemplos de varias relaciones posibles:

Lineal: Cuadrática: Exponencial: Logarítmica:

y

ˆ 

b

0 

b

1

x y

ˆ 

a

bx

cx

2 

a

(

b x

)

y

ˆ 

a

log

b x Estadística Básica

Patrones de datos de dos variables

Estadística Básica

Método de mínimos cuadrados

Si un modelo de línea recta parece idóneo, la recta del mejor ajuste se encuentra aplicando el

método de mínimos cuadrados

y

b

b x

es la ecuación de una recta, donde representa particular de

x

El método de mínimos cuadrados requiere encontrar

b b

1 sea lo más pequeña posible.

 

y

  2

Estadística Básica

y

Método de mínimos cuadrados

y

ˆ 

b

0 

b

1

x

(

x

, ) ˆ

y y

 (

x

,

y

)

y x Estadística Básica

Recta del mejor ajuste

La ecuación de la recta del mejor ajuste es determinada por su pendiente origen

b

0

b

y su ordenada al 1 . Los valores de las constantes, pendiente y ordenada al origen, que satisfacen el criterio de mínimos cuadrados se encuentran aplicando las siguientes fórmulas:

b

1   (

x

  (

x x

 )(

x y

)  2

y

)

b

0  

y

 (

b

1  

x

)

n Estadística Básica

Recta del mejor ajuste

Para encontrar la pendiente equivalencia

b

1 se usará una matemática que utilice la suma de los cuadrados determinados en los cálculos preliminares de correlación:

b

1 

SC

(

xy

)

SC

(

x

)

Estadística Básica

Clase de educación física del Sr. Torres

Tomando en cuenta el ejemplo de la sesión 6 sobre los 10 estudiantes que realizaron pruebas de condición física, ahora el objetivo es predecir las “sentadillas” efectuadas por un estudiante con base en el número de “lagartijas” hechas. Se quiere encontrar la recta del mejor ajuste,

y

ˆ 

b

0 

b

1

x

De esta manera se realizan los cálculos tomando los datos correspondientes de la tabla de extensiones generada:

Estadística Básica

Tabla de extensiones

Estudiante Lagartijas (x) 1 2 3 4 5 6 7 8 9 10

Sumatoria

27 22 15 35 30 52 35 55 40 40

351 x2

729 484 225 1225 900 2704 1225 3025 1600 1600

13717 Sentadillas (y)

30 26 25 42 38 40 32 54 50 43

380 y2

900 676 625 1764 1444 1600 1024 2916 2500 1849

15298 xy

810 572 375 1470 1140 2080 1120 2970 2000 1720

14257

Estadística Básica

Cálculos

Se toman los cálculos correspondientes a SC(x) y SC(xy) y se calcula la pendiente:

SC

(

x

)  

x

2    2

n

 13717  ( 351 ) 2 10  1396 .

9

SC

(

xy

)  

xy

 

x

y n

 14257  ( 351 )( 380 ) 10  919 .

0

b

1 

SC

(

xy

)

SC

(

x

)  919 .

0 1396 .

9  0 .

6579  0 .

66

Estadística Básica

Cálculos

Se calcula la ordenada al origen,

b

0 de la tabla de extensiones: con los datos

b

0  

y

 (

b

1  

x

)

n

 380  ( 0 .

6579 )( 351 ) 10  14 .

9077  14 .

9

Estadística Básica

Ecuación del mejor ajuste

b

0 

b

1

x b

0  14 .

9

b

1  0 .

66

y

ˆ  14 .

9  0 .

66

x

Notas

1.

2.

Recuerde mantener por lo menos tres cifras decimales extra al efectuar los cálculos para asegurar una respuesta exacta.

Al redondear los valores calculados de

b o

y

b 1

, preserve por lo menos dos cifras significativas en la respuesta final

Estadística Básica

Cálculo de los puntos de la recta

Se eligen dos valores convenientes de x, cada uno cerca de cada extremo del dominio (x=10 y x=60) y se encuentran sus valores

y

correspondientes.

 14 .

9  0 .

66

x

 14 .

9  0 .

66 ( 10 )  21 .

5  14 .

9  0 .

66

x

 14 .

9  0 .

66 ( 60 )  54 .

5 ( 10 , 21 .

5 ) ( 60 , 54 .

5 )

Estadística Básica

Trazado de la recta

Clase de educación física del señor Torres

60 50 40 30 20 10 0 0 ( 10 , 21 .

5 ) 10 20 30

Lagartijas

40 50 ( 60 , 54 .

5 ) 60

Estadística Básica

Ejercicio

A ocho estudiantes universitarias, elegidas de forma aleatoria, se les preguntó su estatura (cerrada a la pulgada más próxima) y su peso (cerrado a las cinco libras más próximas). Calcule el coeficiente de correlación lineal r, y la ecuación para predecir el peso de una universitaria con base en su estatura y trácela sobre un diagrama de dispersión.

Estatura (x) Peso (y) Datos de las estaturas y pesos de las estudiantes universitarias 1 2 3 4 5 6 7

65 105 65 125 62 110 67 120 69 140 65 135 61 95

8

67 130

Estadística Básica

Respuestas

r

 0 .

7979  0 .

80

SC

(

x

)  48 .

875

SC

(

xy

)  230 .

0

b

1  4 .

706  4 .

71

b

0   186 .

478   186 .

5   186 .

5  4 .

71

x Estadística Básica

1.

2.

3.

Observaciones en la elaboración de predicciones

La ecuación debe usarse para hacer predicciones sólo acerca de la población de la cuál se extrajo la muestra. Por ejemplo, sería cuestionable usar la relación entre la estatura y el peso de las estudiantes universitarias para predecir el peso de atletas profesionales, dadas sus estaturas.

La ecuación debe usarse sólo dentro del dominio muestral de la variable de entrada. Por ejemplo, la predicción de que una universitaria de estatura cero pesa -186.5 libras no tiene sentido. Tal vez, y de manera ocasional, se quiera usar la recta del mejor ajuste para estimar valores que están fuera del intervalo del dominio de la muestra. Esto es posible, pero debe hacerse con precaución y sólo para valores cercanos al intervalo del dominio.

Si la muestra fue tomada en 1994, no espere que los resultados sean válidos para 1929 o 2010. Las mujeres actuales pueden ser diferentes a las de 1929 y a las de 2010.

Estadística Básica