Regresión lineal - Estadística inferencial Juan José Hernández

Download Report

Transcript Regresión lineal - Estadística inferencial Juan José Hernández

Correlación
Juan José Hernández Ocaña
Correlación
• Muchas veces en Estadística necesitamos saber si
existe una relación entre datos apareados y
tratamos de buscar una posible relación entre
variables.
• Podemos decir que hay una correlación entre
dos variables “si cuando una de ellas se relaciona
con la otra de alguna manera”
Conceptos
• Análisis de correlación
– Conjunto de técnicas estadísticas empleado para medir la
intensidad de la asociación entre dos variables
– Este tipo de estadístico puede utilizarse para medir el
grado de relación de dos variables si ambas utilizan una
escala de medida a nivel de intervalo/razón (variables
cuantitativas)
Diagrama de dispersión
• Es una gráfica que representa la relación entre dos variables.
• Los datos muestrales apareados (x,y) se grafican en un
eje horizontal (x) y un eje vertical (y). Cada par
individual (x, y) se grafica como un solo punto.
• Podemos encontrar tres tipos de relación entre las
variables
– Positiva
– Negativa
– Sin relación
Coeficiente de correlación
•
El coeficiente de correlación r mide la fuerza de la relación
lineal entre los valores cuantitativos apareados x y y.
• El coeficiente de correlación expresa de manera cuantitativa
la magnitud y dirección de una relación
– Condiciones
• La muestra de datos apareados (x, y) es una muestra aleatoria de
datos cuantitativos
• Los pares de datos ( x, y) tienen una distribución normal
bivariada
Conceptos Correlación
 Coeficiente de correlación
 Este coeficiente expresa de manera cuantitativa la magnitud y dirección
de una relación lineal
 La dirección se refiere a si la relación es positiva o negativa
 El grado de la relación se refiere a la magnitud
 Una correlación puede variar de +1 a - 1
 Hay que considerar que la gráfica de dispersión está formada por
parejas de valores de x y
 Si se desea conocer la relación simple entre una variable x y ,
podemos emplear
 La r de Pearson
 r2 Nos mide la proporción de la variación de
relación lineal de x
y , que se explica por
∑X Es la suma de todos
los valores de x
∑X2 indica que cada valor
de x debe elevarse al
cuadrado y después
dichos cuadrados se
suman
∑(X)2 indica que los
valores de x deben
sumarse y el total
elevarse al cuadrado
∑XY indica que cada
valor de x debe
multiplicarse por su
correspondiente de y
después hacer la suma
de todos los productos.
Ejercicios
• Considere los siguiente valores para la
variable x y para la variable y.
Calcule el valor de la r de Pearson
Calcule el valor de r2
Cuál es la hipótesis nula
Cuál es la hipótesis alternativa
Establezca criterio de decisión de acuerdo a t
Rechace Ho de acuerdo a los criterios anteriores
Cuáles son sus conclusiones
x
1
2
3
4
y
3
5
8
13
SUMATORIAS
x
y
xy
x2
y2
1
3
3
1
9
2
5
10
4
25
3
8
24
9
64
4
13
52
16
169
∑x =10
∑y=29
∑xy=89
∑ x2= 30
∑ y2 =267
Grafico de dispersión
14
12
10
8
Series1
6
4
2
0
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
Regresión lineal
• En el modelo de regresión lineal simple, se supone
que la relación entre la variable dependiente (y) y la
variable independiente (x) es casi una recta
Regresión
Conceptos
• La regresión mide la relación entre dos variables y se
basa en el uso de la misma relación para elaborar una
predicción.
• Esto resultaría sencillo siempre y cuando se considere
una recta perfecta en la relación entre dos variables
• En el caso de relaciones imperfectas la solución
consiste en construir una recta que minimice los
errores de predicción de acuerdo a un criterio llamado
mínimos cuadrados
Se quiere conocer si existe una relación entre el numero
de las llamadas que los empleados realizan a los clientes
potenciales y el número de equipos vendidos
EJEMPLO
llamadas
Equipos vendidos
Keller
20
30
Hall
40
60
Vinist
20
40
Fish
30
60
Welch
10
30
Ramirez
10
40
Niles
20
40
Kiel
20
50
Reynols
20
30
Jones
30
70
80
70
60
50
40
30
20
10
0
0
10
20
30
40
Equipos vendidos
La media de X ( llamadas ) es 22
La media de Y ( equipos vendido) es 45
50
La ecuación que describe la forma en que el valor
medio de y se relaciona con x se llama ecuación de
regresión lineal simple
–E(y) = βo
–
+ β 1x
βo es la ordenada al origen
– β 1 es la pendiente
– E(y) es el valor esperado de y para determinado
valor de x
–
La ecuación que describe la forma en que el valor medio
de y se relaciona con x se llama ecuación de regresión
estimada
–y=
bx + a
– donde a es la ordenada al origen
–Donde b es la pendiente
–El valor de y sería el valor estimado de y a partir del valor de x
empleando la ecuación
–
Supuestos
• Se investiga únicamente relaciones lineales
• Para cada valor de (x, y) es una variable aleatoria con una
distribución normal y se considera que todas estas
distribuciones de y tienen la misma varianza.
• Si existe una correlación lineal, el mejor valor predicho de y
se calcula sustituyendo el valor de x en la ecuación de
regresión.
– Si no existe una correlación lineal, no debe utilizar la ecuación de
regresión para hacer predicciones.
•
Cuando utilice la ecuación de regresión para hacer
predicciones, debe permanecer en el ámbito de los datos
muestrales disponibles.
PENDIENTE DE LA RECTA
• La pendiente nos representa la cantidad que cambia
la variable dependiente cuando la variable
independiente cambia exactamente una unidad, esto
es conocido como cambio marginal
• Una recta satisface la propiedad de mínimos
cuadrados sí la suma de los cuadrados de los
residuales es la menor posible
– Un residual es la diferencia entre el valor observado
muestral de y, y el valor de y predicho por la ecuación
de regresión.
– Es necesario realizar una prueba de hipótesis para
verificar la fiabilidad de la predicción mediante el uso de
la ecuación
PREDICCIÓN
•
Se puede pronosticar el valor de y siempre y cuando se
tenga una recta
– 1.-Se puede dar confiabilidad a la estimación
mediante la prueba de hipótesis.
• nos dice en términos de probabilidad la certeza de
tener o no un recta.
– 2.- Se puede emplear también el calculo del error
estándar de estimación.
• Nos dice cuán preciso es el pronóstico
Error estándar de estimación
• Es la medida de la dispersión de los valores observados
respecto a la recta de regresión
– calcular residuos y a partir de allí el error estándar de
medición
• Si su valor es pequeño ello significa que los datos están
relativamente cercanos a la recta de regresión y la
ecuación sirve para predecir con un margen de error
pequeño
• Se emplea el método de la recta de mínimos cuadrados
– No hay otra recta que pase por el valor de los datos donde la
suma de las desviaciones al cuadrado sea menor
– Se considera como muy
confiable si se
encuentra dentro de
+/- un valor del error
estándar
– se considera confiable
si se encuentra dentro
de +/- 2 valores del
error estándar.
80
70
60
50
Axis Title
• 1.-calcular valores
estimados de la variable
dependiente (y)
• 2.- Calcular los residuos
• 3.- calcular el cuadrado
de los residuos
• 4.- Calcular error
estándar de medición
• 5.- Comparar con regla
de distribución empírica
40
Series1
Linear (Series1)
30
20
10
0
0
10
20
30
Axis Title
40
50
Coeficiente de determinación
r2
• Es una medida de la bondad de ajuste para
una ecuación de regresión
– Esto es , qué tan bien se ajusta a los datos la
ecuación de regresión
– los valores van desde 0 a 1
– se puede emplear para relaciones que tengan dos
o más variables independientes
EJERCICIOS
Se desea terminar si
existe una relación entre
la cantidad de autos
vendidos durante varios
años y el porcentaje de
participación de la
compañía General Motors
AÑO
AUTOS
(MILLONES)
% GM
1950
6
50.2
1955
7.8
50.4
1960
7.3
44
1965
10.3
49.9
1970
10.1
39.5
1975
10.8
43.1
1980
11.5
44
1985
15.4
40.1
1990
13.5
36
1995
15.5
31.
2000
17.4
28.6
2003
17.1
27.8
60
50
40
30
Series1
20
10
0
0
2
4
6
8
10
12
14
16
18
20
60
50
40
Series1
30
Series2
20
10
0
1
2
3
4
5
6
7
8
9
10
11
12
numero de rechazo
40
35
30
25
20
numero de rechazo
15
10
5
0
0
5
10
15
• Coeficiente de correlación ( r) = - 0.7852
– conforme aumentan las semanas de experiencia,
disminuye el número de rechazos
• Coeficiente de determinación (r2)= 0.6165
– EL 61.65% de los cambios de y se deben a la variable x,
esto es, el 61.65% de la disminución en el número de los
defectos es atribuible a la experiencia del operador
numero de rechazo
40
35
30
25
20
numero de rechazo
15
10
5
0
0
5
10
15
Pendiente de la recta ( b)= -1.408, lo que significa que cada semana de
experiencia en el operador se refleja en una disminución en el número
de defectos de 1.408 .
El valor de la intersección (a) es de 34.71, se puede inferir que 34.71
unidades son independiente de la experiencia del operador y se deben a
otros factores ( materia prima, maquinaria). Para un análisis más
especifico se deberá centrar el proceso al valor medio de x
Observación
1
2
3
4
5
6
7
8
9
10
11
12
Pronóstico para Y
Residuos
24.85546875 1.14453125
22.0390625 -2.0390625
26.26367188 1.73632813
14.99804688 1.00195313
23.44726563 -11.4472656
17.81445313 0.18554687
20.63085938 3.36914063
29.08007813 -3.08007813
31.89648438 6.10351563
19.22265625 2.77734375
33.3046875 -1.3046875
23.44726563 1.55273438
R2
1.30995178
4.15777588
3.01483536
1.00391006
131.03989
0.03442764
11.3511086
9.48688126
37.252903
7.71363831
1.70220947
2.41098404
210.478516
El error estándar de medición es = 4.587=
Por lo que podemos decir que es confiable ya que solo dos datos están fuera del 68% y
ningún dato se encuentra fuera del 95% de los mismos de acuerdo a regla empírica
ejercicios
REGRESIÓN Y CORRELACIÓN
• Un gerente de una empresa que
comercializa cosméticos desea saber qué
relación existe entre los ingresos de
varias semanas y sus respectivos costos
variables, para lo cual, registra estas
variables durante 8 semanas, dando
como resultado los siguientes datos
• Calcule el coeficiente de correlación
• Calcule la ecuación de regresión.
– Valor de b y el valor de a
• Si tiene un valor DE X DE 140 CUAL
SERÍA EL VALOR DE Y
• Calcule el coeficiente de determinación
• Pruebe la hipótesis de la fiabilidad de la
predicción de la ecuación
Costo
semana ingreso variable
1
157
52
2
150
52
3
143
48
4
139
49
5
163
53
6
165
54
7
167
57
8
173
58
semana
ingreso
1
2
3
4
5
6
7
8
sumas
costo
var
X2
XY
Y2
157
150
143
139
163
165
167
173
52
52
48
49
53
54
57
58
8164
7800
6864
6811
8639
8910
9519
10034
24649
22500
20449
19321
26569
27225
27889
29929
2704
2704
2304
2401
2809
2916
3249
3364
1257
423
66741
198531
22451
SST
seman
a
ingreso costo var y estimada
suma
SSR
SSE
(y1 -y prom)2 (y est- y pro)2
(y1-yest)2
(x-xpro)2
1
157
52 52.8412001
0.765625
0.00114243
0.70761769
0.015625
2
150
52 50.9484083
0.765625
3.71175541
1.10584501
50.765625
3
143
48 49.0556165
23.765625
14.58769
1.11432628
199.515625
4
139
49 47.9740212
15.015625
24.019593
1.05263245
328.515625
5
163
53 54.4635931
0.015625
2.5236281
2.14210482
34.515625
6
165
54 55.0043908
1.265625
4.53430509
1.00880084
62.015625
7
167
57 55.5451884
17.015625
7.12990629
2.11647668
97.515625
8
173
58 57.1675814
26.265625
18.4262552
0.69292071
252.015625
84.875
74.9342755
9.94072448
1024.875
1257
423
423
• En la asociación de hoteleros de la zona de
Naucalpan existe una preocupación por los
bajos niveles de ocupación durante el año.
Ellos están por plantear una solución al
problema, realizando una diagnóstico del
mismo, para lo cual registran los niveles de
ocupación promedio al año y las tarifas por
persona que se cobran por noche en
habitación doble
• 1.- Determine el coeficiente de correlación
• 2.- Determine la ecuación de regresión
• 3.- Calcule el coeficiente de determinación
• 4.- Realice la prueba de hipótesis para
determinar la fiabilidad de predicción de la
ecuación. Sí la tarifa por persona fuera 270,
cuál sería el % de ocupación esperado?
• 5.- De acuerdo a los resultado, cuáles serían
sus conclusiones?
TARIFA POR
PERSONA
% DEL NIVEL DE
OCUPACIÓN
185.
176.
19.69
20.45
201.
194.
240.
18.1
14.5
15.23
314.
187.
267.
6.6
15.9
9.2
250
170.
9.96
19.2
PC WORLD publicó las evaluaciones para las
15 computadoras portátiles más vendidas.
Las puntuaciones de desempeño es una
medida de qué tan rápido una PC corre en
combinación de aplicaciones de negocios en
comparación con una maquina de
referencia. Por ejemplo, una PC ´con una
puntuación de desempeño de 200 es dos
veces más rápida que la máquina de
referencia. Se utilizó una escala de 100
puntos para asignar una evaluación global a
cada computadora portátil que se probó en
el estudio.
1.- Obtenga la ecuación de regresión
2.- Estime la evaluación global para una
nueva PC que tiene una puntuación de
desempeño de 225
Marca
Desempeño
Evaluación
global
AMS
115
67
CPM
191
78
COMNT
153
79
DELL37
194
80
DELL75
236
84
DELLA3
184
76
ENP
184
77
GATEW
216
92
HP
185
83
IBM
183
78
MICROE
189
77
MICROT
202
78
NEC
192
78
SCET
141
73
SONY
187
77
Una neuróloga sospecha que los bajos
numero de
niveles de serotonina pueden estar
nivel de
actos
relacionados con el comportamiento
agresivo. Como primer paso de su
sujeto serotonina agresivos
investigación, decide realizar un estudio
1
0.32
6
de correlación con nueve macacos de la
India. Los monos son observados durante
2
0.35
3.8
6 meses y se registra en número de actos
agresivos que realizan. El número de
3
0.38
3
actos agresivos por cada animal es el
promedio de 6 meses, expresados sobre
4
0.41
5.1
base diaria
a.- Obtenga la recta de regresión por
5
0.43
3
mínimos cuadrados para predecir el
6
0.51
3.8
número de actos agresivos a partir del
nivel de serotonina
7
0.53
2.4
b.- Cuál es el número de actos agresivos
por día que se podría predecir si el nivel
8
0.6
3.5
se serotonina es de 0.46
microgramos/gramo
9
0.63
2.2
•
•
•
•
•
•
Una Psicóloga del desarrollo está
interesada en determinar si es posible
utilizar la estatura de los niños como base
para predecir su posible estatura en la
edad adulta.
A.-Determine el coeficiente de correlación
Empleando una alfa de 0.05, determine si
tiene una relación lineal
Cuáles son sus conclusiones
a.- Si los datos están relacionados de
manera lineal, deduzca la recta de
regresión por mínimos cuadrados (
calcular la pendiente y la coordenada al
origen)
b.- Qué estatura podría predecir para una
persona de 20 años si a los tres años tuvo
una estatura de 42 pulgadas
INDIVIDUO
EST
3
AÑOS
EST.
20 AÑOS
1
30
59
2
30
63
3
32
62
4
33
67
5
34
65
6
35
61
7
36
69
8
38
66
9
40
68
10
41
65
11
41
73
12
43
68
13
45
71
14
45
74
15
47
71
16
48
75