Estadística Ingeniería Telecomunicaciones Presentación de la

Download Report

Transcript Estadística Ingeniería Telecomunicaciones Presentación de la

Grado en Ingeniería
Asignatura: Estadística.
Tema: Regresión.
Grado en Ingeniería. Estadística. Tema 4
Regresión
Introducción. Relaciones no deterministas.
Regresion simple.
Modelo .
Estimación.
Diagnosis.
Regresion múltiple.
Gráficos de dispersión múltiples.
Estimación.
Diagnosis.
Previsiones.
Multicolinealidad.
Variables ficticias (dummy).
Número de transparencia: 2
Grado en Ingeniería. Estadística. Tema 4
Objetivos
 Saber analizar las relaciones entre variables a través de un modelo
de regresión lineal que describa cómo influye una variable X sobre otra
variable Y.
 Saber obtener estimaciones puntuales de los parámetros de dicho
modelo.
 Saber construir intervalos de confianza y resolver contrastes sobre
dichos parámetros.
 Saber estimar el valor promedio de Y para un valor de X.
 Saber predecir futuros valores de la variable respuesta Y.
Número de transparencia: 3
Grado en Ingeniería. Estadística. Tema 4
Relaciones entre variables
La regresión estudia relaciones entre variables.
Qué tipo de relaciones entre variables pueden existir:
-Relaciones deterministas (exactas).
- Relaciones no deterministas (no exactas).
Número de transparencia: 4
Grado en Ingeniería. Estadística. Tema 4
Relaciones deterministas
Diremos que una relación entre dos variables es determinista cuando
al conocer el valor de una de las variables podemos conocer
exactamente el valor de la otra.
Corresponden a una relación matemática exacta, una función.
Y = f(x)
Número de transparencia: 5
Grado en Ingeniería. Estadística. Tema 4
Relaciones no deterministas
La relación entre las dos variables no es exacta. Conocido el valor de
una de las variables, no podemos conocer el valor exacto de la otra.
Sabemos que existe relación entre las variables pero no es exacta.
Número de transparencia: 6
Grado en Ingeniería. Estadística. Tema 4
Regresión
¿Qué hace la regresión?
Crea un modelo lineal para simular la relación entre variables.
La relación no es exacta y el modelo no es exacto, pero es muy útil.
Número de transparencia: 7
Grado en Ingeniería. Estadística. Tema 4
Regresión: residuos
Si la relación no es exacta, siempre cometeremos un cierto error.
e = residuo
La distancia de cada punto (real) a la recta es la parte que el modelo
no puede predecir.
Estimaremos la recta de regresión para que los errores que cometemos
sean mínimos (Estimación por Mínimos Cuadrados), exigiendo que el
error medio sea cero.
Número de transparencia: 8
Grado en Ingeniería. Estadística. Tema 4
¿Cómo se calcula la recta de regresión?
Número de transparencia: 9
Grado en Ingeniería. Estadística. Tema 4
¿Cómo denominamos a las variables?
X
Y
Independiente
Explicativa
Dependiente
Respuesta
A explicar
Es el valor que conocemos
Es lo que queremos predecir
Número de transparencia: 10
Grado en Ingeniería. Estadística. Tema 4
Regresión: un ejemplo
Analicemos la relación entre los costes de producción en un proceso
y la cantidad de piezas producidas
.
Plot of log(TOT_COST) vs log(UDS)
log(T O T _ C O S T )
5,7
4,7
3,7
2,7
1,7
2,1
2,4
2,7
3
3,3
3,6
3,9
log(UDS)
Y = coste de producción,
X = piezas producidas.
Calcularemos la recta con Statgraphics
Número de transparencia: 11
Grado en Ingeniería. Estadística. Tema 4
Regresión: un ejemplo
Plot of log(TOT_COST) vs log(UDS)
log(T O T _ C O S T )
5,7
coste prod = 0,783429 + 0,669509*piezas producidas
4,7
3,7
2,7
1,7
2,1
2,4
2,7
3
3,3
3,6
log(UDS)
Número de transparencia: 12
Grado en Ingeniería. Estadística. Tema 4
3,9
Regresión: un ejemplo
Plot of log(TOT_COST) vs log(UDS)
log(T O T _ C O S T )
5,7
4,7
3,7
2,7
1,7
2,1
2,4
2,7
3
3,3
3,6
3,9
log(UDS)
coste prod = 0,783429 + 0,669509*piezas producidas
Por tanto, una empresa que produzca un millón de unidades tendrá unos
costes de:
coste prod = 0,783429 + 0,669509* 1 = 1,45 millones €.
¿Todas las empresas con ese volumen de producción tienen el mismo coste?
Número de transparencia: 13
Grado en Ingeniería. Estadística. Tema 4
Regresión: un ejemplo
¿Todas las empresas con ese
producción tienen el mismo coste??
Plot ofvolumen
log(TOT_COST)de
vs log(UDS)
log(T O T _ C O S T )
5,7
4,7
3,7
2,7
1,7
2,1
2,4
2,7
3
3,3
3,6
3,9
log(UDS)
Hay un rango de variación del coste, de 2,8 a 4,8 milllones de €.
En concreto, para la empresa donde trabajo: coste prod = 1,66 millones.
Pero el modelo dice:
coste prod = 0,783429 + 0,669509* 1 = 1, 46 millones €.
Por tanto, el error que cometemos será 1,66 – 1,46 = 0,2 millones.
Número de transparencia: 14
Grado en Ingeniería. Estadística. Tema 4
Hipótesis del modelo
¿Podemos aplicar el modelo de regresión a todos los tipos de datos?
No, para que las conclusiones de nuestro modelos sean las correctas,
los datos que manejamos deben cumplir:
1.
2.
3.
4.
Linealidad.
Homocedasticidad.
Independencia.
Normalidad.
Número de transparencia: 15
Grado en Ingeniería. Estadística. Tema 4
Linealidad
Esta es una hipótesis fundamental. Los datos deben
seguir una tendencia lineal, estar altamente
correlacionados.
Número de transparencia: 16
Grado en Ingeniería. Estadística. Tema 4
Linealidad: ¿qué pasa si los datos no son lineales?
La regresión no representará correctamente la
relación entre los datos.
Si nuestros datos no son lineales, podemos buscar una
transformación matemática (log, sqrt…) que mejore su
linealidad.
Número de transparencia: 17
Grado en Ingeniería. Estadística. Tema 4
Homocedasticidad
Esta hipótesis consiste en asegurar que nuestros datos
tienen varianza constante, es decir la gráfica debe ser
• Cuando la varianza de los datos es constante se dice que
son HOMOCEDÁSTICOS.
• ¿Qué sucede si los datos son no son homocedásticos?
Número de transparencia: 18
Grado en Ingeniería. Estadística. Tema 4
Homocedasticidad: datos heterocedásticos
Cuando la varianza no es constante, se dice que los
datos son HETEROCEDÁSTICOS.
¿Cómo afecta esto a la regresión?
Gastos - Ingresos
(X 1,E6)
1
G astos
0,8
0,6
0,4
0,2
0
0
2
4
Ingresos
6
8
(X 100000)
Los errores en la previsión serían más grandes a medida
que aumenta el valor de las variables!
No se debe aplicar regresión a datos heterocedásticos.
Hay que transformarlos (por ejemplo, LOG).
Número de transparencia: 19
Grado en Ingeniería. Estadística. Tema 4
Comprobación de la linealidad y homocedasticidad
La comprobación de las hipótesis de linealidad y
homocedasticidad podemos realizarla mediante un
análisis grafico (gráficos de dispersión) de nuestros
datos.
Plot of log(TOT_COST) vs log(UDS)
log(T O T _ C O S T )
5,7
4,7
3,7
2,7
1,7
2,1
2,4
2,7
3
3,3
3,6
log(UDS)
Si los datos cumplen estas hipótesis podemos
continuar nuestro análisis.
Número de transparencia: 20
Grado en Ingeniería. Estadística. Tema 4
3,9
Independencia
Exigimos que los datos que estamos analizando sean
independientes unos de otros:
- Si analizamos los costes en función del
volumen de producción para distintas fábricas,
asumimos que los datos de una fabrica no afectan a
los de otra.
- NO pueden analizarse con regresión valores de
una secuencia temporal, ya que cada dato depende
del anterior.
Número de transparencia: 21
Grado en Ingeniería. Estadística. Tema 4
Normalidad
La última de las hipótesis del modelo exige que los
Plot of log(TOT_COST)
vs log(UDS)
datos que analizamos
sean normales.
¿Qué significa
esto?
log(T O T _ C O S T )
5,7
4,7
3,7
2,7
1,7
2,1
2,4
2,7
3
3,3
3,6
3,9
log(UDS)
Hemos dicho que para cada
valor de X, la Y toma
valores en un cierto rango.
Asumimos que los valores que Y toma para cada valor de
X siguen una distribución normal.
Número de transparencia: 22
Grado en Ingeniería. Estadística. Tema 4
El modelo
Si los datos cumplen las hipótesis que hemos formulado, ya
podemos estimarlo:
coste prod = 0,783429 + 0,669509*piezas producidas
Número de transparencia: 23
Grado en Ingeniería. Estadística. Tema 4
El modelo
coste prod = 0,783429 + 0,669509*piezas producidas
b0
Es el valor de Y cuando la X vale 0 (no siempre tiene sentido real).
b1
El signo “+” nos indica que las dos variables crecen a la vez
El signo “-” nos indica que, si una variable crece, la otra decrece.
Además, nos dice cómo crece la Y cuando lo hace la X.
DY = b1 DX.
Por tanto, en nuestro ejemplo, ¿cuanto aumentará el coste si las
piezas producidas aumentan en un millón?
D(coste prod) = 0,669509*D (piezas producidas) = 0,67 millones.
Número de transparencia: 24
Grado en Ingeniería. Estadística. Tema 4
Regresión: un problema….
En regresión partimos de una muestra de datos y a partir de ella
estimamos el modelo.Plot of log(TOT_COST) vs log(UDS)
log(T O T _ C O S T )
5,7
4,7
3,7
2,7
1,7
2,1
2,4
2,7
3
3,3
3,6
3,9
log(UDS)
coste prod = 0,783429 + 0,669509*piezas producidas
Número de transparencia: 25
Grado en Ingeniería. Estadística. Tema 4
Regresión: un problema….
Si variamos la muestra, cambiarán los parámetros del modelo (los
números que hemos calculado).
¿Es posible elegir una muestra que nos de esta gráfica?
2
1 .5
1
0 .5
0
-0 .5
-1
-1 .5
-2
-2 .5
-3
-2
-1
0
1
2
3
Si esto sucede, la pendiente de la recta b1sera cero y se dice que
LA REGRESIÓN NO ES SIGNIFICATIVA.
Número de transparencia: 26
Grado en Ingeniería. Estadística. Tema 4
Regresión: un problema….
2
1 .5
1
0 .5
0
-0 .5
-1
-1 .5
-2
-2 .5
-3
-2
-1
0
1
2
3
Queremos estar seguros de que nuestra regresión es válida
independientemente de la muestra considerada.
Queremos estar seguros de que la regresión vale para toda la
población estudiada y no solo para una muestra concreta.
QUEREMOS ASEGURARNOS DE QUE b1 NUNCA VALE CERO.
Número de transparencia: 27
Grado en Ingeniería. Estadística. Tema 4
Análisis de significación
Para analizar si b1 es cero, tenemos tres herramientas:
Intervalos de confianza.
Contrastes de Hipótesis:
Estadístico t.
p-valor.
Número de transparencia: 28
Grado en Ingeniería. Estadística. Tema 4
Intervalos de confianza
Calcularemos un rango donde estará la estimación del verdadero valor
de b1, cualquiera que sea la muestra que tomemos.
Esto lo aseguramos con una cierta probabilidad (generalmente el 95%).
b1 -2xSE(b1) b1
b1 +2xSE(b1)
Si el valor 0 no pertence al intervalo, el parámetro es significativo.
Número de transparencia: 29
Grado en Ingeniería. Estadística. Tema 4
Intervalos de confianza
coste prod = 0,783429 + 0,669509*piezas producidas
(b1 -2xSE(b1) ; b1 +2xSE(b1) )
( 0,67-2*0,7; 0,67+2*0,7) = (0,53; 0,81)
El 0 no pertenece al intervalo, el parámetro es significativo.
Número de transparencia: 30
Grado en Ingeniería. Estadística. Tema 4
Contrastes de hipótesis
Una alternativa para asegurar que b1 no es cero es
plantear un contraste según la forma estándar:
H0: b1 =0,
H1: b1 ≠0.
Statgraphics nos da el p-valor de este contraste.
p<0.05
Rechazamos Ho
La regresión es significativa.
Número de transparencia: 31
Grado en Ingeniería. Estadística. Tema 4
Contrastes de hipótesis: Prueba de la t
Aun tenemos una alternativa al p valor para resolver el
contraste:
H0: b1 =0
H1: b1 ≠0
p<0.05
Rechazamos Ho
La regresion es significativa
Número de transparencia: 32
Grado en Ingeniería. Estadística. Tema 4
Contrastes de hipótesis: Prueba de la t
Aún tenemos una alternativa al p-valor para resolver el
contraste:
H0: b1 =0,
H1: b1 ≠0.
|t|>2 rechazamos Ho,
|t|<2 aceptamos Ho.
|t|>2
Rechazamos Ho
La regresión es significativa.
Número de transparencia: 33
Grado en Ingeniería. Estadística. Tema 4
¿Es bueno mi modelo? ¿Cuánto? -> R2
El coeficiente R2 indica cuánto de Y es explicado por X
Ejemplo:
R2=71.76%
R2 = coeficiente de correlación muestral al cuadrado.
Número de transparencia: 34
Grado en Ingeniería. Estadística. Tema 4
Resumen
Estudiamos los datos y vemos si cumplen las hipótesis.
Si no las cumplen, transformamos.
Ajustamos el modelo.
Intervalos y contrastes para ver si X es significativa (INFLUYE)
sobre Y.
Número de transparencia: 35
Grado en Ingeniería. Estadística. Tema 4
Diagnosis
Las decisiones que podemos tomar gracias a la información
aportada por un modelo de regresión son importantes.
Necesitamos estar seguros de que nuestras conclusiones son
correctas.
Para ello:
Contrastes, intervalos de confianza….
Diagnosis: comprobar una vez más que se cumplen las hipótesis del
modelo.
En la diagnosis del modelo, comprobamos que la parte aleatoria del
modelo (sus residuos) no contiene información adicional ni refleja
lagunas en el cumplimiento de las hipótesis del modelo (linealidad,
homocedasticidad, independencia y normalidad)
Número de transparencia: 36
Grado en Ingeniería. Estadística. Tema 4
Diagnosis
La diagnosis se realiza observando los gráficos de los residuos:
debemos ver gráficos como este:
Número de transparencia: 37
Grado en Ingeniería. Estadística. Tema 4
Diagnosis
No podemos aceptar residuos con otros comportamientos:
3000
1000
2500
500
2000
0
1500
-5 0 0
1000
-1 0 0 0
500
0
0
20
40
Número de transparencia: 38
60
80
100
-1 5 0 0
500
1000
1500
2000
2500
Grado en Ingeniería. Estadística. Tema 4
3000
Regresión
Introducción. Relaciones no deterministas.
Regresion simple.
Modelo .
Estimación.
Diagnosis.
Regresion múltiple.
Gráficos de dispersión múltiples.
Estimación.
Diagnosis.
Previsiones.
Multicolinealidad.
Variables ficticias (dummy).
Número de transparencia: 39
Grado en Ingeniería. Estadística. Tema 4
Regresión múltiple
En un modelo de regresión múltiple, queremos conocer el valor de
una variable respuesta a partir de más de una variable explicativa:
En esta expresión, cada uno de los coeficientes beta representa la
influencia individual que cada una de las X tiene sobre Y.
Ventajas:
Las hipótesis del modelo son las mismas que en regresión simple.
Los contrastes, intervalos, diagnosis… también.
Pequeños inconvenientes:
La visualización de los gráficos es un poco más complicada.
Necesitamos redefinir el coeficiente R2.
Número de transparencia: 40
Grado en Ingeniería. Estadística. Tema 4
Regresion multiple: Graficos
Cada celda del gráfico matricial representa la relación bilateral entre
dos variables:
TOT_COST
UDS
MANPOWER
ENERGY
INVEST
MAINT
MAT
ENV
Número de transparencia: 41
Grado en Ingeniería. Estadística. Tema 4
Regresión múltiple: R2 corregido
El coeficiente R2 tiene el inconveniente de que se incrementa al
aumentar el número de variables en el modelo (ya sean
significativas o no). Para paliar este efecto, corregimos el
coeficiente para que tenga en cuenta este efecto, por lo que en
regresión múltiple se utiliza el coeficiente R2 corregido ( o ajustado).
Dependent variable: log(TOT_COST)
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------CONSTANT
-1,82352
0,313487
-5,81689
0,0000
log(UDS)
0,666417
0,116524
5,71913
0,0000
log(MANPOWER)
0,157212
0,0551564
2,85029
0,0052
log(ENERGY)
0,174001
0,0489637
3,55367
0,0005
log(INVEST)
0,216335
0,0365883
5,91267
0,0000
log(MAINT)
-0,0199751
0,0594171
-0,336185
0,7373
log(MAT)
0,139431
0,0221418
6,2972
0,0000
log(ENV)
0,0027926
0,0178724
0,156252
0,8761
-----------------------------------------------------------------------------
Adjusted R2 = 81.73%
Número de transparencia: 42
Grado en Ingeniería. Estadística. Tema 4
Regresión
Introducción. Relaciones no deterministas.
Regresion simple.
Modelo .
Estimación.
Diagnosis.
Regresion múltiple.
Gráficos de dispersión múltiples.
Estimación.
Diagnosis.
Previsiones.
Multicolinealidad.
Variables ficticias (dummy).
Número de transparencia: 43
Grado en Ingeniería. Estadística. Tema 4
Ejemplo
Número de accidentes en
provincias españolas
en función del número de
vehículos matriculados.
(X 1000)
3
nac ciden
2,5
2
1,5
1
0,5
0
0
4
8
12
matricul
16
20
24
(X 1000)
----------------------------------------------------------------------------Dependent variable: nacciden
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------CONSTANT
278,24
102,518
2,71406
0,0265
matricul
0,0993373
0,00850344
11,682
0,0000
----------------------------------------------------------------------------R-squared (adjusted for d.f.) = 93,7703 percent
Número de transparencia: 44
Grado en Ingeniería. Estadística. Tema 4
Ejemplo
(X 1000)
3
2,5
nac ciden
Número de accidentes en
provincias españolas
en función del número de
permisos de conducir
2
1,5
1
0,5
0
0
4
8
12
permisos
16
20
24
(X 1000)
----------------------------------------------------------------------------Dependent variable: nacciden
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------CONSTANT
216,481
127,099
1,70325
0,1269
permisos
0,107617
0,0109657
9,81395
0,0000
----------------------------------------------------------------------------R-squared (adjusted for d.f.) = 91,3722 percent
Número de transparencia: 45
Grado en Ingeniería. Estadística. Tema 4
Regresiones
Accid=278.2 +0.1 Matriculas
(11.68)
Accid=216.4 +0.1 Permisos
(9.81)
Número de transparencia: 46
Grado en Ingeniería. Estadística. Tema 4
Regresión con las dos variables
----------------------------------------------------------------------------Dependent variable: nacciden
-----------------------------------------------------------------------------
Parameter
Estimate
Standard
T
Error
Statistic
P-Value
----------------------------------------------------------------------------CONSTANT
250,63
113,216
2,21373
0,0625
matricul
0,0725492
0,0395634
1,83374
0,1093
permisos
0,0301069
0,043353
0,694461
0,5098
-----------------------------------------------------------------------------
Número de transparencia: 47
Grado en Ingeniería. Estadística. Tema 4
Regresiones
Accid=278.2 +0.1 Matriculas
(11.68)
Accid=216.4 +0.1 Permisos
(9.81)
Accid=250+0.07 Matriculas +0.03 Permisos
(1.8)
(0.69)
Número de transparencia: 48
Grado en Ingeniería. Estadística. Tema 4
¿Qué está pasando?
(X 1000)
24
m a tricul
20
Correlación=.975
16
12
8
4
0
0
4
8
12
permisos
Número de transparencia: 49
16
20
24
(X 1000)
Grado en Ingeniería. Estadística. Tema 4
Regresión: un problema
A veces las variables independientes son muy parecidas:
contienen la misma información.
Variables
Independientes
Número de transparencia: 50
Variable
Dependiente
Grado en Ingeniería. Estadística. Tema 4
Regresión: un problema
El modelo no puede diferenciar entre las variables.
Variables
Independientes
Número de transparencia: 51
Variable
Dependiente
Grado en Ingeniería. Estadística. Tema 4
En nuestro ejemplo
Matrículas
Permisos
Num Accid
Ambas son muy parecidas para
distinguir entre ellas.
Número de transparencia: 52
Grado en Ingeniería. Estadística. Tema 4
En nuestro ejemplo
Solución: eliminar una variable.
Perdemos muy poca información.
Matrículas
Permisos
Num Accid
Ambas son muy parecidas para
distinguir entre ellas.
Número de transparencia: 53
Grado en Ingeniería. Estadística. Tema 4
En nuestro ejemplo
Solución: eliminar una variable.
Perdemos muy poca información.
Matrículas
Num Accid
Ambas son muy parecidas para
distinguir entre ellas.
Número de transparencia: 54
Grado en Ingeniería. Estadística. Tema 4
El problema de multicolinealidad aparece en casi todos
los trabajos estadísticos.
Tendemos a medir una cosa de muchas formas.
Se detecta:
En regresión simple, las variables son significativas.
Al introducir nuevas variables, dejan de ser
significativas.
Número de transparencia: 55
Grado en Ingeniería. Estadística. Tema 4
Regresión
Introducción. Relaciones no deterministas.
Regresion simple.
Modelo .
Estimación.
Diagnosis.
Regresion múltiple.
Gráficos de dispersión múltiples.
Estimación.
Diagnosis.
Previsiones.
Multicolinealidad.
Variables ficticias (dummy).
Número de transparencia: 56
Grado en Ingeniería. Estadística. Tema 4
Estudiamos Pesos - Alturas
¿Es igual la relación para hombres que para mujeres?
Peso
Altura
Número de transparencia: 57
Grado en Ingeniería. Estadística. Tema 4
Estudiamos Pesos - Alturas
¿Es igual la relación para hombres que para mujeres?
Peso
Peso
Altura
Número de transparencia: 58
Altura
Grado en Ingeniería. Estadística. Tema 4
Estudiamos Pesos - Alturas
Si la relación no es igual, podemos cometer errores graves:
Peso
Peso
Altura
Número de transparencia: 59
Altura
Grado en Ingeniería. Estadística. Tema 4
Ejemplos
Variable Y
Variable X
Grupo que puede influir
Peso
Altura
Sexo: Hombre o Mujer
Consumo de
trabajador
un
Ingresos
trabajador
Consumo de
automóvil
un
Potencia
Motor:
Gasolina
Diésel
o
Comisiones
Sucursal:
Rural
Urbana
o
Margen Ordinario
de una sucursal
bancaria
Número de transparencia: 60
del
Status laboral:
Empleado
Paro o
Grado en Ingeniería. Estadística. Tema 4
Es necesario introducir el grupo:
Para ello:
• definiremos una variable Z que tome los siguientes valores:
Zi =0 si una observación pertenece al grupo A
Zi=1 si una observación pertenece al grupo B
• y estimaremos el siguiente modelo de regresión:
yˆ = bˆ 0  bˆ1 X  bˆ 2 Z
Número de transparencia: 61
Grado en Ingeniería. Estadística. Tema 4
El modelo que se estima:
yˆ = bˆ 0  bˆ1 X  bˆ 2 Z
•Mujeres: Les asignamos Z=0. Por tanto:
yˆ = bˆ 0  bˆ1 X
•Hombres: Les asignamos Z=1. Por tanto:
yˆ = ( bˆ 0  bˆ 2 )  bˆ1 X
Número de transparencia: 62
Grado en Ingeniería. Estadística. Tema 4
Por tanto:
Peso
yˆ = ( bˆ 0  bˆ 2 )  bˆ1 X
bˆ 2
yˆ = bˆ 0  bˆ1 X
Altura
El efecto es que un hombre de la misma altura pesa b2 kilos
más que una mujer de su misma altura.
¿O no?
Número de transparencia: 63
Grado en Ingeniería. Estadística. Tema 4
Hagámoslo:
Dependent variable: peso
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------CONSTANT
-77,7888
16,0908
-4,83438
0,0000
altura
0,842013
0,0905752
9,29628
0,0000
sexo
-5,17748
2,20877
-2,34405
0,0208
----------------------------------------------------------------------------R-squared = 60,8791 percent
R-squared (adjusted for d.f.) = 60,1927 percent
Sexo=0 Hombres
Sexo=1 Mujeres
Por tanto: un hombre que mida 180 pesará= -78+0.84x180=73 kilos
..... y una mujer de la misma altura pesará=-78+0.84x180-5.17=68 kilos
La diferencia existe porque t=-2.34 que es mayor que 2 en valor absoluto
Número de transparencia: 64
Grado en Ingeniería. Estadística. Tema 4
Resultado
5 Kilos
Peso
Hombres
Mujeres
Altura
Número de transparencia: 65
Grado en Ingeniería. Estadística. Tema 4
Interacciones
Hemos supuesto que las rectas son paralelas.
¿Y si no lo son?
Y
B
A
X
Número de transparencia: 66
Grado en Ingeniería. Estadística. Tema 4
Modelización de las interacciones
La modelización de la interacción es sencilla. Hay que
estimar un modelo de regresión entre:
·
·
·
·
la variable Y,
la variable X,
la variable Z,
la interacción de X y Z que se modeliza por el
producto (XZ).
yˆ = bˆ 0  bˆ 1 X  bˆ 2 Z  bˆ 3 XZ
Para el grupo con Z=0 yˆ = bˆ 0  bˆ 1 X
Para el grupo con Z=1 yˆ
= bˆ 0  bˆ 1 X  bˆ 2  bˆ 3 X = ( bˆ 0  bˆ 2 )  ( bˆ 1  bˆ 3 ) X
Por tanto, analizar si existe interacción se reduce a estimar un modelo de regresión y
analizar si el parámetro es significativo (estadístico t mayor de 2) en la estimación realizada.
Número de transparencia: 67
Grado en Ingeniería. Estadística. Tema 4
Ejemplo:Ventas de empresas del sector servicios en Madrid
en función de su inversión en I+D
Plot of ventas vs id
240
ventas
200
160
120
80
40
0
0
0.5
1
1.5
2
2.5
id
3
(X 1000)
Plot of log(ventas) vs log(id)
5.7
log(venta s)
5.2
4.7
4.2
3.7
3.2
2.7
3.1
4.1
5.1
6.1
7.1
8.1
log(id)
LOG(VENTAS) = 1.762  0.393 Log(ID)
(t)
(7.88) (10.34)
R2 = 45.7 %
Número de transparencia: 68
Grado en Ingeniería. Estadística. Tema 4
Ejemplo:Ventas de empresas del sector servicios en Madrid
en función de su inversión en I+D
Queremos estudiar si hay diferencias por estar en el sector telecomunicaciones
TELECO=1 Si está en el sector teleco
TELECO=0 si no está en ese sector
LOG(VENTAS) =2.25+ 0.288 Log(ID)+0.527 TELECO
(t)
(11.12) (8.08)
(7.03)
R 2 = 61.05%
•Si la empresa funciona en el sector teleco:
Log(VENTAS)= 2.78 + 0.288 log(ID)
•Si funciona en otro sector:
Log(VENTAS) = 2.25 + 0.288 log(ID)
Estimamos la interacción:
Log(VENTAS)=1.99+0.334Log(ID)+1.80 TELECO-0.202 TELECOxLog(ID)
(t)
(8.84) (8.40)
(3.40)
(-2.43)
R2= 62.8%
•Si no está en el sector teleco
Log(VENTAS) = 1.99 + 0.334 log(ID)
•Si está en el sector teleco
Log(VENTAS) = 3.8 + 0.13 log(ID)
Número de transparencia: 69
Grado en Ingeniería. Estadística. Tema 4