Regresión Múltiple

Download Report

Transcript Regresión Múltiple

Regresión No- lineal y Múltiple
Modelos lineales de regresión
En las ciencias de alimentos hay un gran
número de fenómenos que se pueden representar
mediante modelos no lineales.
Un caso típico es el la concentración de una
enzima a lo largo del tiempo en un proceso
bioquímico. Este tipo de reacciones sigue
modelos complejos que han sido ampliamente
estudiados en la literatura.
2
Relaciones funcionales
En muchos aspectos de las ciencias de
alimentos
existen
ciertas
relaciones
funcionales entre variables, que se pueden
deducir por su proceso biológico, químico, o
fisicoquímico. Por ejemplo, se conoce que el
proceso de crecimiento relaciona variables
como peso y aumento de peso en cierta
forma más o menos establecida.
3
Relaciones funcionales
Otro ejemplo es la relación entre
concentración de una cierta sustancia,
cantidad total de la sustancia original y
concentración del compuesto (generalmente
enzima) que actúa para producir la sustancia.
Estas relaciones generalmente presentan
ecuaciones complejas. Algunas de ellas se
pueden simplificar, para obtener modelos
más sencillos.
4
Modelos de Regresión no lineales
Los modelos de regresión no lineales son
aquellos que no son lineales en sus parámetros.
Dentro de estos modelos existen dos tipos:
a) Modelos linearizables
b) Modelos no linearizables
En el primer caso es posible, mediante una
transformación de Y o de X, hacer el modelo
lineal.
5
Modelos de Regresión no lineales
Sea el modelo:
Yi(t) = Yeq + (Y0-Yeq)exp(-Kt)
Este modelo no es linearizable, por lo que
la única forma de estimarlo es usando
métodos de regresión no-lineal.
6
Modelos de Regresión no lineales
Los modelos de regresión no-lineal se pueden
estimar mediante el método de mínimos cuadrados
no lineal, el cual incluye un proceso de iteración de
las estimaciones.
Este método no tienen una solución analítica
única (como es el caso del método regular de
mínimos cuadrados), por lo que se requieren los
procedimientos iterativos que nos llevan a la mejor
solución para los parámetros del modelo
(estimadores de los parámetros que producen una
varianza del error mínima).
7
Modelos de Regresión no lineales
Aquí se muestran algunos modelos no-lineales
que se pueden ajustar usando los métodos de
regresión no-lineal.
8
Modelos de Regresión Logística
El modelo de regresión logística simple describe la
relación entre una variable respuesta (Y) nominal
dicotómica u ordinal, y una variable independiente X. La
variable independiente puede ser continua o discreta, o
puede ser un factor con varias clases o niveles.
La regresión logística se aplica cuando el interés se
centra en conocer alguna estimación de riesgo o de
probabilidad sobre la variable respuesta Y, en relación
con la variable independiente X.
9
Modelos de Regresión Logística
Algunos conceptos de la regresión logística son:
Proporción o probabilidad de ocurrencia de casos de
interés:
pi= (Número de casos de interés/Número total de casos)
Se llama razón de chances o razón de momios, al cociente
pi/(1-pi).
La transformación logística es:
Li = Logit (pi) = Loge[pi/(1-pi)],
El logit de pi es el logaritmo neperiano de la razón de
momios generada a partir del valor de pi .
10
Modelo de Regresión Logística
El modelo de regresión logística simple es:
Logit (pi)= β0 + β1X + εi
donde β0 : ordenada al origen, β1: pendiente de la
regresión, X: variable independiente, y εi : error del
modelo para la observación i-ésima.
El valor estimado de pi a través de la regresión logística
será igual a:
pi 
1
1 e Li 




11
Modelo de Regresión Logística
El método empleado para estimar la
regresión logística es una aproximación del
método de máxima-verosimilitud (a diferencia de
la regresión lineal simple o múltiple donde se
emplea el método de mínimos cuadrados).
Se verá un ejemplo usando el JMP versión
5.1 para Windows.
12
Ejemplo
13
Modelos de Regresión Múltiple
Cuando la variable aleatoria respuesta (Y)
está asociada con más de una variable
independiente (al menos dos), se dice que el
modelo es de regresión múltiple.
Los modelos de regresión múltiple
conservan la propiedad de ser lineales en
sus parámetros.
Se verán dos tipos de modelos:
Polinomiales y de varias variables.
14
Modelos de Regresión Múltiple
Los modelos polinomiales relacionan a la
respuesta Y con una sola variable X, en un
polinomio de grado p. Su representación
matemática es:
Yi = ßo + ß1X + ß2X2 + ß3X3 +....+ ßpXp + ei
15
Modelos de Regresión Múltiple
Los modelos de varias variables,
representan en general, por la forma:
se
Yi = ßo + ß1X1i + ß2X2i + ...... + ßkXki + ei
donde: Yi: Variable respuesta (aleatoria); X1i,...,
Xki: Variables independientes relacionadas con Yi;
ßo,....,ßk: Parámetros del modelo; y ei: Error
aleatorio.
16
Modelos de Regresión Múltiple
Están los modelos mixtos, como el modelo
cuadrático de superficie de respuesta en dos
variables, que se representa como:
Yi = ßo + ß1X1i +ß2*X2i + ß11X1i2 + ß22X2i2 + ß12X1iX2i + ei
donde: Yi: Variable respuesta (aleatoria); y X1i, X2i:
Variables independientes.
17
Modelos de Regresión Múltiple
Todos estos modelos tienen en común lo
siguiente:


Representan una relación entre una variable
aleatoria respuesta (Yi) y variables independientes
(Xi) que pueden tener valores predeterminados o
ser también aleatorias. En este último caso, estas
variables deben ser antecedentes o probables
causas de la respuesta.
Son lineales en sus parámetros.
18
Modelos de Regresión Múltiple
El objetivo general del análisis de modelos de
regresión múltiple es explicar la variación de la
variable respuesta (Yi), en razón de los cambios o
variaciones
ocurridas
en
las
variables
independientes (X1i, X2i, ...,Xki).
Son objetivos particulares, el obtener el
subconjunto de variables que mejor explican la
variación de Y, y la predicción de Y a través del
conocimiento de las variables independientes X's.
19
Modelos de Regresión Múltiple
Los problemas que surgen al hacer el análisis
de estos modelos son:
Pocas observaciones de (Yi, X1i, ...., Xki), que no
permiten detectar el tipo de relación que tiene Yi con
las Xi's.
Interrelaciones entre X1i, X2i, .....,Xki, las cuales
esconden la relación que cada Xi guarda con Yi. Esto
se llama Colinearidad.
Escalas o magnitudes de medición de las Xi's que
pueden desfigurar la verdadera relación con Yi.
20
Modelos de Regresión Múltiple
Los métodos de estimación de estos modelos
de regresión son tres: a) Método de Mínimos
Cuadrados b) Método de Máxima Verosimilitud y
c) Método de análisis por cordillera.
Los tres métodos tienen como objetivos:
 Reducir al mínimo las desviaciones entre los
valores observados (Yi) y los estimados (Yi). Esto
es, la suma SCError = Σ(Yobs - Ypred)2 será un
mínimo.
 Obtener el mayor valor de R2.
 Obtener el mayor valor de Fc = CMReg/CMError.
21
Modelos de Regresión Múltiple
Las
técnicas
computacionales
para
obtener el modelo de regresión con el mínimo
número de términos y con los objetivos
señalados al principio, se pueden resumir en
las siguientes:
1. Estimación del modelo completo.
2. Estudio de todos los modelos posibles.
Con la alta velocidad de las computadoras, este
método no lleva mucho tiempo, aún en el caso
de modelos con muchos términos.
22
Modelos de Regresión Múltiple
3.
Método
de
selección
por
pasos
(STEPWISE). Este método puede usarse
con:
a) Selección hacia adelante (Forward),
b) Eliminación hacia atrás (Backward),
c) Selección Stepwise (llamado algoritmo de
Efroymson), el cual es una combinación
de los dos anteriores.
23
Modelos de Regresión Múltiple
El método de selección Stepwise consiste
en seleccionar los modelos de regresión,
comenzando con aquella X que esté más
relacionada con Y, y a su vez, menos
relacionada
con
las
demás
variables
independientes.
En cada uno de los pasos de selección, se
revisan nuevamente los términos que han
entrado al modelo, y se eliminan aquellos que
están produciendo información redundante (la
Fc es baja, o el valor de p es alto).
24
Modelos de Regresión Múltiple
Para ello se pueden controlar los niveles
de significancia () de las pruebas de F para
entrar un término y para sacar un término (
Ent y  Sal); generalmente se usa  Ent < 
Sal, de forma que sea más difícil que entre una
variable independiente cuya regresión no es
significante.
El software de regresión como el JMP,
SPSS, SAS y otros tienen valores de  de
entrada y salida por default, los cuales pueden
cambiarse de acuerdo a los requerimientos del
análisis.
25
Modelos de Regresión Múltiple
Algunas técnicas complementarias que
ayudan a seleccionar el modelo de regresión
son:
a) Graficación de los residuales versus Y y
residuales (ei) versus las X's.
b) Estudio de los coeficientes estándar de
regresión.
c) Selección de variables por criterios
científicos, aparte de la estadística.
d) Algunos otros índices y estadísticos que
pueden ser útiles en casos particulares .
26
Análisis de modelos de regresión con
JMP
Los modelos de regresión múltiple se
pueden analizar usando el submenú “Fit
Model” del JMP. Se ilustrará su uso en la clase.
En cuanto a los modelos no-lineales,
existe un submenú en el JMP para analizar
modelos no lineales, el cual se verá con un
ejemplo.
27
Ejemplo
28
Ejemplo de análisis de modelo
de regresión múltiple con JMP
29
Regresión no-lineal con JMP
El modelo de regresión logística se puede
analizar usando “Fit Y by X” con una variable
nominal u ordinal como variable respuesta y
una variable continua u ordinal como variable
factor.
30
Regresión no-lineal con JMP
En el caso de regresión logística múltiple,
se usa el menú de “Linear Model”, colocando
en la variable respuesta una variable nominal
dicotómica, o una variable ordinal. Los
términos de la regresión logística múltiple
pueden ser factores de clasificación o variables
independientes continuas u ordinales.
31
Regresión no-lineal con JMP
32
Regresión múltiple y no-lineal con
Infostat
33