NAMP Módulo 17: “Introducción al Análisis Multivariable
Download
Report
Transcript NAMP Módulo 17: “Introducción al Análisis Multivariable
NC STATE
UNIVERSITY
Program for North American Mobility
in Higher Education
Introducing Process Integration for Environmental
Control in Engineering Curricula
MÓDULO 17: “Introducción al
Análisis Multivariable”
Creado por:
Ecole Polytechnique de Montreal &
North Carolina State University, 2003.
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
Objetivo del Módulo 17
¿Cuál es el objetivo de este módulo?
Este módulo provee una introducción al análisis multivariable
(multivariate analysis, “MVA”) aplicado a la ingeniería química. Al
terminar este módulo el estudiante deberá tener suficientes
conocimientos para aplicar este método estadístico a datos reales.
La audiencia a la que está dirigida este módulo es:
•Estudiantes de ingeniería de años superiores, y
•Ingenieros practicantes, particularmente aquellos en el ámbito
industrial.
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
Prerrequisitos para el Módulo 17
¿Cuáles son los prerrequisitos para este módulo?
Antes de comenzar este módulo, el estudiante debe haber
completado el Módulo 8, “Introducción a la Integración de
Procesos”. Este módulo incluye conceptos básicos no explicados
aquí, notablemente aquellos relacionados a la calidad de los datos.
Aplicar el MVA para datos reales, sin comprender la calidad de los
datos es una receta para el desastre. El software generará
resultados, pero estos pueden carecer totalmente de sentido y ser
confusos.
Se asume que los estudiantes tienen un nivel introductorio que los
respalda en estadística, lo que normalmente sería parte de
cualquier programa de estudios de licenciatura de ingeniería.
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
Estructura del Módulo 17
¿Cuál es la estructura de este módulo?
El Módulo 17 está dividido en 3 “tiers” o partes, cada uno con un
objetivo específico:
•Tier 1: Introducción
•Tier 2: Ejemplo resuelto
•Tier 3: Problema Open-ended
Se prevé que estos tiers sean completados en orden. Los
estudiantes son evaluados en diferentes puntos, para medir su
grado de comprensión, antes de proceder.
Cada tier contiene un enunciado de intención al inicio, y un quiz al
final.
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
TIER 1:
Introducción
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
Tier 1: Enunciado de intención
Tier 1: Enunciado de intención:
La meta del Tier 1 es familiarizar al estudiante con los conceptos básicos
del análisis multivariable (MVA). Al final de Tier 1, el estudiante debe ser
capaz de responder las siguientes preguntas:
•¿Cuál es la diferencia entre estadística univariable y multivariable?
•¿Por qué el MVA es usado en el contexto de integración de
procesos?
•¿Cómo se ajusta el MVA a la observación del panorama global (the
bigger picture)?
•¿Cuáles son los tipos específicos de análisis MVA?
El Tier 1 también incluye algunas lecturas seleccionadas, para ayudar al
estudiante a adquirir conocimiento profundo de este tema. Es imposible
“alimentar con cuchara” a alguien sobre técnicas tan complejas como el
MVA. El estudiante debe comenzar a indagar sobre el tema de manera
independiente desde el inicio.
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
Tier 1: Contenido
El Tier 1 está dividido en dos secciones:
1.1 ¿Para qué se usa el MVA?
1.2 ¿Cómo funciona el MVA?
Al final del Tier 1 aparece un breve quiz de opción múltiple.
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
1.1: ¿Para que se usa el
MVA?
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
El Reto de la Integración de Procesos:
Dar sentido a masas de datos
Ahogándose en datos!
Muchas organizaciones hoy en día enfrentan el mismo reto:
DEMASIADOS DATOS. Estos incluyen:
–Negocios – transacciones con los clientes
–Comunicaciones – uso de website
–Gobierno - inteligencia
–Ciencia – datos astronómicos
–Farmacéutica – configuraciones moleculares
–Industria – datos de proceso
El último punto es el que resulta de interés para nosotros como
ingenieros químicos.
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
Muchos Datos de Proceso…
Una planta industrial típica tiene cientos de curvas de control, y
miles de variables medidas, muchas de las cuales son actualizadas
en lapsos de segundos.
Esta situación genera decenas de millones de nuevos puntos de
datos cada día, y billones de puntos de datos cada año.
Obviamente, esto es demasiado para ser procesado por el cerebro
humano. Por la manera en que visualizamos las cosas, estamos
básicamente limitados a tratar con una o dos variables a la vez:
12
10
8
6
4
2
0
1
2
3
4
5
6
NAMP Módulo 17: “Introducción al Análisis Multivariable
7
Tier 1, Parte 1, Rev.: 0
Rico en Datos pero Pobre en
Conocimiento
Como resultado de esto, nos hemos vuelto “ricos en datos, pero pobres en
conocimiento”.
El mayor problema es que patrones y relaciones interesantes y útiles que
no son intuitivamente obvias yacen escondidas dentro de las enormes
bases de datos. También muchas variables están correlacionadas.
Esto ha llevado a la creación de técnicas de “minería de datos”, orientadas
a extraer este valioso conocimiento. Algunos ejemplos son:
•Redes Neuronales
•Regresión múltiple
•Árboles de decisión
•Algoritmos genéticos
•Agrupación (clustering)
•MVA
Tema de este módulo
“Minería” de datos
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
Datos Información Conocimiento
El objetivo de la minería de
datos puede ser ilustrado
gráficamente como sigue:
• Datos
– Hechos no relacionados
• Información
– Hechos mas relaciones
• Conocimiento
– información mas patrones
Principios
científicos
Conexión
CONOCIMIENTO
Asociaciones
observadas
+ patrones
INFORMACIÓN
+ relaciones
DATOS
Números crudos
Comprensión
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
Modelamiento de Procesos de
Principios Primarios
DENTRO
FUERA
Modelo Teórico
Los Ingenieros Químicos crean dos tipos de modelos para simular un
proceso industrial. El primero de estos es un modelo teórico, que usa
Principios Primarios para imitar las entradas del proceso.
Estos modelos están basados en una hoja de cálculo de proceso, y
cada unidad de operación es modelada por separado: reactores,
tanques, mezcladores, intercambiadores de calor, y así
sucesivamente. Los balances de masa y de calor son calculados,
junto con otros factores termodinámicos. Las reacciones químicas
son descritas para mayor claridad, así como son las propiedades
físicas de varias corrientes de gases, líquidos y sólidos.
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
Modelamiento de Procesos conducido
por Datos
AFUERA
ADENTRO
Modelo Empírico
El segundo tipo de modelo creado por los ingenieros químicos es el
modelo empírico o de “caja negra”. Este enfoque usa los datos de
proceso de la planta directamente, para establecer correlaciones
matemáticas.
A diferencia de los modelos teóricos, los modelos empíricos NO
toman en cuenta las bases del proceso. Ellos solo usan matemáticas
puras y técnicas estadísticas. El MVA es uno de tales métodos,
porque revela patrones y correlaciones independientemente de
cualquier noción preconcebida.
Obviamente este enfoque es muy sensible a “basura dentro, basura
afuera” y es por eso que la validación del modelo es tan importante.
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
¿Qué es MVA?
El Análisis Multivariable (Multivariate analysis, MVA) es definido
como el análisis simultáneo de mas de cinco variables. Algunas
personas usan el término análisis “megavariable” (megavariate) para
denotar casos donde hay mas de cien variables.
El MVA usa TODOS los datos disponibles para capturar la mayor
información posible. El principio básico es cocinar cientos de
variables de una sola vez.
MVA
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
El Análisis Multivariable esta Basado
en la “Rasuradora de Ockham”
Pluralitas non est ponenda sine necessitate.
Traducción burda: “No hagas las cosas más
complicadas de lo que necesitan ser.”
William de Ockham fue un monje inglés que
puso una de las piedras angulares del
Método Científico con su famosa
“rasuradora” (nombrada así porque sirve
para cortar las partes innecesarias de una
teoría científica).
William de Ockham
(1285-1347)
Esencialmente, Ockham, en el siglo 14, se
dio cuenta que muy en el fondo, la
Naturaleza es simple …
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
Ejemplo: Manzanas y Naranjas
Un buen ejemplo de estas ideas es “Manzana contra Naranja”.
A los Científicos ingeniosos se les pudieran ocurrir fácilmente
cientos de ideas diferentes para medir en manzanas y naranjas,
por ejemplo:
–Color, forma, firmeza,…
–Piel: suavidad, grosor, morfología,…
–Jugo: contenido de agua, pH, composición,…
–Semillas: color, peso, tamaño, distribución,…
–etc.
+1
-1
Sin embargo, nunca habrá mas de una diferencia: es una
manzana o una naranja? En el idioma de MVA diríamos que hay
solo un atributo latente.
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
Representación Gráfica del MVA
El elemento principal del MVA es la reducción en
dimensionalidad. Llevado a su extremo, esto puede significar
reducir cientos de dimensiones (variables) a solo dos,
permitiéndonos crear una gráfica bidimensional.
Usando estas gráficas, que nuestros ojos y cerebros pueden
manejar fácilmente, podemos ‘ver’ dentro de la base de datos e
identificar tendencias y correlaciones.
Esto está ilustrado en la siguiente página…
‘Viendo” dentro de los
datos
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
Representación Gráfica del MVA
Modelo Estadístico (interno
Tmt
X1
X4
X5
Rep
Y avec
Y sans
1
-1
-1
-1
1
2.51
2.74
1
-1
-1
-1
2
2.36
3.22
1
-1
-1
-1
3
2.45
2.56
2
-1
0
1
1
2.63
3.23
2
-1
0
1
2
2.55
2.47
2
-1
0
1
3
2.65
2.31
3
-1
3
-1
3
-1
4
0
4
0
4
0
5
0
5
Datos
crudos:
imposibles
de interpretar
1
0
1
2.45
2.67
1
0
2
2.6
2.45
1
0
3
2.53
2.98
-1
1
1
3.02
3.22
-1
1
2
2.7
2.57
-1
1
3
2.97
2.63
0
0
1
2.89
3.16
0
0
0
2
2.56
3.32
5
0
0
0
3
2.52
3.26
6
0
1
-1
1
2.44
3.1
6
0
1
-1
2
2.22
2.97
6
0
1
-1
3
2.27
2.92
Y
tendencias
X
tendencias
tendenciasX
X
X
Cientos de columnas
Miles de renglones
al
software)
.
.
.
..
.
.
. .
.
. .
Sallidas Visuales en 2-D
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
Grupo de Datos Ilustrativo: Consumo
de Alimentos en Países Europeos
Para ilustrar estos conceptos, tomamos un ejemplo fácil de
comprender involucrando alimentos.
Datos de preferencias alimenticias en 16 países europeos
diferentes son considerados, incluyendo los patrones de consumo
para 18 grupos de alimentos diferentes.
Observa la tabla en la página siguiente. ¿Puedes decir algo de
los números crudos? Por supuesto que no. Nadie podría.
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
Tabla de Datos: Consumo de
alimentos en Países Europeos
Nota que el MVA puede
manejar del 10-20% de los
datos faltantes.
NAMP Módulo 17: “Introducción al Análisis Multivariable
Courtesy of Umetrics corp.
Tier 1, Parte 1, Rev.: 0
Gráfica de resultados
El software de MVA genera dos tipos principales de gráficas para
representar los datos: gráficas de Resultados y gráficas de Cargas.
La primera de estas, la gráfica de Resultados, muestra todos los puntos de
datos originales (observaciones) en un nuevo grupo de coordinados o
componentes. Cada resultado es el valor de ese punto de datos en una de
las nuevas dimensiones de componentes:
. .
.
..
.
..
. .
La gráfica de resultados
es la proyección de los
puntos de datos
originales en un plano
definido por dos nuevos
componentes.
Una gráfica de resultados muestra como las observaciones son arregladas
en el nuevo espacio componente. La gráfica de resultados para los datos
de alimentos se muestra en la siguiente página. Nota como los países
similares se agrupan …
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
Gráfica de Resultados para el Ejemplo
de Alimentos
95% Intervalo de confianza
(análogo al examen t)
Gráfica de Resultados
= observaciones
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
Gráfica de Cargas
El segundo tipo de gráfica de datos generada por el software MVA es
Gráfica de Entradas. Este es el equivalente a la gráfica de resultados,
solo que desde el punto de vista de las variables originales.
Cada componente tiene un grupo de cargas o pesos, que expresa la
proyección de cada variable original en cada nuevo componente.
Las cargas muestran que tan fuertemente se asocia cada variable con
cada nuevo componente. La gráfica de cargas para el ejemplo de
alimentos es mostrada en la siguiente página. Mientras más lejos del
origen, más significativa la correlación.
Nota que los cuadrantes son los mismos en cada tipo de gráfica. Suecia
y Dinamarca se encuentran en la esquina superior derecha, asi como el
pescado congelado y los vegetales. Usando ambas gráficas, las
variables y las observaciones pueden ser correlacionadas entre sí.
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
¡Demasiados Datos es bueno!
Otra analogía es la brújula de juguete usada
como premio en una caja de Cracker Jack.
Una de estas brújulas por si sola
era casi inservible.
Sin embargo, si alguien tuviera
mil brújulas y tomara un
promedio, un resultado
útil podría ser obtenido.
Hora de Diccionario: Revisa las
definiciones de “inducción” y
“deducción” …
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
Análisis Multivariable: Beneficios
¿Cuál es el objetivo de aplicar el MVA?
El primer beneficio potencial es explorar las inter-relaciones entre las
diferentes variables de proceso. Es bien sabido que simplemente crear un
modelo puede proveer información del proceso en si mismo (“Aprender
modelando”).
Una vez que un modelo representativo ha sido creado, el ingeniero puede
ejecutar ejercicios de tipo “ ¿y si?” sin afectar el proceso real. Esta es una
manera de bajo costo para investigar opciones.
Algunos parámetros importantes, como la calidad final del producto, no
pueden ser medidos en tiempo real. Sin embargo, éstos pueden ser
inferidos de otras variables que son medidas en-línea. Cuando se ha
incorporado en el sistema de control del proceso, este controlador
inferencial o “sensor suave” puede mejorar en gran manera el rendimiento
del proceso.
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
Lista de Lecturas
No existe una manera “descrita con números” de aprender MVA. Se
impulsa a los estudiantes a leer los siguientes artículos, para
comenzar a desarrollar un aprendizaje independiente de para que se
usa el MVA y como trabaja éste.
Después de este curso en línea, la lectura de referencias y de jugar
con datos reales, el estudiante debe experimentar en algún punto un
momento “¡Eureka!” cuando de pronto el MVA tenga sentido.
Desafortunadamente, no existe un atajo para conseguir este
aprendizaje:
Broderick, G., J. Paris, J.L. Valade and J. Wood. Applying Latent Vector
Analysis to Pulp Characterization, Paperi ja Puu, 77 (6-7): 410-419.
Saltin, J. F., and B. C. Strand. Analysis and Control of Newsprint Quality
and Paper Machine Operation Using Integrated Factor Networks, Pulp and
Paper Canada 96(7): 48-51
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
Lista de Lecturas (continuación)
Kooi, S. Adaptive Inferential Control of Wood Chip Refiner, Tappi Journal
77(11):185-194.
Kresta, J. V., T. E. Marlin and J. F. MacGregor (1994). Development of
Inferential Process Models Using PLS, Computers and Chemical Engineering
18 (7):597-611.
Marklund, A. Prediction of Strength Parameters for Softwood Kraft Pulps.
Nordic Pulp & Paper Research Journal, 13 (3): 211-219.
Tessier, P., G. Broderick, P. Plouffe (2001). Competitive Analysis of North
American Newsprint Producers Using Composite Statistical Indicators of
Product and Process Performance. TAPPI Journal, 84 (3).
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
1.2: ¿Cómo funciona el
MVA?
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
Bases Estadísticas
Se asume que el estudiante está familiarizado con los siguientes
conceptos estadísticos básicos:
•
•
•
•
•
•
Media / mediana / moda
Desviación estándar / varianza
Normalidad / simetría
Grado de asociación
– Coeficiente de correlación
Grado de explicación
– R2, examen F
Importancia de las diferencias
– Examen t, Chi-cuadrada
Si no es así, o lo estuvo hace mucho tiempo, es aconsejable
consultar un libro de texto de estadística introductoria y realizar
una revisión.
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
Pruebas Estadísticas
La estadística clásica es
severamente obstaculizada por
ciertas suposiciones acerca de
los datos:
-Todos los valores son precisos
-Todas las variables son no
correlacionadas
-No hay faltantes de datos
Las pruebas estadísticas ayudan a
caracterizar un grupo de datos
existente. NO permiten hacer
predicciones sobre datos futuros.
Para esto debemos consultar las
técnicas de regresión …
Para datos de proceso reales,
tales suposiciones son
totalmente irreales.
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
Regresión
La Regresión puede ser resumida como sigue:
• Toma un grupo de datos, cada uno descrito por un vector de
valores (y, x1, x2, … xn)
• Encuentra una ecuación algebraica
y = b 1 x 1 + b2 x 2 + … + b n x n + e
que “mejor exprese” la relación entre “y” y las xi’s.
• Esta ecuación puede ser usada para predecir un nuevo valor de y
dado por nuevas xi’s.
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
Variables Independientes vs.
Variables Dependientes
• Las xi’s en la ecuación que precede son llamadas variables
independientes. Son usadas para predecir y.
• Y es llamada variable dependiente, debido a la manera en
que la ecuación está escrita, su valor depende de las xi’s.
X X X
XX
X
X
NAMP Módulo 17: “Introducción al Análisis Multivariable
Y
Y Y
Y
Tier 1, Parte 1, Rev.: 0
Regresión Simple vs. Regresión
Múltiple
• La Regresión Simple tiene solo una x:
y = bx + e
• La Regresión Múltiple tiene mas de una x:
y = b1x1 + b2x2 + … + bnxn + e
X
X X
X
XX
X
X
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
Regresión Lineal vs. Regresión
No lineal
• La regresión Lineal implica que xi no tiene potencias (cuadro,
cubo etc.) ni términos de producto cruz de forma xixj
• Si tales términos están presentes, estamos tratando con
regresión no lineal.
XiXj
3
X
2
X
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
El término de Error e
• El término error expresa la incertidumbre en una ecuación empírica
predictiva derivada de observaciones imperfectas.
• Los factores que contribuyen al término de error incluyen:
– Error de medición
– Ruido de medición
– Variaciones naturales con las que no se contaba
– Perturbaciones en el proceso medido
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0
El Principio de Mínimos Cuadrados
• La Regresión trata de producir
una “ecuación que mejor
ajuste” --- pero ¿cuál es “la
mejor”?
• Criterio: minimizar la suma de
desviaciones cuadradas de
puntos de datos de la línea de
regresión.
NAMP Módulo 17: “Introducción al Análisis Multivariable
Tier 1, Parte 1, Rev.: 0