Transcript Tema 3
Relaciones entre minería de datos, bodegas de datos y OLAP Tema 3 Dr. Francisco J. Mata 1 Arquitectura de los datos Nivel de abstracción Conocimiento Reglas de negocio Información Datos Datos de resumen Datos operacionales Minería de datos, técnicas de minería de datos Bodegas de datos, OLAP Bases de datos, OLTP Detalle Dr. Francisco J. Mata 2 Arquitectura de los datos Datos operacionales Forma más básica de datos Asociados con sistemas operacionales Bases de datos operacionales OLTP: “online transaction processing” Dr. Francisco J. Mata 3 Arquitectura de los datos Datos de resumen Derivados de datos operacionales Forma más común que los usuarios interactúan con los datos Datos en reportes que presentan una visión estática del negocio Condensar Sumarizar Agregar Dr. Francisco J. Mata 4 Arquitectura de los datos Datos de resumen Entender datos y las dimensiones utilizadas para su resumen que representan áreas de acción en el negocio Región Producto Dr. Francisco J. Mata 5 Arquitectura de los datos Datos de resumen Asociados con sistemas para toma de decisiones Bodegas de datos OLAP: “On-line Analytical Processing Dr. Francisco J. Mata 6 Arquitectura de los datos Datos de resumen Bodegas de datos Orientadas a temas Clientes Proveedores Productos Integradas Múltiples fuentes heterogéneas de datos Bases de datos Archivos Registros de transacciones en línea Dr. Francisco J. Mata 7 Arquitectura de los datos Datos de resumen Bodegas de datos Dependientes del tiempo Proveen información desde una perspectiva histórica Todas las estructuras de datos tienen explícito o implícito un elemento de tiempo No-volátil Se encuentran almacenadas físicamente separadas de los datos operacionales No requiere mecanismos para procesamiento de transacciones, recuperación y control de concurrencia Dr. Francisco J. Mata 8 OLTP versus OLAP Característica OLTP OLAP Objeto Procesamiento operacional Procesamiento informacional Orientación Transacciones Análisis Función Operaciones diarias Información de largo plazo, apoyo a decisiones Diseño Basado en modelo entidad-relación, orientado a aplicaciones Basado en modelo estrella/copo de nieve, orientado a temas Datos actuales; actualizados a la fecha Históricos; precisión en el tiempo Dr. Francisco J. Mata 9 OLTP versus OLAP Característica OLTP OLAP Nivel de sumarización Poco, mucho detalle Intermedio a mucho, sumarizados o consolidados Vista Detallada y usualmente plana Sumarizada, multidimensional (cubos) Números de registros accesados Decenas Miles o millones Número de usuarios Miles Cientos Tamaño de la base de datos 100 MB a GB 100 GB a TB Dr. Francisco J. Mata 10 OLTP versus OLAP Característica OLTP OLAP Prioridad Alto desempeño, alta disponibilidad Gran flexibilidad, autonomía de los usuarios Métrica “Throughput” de transacciones “Throughput” de consultas, tiempo de respuesta Dr. Francisco J. Mata 11 Ejemplo datos de resumen Grados Año Bachilleratos Licenciatura Maestría 1998 1999 2000 2001 2002 1998 1999 2000 2001 2002 1998 1999 2000 2001 2002 Universidad de Costa Rica 58 110 99 128 128 7 2 0 2 2 20 10 9 19 35 Universidad Nacional 66 114 57 107 96 17 20 12 17 18 27 24 16 Instituto Tecnológico de Costa Rica 37 57 38 76 85 21 26 19 40 78 156 106 210 Universidad Interamericana 1 0 9 7 29 Universidad Hispanoamericana 9 27 32 33 42 Centro educativo Universidades públicas N/O N/O N/O N/O N/O N/O 16 N/O 23 Universidades privadas Universidad Latina 57 N/O 2 37 N/O 15 Dr. Francisco J. Mata 35 N/O 1 13 N/O 0 23 N/O 9 N/O N/O N/O N/O N/O N/O N/O 2 N/O N/O 27 N/O N/O 20 N/O 12 Ejemplo cubo Año Centros de enseñanza Públicos Privados 1998 1999 2000 2001 2002 UCR 58 110 99 128 128 UNA 66 114 57 107 96 ITCR 37 57 38 76 85 ULat 40 78 156 106 210 UInt 1 0 9 7 29 UHis 9 27 32 33 42 Maestría Licenciatura Grados Bachillerato Dr. Francisco J. Mata 13 Arquitectura de los datos Reglas de negocios Describen por qué existen relaciones entre los datos Son difíciles de capturar Técnicas de minería de datos producen tales reglas Dr. Francisco J. Mata 14 Bodegas de datos y minería de datos Existencia de una bodega de datos facilita la recolección de información en la minería de datos Sin embargo, la minería de datos no requiere la existencia de una bodega de datos Dr. Francisco J. Mata 15 OLAP y minería de datos OLAP es una herramienta útil para visualización y pude ser utilizada en conjunto con técnicas de descubrimiento indirecto de conocimiento OLAP no es minería de datos Dr. Francisco J. Mata 16