Minicurso IN-ESPE 2014 – Sesion 2

Download Report

Transcript Minicurso IN-ESPE 2014 – Sesion 2

Grupo de Investigación en Software
Universidad Pedagógica y
Tecnológica de Colombia
Mini curso: Inteligencia de negocios
(Bodega y Minería de Datos) aplicación práctica
Mauro Callejas Cuervo
Ecuador, Mayo 2014
Sesión 2
Agenda
Generalidades sobre el Grupo GIS
Conceptualización KDD
Minería de datos
Bodega de Datos
Inteligencia de Negocios
Contenido
1.
2.
3.
4.
5.
¿Qué es Bodega de Datos?
Sistema transaccional Vs. Bodega
Data Mart
Cubo multidimensional
Bases de datos multidimensionales
1. ¿Qué es Bodega de datos?
• Almacén de datos que reúne información histórica
generada por todos los distintos departamentos de una
organización, orientada a consultas complejas y de alto
rendimiento.
• Es el centro de la arquitectura para los sistemas de
información en la década de los 90’s. Plataforma sólida,
a partir de los datos históricos para su análisis.
• Facilita la integración de sistemas. Organiza y almacena
los datos que se necesitan para el procesamiento
analítico e informático sobre una amplia perspectiva de
tiempo [1].
Sistema transaccional Vs. Bodega
Se puede comparar un DW, haciendo un paralelo de
cómo los datos almacenados en éste, difieren de los
datos transaccionales usados por las aplicaciones
operacionales, así:
¿Qué es un Data Mart?
Es una estructura de tablas que representa las
diferentes áreas sensibles del negocio, y donde se
organizan los datos necesarios para construir el
cubo multidimensional que contiene las
dimensiones y medidas.
Está compuesto por una tabla de hechos, que
contiene las medidas necesarias para el análisis y
los identificadores de los objetos a analizar, y de
tablas de dimensiones que cuentan con las
descripciones de los objetos en cuestión.
Data Mart es…
Fuente: http://static.scribd.com/docs/h2vhz2jh85gyo.swf?INITIAL_VIEW=page
Un Datamart es una base de datos departamental, especializada en el
almacenamiento de los datos de un área de negocio específica.
Se caracteriza por disponer la estructura óptima de datos para analizar la
información al detalle desde todas las perspectivas que afecten a los procesos de
dicho departamento.
Un Datamart puede ser alimentado desde los datos de un datawarehouse, o
integrar por sí mismo un compendio de distintas fuentes de información [2-3].
Datamart OLAP
Se basan en los populares cubos OLAP, que se construyen agregando, según
los requisitos de cada área o departamento, las dimensiones y los indicadores
necesarios de cada cubo relacional. El modo de creación, explotación y
mantenimiento de los cubos OLAP es muy heterogéneo, en función de la
herramienta final que se utilice [3].
Dada una relación de orden N, se considera la posibilidad de
una proyección que dispone de los campos X, Y, Z como clave
de la relación y de W como atributo residual. Categorizando
esto como una función se tiene que:
W : (X,Y,Z) → W
Los atributos X, Y, Z se corresponden con los ejes del cubo,
mientras que el valor de W devuelto por cada tripleta (X, Y,
Z) se corresponde con el dato o elemento que se rellena en
cada celda del cubo
Cubo OLAP de tres dimensiones, Producto, Ciudad, Tiempo
Sistemas MOLAP
Un desarrollo un poco más reciente ha sido la
solución OLAP híbrida (HOLAP), la cual combina
las arquitecturas ROLAP y MOLAP para brindar
una solución con las mejores características de
ambas:
desempeño
superior
y
gran
escalabilidad. Un tipo de HOLAP mantiene los
registros de detalle (los volúmenes más grandes)
en la base de datos relacional, mientras que
mantiene las agregaciones en un almacén
MOLAP separado.
Características de un Data Mart
• Poco volumen de datos
• Mayor rapidez de consulta
• Consultas SQL y/o MDX sencillas
• Validación directa de la información
• Facilidad para la historización de los datos
Cubo Multidimensional
Es una estructura de almacenamiento que permite
construir las diferentes y posibles combinaciones
entre dimensiones y medidas, para visualizar la
información del DataWareHouse en una
organización hasta un determinado grado de
detalle, esta estructura es independiente al sistema
transaccional de la compañía y facilita consultar
información histórica de manera rápida y eficiente;
ofreciendo la posibilidad de navegar y analizar los
datos requeridos [4].
El modelo multidimensional busca
• Disminuir al máximo el tiempo requerido para
realizar una consulta (redundancia de los datos
no es relevante).
• Define dimensiones, medidas y tablas de hechos.
• Existen relaciones únicamente entre la tabla de
hechos y las dimensiones, no entre dimensiones.
• Estructura sencilla y comprensible.
Medidas o Métricas
Son características cualitativas o cuantitativas, de los objetos
que se desean analizar en las empresas. Las medidas
cuantitativas están dadas por valores o cifras porcentuales.
La información que brinda una medida es usada por los
usuarios en sus consultas para evaluar el desempeño de un
área.
“Lo que se puede medir se puede controlar y mejorar”. Por
ejemplo, se tienen las ventas en dólares, el número de
unidades de inventario, las horas trabajadas, el promedio de
piezas producidas, el porcentaje de aceptación de un
producto, el consumo de combustible de un vehículo, entre
otros [3][5].
Dimensión
Son los objetos del negocio, con los cuales se puede
analizar la tendencia y el comportamiento del
negocio.
La definición de estas dimensiones se basa en
políticas de la compañía o del mercado, es decir,
como interpretar o clasificar la información para
segmentar el análisis en sectores que por sus
características comunes facilitan la observación y el
análisis. [5]
Preguntas para definir las
dimensiones (1)
¿Cuándo?  Se realiza un análisis a través del tiempo y se visualiza de
manera comparativa el desempeño del negocio, en este caso permite
seleccionar épocas de la historia para determinar el comportamiento en un
momento dado.
¿Dónde?  Nos ubica en un área física o imaginaria donde se están llevando
a cabo los movimientos que se desean analizar, estos lugares pueden ser
zonas geográficas, bodegas de almacenamiento de mercancía, divisiones
hacia el interior de la organización, centros de costo, clasificación de las
cuentas contables, entre otras.
¿Qué?  Es el objeto del negocio, o es el objeto de interés para determinada
área de la compañía, para estos casos se tienen los productos y/o servicios, la
materia prima como elemento de interés para la división de abastecimientos,
los vehículos para la sección de transportes, las maquinas de facto para el
área de producción, entre otros.
Preguntas para definir las
dimensiones (2)
¿Quién?  En esta dimensión se plantea una estructura de los elementos que afectan
directamente el objeto de interés, en estos casos se hace referencia a las áreas comercial
o de ventas, a los empleados de la organización cuando se esta realizando un análisis a
nivel del talento Humano, entre otros.
¿Cuál?  Es hacia donde está enfocado el esfuerzo de la organización o de una
determinada área del negocio, para hacer llegar los productos o servicios. Por ejemplo
para el caso de un cliente interno, se puede tener un análisis de la cantidad de servicios
que ofrece el departamento técnico en las áreas de la compañía y poder determinar
cuáles solicitan mayor soporte y quienes están aprovechando el recurso con que se
cuenta.
Estructura de las dimensiones
Las Dimensiones mantienen la siguiente estructura:
Nombre Tabla
• Nombre e la tabla de dimensiones. Nombre de la dimensión a la cual se le
extrae información
• Los atributos. Son de tipo cualitativo (sus valores son modalidades) que
suministran el contexto en el que se obtienen las medidas en un esquema de
hecho. Ejemplos: días, semanas, ciudades, provincias...
• La llave sustituta. Ésta hace la función de la llave primaria en el modelo
relacional y es un identificador único.
Tablas de hechos
Cada modelo multidimensional está compuesto al menos de una
tabla con una clave primaria compuesta, denominada tabla de
hechos, y un conjunto de tablas más pequeñas denominadas
tablas de dimensiones. Cada una de las tablas de dimensión
tiene una llave sustituta que corresponde exactamente con uno
de los componentes de la clave compuesta de la tabla de hechos
[6].
NOMBRE TABLA
DE HECHOS
LLAVE PRIMARIA
MEDIDA (S)
Modelo multidimensional
Fuente: http://sisab.lce.org/~luisrive/Docs/DataWarehousing.doc
Bases de Datos Multidimensionales [7]
Se puede definir a través de un ejemplo: Se tiene
una base de datos que maneje los clientes,
productos y periodos de entrega, los datos podrían
estar representados como un arreglo de tres
dimensiones donde cada dimensión corresponde a
cada una de las “tablas” respectivamente; cada
valor individual de una celda, podría representar la
cantidad total del producto indicado, vendido al
cliente indicado, en el periodo indicado.
Elementos de una BD
Multidimensional (1)
• Esquema de hecho: es el objeto a analizar. Ejemplos:
empleados, ventas, stocks...
• Atributos de hecho o de síntesis, medidas: atributos de
tipo cuantitativo cuyos valores (cantidades) se obtienen
generalmente por aplicación de una función estadística que
resume un conjunto de valores en un único valor. Ejemplos:
número de empleados, cantidad vendida, precio promedio,
y otros.
• Funciones resumen: funciones de tipo estadístico que se
aplican a los atributos de hecho. Ejemplos: conteos,
frecuencia, suma, media, máximo,…
Elementos de una BD
Multidimensional (2)
• Dimensiones: cada uno de los ejes en un espacio
multidimensional. Ejemplos: tiempo, espacio, productos,
empleados, departamentos.
• Atributos de Dimensión o de Clasificación: atributos de
tipo cualitativo (sus valores son modalidades) que
suministran el contexto en el que se obtienen las medidas
en un esquema de hecho. Ejemplos: días, semanas,
ciudades, provincias...
• Jerarquías: varios atributos de dimensión unidos mediante
una relación de tipo jerárquico. Ejemplos: día -> semana ->
mes -> año.
CONSULTAS MULTIDIMENSIONALES Y
EXTENSIONES A SQL [8]
• En una bodega de datos es común tener consultas
multidimensionales y se han hecho varias extensiones a SQL. Por
ejemplo, operaciones de exclusión, funciones aritméticas,
combinaciones de exclusión e inclusión, agregación (combinación
de información en registros).
• Algunas de las extensiones de SQL se basan en añadir funciones
estadísticas (media, varianza), funciones físicas (centro de masa,
momento angular), funciones de análisis financiero. Algunos
manejadores de bases de datos permiten añadir funciones propias
de agregación (Oracle, Informix, DB2).
• Existen cinco funciones en SQL para agregar valores de una tabla:
COUNT(), SUM(), MIN(), MAX(), y AVG(). En SQL las funciones de
agregación están basadas en el operador GROUP BY. Con GROUP BY
se pueden hacer tablas con muchos valores agregados.
Extensión de SQL para BD
Multidimensional
Una extensión reciente de un comando SQL se llama datacube, el cual genera el conjunto potencia de las columnas de
agregación.
Los reportes normalmente agregan datos de manera gruesa y
luego se van afinando en niveles subsecuentes, produciendo
sub-totales.
El ir hacia arriba en los niveles se llama rolling-up e ir hacia
abajo se llama drilling-down.
Roll-up es asimétrico (hace agregaciones en algunas
dimensiones pero no en otras), la agregación que es simétrica
se llama cross-tabulation o cross tab.
Data-cube es un operador de agregación que generaliza
GROUP BY y ROLL UP.
Gracias
Referencias
[1] Inteligencia de negocios aplicada: caso región Huetar Norte de Costa Rica.
http://www.sirzee.itcr.ac.cr/COMPDES09/COMPDES09/COMPDES2009/ponencias-PPT/12A/P19Inteligencia%20de%20negocios%20aplicada,%20Caso%20Region%20Huetar%20Norte%20de%20Costa%20Rica
.pdf
[2] BI Business Inlelligence http://www.msig.espol.edu.ec/recursos/1.Business_Intelligence_Resumen.pdf
[3] Datamart. http://www.sinnexus.com/business_intelligence/datamart.aspx
[4] Construcción de indicadores de gestión y herramientas OLAP para pequeñas y medianas empresas
http://www.bsc-luminis.cl/articulos/Cubos_OLAP_y_Business_Inteligence.pdf
[5] Monografía de Adscripción: Data Warehouse
http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/MonoAdsDiseno.pdf
[6] Construcción de indicadores de gestión y herramientas OLAP para pequeñas y medianas empresas
http://www.bsc-luminis.cl/articulos/Cubos_OLAP_y_Business_Inteligence.pdf
[7] Datawarehouse Definiciones Preliminares. http://www.scribd.com/doc/963261/cuerpo
[8] http://dns1.mor.itesm.mx/~emorales/Cursos/KDD/node164.html
•
http://www.sqlmax.com/dataw1.asp
•
http://www.iscmolina.com/Data Warehousing.html
•
http://www.isoft.com.uy/web/consult/data_hou.htm
•
http://www.ideasa.net/inteligencia.htm
•
http://www.virtual.unal.edu.co/cursos/economicas/92211/lecciones/unidad2/dwh/dwh.htm
• http://www.sinnexus.com/business_intelligence/olap_avanza
do.aspx