Data Warehouse y Sistemas de Soporte a la Decisión - materia
Download
Report
Transcript Data Warehouse y Sistemas de Soporte a la Decisión - materia
Data Warehouse y Sistemas
de Soporte a la Decisión
Un Enfoque Práctico
Hugo M. Castro
El Caso
RapiServ es una empresa de comidas
rápidas con 20 locales que se
distribuyen en tres zonas:
Capital
Provincia de Buenos Aires
Interior
RapiServ
Sus menúes comprenden platos de
carne y pollo, papas fritas y una
variedad de ensaladas y postres
Por supuesto ofrecen bebidas frías
(gaseosas y agua mineral) y también
bebidas calientes (té, café) y pastelería,
principalmente a la mañana.
RapiServ
Pero su plato distintivo es una
especialidad que recibe el nombre de
Cordon Bleu, una comida con carne y
verduras que tiene bastante aceptación.
RapiServ
José, el Presidente,
dice: Hay que
aumentar las ventas
RapiServ
Mario, Director de
Marketing, se
pregunta: ¿Qué
podemos ofrecer a
nuestros clientes?
RapiServ
Para responder a esa pregunta, Mario
necesita saber:
¿Qué productos se venden más?
¿Qué sucursales venden mejor?
¿En qué horas hay más clientes?
¿Qué días de la semana son más flojos?
RapiServ
¿Quién puede darle esa información?
Mario sabe que Sistemas procesa los
tickets de las sucursales en los procesos
de stock de mercadería y contabilidad
Por eso se dirige a Carlos, Encargado de
Sistemas
RapiServ
Carlos, el Encargado
de Sistemas, recibe
el pedido y estima
que tendrá lista la
información en un
plazo de veinte días
a un mes
RapiServ
Mario pregunta:
¿Cómo un mes?
¿Acaso la
información no está
dentro de su
computadora?
RapiServ
Carlos responde:
Sí, los datos están
en la computadora,
pero no tienen la
estructura adecuada
para contestar esas
preguntas
RapiServ
Mario queda
convencido de que
si los datos están
guardados en la
computadora tan
difícil no debe ser
obtener las
respuestas que
busca
RapiServ
Carlos queda
convencido de que
Mario siempre pide
cosas diferentes y
todo lo quiere para
ayer
RapiServ
Este es el momento en
que recurren a
nosotros para que
los ayudemos
RapiServ
Antes de actuar analicemos la situación
¿Dónde está el problema?
Mario tiene razón en que los datos
están en la computadora
Y Carlos tiene razón en que no es fácil
darles la forma que Mario necesita
RapiServ
Ambos hacen uso de los mismos
datos, pero...
Mario necesita analizar la información
para saber qué ocurre y tomar
decisiones estratégicas
Carlos necesita llevar a cabo los
procesos que requiere la operatoria
diaria de la empresa
RapiServ
Hay una diferencia fundamental
A Carlos le basta con manejar datos
Mario necesita extraer información de
esos datos
Cadena de Valores
Decisión
• Hagan propaganda del producto
Conocimiento
• En la zona Capital hubo H
• pedidos del producto X
• En la franja horaria 1 se vende
menos que en la 2
Información
• La sucursal X está en el
distrito Z de la zona W
• El producto P cuesta $Q
• La franja horaria 1
comprende las horas de la
• Sucursales mañana
• Poductos
• Franjas Horarias
• Estacionamiento
• Servicio en auto
Datos
X en la zona Capital
• Estudien promociones para la
franja horaria 1
• Ofrezcan el servicio en auto en
la zona Buenos Aires
El proceso de toma de
decisiones
Se encuentran hechos destacados
Se explican en términos de negocios
Se toman las decisiones
correspondientes
Una Nueva Estructura
Si los datos están en la computadora pero
la forma no es la adecuada, la solución
es
CREAR UNA BASE DE DATOS CON LA
FORMA ADECUADA
Un Nuevo Tipo de BD
La base de datos con la estructura
adecuada es lo que se denomina
DATA WAREHOUSE
Es una base de datos separada de los
sistemas transaccionales e
independiente de ellos.
Data Warehouse
Un Data Warehouse es una Base de
Datos con una estructura
Orientada al negocio
Integrada
Variable en el tiempo
No Volátil
Orientada al negocio
Organiza y presenta los datos desde la
perspectiva de los conceptos que maneja la
empresa (fecha, franja horaria, producto,
sucursal, ventas).
Los datos tienen el nivel de detalle y la
estructura que necesitan los que toman
decisiones
Integrada
Se construye a partir de fuentes de datos
heterogéneas
Bases de datos relacionales, archivos planos,
hojas de cálculo, documentos impresos
Se unifican denominaciones,
codificaciones, formatos
Limpieza
Integración
Variable en el Tiempo
El horizonte temporal del Data Warehouse
es más amplio que el de los sistemas
transaccionales
Vida útil de los datos
Datos históricos
La fecha es un dato fundamental
Marcación temporal
No Volátil
En el Data Warehouse los datos no se modifican
El Data Warehouse se renueva
Los datos permanecen intactos entre
renovaciones
Sólo existen dos operaciones
Carga
Acceso
Data Warehouse
UN DATA WAREHOUSE CONTIENE
Información histórica
Para visualizar tendencias y efectuar
comparaciones
Información consolidada
Para acelerar la respuesta a las consultas
Las bases de datos más voluminosas
son Data Warehouses
Procesos
Extracción, Transformación y Carga
Extracción
Transformación
Se eligen qué datos se van a llevar al DWh desde
las diversas fuentes
Los datos se depuran, completan y transforman
Carga
Los datos se ordenan, se consolidan, se calculan
los datos derivados, severifica la integridad y se
incorporan al DWh
Este es un proceso repetitivo
Procesos
Explotación de datos
Guardar y estructurar los datos en un
Data Warehouse es sólo parte de la
tarea
Necesitamos analizar los datos para la
toma de decisiones
Explotación de datos
Herramienta de redacción de informes
orientada al usuario
Empezamos por producir los mismos
informes que el profesional de negocios
estaba recibiendo hasta ahora
Pero ahora él puede armarlos en forma
interactiva
Informes
Para obtener los informes no es
necesario escribir ningún programa
Lo puede definir el propio profesional
de negocios
La herramienta que produce los
informes está preparada para que él la
utilice
Informes
El profesional de negocios decide
Qué criterios de selección va a usar
sobre la base de datos
Qué datos va a incluir en el informe
Cómo se van a ordenar los datos
Cómo se van a agrupar los datos
Informes
Con estas herramientas queda resuelto
el problema de la producción de
informes, pero Mario y su gente
encuentran que
LAS RESPUESTAS GENERAN PREGUNTAS
Preguntas
¿Cómo se vende en cada sucursal por
franja horaria?
¿Qué productos se venden más en las
tardes?
¿Venden más las sucursales que tienen
servicio en el auto?
¿Y las que tienen estacionamiento?
Modelo de datos
Modelo de Entidad-Relación
Orientado a la implementación de los
procesos transaccionales
Tareas operativas
Modelo dimensional
Orientado a las características del negocio
(variables del negocio)
Tareas de análisis
Modelo dimensional
Dimensiones
Variables del negocio
Productos, sucursales, fechas
Medidas
Valores numéricos
Sumas, consolidaciones, operaciones
aritméticas
Modelo dimensional
Cantidad de pedidos por fecha, producto
y sucursal
Producto
Dimensiones: Producto, Sucursal,
Fecha
Estructura Jerárquica
Categoría
Zona
Año
Subcategoría Distrito Trimestre
Producto
Fecha
Sucursal
Mes
Día
Cubo
Es una forma de presentar los datos al
usuario
No existe físicamente
El usuario puede trabajar con los datos
como si existiera
Es independiente de la forma en que
realmente se almacenan los datos
OLAP
Sistemas transaccionales: OLTP
T identifica transacciones
Sistema de Análisis: OLAP
A identifica análisis
OLAP
Es el proceso de almacenar y
administrar datos sobre la base de las
variables del negocio (dimensiones),
para permitir a los profesionales de
negocios visualizarlos y analizarlos para
entender cuál es su significado
Preguntas
¿Cómo se vende en cada sucursal por
franja horaria?
¿ Qué productos se venden más en las
tardes?
¿Venden más las sucursales que tienen
servicio en el auto?
¿Y las que tienen estacionamiento?
Navegación
Cambio de dimensiones
Cambio de ejes
Cambio de forma de presentación
Cambio de medidas
Cambio de nivel de detalle
Conexión con otras tablas de hechos
Drill down
Drill up
Drill across
Conexión con tablas externas
Drill through/Drill Out
Análisis OLAP
Se elige la dimensión para las filas
Se elige la dimensión para las columnas
FECHA
ARTICULO
SUCURSAL
MEDIDAS
Se elige la medida a representar
VENTAS
UNIDADES
TICKETS
FECHA
ARTICULO
DIMENSIONES
Unidades vendidas por tipo de
artículo durante 2004
“Drill down”: Mayor detalle
sobre Comestibles
Unidades de comestibles
vendidas por ciudad
“Drill down”: unidades de
comestibles vendidas en
sucursales de Capital
Tablero de Comando
Enfoque tradicional
Indicadores financieros
Ventas
Ganancias
Cobranza
Stock valorizado
El resto carece de importancia
Tablero de Comando
Enfoque tradicional
No tiene en cuenta aspectos tales como
Relación con los clientes
Análisis de los procesos internos
Capacitación y crecimiento del personal
Descubrir esta falta demasiado tarde
puede traer graves consecuencias
Tablero de Comando
Tablero de Comando Integral (BSC)
Distintas perspectivas
Fijación de objetivos
Máximo (ej. gastos)
Mínimo (ej. ventas)
Establecimiento de metas y tolerancias
Tablero de Comando
Tolerancia
Colores
Meta
Mínimo
Máximo
Meta
Tolerancia
Tablero de Comando
Perspectivas (Cobranza, Ventas)
Tablero de Comando
Indicadores
Componentes
Otras
Fuentes
de Datos
Metadatos
Mecanismo
de
Integración
Extracción
BD
Transaccionales Transformación
Data
Carga
Warehouse
Renovación
Servidor
OLAP
Sirve para
Informes
Consultas
OLAP
Data mining
Motor OLAP
Explotación
Data Marts
Fuentes de
Datos
Almacenamiento
Metadatos
Son datos que describen objetos del data warehouse
Estructura del Data Warehouse
Datos sobre los datos
Esquema, visiones, dimensiones, datos derivados, ubicación y
contenido de los data mart
Origen de los datos
Validez de los datos (activo, histórico, eliminado)
Información de control (estadísticas de uso, errores, información de
auditoría)
Algoritmos que se usan para la consolidación
Correspondencia entre datos operativos y los del data warehouse
Datos de Negocios
Definiciones de términos del negocio, dueños de los datos
Tres Alternativas
Data warehouse
Recoge información de toda la empresa
Data Mart
Sirve a un grupo específico de usuarios. Su alcance se reduce a un
área en particular (p.ej. Marketing)
Independiente: Se genera a través de un proceso de ETL
Dependiente : Se toma del Data Warehouse
Data warehouse virtual
Se forma a partir de distintos Data Marts
¿Y ahora?
Mario sabe que con OLAP puede
contestar todas las preguntas que
puede formular, pero...
¿y las que no puede formular?
Preguntas
¿A qué clientes me conviene ofrecer
este nuevo producto?
¿Cuántos pedidos de pollo vamos a
recibir durante las vacaciones de
invierno?
¿La compra de Cordon Bleu influye en
la compra de papas fritas?
Preguntas
La respuesta a esas preguntas van a salir
de un proceso llamado
DATA MINING
Data Mining
Es un proceso automático que permite
extraer esquemas interesantes y no
triviales de los datos y descubrir
relaciones entre variables
Estamos ahogados en datos, pero
sedientos de información
El Proceso de
Data Mining
Interpretación y
Evaluación
Data Mining
Conocimiento
Selección y
Preprocesamiento
p(x)=0.02
Consolidación de
Datos
Esquemas y
Modelos
Warehouse
Datos
Consolidados
Datos Originales
Datos
Preparados
Ejemplo
Veamos cómo un modelo de Data Mining
ayuda a Mario a contestar una de las
preguntas que se formulaba
¿La compra de Cordon Bleu influye en la
compra de papas fritas?
Ejemplo
Del análisis del contenido de los tickets
surge que
De un total de 500.000 tickets
Hay 60.000 que contienen Cordon Bleu
Hay 40.000 que contienen papas fritas
De esos tickets hay 30.000 que
contienen ambos productos
Ejemplo
En este caso:
¿Qué proporción de todos los tickets
tienen Cordon Bleu y papas fritas?
30.000/500.000
o sea el 6% de los tickets
Ejemplo
Pregunta:
¿Qué proporción de clientes en general
compra papas fritas?
40.000/500.000 o sea el 8%
Ejemplo
¿Qué proporción de los compradores de
Cordon Bleu compran además papas
fritas?
30.000/60.000
o sea que el 50% de los compradores de
Cordon Bleu piden papas fritas
Ejemplo
La conclusión es que el empuje de
Cordon Bleu sobre las papas fritas es de
50/8 o sea 6,25
Esto quiere decir que la gente que
compra Cordon Bleu compra 6,25 veces
más papas fritas que el promedio de los
clientes
Uso del Data Warehouse
Tres clases de aplicaciones del Data Warehouse
Procesamiento de Información
Consultas, análisis estadísticos sencillos, informes
Tablas, diagramas, gráficos
Procesamiento Analítico
Análisis multidimensional de datos
Operaciones OLAP: slice-dice, drilling, rotaciones
Data mining
Descubrimiento de esquemas ocultos
Modelos analíticos: predicción, asociación, segmentación
Inteligencia de Negocios
Alta Gerencia
Potencial
de Soporte
a la Decisión
Mario
José
Decisiones
de Marketing
Presentación
Visualización
Data Mining
Descubrimiento de Información
Profesional de Negocios
Analista de Datos
Exploración de datos
OLAP – Análisis Multidimensional
Carlos
Data Warehouses / Data Marts
Análisis Estadístico-Consultas-Informes
Fuentes de Datos
Papel, Archivos Planos,Planillas de Cálculo, BD, OLTP
Administrador
de
Datos
RapiServ
José, el Presidente,
obtiene la
información que
necesita en tiempo y
forma
RapiServ
Mario, Director de
Marketing, tiene a
su gente analizando
la información y no
imaginando qué
informes deberían
pedir
RapiServ
A Carlos, el
Encargado de
Sistemas, también le
mejoró la vida: ya
no le llegan pedidos
de marketing con
plazos imposibles de
cumplir
En Resumen
La información adecuada
En el plazo adecuado
Para la persona adecuada
MEJORES DECISIONES
En Resumen
LA INTUICIÓN INFORMADA ES
INSUPERABLE