Transcript Tema 3
Relaciones entre minería
de datos, bodegas de datos
y OLAP
Tema 3
Dr. Francisco J. Mata
1
Arquitectura de los datos
Nivel de abstracción
Conocimiento
Reglas
de negocio
Información
Datos
Datos de resumen
Datos operacionales
Minería de datos,
técnicas de minería de
datos
Bodegas de datos,
OLAP
Bases de
datos, OLTP
Detalle
Dr. Francisco J. Mata
2
Arquitectura de los datos
Datos operacionales
Forma más básica de datos
Asociados con sistemas operacionales
Bases de datos operacionales
OLTP: “online transaction processing”
Dr. Francisco J. Mata
3
Arquitectura de los datos
Datos de resumen
Derivados de datos operacionales
Forma más común que los usuarios
interactúan con los datos
Datos en reportes que presentan una visión
estática del negocio
Condensar
Sumarizar
Agregar
Dr. Francisco J. Mata
4
Arquitectura de los datos
Datos de resumen
Entender datos y las dimensiones utilizadas
para su resumen que representan áreas de
acción en el negocio
Región
Producto
Dr. Francisco J. Mata
5
Arquitectura de los datos
Datos de resumen
Asociados con sistemas para toma de
decisiones
Bodegas de datos
OLAP: “On-line Analytical Processing
Dr. Francisco J. Mata
6
Arquitectura de los datos
Datos de resumen
Bodegas de datos
Orientadas a temas
Clientes
Proveedores
Productos
Integradas
Múltiples fuentes heterogéneas de datos
Bases de datos
Archivos
Registros de transacciones en línea
Dr. Francisco J. Mata
7
Arquitectura de los datos
Datos de resumen
Bodegas de datos
Dependientes del tiempo
Proveen información desde una perspectiva histórica
Todas las estructuras de datos tienen explícito o implícito
un elemento de tiempo
No-volátil
Se encuentran almacenadas físicamente separadas de
los datos operacionales
No requiere mecanismos para procesamiento de
transacciones, recuperación y control de concurrencia
Dr. Francisco J. Mata
8
OLTP versus OLAP
Característica
OLTP
OLAP
Objeto
Procesamiento
operacional
Procesamiento
informacional
Orientación
Transacciones
Análisis
Función
Operaciones diarias
Información de largo
plazo, apoyo a decisiones
Diseño
Basado en modelo
entidad-relación,
orientado a
aplicaciones
Basado en modelo
estrella/copo de nieve,
orientado a temas
Datos
actuales; actualizados
a la fecha
Históricos; precisión en el
tiempo
Dr. Francisco J. Mata
9
OLTP versus OLAP
Característica
OLTP
OLAP
Nivel de
sumarización
Poco, mucho detalle
Intermedio a mucho,
sumarizados o
consolidados
Vista
Detallada y
usualmente plana
Sumarizada,
multidimensional (cubos)
Números de
registros
accesados
Decenas
Miles o millones
Número de
usuarios
Miles
Cientos
Tamaño de la
base de datos
100 MB a GB
100 GB a TB
Dr. Francisco J. Mata
10
OLTP versus OLAP
Característica
OLTP
OLAP
Prioridad
Alto desempeño, alta
disponibilidad
Gran flexibilidad,
autonomía de los usuarios
Métrica
“Throughput” de
transacciones
“Throughput” de
consultas, tiempo de
respuesta
Dr. Francisco J. Mata
11
Ejemplo datos de resumen
Grados
Año
Bachilleratos
Licenciatura
Maestría
1998
1999
2000
2001
2002
1998
1999
2000
2001
2002
1998
1999
2000
2001
2002
Universidad de Costa Rica
58
110
99
128
128
7
2
0
2
2
20
10
9
19
35
Universidad Nacional
66
114
57
107
96
17
20
12
17
18
27
24
16
Instituto Tecnológico de Costa Rica
37
57
38
76
85
21
26
19
40
78
156
106
210
Universidad Interamericana
1
0
9
7
29
Universidad Hispanoamericana
9
27
32
33
42
Centro educativo
Universidades públicas
N/O
N/O
N/O
N/O
N/O
N/O
16
N/O
23
Universidades privadas
Universidad Latina
57
N/O
2
37
N/O
15
Dr. Francisco J. Mata
35
N/O
1
13
N/O
0
23
N/O
9
N/O
N/O
N/O
N/O
N/O
N/O
N/O
2
N/O
N/O
27
N/O
N/O
20
N/O
12
Ejemplo cubo
Año
Centros de
enseñanza
Públicos
Privados
1998 1999
2000 2001
2002
UCR
58
110
99
128
128
UNA
66
114
57
107
96
ITCR
37
57
38
76
85
ULat
40
78
156
106
210
UInt
1
0
9
7
29
UHis
9
27
32
33
42
Maestría
Licenciatura
Grados
Bachillerato
Dr. Francisco J. Mata
13
Arquitectura de los datos
Reglas de negocios
Describen por qué existen relaciones entre
los datos
Son difíciles de capturar
Técnicas de minería de datos producen tales
reglas
Dr. Francisco J. Mata
14
Bodegas de datos y minería de
datos
Existencia de una bodega de datos facilita
la recolección de información en la
minería de datos
Sin embargo, la minería de datos no
requiere la existencia de una bodega de
datos
Dr. Francisco J. Mata
15
OLAP y minería de datos
OLAP es una herramienta útil para
visualización y pude ser utilizada en
conjunto con técnicas de descubrimiento
indirecto de conocimiento
OLAP no es minería de datos
Dr. Francisco J. Mata
16