Tema 8 teoria

Download Report

Transcript Tema 8 teoria

Análisis de asociación
Parte teórica
Tema 8
Minería de datos
Dr. Francisco J. Mata
1
Análisis de asociación
Encuentra reglas de asociación las cuales
especifican cuáles eventos pueden ocurrir
simultáneamente
Análisis de canasta de supermercado
Objetos que se consumen simultáneamente
Análisis de patrones secuenciales
Orden en que las cosas ocurren
Minería de datos
Dr. Francisco J. Mata
2
Análisis de canasta de supermercado
Minería de datos
Dr. Francisco J. Mata
3
Aplicaciones de análisis de canasta de
supermercado
 Elementos comprados simultáneamente
 Compras hechas con una misma tarjeta de
crédito (ej., hotel y carro de alquiler)
 Servicios optativos u opcionales
 Combinaciones inusuales en reclamos de
seguros (pueden ser un indicador de fraude)
 Combinaciones de tratamiento e historia de
pacientes (pueden indicar complicaciones)
Minería de datos
Dr. Francisco J. Mata
4
Asociación
Útil para
Minería indirecta
Utilizada como punto de arranque
Puede servir para plantear hipótesis de
asociaciones en minería directa
Diferencia entre almacenes nuevos y viejos
Minería de datos
Dr. Francisco J. Mata
5
Tipos de reglas
 Útiles
Los días jueves los compradores de supermercados
frecuentemente compran pañales desechables y
cerveza
 Triviales
Consumidores que compran contratos de
mantenimiento son más propensos a comprar
electrodomésticos grandes
 Inexplicables
Al abrir un almacén de ferretería nuevo, uno de los
productos más vendidos son sillas de inodoro
Minería de datos
Dr. Francisco J. Mata
6
Datos para el análisis de canasta de
supermercado
Minería de datos
Dr. Francisco J. Mata
7
Preparación de datos para análisis de
canasta de supermercado
Minería de datos
Dr. Francisco J. Mata
8
Análisis de canasta de supermercado
Cliente
Productos adquiridos
Transacciones
1
jugo, soda
2
leche, jugo, limpiador ventanas
3
jugo, detergente
4
jugo, detergente, soda
5
limpiador ventanas, soda
Tabla de co-ocurrencia
de ítems
Jugo
Limpiador
ventanas
Leche
Soda
Detergente
Jugo
4
1
1
2
2
Limpiador
ventanas
1
2
1
1
0
Leche
1
1
1
0
0
Soda
2
1
0
3
1
Detergente
2
0
0
1
2
Minería de datos
Dr. Francisco J. Mata
9
Análisis de canasta de supermercado
Extensión de una tabla de co-ocurrencia a 3 dimensiones
Minería de datos
Dr. Francisco J. Mata
10
Reglas de asociación
Jugo
Limpiador
ventanas
Leche
Soda
Detergente
Jugo
4
1
1
2
2
Limpiador
ventanas
1
2
1
1
0
Lecha
1
1
1
0
0
Soda
2
1
0
3
1
Detergente
2
0
0
1
2
Patrones que se pueden observar
1. Jugo y soda al igual que jugo y detergente son más propensos
a comprarse juntos que cualquiera otros dos productos
2. Detergente nunca se compra con limpiador de ventanas o
leche
3. Leche nunca se compra con soda o detergente
Minería de datos
Dr. Francisco J. Mata
11
¿Qué tan buena es una regla de
asociación?
Confianza
Número de transacciones con todos los ítemes
mencionados en la regla dividido por el número
de transacciones con los ítemes que aparecen
en la parte si de la regla
Proporción de transacciones en las cuales la
regla es verdadera
• p(condición y resultado)/p(condición)
Minería de datos
Dr. Francisco J. Mata
12
¿Qué tan buena es una regla de
asociación?
Cliente
Productos adquiridos
Transacciones
1
jugo, soda
2
leche, jugo, limpiador ventanas
3
jugo, detergente
4
jugo, detergente, soda
5
limpiador ventanas, soda
 ¿Cuál es la confianza para la regla si un cliente compra soda entonces
también compra jugo?:
 2 de 3 compras de soda también incluyen jugo, por lo tanto 67%
 p(soda y jugo)/p(soda)= 0.4/0.6=67%
 ¿Cuál es la confianza de la regla reversa: si un cliente compra jugo
entonces también compra soda?
 2 de 4 compras de jugo también incluyen soda, por lo tanto 50%
 p(jugo y soda)/p(jugo)=0.4/0.8=50%
Minería de datos
Dr. Francisco J. Mata
13
¿Qué tan buena es una regla de
asociación?
Apoyo
Número de transacciones que contienen todos
los ítemes que aparecen en la regla dividido
entre el número total de transacciones
Porcentaje de transacciones que contienen todos los
ítemes que aparecen en la regla
• p(condición y resultado)
Minería de datos
Dr. Francisco J. Mata
14
¿Qué tan buena es una regla de
asociación?
Cliente
Productos adquiridos
Transacciones
1
jugo, soda
2
leche, JN, limpiador ventanas
3
jugo, detergente
4
jugo, detergente, soda
5
limpiador ventanas, soda
 ¿Cuál es la apoyo para la regla si un cliente compra soda entonces también
compra jugo?:
 2 de 5 compras contienen de soda y jugo, por lo tanto 40%
 p(soda y jugo)=2/5=40%
 ¿Cuál es el apoyo de la regla reversa: si un cliente compra jugo entonces
también compra soda?
 La misma de la regla anterior, 40%
 p(soda y jugo)=p(jugo y soda)
Minería de datos
Dr. Francisco J. Mata
15
¿Qué tan buena es una regla de
asociación?
 “Lift” o mejoría
Mide cuánto mejor es una regla para predicción que una
estimación hecha tomando un cliente al azar
Número de transacciones que soportan la regla dividido
entre número de transacciones esperado asumiendo
que no existe relación entre los ítemes
 p(condición y resultado)/(p(condición) * p(resultado))
Cuando el lift < 1 la regla es peor que una estimación
educada y la negación de la regla produce una mejor
regla que una estimación al azar
Minería de datos
Dr. Francisco J. Mata
16
¿Qué tan buena es una regla de
asociación?
Cliente
Productos adquiridos
Transacciones
1
jugo, soda
2
leche, jugo, limpiador ventanas
3
jugo, detergente
4
jugo, detergente, soda
5
limpiador ventanas, soda
 ¿Cuál es el “lift” para la regla si un cliente compra soda
entonces también compra jugo?:
 p(soda y jugo)/(p(soda) * p(jugo))=0.4/(0.6 * 0.8)=0.83
 ¿Cuál es el “lift” de la regla negada: si un cliente compra
soda entonces no compra jugo?
 p(soda y no jugo)/(p(soda) * p(no jugo))= 0.2/(0.6 * 0.2)=1.66
Minería de datos
Dr. Francisco J. Mata
17
Ejercicio
Ítemes
A
B
C
AyB
AyC
ByC
B y C y no A
AyByC
Probabilidad
45%
42.5%
40%
25%
20%
15%
?????
5%
Calcular apoyo, confianza y “lift” para reglas si A y B entonces C, si A y C
entonces B, si B y C entonces A, y si A entonces B
Minería de datos
Dr. Francisco J. Mata
18
Respuesta
Apoyo
Confianza
“Lift”
Si A y B
entonces C
5%
20%
0.50
Si A y C
entonces B
5%
25%
0.59
Si B y C
entonces A
5%
33%
0.74
Si A entonces B
25%
59%
1.31
Regla
Minería de datos
Dr. Francisco J. Mata
19
Pasos básicos para obtener reglas de
asociacíón
Minería de datos
Dr. Francisco J. Mata
20
Seleccionar conjunto adecuado de
ítemes
Debe considerarse necesidades del
negocio
Nivel de detalle debe ser adecuado
Minería de datos
Dr. Francisco J. Mata
21
Seleccionar conjunto adecuado de
ítemes
Minería de datos
Dr. Francisco J. Mata
22
Seleccionar conjunto adecuado de
ítemes
Minería de datos
Dr. Francisco J. Mata
23
Seleccionar conjunto adecuado de
ítemes
 Taxonomías de productos son de utilidad
 Análisis de asociación produce mejores
resultados cuando los productos aparecen
aproximadamente en el mismo número de
transacciones (reglas no están dominadas por
los productos más comunes)
 Productos raros pueden ser subidos en la
taxonomía para que aparezcan más
frecuentemente
Minería de datos
Dr. Francisco J. Mata
24
Ítemes virtuales
Ítemes virtuales no aparecen en la
taxonomía
Pueden ser agregados para identificar
Localización
Tiempo (día, mes)
Almacenes nuevos vrs. viejos
Marcas
Minería de datos
Dr. Francisco J. Mata
25
Ítemes virtuales
Deben ser escogidos cuidadosamente
para evitar reglas redundantes
Minería de datos
Dr. Francisco J. Mata
26
Ítemes virtuales
 Si reglas redundates aparecen entonces
utilice elementos generalizados
Minería de datos
Dr. Francisco J. Mata
27
Cálculo de probabilidades
Minería de datos
Dr. Francisco J. Mata
28
Determinar reglas
Minería de datos
Dr. Francisco J. Mata
29
Determinar reglas
Entre más “accionable” sea la regla mejor
En la práctica las reglas más accionables
tienen un ítem como resultado
Mejor: Si pañales desechables y jueves entonces
cerveza
Peor: Si jueves entonces pañales desechables y
cerveza
Minería de datos
Dr. Francisco J. Mata
30
Determinar reglas
Cuando el “lift” para una regla es menor
que 1, negar el resultado produce una
mejor regla
Minería de datos
Dr. Francisco J. Mata
31
El problema de reglas con muchos
ítemes
 Generar reglas de asociación requiere múltiples
pasos:
 Generar matriz de co-ocurrencias para un ítem
 Generar matriz de co-ocurrencia para dos ítemes (sirve para
generar reglas con dos productos)
 Generar matriz de co-ocurrencia para tres ítemes (sirve para
generar reglas con tres productos)
 Se puede continuar hasta el número total de ítemes
Cada paso incrementa exponencialmente el tiempo
Minería de datos
Dr. Francisco J. Mata
32
El problema de muchos ítemes
Número de combinaciones para 100 ítemes
Fórmula binomial
¡Un supermercado puede tener entre 10,000 y 30,000 productos!
Minería de datos
Dr. Francisco J. Mata
33
El problema de muchas transacciones
El número de transacciones por lo general
es muy grande
En el transcurso de un año una cadena de
supermecados de tamaño mediano puede
generar millones de transacciones
Minería de datos
Dr. Francisco J. Mata
34
Superación de limitaciones prácticas
 Soluciónes:
Utilizar “prunning” considerando un apoyo mínimo
(mínimo número de transacciones conteniendo la
combinación)
Si existe 1 millón de transacciones y se utiliza unapoyo
mínimo del 1% entonces sólo las reglas apoyadas por
10,000 transacciones serán consideradas
Apoyo mínimo tiene un efecto de cascada
• Si utilizamos el apoyo mínimo de 1% y la regla es si A, B
y C entonces D para que la combinación A, B, C y D
aparezca por lo menos un 1% todos los elementos en la
combinación deben aparecer por lo menos 1% y todas
las combinaciones de dos y tres elementos deben
aparecer por lo menos un 1%
Minería de datos
Dr. Francisco J. Mata
35
Superación de limitaciones prácticas
Solución:
Limitar el número de ítemes en una regla
Uso de taxonomías para reducir el número de
ítemes
Minería de datos
Dr. Francisco J. Mata
36
Algoritmo apriori
Mejora el rendimiento utilizando
conocimiento a priori
Utiliza “prunning”
Todos los subconjuntos de un conjunto
frecuente de elementos deben ser frecuentes
apoyo (I) < min_apoyo entonces apoyo (I unión
{a}) < min_apoyo para todo elemento a
Minería de datos
Dr. Francisco J. Mata
37
Algoritmo apriori
Pasos:
Sea L-1 el conjunto de k-1 elementos que
satisfacen el criterio de apoyo mínimo
Join para k elementos: añadir un ítem diferente a
cada uno de los elementos en L-1
Prune para k: eliminar todos los conjuntos de L con k
ítemes que no satisfacen el criterio de apoyo mínimo
Minería de datos
Dr. Francisco J. Mata
38
Ejemplo algoritmo apriori
Apoyo 2 o 2/9=22%
Minería de datos
Dr. Francisco J. Mata
39
Ejemplo algoritmo apriori
Apoyo 2 o 2/9=22%
Minería de datos
Dr. Francisco J. Mata
40
Fortalezas del análisis de canasta de
supermercado
Resultados se pueden entender
claramente
De gran utilidad para minería indirecta
Computacionalmente simple aunque con
crecimiento exponencial en tiempo
Minería de datos
Dr. Francisco J. Mata
41
Debilidades del análisis de canasta
de supermecado
Complejidad crece exponencialmente
conforme crece el tamaño del problema
Difícil determinar los elementos
apropiados
Elementos raros pueden producir
problemas
Minería de datos
Dr. Francisco J. Mata
42
Cuando aplicar análisis de
asociación
Problemas de minería indirecta que
consisten en elementos bien definidos los
cuales se agrupan de maneras
interesantes
Estos problemas ocurren usualmente en
el comercio, donde transacciones de
punto de venta son las bases del análisis
Minería de datos
Dr. Francisco J. Mata
43
Cuando aplicar análisis de
asociación
Se puede aplicar también en problemas
de minería directa
Comparar ventas en almacenes nuevos y
viejos
El algoritmo se puede modificar para
considerar reglas que contienen un
producto en particular (comprender sus
patrones de venta)
Minería de datos
Dr. Francisco J. Mata
44