Diplomado modulo Data Mining

Download Report

Transcript Diplomado modulo Data Mining

Diplomado "Gestión de Negocios con
Data Warehouse y Data Mining".
Clase 1
Introducción
José Antonio Lipari A.
1
¿Qué es Data Mining?
“Data Mining es el proceso de
exploración y análisis de grandes
volúmenes de datos, por medios
automáticos, con el fin de descubrir
patrones y reglas”.
MDM Berry & Linoff
2
¿Qué es Data Mining?
“Es el proceso de
extracción de conocimiento
útil y comprensible,
previamente desconocido
desde grandes cantidades
de datos almacenados en
distintos formatos”.
Witten & Frank
3
Grandes Cantidades de Datos
Extracción de
conocimiento
Data
Mining
Novedoso
Utilizable
4
Idea básica y potenciales de data mining
Empresas y organizaciones han almacenado
mucha información para fines operacionales
Se sabe que hay mucho conocimiento valioso
en la información acumulada
El conocimiento está escondido en los datos
Data mining encuentra y hace útil el
conocimiento escondido en los datos
5
Motivaciones para Almacenar Datos
Razones iniciales:
Potenciales usos:
*En telecomunicación:
*En telecomunicación:
Facturación de llamadas
*En supermercados:
Gestión del inventario
*En bancos:
Manejo de cuentas
*En producción:
Control de procesos
Detección de fraude
*En supermercados:
Asociación de ventas
*En bancos:
Segmentación de clientes
*En producción:
Mantención preventivo
6
Aplicaciones de Data Mining
 Customer Relationship Management (CRM)
 Segmentación de clientes
 Predicción de compra
 Retención de clientes
 Predicción de fuga
 Detección de Fraude
 Tarjetas de crédito
 Uso de teléfonos (celulares)
 Predicción de series de tiempo
 Ventas en supermercados
7
Relevancia de Data Mining
3000
2500
2000
1500
1000
500
0
Mercado de Data
Mining (millones
de dólares)
1996
2000
800
3000
Fuente: META
Group
8
Data Mining Versus Estadísticas
Estadísticas
Data Mining
Fuerte fundamento
Matemático
Orientación a lo práctico
Herramientas
Clásicas
Herramientas
nuevas
Volumen de datos
Bajo (muestreo)
Grandes volúmenes de
datos
Entendible sólo por
estadísticos
Entendible por
cualquiera
9
Interacción con múltiples Disciplinas
Estadísticas
Optimización
DATA MINING
Visualización
Otros
Aprendizaje
automático
IA
Computación
paralela
“Analogía con minería de extracción de minerales”
10
Estadísticas
DATA MINING
Visualización
Otros
Visualización:
Optimización
Gráficos 3D
Aprendizaje
automático
IA
Escalamiento multidimensional
Computación
paralela
11
Estadísticas
Regresiones lineales
DATA MINING
Visualización
Otros
Estadísticas:
Optimización
Aprendizaje
automático
IA
Métodos Bayesianos
Computación
paralela
12
Estadísticas
Programación lineal
DATA MINING
Visualización
Otros
Optimización:
Optimización
Aprendizaje
automático
IA
Programación no lineal
Algoritmos genéticos
Computación
paralela
13
Estadísticas
Aprendizaje automático:
Optimización
Redes neuronales
DATA MINING
Visualización
Otros
Aprendizaje
automático
IA
Computación
paralela
14
Estadísticas
Optimización
DATA MINING
Visualización
Otros
Computación paralela:
Aprendizaje
automático
IA
Procesamiento distribuido
Computación
paralela
15
Estadísticas
Otros:
Optimización
Creatividad
DATA MINING
Visualización
Aprendizaje
automático
IA
Arte
Lógica
Otros
Computación
paralela
16
Un Ejemplo Real
Data Mining en Entel PCS
Contexto Mercado de Telefonía Móvil
Distribución de operadores de telefonía móvil en Chile
•Mercado maduro
•Esfuerzos por diferenciarse
•Fuerte guerra de precio entre operadores
18
Contexto Mercado de Telefonía Móvil
Entel PCS tiene aproximadamente 3,5 millones de
clientes distribuidos en los mercados de Suscripción
y Prepago
19
Contexto Mercado de Telefonía Móvil
"Nosotros como empresa, tenemos sólo 2 opciones
para tener una real ventaja competitiva:
1. La habilidad de aprender más sobre nuestros
clientes y más rápido que nuestros competidores
2. La habilidad de transformar este aprendizaje en
acciones para nuestros clientes, más rápido que
nuestros competidores"
Jack Welch, CEO General Electric
20
Estrategia Gestión del Churn
(fuga de clientes)
Estrategia Gestión del Churn
¿Por qué Retener a los clientes?
Visión de Producto
Visión de Cliente
Madurez
Mercado
 Costo
Adquisición
Clientes
Rentabilidad por cliente US$
 Ventas
Clientes leales son mas rentables puesto que
compran
$180 mas en el tiempo ya que están
$160
satisfechos
$140
Costos$120
de transacción disminuyen en el
$100
tiempo, puesto que se vuelve rutina
$80
$60 leales tienden a recomendar a otros
Clientes
clientes$40
$20
$0
 Importancia
Retención &
Desarrollo Buenos
Clientes
Año 1
Credit Card
Año 2
Año 3
Auto Servicing
Año 4
Año 5
Industrial Distribition
22
Estrategia Gestión del Churn
•Objetivos
• Reducir el Churn de clientes en todos los mercados
• Foco en clientes de alto valor
• Desarrollo de gestiones predictivas
23
Estrategia Gestión del Churn
Gestión
Preventiva
Gestión
Predictiva
Gestión
Reactiva
Identificación
Probabilidad de Churn
Costo
vs
Costo Gestión
Gestión
vs
Eficiencia
en Gestión
Anticipación
Evento
Churn
Capacidad
identificación
dede
Churn
+ Reactiva
Ca
ro
-
Ba
Predictiva
ra
to
Preventiva
Evento
Calidad
de la Churn+
-Anticipación
Anticipación
Identificación de Churners
24
Data Mining y Modelos
Predictivos de Churn
¿Oportunidad de gestión predictiva?
Entel PCS guarda información
de los clientes que se han
fugado de la compañía
¿CÓMO?
DATA
MINING
Entel PCS dispone de gran
cantidad de información sobre sus
actuales clientes
26
DM y modelos Predictivos de Churn
DatOs
DATOS
DATA
MINING
Información
Mejores
decisiones
de Negocio
27
DM y modelos Predictivos de Churn
Modelos de predicción de Churn
El objetivo de los modelos predictivos es identificar un subgrupo (target)
dentro de un grupo mayor, donde los miembros del target son aquellos
con mayor propensión al Churn.
Un modelo realiza un buen trabajo si la tasa de Churn en el subgrupo
target es mayor que el promedio de la base.
Lift es una medida de la capacidad predictiva del modelo.
28
DM y modelos Predictivos de Churn
Base TOTAL 7/49 churners =14%
Cliente
Fiel
Base Riesgo 5/9
Cliente
churners =55%
Churn
DM
Foco de
Gestión
29
DM y modelos Predictivos de Churn
ÁRBOL DE
DECISIÓN
Tráfico > 1000 min
Costo PM
<=45
Tráfico < 1000 min
Costo PM
Antigüedad
>45
EQ <2 años
Antigüedad
EQ >=2 años
30
DM y modelos Predictivos de Churn
Medida de bondad del modelo y decisiones de gestión, Lift de Modelo
Base Total
Base Riesgo
14% Churn
55% Churn
LIFT= 55/14
LIFT=3,9
Representa el
número de veces
que aumentó la
proporción de
churners en la base
31
Gestión
Habilidades de
Modelamiento
Datos
Técnicas DM
Pilares del uso comercial de Data Mining
(Según experiencia Entel PCS)
32
Pilares del uso comercial de Data Mining
Árboles
Regresión
Gestión
Hab Modelamiento
Datos
Técnicas DM
pi =
+
¿ -
Redes N.
1
- b +b
1+ e ( 0 1x1)
Preparación Datos
Comprensión
Capacidad de Predicción
+
+?
33
Gestión
Habilidades de
Modelamiento
Datos
Técnicas DM
Pilares del uso comercial de Data Mining
34
Pilares del uso comercial de Data Mining
Calidad en los Datos
Como vienen
Gestión
Hab Modelamiento
Datos
Técnicas DM
• Distintas formas
• Distintos tipos
• Distintos sistemas
• Generalmente sucios e
incompletos
• Muchas veces, incomprensibles
• No todos los datos están
disponibles para todos los clientes
Como deberían
• Todos los datos deberían estar
en una sola tabla
• Cada fila debería corresponder a
una instancia relevante para el
negocio
• Columnas con un solo valor
deben ser ignoradas
• Columnas con un valor diferente
para cada fila debe ser ignorada o
extraída a una columna derivada
• Para modelación predictiva la
columna objetivo debe ser
identificada y las columnas
sinónimo eliminadas
35
Pilares del uso comercial de Data Mining
Principales Orígenes de Datos
Gestión
Hab Modelamiento
Datos
DM
Técnicas Datos
Bases de Datos
Relacionales
Data Warehouse
• Se basan en operaciones de Álgebra
Relacional: Filtrar, agrupar,
seleccionar, juntar
• Sistemas que recolectan todos los
datos recolectados de fuentes
externas.
• La idea es diseñar una base de datos
de manera que cada ítem aparezca
solo una vez, sin duplicación.
• Pero Datos Normalizados. Se
pierden los detalles
• Base de Datos Normalizada (no
existen datos redundantes o
inválidos).
• Están orientadas a guardar y acceder
rápidamente a los datos. No
necesariamente útil para encontrar
relaciones entre las columnas.
• Contienen sólo un Sub-grupo de
los datos: alguien alguna vez
decidió.
• No todas las fuentes pueden
estar disponibles: Se diseña el DW
pero no se actualiza con las nuevas
fuentes.
• No todos los datos están limpios:
sólo los datos utilizados están
limpios. DM revela la suciedad del
DW
36
Pilares del uso comercial de Data Mining
¿Cuántos Datos son Suficiente?
En este caso, generalmente mas es mejor
La primera fase es: cuantos datos hay
disponibles
Gestión
Gestión
Hab Modelamiento
Datos
DM
Técnicas Datos
Técnicas DM
• Muchas veces datos disponibles > Datos
Necesarios
• Por lo tanto se debe agrupar
Población Objetivo
• Límites de las Herramientas: memoria,
rapidez,
• Es importante considerar la existencia de
suficientes eventos de interés.
37
Gestión
Habilidades de
Modelamiento
Datos
Técnicas DM
Pilares del uso comercial de Data Mining
38
Pilares del uso comercial de Data Mining
Construcción Modelo
Existen 2 marcos temporales.
Gestión
Hab Modelamiento
Datos
Técnicas DM
Utilizando datos del pasado con variable target conocida 
Creación del Modelo
Datos
Histór
icos
+
Variable
Target
Conocida
=
Modelo
Predictivo
El modelo es corrido con datos recientes para obtener la
predicción
Datos
Recient
es
+
Modelo
=
Predicción
39
Pilares del uso comercial de Data Mining
Elección del horizonte temporal adecuado
Mes Skip:
Tiempo para ordenar, transformar y procesar los
datos.
Gestión
Hab Modelamiento
Datos
Técnicas DM
Datos
Técnicas DM
Tiempo para correr los modelos.
Tiempo para la gestión antes de la decisión de
churn
BASE
SKIP
TARGET
40
Pilares del uso comercial de Data Mining
Experiencias Modelación
• Modelos Predictivos Ayudan a:
Tomar decisiones de negocio más informadas.
Disminuir Incertidumbre
Optimizar uso de recursos
Decisiones “informadas” peores a no informadas
Gestión
Hab Modelamiento
Datos
Técnicas DM
Datos
• Pero…si el Modelo no es correcto:
• DM “en general” ha tenido sentido en el contexto de
identificar un subgrupo pequeño dentro de un grupo muy
grande.
Si se va a gestionar la base completa, no tiene sentido un
modelo.
• ¿Cuánto es un buen lift?
Depende de cada caso, del objetivo y de la calidad de los
datos.
Una buena pregunta es: ¿Cuál es el mínimo lift requerido para
que el proyecto sea rentable?
41
Pilares del uso comercial de Data Mining
Experiencias Modelación
• Si no hay historia no hay modelos predictivos. No se
puede predecir sin tener datos históricos. Recordar que
DM busca patrones en el pasado que permitan identificar
un comportamiento futuro.
Gestión
Hab Modelamiento
Gestión
Datos
Técnicas DM
Datos
Técnicas DM
• Considerar todos los costos: costos de las gestiones y
costos de errores de predicción (caso Churn
Involuntario)
• El proceso de construcción de los modelos genera
conocimiento relevante a la compañía.
• Sin embargo, las relaciones predictivas encontradas no
necesariamente son la causa de un comportamiento, sí
una descripción del mismo.
P.ej.: baja en tráfico no causa el churn.
42
Pilares del uso comercial de Data Mining
Experiencias Modelación
• DM no encuentra soluciones sin la guía y experiencia
de la gente de negocios.
Gestión
Hab Modelamiento
Datos
Técnicas DM
Datos
• Es importante tener claro los objetivos de negocio
antes de abordar un proyecto en DM.
• El proceso de limpieza de datos, es relevante (más del
50% del tiempo del proyecto).
• DM tiende a encontrar los datos con “errores”
(missing).
• El éxito del modelo depende más del proceso de
modelación que de la técnica de DM.
43
Pilares del uso comercial de Data Mining
Experiencias Modelación
• Algunos modelos predictivos han mantenido su
capacidad predictiva, mostrándose más estables en el
tiempo de lo esperado.
• Las gestiones están siendo continuamente
mejoradas para optimizar la oferta.
Gestión
Hab Modelamiento
Datos
Técnicas DM
• Las gestiones propuestas han permitido reducir el
churn.
Pre Pago
Suscripción
Lift Modelo
5,00
3,21
Baja en Churn
43%
32%
44
Gestión
Habilidades de
Modelamiento
Datos
Técnicas DM
Pilares del uso comercial de Data Mining
45
Pilares del uso comercial de Data Mining
Experiencias Gestión
• Primero agotar las gestiones reactivas de mayor
eficiencia y resultado de corto plazo.
• Los modelos predictivos son solamente una parte
de una gestión predictiva:
Gestión
Hab Modelamiento
Datos
Técnicas DM
Los modelos por muy buenos que sean no resuelven el
problema, solamente el ¿Quiénes? Si no hay gestión no
hay disminución del churn
Dentro del proceso de modelamiento se debe
considerar las alternativas de gestión
• Se requiere coordinación y compromiso en la
entrega oportuna de datos, generación de las bases
y despliegue de las gestiones. De otro modo los
clientes target comienzan a churnear antes de ser
gestionados
46
Pilares del uso comercial de Data Mining
Experiencias Gestión
Gestión
Hab Modelamiento
Gstión
Datos
Técnicas DM
Datos
• Al gestionar preocuparse de mantener grupos de
control para medir la capacidad de los modelos y
gestiones. Analizar los resultados es fundamental y no
siempre es sencillo.
• En lo posible implantar un sistema que automatice la
generación y análisis de las campañas. Hacerlo
manualmente se torna ineficiente.
• El Datamart generado es una herramienta
complementaria, que puede ser muy útil para analizar la
información existente y mejorar la gestión.
• Data Mining apoya la generación de información que
permita resolver los problemas desde la raíz.
47
FIN
48