Transcript Customer Intelligence Overview
Copyright © 2007, SAS Institute Inc. All rights reserved.
Una guía para hacer Data Mining en la Empresa Guido Sagasti
Consultor Pilar, 16 de Octubre de 2009
AGENDA
Presentación Corporativa SAS Guía para hacer Data Mining en la Empresa
Problemática
Es necesaria una metodología Algunos consejos Metodología SAS para Data Mining: SEMMA en SAS Enterprise Miner.
Errores más comunes en el desarrollo de modelos analíticos.
Otras soluciones y productos SAS relacionados al Data Mining Copyright © 2007, SAS Institute Inc. All rights reserved.
Aumente la Rentabilidad y Potencie su Negocio
• El análisis de grandes volúmenes de datos está afectando nuestras vidas en forma impensada.
• Sin Analytics estamos trabajando sobre supuestos, intuición.
• Las organizaciones que usan Analytics son exitosas, logran ahorros reales y aumentan su rentabilidad.
• Analytics es diferenciador, implica mejores decisiones.
Copyright © 2007, SAS Institute Inc. All rights reserved.
SAS
Empresa de soluciones analíticas privada más grande del mundo Más de 400 oficinas Clientes en 113 países diferentes Más de 11,000 empleados Más de 2,000 empleados en R&D Más de 43,000 Clientes Foco en Business Analytics
Soluciones de acuerdo al tamaño de las empresas
Copyright © 2007, SAS Institute Inc. All rights reserved.
2008 Performance
$2.26B en facturación (USD)
Copyright © 2007, SAS Institute Inc. All rights reserved.
Copyright © 2007, SAS Institute Inc. All rights reserved.
Copyright © 2007, SAS Institute Inc. All rights reserved.
De los Datos a la Inteligencia
Qué es lo mejor que podría pasar?
Optimización
Qué será lo próximo que va a pasar?
Qué pasa si esta tendencia continúa?
Forecasting Modelado Predictivo
Por qué está pasando?
Análisis Estadístico Alertas
Qué acciones son necesarias?
Query Drill-Down Reportes
Dónde está exactamente el problema?
Reportes Standard Ad-Hoc
Cuánto, con qué frecuencia, dónde?
Qué pasó?
Grado de Inteligencia
Copyright © 2007, SAS Institute Inc. All rights reserved.
Copyright © 2007, SAS Institute Inc. All rights reserved.
1 2 3 4 Copyright © 2007, SAS Institute Inc. All rights reserved.
REPORTES STANDARD Preguntas: Qué pasó? Cuándo pasó?
Ejemplo: Reportes financieros mensuales o trimestrales.
Estos reportes son generados regularmente y muestran solamente qué pasó en un área particular. Son útiles en cierto modo, pero no para tomar decisiones de largo plazo.
REPORTES AD-HOC Preguntas: Cuántos? Con qué frecuencia? Dónde?
Ejemplo: Reporte que sumariza la cantidad de clientes atendidos en un hospital por código de diagnóstico y día de la semana.
Como máximo, los reportes ad-hoc permiten obtener respuestas a preguntas sencillas.
QUERY DRILL-DOWN, OLAP Preguntas: Dónde está exactamente el proglema? Cómo encuentro las respuestas?
Ejemplo: Qué locales fueron los que tuvieron caídas más importantes en las ventas? Y qué categorías dentro de esos locales?.
Query drill-down brinda mayor capacidad de investigación sobre los datos, permitiendo profundizar y obtener respuestas para diferentes criterios de análisis.
ALERTAS Preguntas: Cuándo debería reaccionar? Qué acciones se necesitan ahora?
Ejemplo: Ejecutivos de ventas reciben alertas cuando no se están cumpliendo los objetivos de comerciales.
Con alertas, es posible entender cuándo se tiene un problema y ser notificado cuando una situación similar ocurre en el futuro. Las alertas pueden ser por email, RSS Feeds, o semáforos rojos en un scorecard o dashboard.
5 6 7 8 Copyright © 2007, SAS Institute Inc. All rights reserved.
ANALISIS ESTADISTICO Preguntas: Qué está pasando? Porqué esta pasando? Qué oportunidades estamos perdiendo?
Ejemplo: Qué factores influenciaron el aumento de llamadas al Call Center? Qué condiciones cumplen los grupos de más altas tasas de resolución?
Estas preguntas requieren aplicar análisis estadístico, desde análisis de frecuencias hasta modelos de regresión.
FORECASTING Preguntas: Qué pasa si continúa esta tendencia? Cuánto se necesita? Cuándo?
Ejemplo: Retailers pueden predecir la demanda de cada Item en cada Local.
Forecasting aplica en todas las organizaciones. Puede utilizarse para proyectar Demanda de Productos y Servicios, Consumo de Energía, Cantidad de Llamadas en un Call Center, Utilización de Recursos de IT, etc.
MODELADO PREDICTIVO Preguntas: Qué pasará a continuación? Cómo afectará a mi negocio?
Ejemplo: Bancos pueden predecir qué clientes son más propensos a contratar un nuevo producto o servicio, detectar posibles fraudes y evaluar el riesgo crediticio.
Si tenemos 10 millones de clientes y queremos realizar una campaña de marketing, quiénes serán los más propensos a responder? Cómo debemos segmentar a nuestros clientes? El modelado predictivo brinda las respuestas.
OPTIMIZACION Preguntas: Cómo hacemos las cosas mejor? Cuál es la mejor decisión ante un problema complejo? Qué pasa si las condiciones cambian?
Ejemplo: Dadas las prioridades del negocio, restricciones de recursos y tecnología disponible, determinar la manera de optimizar la plataforma de IT satisfaciendo las necesidades de los usuarios.
La Optimización soporta la Innovación. Considera recursos y objetivos y ayuda a encontrar la mejor solución posible para cumplirlos.
SAS: Pasado vs. Presente
Pasado – Poderosa Herramienta Presente – Soluciones de Negocios
proc catmod
order=data; weight wt; response / out=preds; model severity=trt hospital;
run
;
quit
; /* Keep just the predicted values, predictors, and response */
data
pred2; set preds; if _type_='PROB'; keep severity trt hospital _pred_;
run
; /* Find predicted response level (level with highest predicted probability) in each sample. */
proc summary
data=pred2 nway; class trt hospital; var _pred_; output out=predlvl (drop=_type_ _freq_)
run
; maxid(_pred_(severity))=predlvl; /* Transpose the predicted values so that there is one observation per sample containing predicted values for each response level. */
proc transpose
data=pred2 out=pred3 (drop=_name_); by trt hospital; id severity; var _pred_;
run
;
Copyright © 2007, SAS Institute Inc. All rights reserved.
Comunicaciones Banca Retail Manufactura Oil & Gas Gobierno Seguros Utilities
Copyright © 2007, SAS Institute Inc. All rights reserved.
Educación Juego y Hotelería Seguros de Salud Proveedores de Salud Farmacéutica Otros
En Banca por ejemplo: SAS OpRisk Monitor
Es una aplicación web que se utiliza para gerenciar , controlar y evaluar indicadores claves de riesgo operacional (KRIs)
Copyright © 2007, SAS Institute Inc. All rights reserved.
Una guía para hacer Data Mining en la Empresa
Copyright © 2007, SAS Institute Inc. All rights reserved.
Pasos en el proceso de descubrimiento del conocimiento
Copyright © 2007, SAS Institute Inc. All rights reserved.
¿Cuál es la problemática?
• Evitar que los clientes se inactiven (Retención) • Aumentar el uso de la Tarjeta propia (Fidelización) • Aumentar el ticket promedio de los clientes (Up –Selling) • Aumentar la frecuencia de uso de los productos • Hacer que los clientes compren en más grupos de producto (Cross-Selling) • Recuperar los clientes que han disminuido su relacionamiento (Recovering) • Aprovechar mejor los recursos operativos disponibles.
• Segmentar para realizar ofertas mejor dirigidas.
• Detectar comportamientos atípicos (por ejemplo fraudulentos)
Copyright © 2007, SAS Institute Inc. All rights reserved.
Teniendo en cuenta el objetivo…
Definición de la variable respuesta (target) • Si se trata a la problemática se trate desde la teoría del Aprendizaje Supervisado.
Para que se quiere el modelo?
• Describir un fenómeno?
• Predecir?
• Confirmar un suceso?
Copyright © 2007, SAS Institute Inc. All rights reserved.
¿Es necesaria una metodología?
• Las personas cometen errores. Al igual que los pasos que tiene que dar un piloto de avión para despegar, un proceso ayuda a asegurar la calidad de las decisiones que se toman.
• El mundo es procesos dinámico. Los también. Analizar, rediseñar procesos actuales o incluir nuevos procesos es parte del trabajo diario en pos de mejorar.
Copyright © 2007, SAS Institute Inc. All rights reserved.
Primer consejo: Armar un equipo
• Una persona no tiene todas las respuestas.
• El especialista en Data Mining debe ser parte importante del equipo. • El tamaño deberá depender de las necesidades y magnitud de la empresa.
• Tiene que combinar conocimiento de los datos, el negocio y la empresa.
Copyright © 2007, SAS Institute Inc. All rights reserved.
Segundo consejo: Hacer foco en la información antes que en la solución
• Un proyecto de Data Mining mal definido output malos resultados.
tendrá como • En muchos casos, modelos simples funcionan bien. El mayor incremento en la performance de los mismos proviene de los datos.
• Es MUY importante la etapa de Limpieza de Datos en la reducción de sesgos y errores.
Copyright © 2007, SAS Institute Inc. All rights reserved.
•
Tercer consejo: Tener en cuenta toda posible fuente de información
Reconocer que datos duros, blandos, opinión, intuición, conocimiento de “mundo”, son fuentes valiosas de información.
• Un buen proceso necesita integrar todas las contribuciones de información que puedan llegar a ser útiles para obtener beneficios de negocio. • Ser igualitarios: Personas de diferentes aportar conocimiento útil. Escucharlas.
jerarquía pueden • Si hay presupuesto aprovecharlo para nutrir nuestra información con datos externos (ej. Bureau de datos)
Copyright © 2007, SAS Institute Inc. All rights reserved.
Cuarto consejo: Ser abiertos / diversos
• Formar equipos interdisciplinarios. • Un equipo con diversidad de recursos, capaz de ver el bosque detr ás del árbol.
• Incluir personas con diferente background. Finanzas, legales, operaciones, sistemas, data mining, etc.
Copyright © 2007, SAS Institute Inc. All rights reserved.
Quinto consejo: Usar un lenguaje común
• Intentar ser lo más claros posibles para comunicar los resultados de un modelo de Data Mining.
• Ser gráficos si es necesario. Las personas no creen en “cajas negras”.
• Tratar de integrar información cualitativa y cuantitativa para entender mejor los resultados.
Ejemplo: Focus Group para una muestra de clientes que en base al modelo de Data Mining tienen alta probabilidad de darse de baja.
Copyright © 2007, SAS Institute Inc. All rights reserved.
Copyright © 2007, SAS Institute Inc. All rights reserved.
METODOLOGÍA SAS Desarrollo con metodología SEMMA
Metodología de Mining (SEMMA)
Definir nuevos desafíos Conocer el objetivo / desafio Lograr resultados tangibles Implementar Evaluar y comprender el ambiente de negócio
S
Obtener los datos (muestreo)
CICLO DE MINERÍA DE DATOS M
Modificación
E
Exploración Evaluación
A
Modelamiento
M Copyright © 2007, SAS Institute Inc. All rights reserved.
S
ample (muestreo)
Ejemplo conceptual FUENTE DE DATOS
Población total Registros:
Miliones de registros
Variable:
Monto de Compras MUESTREO
Muestreo Registros:
5% de los registros
Variable:
Monto de Compras
Copyright © 2007, SAS Institute Inc. All rights reserved.
S EMMA
S
ample (muestreo)
Ventajas: • • • • Velocidad y eficiencia Economía Generalización Visualización Desventajas: • • Muestras no representativas Tecnología insuficiente como para aplicar técnicas de muestreo adecuadas en forma simple.
S EMMA Copyright © 2007, SAS Institute Inc. All rights reserved.
E
xplore (exploración)
Variables CONTÍNUAS
Promedio EVENTO = 1 Promedio EVENTO = 0
Ejemplo Q-Rango p25 superior
Copyright © 2007, SAS Institute Inc. All rights reserved.
S E MMA
E
xplore (exploración)
ANÁLISIS DE CORRELACIÓN (
ρ
x,y ) – Evitar Multicolinearidad
Si |MAX( ρ x,y )| ≥ 0,85 Seleccionar ‘X’ o ‘Y’ para seguir en el test Si 0,30 ≤ |MAX( ρ x,y )| < 0,85 Combinar variables Si |MAX( ρ x,y )| < 0,30 Siguen el desarrollo del modelo
SEM M A Copyright © 2007, SAS Institute Inc. All rights reserved.
M
odify (modificación)
Generación de variables nuevas • • • • • Resumir información (Componentes Principales) Variables de Tendencia Tratamiento de Outliers Tratamiento de Missings (¿Missing=Cero?) Generación de nuevas variables. No abusar!
Discretización de variables • • • • • • • Tratar outliers Maximizar la correlación con la variable respuesta (Con Árboles por ejemplo) Conocer correlación entre covariables de mismo tipo (Discretas vs Continuas) Percibir efectos no lineales Más fácil interpretar e explicar el modelo Aumenta la estabilidad del modelo en el tiempo Encontrar equilibrio entre las categorías
Copyright © 2007, SAS Institute Inc. All rights reserved.
SE M MA
SEM M A M
odel (modelado) Selección de variables
Análisis cualitativa Análisis gráfico del comportamiento de los clientes evento=1 y que evento=0 Análisis del valor R 2 o de la estadística CHI-CUADRADO de las variables con el evento modelado
Copyright © 2007, SAS Institute Inc. All rights reserved.
M
odel (modelado)
Modelo de propensión Una vez cumplida las etapas anteriores de exploración, discretización, análisis de correlación y selección de las variables se sigue con el modelamiento de los datos.
Probar distintas técnicas con distintos parámetros y compararlos
Copyright © 2007, SAS Institute Inc. All rights reserved.
SEM M A
M
odel (modedo)
Demográficas Sexo, Edad, Estado Civil, Región, Profesión, etc Perfil de Compra Compra mucho/poco (cantidad y montos) Tiempo promedio entre compras Ticket promedio / cantidad de item por boleta / plazos promedios Preferencias Etc Experiencia como cliente Cantidad de reclamos.
Llamadas a un call center para pedir la baja.
Número de veces que el cliente experimentó problemas técnicos.
Copyright © 2007, SAS Institute Inc. All rights reserved.
SEM M A
SEMM A A
ssess (evaluación)
Indicadores de Calidad del Modelo:
Criterio LIFT (Cuidado)
Mide la presencia de eventos en cada decil y lo compara al azar. El valor del LIFT representa cuantas veces más hay de eventos.
Criterio GINI
Este criterio es como si fuera el LIFT acumulado. Puede fluctuar entre 0 y 1 y cuanto más próximo de 1 mejor es el ajuste del modelo.
Criterio KS
Este criterio se basa en la comparación entre las distribuciones de probabilidad acumulado de los clientes clasificados como “evento” y “no evento”. Buscamos, entonces, la mayor diferencia observada entre estos dos grupos. Esta distancia (valor del critério KS) puede fluctuar entre 0 y 1 y cuanto más próximo de uno mejor es el ajuste del modelo.
Criterio ROC
Es una curva de la tasa de
verdadero-positivos
(sensibilidad) versus la tasa de
falso-positivo
(1 – especificidad). El área bajo la curva es el ROC. Puede fluctuar entre 0.5 y 1 y cuanto más próximo de 1 mejor es el ajuste del modelo.
Copyright © 2007, SAS Institute Inc. All rights reserved.
A
ssess (evaluación)
Probabilidad vs Realidad Probabilidad promedio por decil vs % de Clientes con respuesta positiva.
100.0% 90.0% 80.0% 70.0% 60.0% 50.0% 40.0% 30.0% 20.0% 10.0% 0.0% D eci l 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 Prob. Prom.
% Real
Copyright © 2007, SAS Institute Inc. All rights reserved.
SEMM A
A
ssess (evaluación)
SCORE MODELO
100.0% 90.0% 80.0% 70.0% 60.0% 50.0% 40.0% 30.0% 20.0% 10.0% 0.0% 0.0% 20.0% 40.0% 60.0% %clientes abordados
Copyright © 2007, SAS Institute Inc. All rights reserved.
80.0% 100.0%
Errores típicos en desarrollo de modelos predictivos
Muestreo y variable respuesta mal definidos.
Muestreo “foto”.
Especificación incorrecta de las variables de entrada. Revisar que las escalas de medida sean las adecuadas.
Tratar de imputar/reemplazar valores faltantes reales.
Desarrollo del modelos solamente con muestras de entrenamiento.
Multicolinealidad.
Particiones de datos inadecuadas.
Copyright © 2007, SAS Institute Inc. All rights reserved.
Errores típicos en desarrollo de modelos predictivos
Utilización de variables explicativas no replicables en el futuro.
Dedicar más tiempo a la técnica que al proceso de modelamiento (un modelo parte desde las definiciones de negocio) Postular modelos sin sentido de negocio.
No evaluar la estabilidad del modelo en el tiempo.
Interpretar mal el lift.
Copyright © 2007, SAS Institute Inc. All rights reserved.
Interpretar mal LIFT (Ejemplo)
• •
Escenario 1:
El target ocurre con una probabilidad de 0,5.
Con el modelo el target ocurre con una probabilidad de 0,75 en el primer decil (10%) LIFT = 1,5
• •
Escenario 2:
El target ocurre con una probabilidad de 0,02.
Con el modelo el target ocurre con una probabilidad de 0,08 en el primer decil (10%) LIFT = 4
Copyright © 2007, SAS Institute Inc. All rights reserved.
Interpretar mal LIFT (Ejemplo)
No confundir PERAS y MANZANAS… No comparar modelos sin sentido
Copyright © 2007, SAS Institute Inc. All rights reserved.
Conclusiones
• Es necesaria una metodología o un proceso en Data Mining • SAS provee: • La metodología SEMMA basada en su experiencia.
• El software, que brinda las herramientas para llevar adelante la metodología.
• No usar el software como una licuadora de datos. • El diseño integral de la solución es clave.
Copyright © 2007, SAS Institute Inc. All rights reserved.
Otras soluciones y productos SAS relacionados: SAS Data Integration
Copyright © 2007, SAS Institute Inc. All rights reserved.
Otras soluciones y productos SAS relacionados: SAS Model Manager
• Ambiente integrado para el seguimiento de la performance de los modelos de Data Mining • Permite satisfacer requerimientos regulatorios
Copyright © 2007, SAS Institute Inc. All rights reserved.
Otras soluciones y productos SAS relacionados: SAS Text Miner
Copyright © 2007, SAS Institute Inc. All rights reserved.
Otras soluciones y productos SAS relacionados: SAS Forecast Server
Copyright © 2007, SAS Institute Inc. All rights reserved.
Otras soluciones y productos SAS relacionados: SAS Campaign Management
Copyright © 2007, SAS Institute Inc. All rights reserved.
Otras soluciones y productos SAS relacionados: SAS Business Intelligence
Copyright © 2007, SAS Institute Inc. All rights reserved.
Red Profesional Encuentros temáticos con especialistas Novedades en Analytics Acceso a especialistas Material de lectura SAS
Copyright © 2007, SAS Institute Inc. All rights reserved.
Objetivos: • • Acelerar crecimiento profesional Promover el uso metódico e inteligente de información
Copyright © 2007, SAS Institute Inc. All rights reserved.
GRUPOS DE DISCUSION Copyright © 2007, SAS Institute Inc. All rights reserved.
MIEMBROS NUEVOS ULTIMOS BLOGS
Registrarse en
www.analyticsconosur.com
Copyright © 2007, SAS Institute Inc. All rights reserved.
Lecturas recomendadas
• OLIVIA PARR RUD
.
“Data mining cookbook: modeling data for marketing, risk and CRM". Wiley. 2001.
• MATIGNON. “Data Mining Using SAS Enterprise Miner”. Wiley, 2009.
• ANDERSON & TATHAM. “Analisis Multivariante”. Prentice-Hall. 1999.
• HOAGLIN, MOSTELLER, TUCKEY & WILDER. “
Exploring Data Tables, Trends and Shapes
.” Wiley. 1985.
• HOSMER & LEMESHOW. “Applied Logistic Regression”. Wiley. 1989.
• MONTGOMERY “Introduction to Linear Regression Analysis”. Wiley. 2001.
• COCHRAN
.
"Técnicas de Muestreo". Cecsa. 1990. • DES RAJ. "Teoría de Muestreo" Fondo de Cultura Económica. 1989.
Copyright © 2007, SAS Institute Inc. All rights reserved.