Customer Intelligence Overview

Download Report

Transcript Customer Intelligence Overview

Copyright © 2007, SAS Institute Inc. All rights reserved.

Una guía para hacer Data Mining en la Empresa Guido Sagasti

Consultor Pilar, 16 de Octubre de 2009

AGENDA

   

Presentación Corporativa SAS Guía para hacer Data Mining en la Empresa

Problemática

 

Es necesaria una metodología Algunos consejos Metodología SAS para Data Mining: SEMMA en SAS Enterprise Miner.

Errores más comunes en el desarrollo de modelos analíticos.

Otras soluciones y productos SAS relacionados al Data Mining Copyright © 2007, SAS Institute Inc. All rights reserved.

Aumente la Rentabilidad y Potencie su Negocio

• El análisis de grandes volúmenes de datos está afectando nuestras vidas en forma impensada.

• Sin Analytics estamos trabajando sobre supuestos, intuición.

• Las organizaciones que usan Analytics son exitosas, logran ahorros reales y aumentan su rentabilidad.

• Analytics es diferenciador, implica mejores decisiones.

Copyright © 2007, SAS Institute Inc. All rights reserved.

SAS

 Empresa de soluciones analíticas privada más grande del mundo   Más de 400 oficinas Clientes en 113 países diferentes  Más de 11,000 empleados  Más de 2,000 empleados en R&D  Más de 43,000 Clientes  Foco en Business Analytics

Soluciones de acuerdo al tamaño de las empresas

Copyright © 2007, SAS Institute Inc. All rights reserved.

2008 Performance

$2.26B en facturación (USD)

Copyright © 2007, SAS Institute Inc. All rights reserved.

Copyright © 2007, SAS Institute Inc. All rights reserved.

Copyright © 2007, SAS Institute Inc. All rights reserved.

De los Datos a la Inteligencia

Qué es lo mejor que podría pasar?

Optimización

Qué será lo próximo que va a pasar?

Qué pasa si esta tendencia continúa?

Forecasting Modelado Predictivo

Por qué está pasando?

Análisis Estadístico Alertas

Qué acciones son necesarias?

Query Drill-Down Reportes

Dónde está exactamente el problema?

Reportes Standard Ad-Hoc

Cuánto, con qué frecuencia, dónde?

Qué pasó?

Grado de Inteligencia

Copyright © 2007, SAS Institute Inc. All rights reserved.

Copyright © 2007, SAS Institute Inc. All rights reserved.

1 2 3 4 Copyright © 2007, SAS Institute Inc. All rights reserved.

REPORTES STANDARD Preguntas: Qué pasó? Cuándo pasó?

Ejemplo: Reportes financieros mensuales o trimestrales.

Estos reportes son generados regularmente y muestran solamente qué pasó en un área particular. Son útiles en cierto modo, pero no para tomar decisiones de largo plazo.

REPORTES AD-HOC Preguntas: Cuántos? Con qué frecuencia? Dónde?

Ejemplo: Reporte que sumariza la cantidad de clientes atendidos en un hospital por código de diagnóstico y día de la semana.

Como máximo, los reportes ad-hoc permiten obtener respuestas a preguntas sencillas.

QUERY DRILL-DOWN, OLAP Preguntas: Dónde está exactamente el proglema? Cómo encuentro las respuestas?

Ejemplo: Qué locales fueron los que tuvieron caídas más importantes en las ventas? Y qué categorías dentro de esos locales?.

Query drill-down brinda mayor capacidad de investigación sobre los datos, permitiendo profundizar y obtener respuestas para diferentes criterios de análisis.

ALERTAS Preguntas: Cuándo debería reaccionar? Qué acciones se necesitan ahora?

Ejemplo: Ejecutivos de ventas reciben alertas cuando no se están cumpliendo los objetivos de comerciales.

Con alertas, es posible entender cuándo se tiene un problema y ser notificado cuando una situación similar ocurre en el futuro. Las alertas pueden ser por email, RSS Feeds, o semáforos rojos en un scorecard o dashboard.

5 6 7 8 Copyright © 2007, SAS Institute Inc. All rights reserved.

ANALISIS ESTADISTICO Preguntas: Qué está pasando? Porqué esta pasando? Qué oportunidades estamos perdiendo?

Ejemplo: Qué factores influenciaron el aumento de llamadas al Call Center? Qué condiciones cumplen los grupos de más altas tasas de resolución?

Estas preguntas requieren aplicar análisis estadístico, desde análisis de frecuencias hasta modelos de regresión.

FORECASTING Preguntas: Qué pasa si continúa esta tendencia? Cuánto se necesita? Cuándo?

Ejemplo: Retailers pueden predecir la demanda de cada Item en cada Local.

Forecasting aplica en todas las organizaciones. Puede utilizarse para proyectar Demanda de Productos y Servicios, Consumo de Energía, Cantidad de Llamadas en un Call Center, Utilización de Recursos de IT, etc.

MODELADO PREDICTIVO Preguntas: Qué pasará a continuación? Cómo afectará a mi negocio?

Ejemplo: Bancos pueden predecir qué clientes son más propensos a contratar un nuevo producto o servicio, detectar posibles fraudes y evaluar el riesgo crediticio.

Si tenemos 10 millones de clientes y queremos realizar una campaña de marketing, quiénes serán los más propensos a responder? Cómo debemos segmentar a nuestros clientes? El modelado predictivo brinda las respuestas.

OPTIMIZACION Preguntas: Cómo hacemos las cosas mejor? Cuál es la mejor decisión ante un problema complejo? Qué pasa si las condiciones cambian?

Ejemplo: Dadas las prioridades del negocio, restricciones de recursos y tecnología disponible, determinar la manera de optimizar la plataforma de IT satisfaciendo las necesidades de los usuarios.

La Optimización soporta la Innovación. Considera recursos y objetivos y ayuda a encontrar la mejor solución posible para cumplirlos.

SAS: Pasado vs. Presente

Pasado – Poderosa Herramienta Presente – Soluciones de Negocios

proc catmod

order=data; weight wt; response / out=preds; model severity=trt hospital;

run

;

quit

; /* Keep just the predicted values, predictors, and response */

data

pred2; set preds; if _type_='PROB'; keep severity trt hospital _pred_;

run

; /* Find predicted response level (level with highest predicted probability) in each sample. */

proc summary

data=pred2 nway; class trt hospital; var _pred_; output out=predlvl (drop=_type_ _freq_)

run

; maxid(_pred_(severity))=predlvl; /* Transpose the predicted values so that there is one observation per sample containing predicted values for each response level. */

proc transpose

data=pred2 out=pred3 (drop=_name_); by trt hospital; id severity; var _pred_;

run

;

Copyright © 2007, SAS Institute Inc. All rights reserved.

 Comunicaciones  Banca  Retail  Manufactura  Oil & Gas  Gobierno  Seguros  Utilities

Copyright © 2007, SAS Institute Inc. All rights reserved.

 Educación  Juego y Hotelería  Seguros de Salud  Proveedores de Salud  Farmacéutica  Otros

En Banca por ejemplo: SAS OpRisk Monitor

Es una aplicación web que se utiliza para gerenciar , controlar y evaluar indicadores claves de riesgo operacional (KRIs)

Copyright © 2007, SAS Institute Inc. All rights reserved.

Una guía para hacer Data Mining en la Empresa

Copyright © 2007, SAS Institute Inc. All rights reserved.

Pasos en el proceso de descubrimiento del conocimiento

Copyright © 2007, SAS Institute Inc. All rights reserved.

¿Cuál es la problemática?

• Evitar que los clientes se inactiven (Retención) • Aumentar el uso de la Tarjeta propia (Fidelización) • Aumentar el ticket promedio de los clientes (Up –Selling) • Aumentar la frecuencia de uso de los productos • Hacer que los clientes compren en más grupos de producto (Cross-Selling) • Recuperar los clientes que han disminuido su relacionamiento (Recovering) • Aprovechar mejor los recursos operativos disponibles.

• Segmentar para realizar ofertas mejor dirigidas.

• Detectar comportamientos atípicos (por ejemplo fraudulentos)

Copyright © 2007, SAS Institute Inc. All rights reserved.

Teniendo en cuenta el objetivo…

 Definición de la variable respuesta (target) • Si se trata a la problemática se trate desde la teoría del Aprendizaje Supervisado.

 Para que se quiere el modelo?

• Describir un fenómeno?

• Predecir?

• Confirmar un suceso?

Copyright © 2007, SAS Institute Inc. All rights reserved.

¿Es necesaria una metodología?

• Las personas cometen errores. Al igual que los pasos que tiene que dar un piloto de avión para despegar, un proceso ayuda a asegurar la calidad de las decisiones que se toman.

• El mundo es procesos dinámico. Los también. Analizar, rediseñar procesos actuales o incluir nuevos procesos es parte del trabajo diario en pos de mejorar.

Copyright © 2007, SAS Institute Inc. All rights reserved.

Primer consejo: Armar un equipo

• Una persona no tiene todas las respuestas.

• El especialista en Data Mining debe ser parte importante del equipo. • El tamaño deberá depender de las necesidades y magnitud de la empresa.

• Tiene que combinar conocimiento de los datos, el negocio y la empresa.

Copyright © 2007, SAS Institute Inc. All rights reserved.

Segundo consejo: Hacer foco en la información antes que en la solución

• Un proyecto de Data Mining mal definido output malos resultados.

tendrá como • En muchos casos, modelos simples funcionan bien. El mayor incremento en la performance de los mismos proviene de los datos.

• Es MUY importante la etapa de Limpieza de Datos en la reducción de sesgos y errores.

Copyright © 2007, SAS Institute Inc. All rights reserved.

Tercer consejo: Tener en cuenta toda posible fuente de información

Reconocer que datos duros, blandos, opinión, intuición, conocimiento de “mundo”, son fuentes valiosas de información.

• Un buen proceso necesita integrar todas las contribuciones de información que puedan llegar a ser útiles para obtener beneficios de negocio. • Ser igualitarios: Personas de diferentes aportar conocimiento útil. Escucharlas.

jerarquía pueden • Si hay presupuesto aprovecharlo para nutrir nuestra información con datos externos (ej. Bureau de datos)

Copyright © 2007, SAS Institute Inc. All rights reserved.

Cuarto consejo: Ser abiertos / diversos

• Formar equipos interdisciplinarios. • Un equipo con diversidad de recursos, capaz de ver el bosque detr ás del árbol.

• Incluir personas con diferente background. Finanzas, legales, operaciones, sistemas, data mining, etc.

Copyright © 2007, SAS Institute Inc. All rights reserved.

Quinto consejo: Usar un lenguaje común

• Intentar ser lo más claros posibles para comunicar los resultados de un modelo de Data Mining.

• Ser gráficos si es necesario. Las personas no creen en “cajas negras”.

• Tratar de integrar información cualitativa y cuantitativa para entender mejor los resultados.

Ejemplo: Focus Group para una muestra de clientes que en base al modelo de Data Mining tienen alta probabilidad de darse de baja.

Copyright © 2007, SAS Institute Inc. All rights reserved.

Copyright © 2007, SAS Institute Inc. All rights reserved.

METODOLOGÍA SAS Desarrollo con metodología SEMMA

Metodología de Mining (SEMMA)

Definir nuevos desafíos Conocer el objetivo / desafio Lograr resultados tangibles Implementar Evaluar y comprender el ambiente de negócio

S

Obtener los datos (muestreo)

CICLO DE MINERÍA DE DATOS M

Modificación

E

Exploración Evaluación

A

Modelamiento

M Copyright © 2007, SAS Institute Inc. All rights reserved.

S

ample (muestreo)

Ejemplo conceptual FUENTE DE DATOS

Población total Registros:

Miliones de registros

Variable:

Monto de Compras MUESTREO

Muestreo Registros:

5% de los registros

Variable:

Monto de Compras

Copyright © 2007, SAS Institute Inc. All rights reserved.

S EMMA

S

ample (muestreo)

 Ventajas: • • • • Velocidad y eficiencia Economía Generalización Visualización  Desventajas: • • Muestras no representativas Tecnología insuficiente como para aplicar técnicas de muestreo adecuadas en forma simple.

S EMMA Copyright © 2007, SAS Institute Inc. All rights reserved.

E

xplore (exploración)

Variables CONTÍNUAS

Promedio EVENTO = 1 Promedio EVENTO = 0

Ejemplo Q-Rango p25 superior

Copyright © 2007, SAS Institute Inc. All rights reserved.

S E MMA

E

xplore (exploración)

ANÁLISIS DE CORRELACIÓN (

ρ

x,y ) – Evitar Multicolinearidad

 Si |MAX( ρ x,y )| ≥ 0,85 Seleccionar ‘X’ o ‘Y’ para seguir en el test  Si 0,30 ≤ |MAX( ρ x,y )| < 0,85 Combinar variables  Si |MAX( ρ x,y )| < 0,30 Siguen el desarrollo del modelo

SEM M A Copyright © 2007, SAS Institute Inc. All rights reserved.

M

odify (modificación)

Generación de variables nuevas • • • • • Resumir información (Componentes Principales) Variables de Tendencia Tratamiento de Outliers Tratamiento de Missings (¿Missing=Cero?) Generación de nuevas variables. No abusar!

 Discretización de variables • • • • • • • Tratar outliers Maximizar la correlación con la variable respuesta (Con Árboles por ejemplo) Conocer correlación entre covariables de mismo tipo (Discretas vs Continuas) Percibir efectos no lineales Más fácil interpretar e explicar el modelo Aumenta la estabilidad del modelo en el tiempo Encontrar equilibrio entre las categorías

Copyright © 2007, SAS Institute Inc. All rights reserved.

SE M MA

SEM M A M

odel (modelado) Selección de variables

   Análisis cualitativa Análisis gráfico del comportamiento de los clientes evento=1 y que evento=0 Análisis del valor R 2 o de la estadística CHI-CUADRADO de las variables con el evento modelado

Copyright © 2007, SAS Institute Inc. All rights reserved.

M

odel (modelado)

 Modelo de propensión Una vez cumplida las etapas anteriores de exploración, discretización, análisis de correlación y selección de las variables se sigue con el modelamiento de los datos.

Probar distintas técnicas con distintos parámetros y compararlos

Copyright © 2007, SAS Institute Inc. All rights reserved.

SEM M A

M

odel (modedo)

Demográficas  Sexo, Edad, Estado Civil, Región, Profesión, etc Perfil de Compra     Compra mucho/poco (cantidad y montos) Tiempo promedio entre compras Ticket promedio / cantidad de item por boleta / plazos promedios Preferencias  Etc Experiencia como cliente    Cantidad de reclamos.

Llamadas a un call center para pedir la baja.

Número de veces que el cliente experimentó problemas técnicos.

Copyright © 2007, SAS Institute Inc. All rights reserved.

SEM M A

SEMM A A

ssess (evaluación)

Indicadores de Calidad del Modelo:

Criterio LIFT (Cuidado)

Mide la presencia de eventos en cada decil y lo compara al azar. El valor del LIFT representa cuantas veces más hay de eventos.

Criterio GINI

Este criterio es como si fuera el LIFT acumulado. Puede fluctuar entre 0 y 1 y cuanto más próximo de 1 mejor es el ajuste del modelo.

Criterio KS

Este criterio se basa en la comparación entre las distribuciones de probabilidad acumulado de los clientes clasificados como “evento” y “no evento”. Buscamos, entonces, la mayor diferencia observada entre estos dos grupos. Esta distancia (valor del critério KS) puede fluctuar entre 0 y 1 y cuanto más próximo de uno mejor es el ajuste del modelo. 

Criterio ROC

Es una curva de la tasa de

verdadero-positivos

(sensibilidad) versus la tasa de

falso-positivo

(1 – especificidad). El área bajo la curva es el ROC. Puede fluctuar entre 0.5 y 1 y cuanto más próximo de 1 mejor es el ajuste del modelo.

Copyright © 2007, SAS Institute Inc. All rights reserved.

A

ssess (evaluación)

 Probabilidad vs Realidad Probabilidad promedio por decil vs % de Clientes con respuesta positiva.

100.0% 90.0% 80.0% 70.0% 60.0% 50.0% 40.0% 30.0% 20.0% 10.0% 0.0% D eci l 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 Prob. Prom.

% Real

Copyright © 2007, SAS Institute Inc. All rights reserved.

SEMM A

A

ssess (evaluación)

SCORE MODELO

100.0% 90.0% 80.0% 70.0% 60.0% 50.0% 40.0% 30.0% 20.0% 10.0% 0.0% 0.0% 20.0% 40.0% 60.0% %clientes abordados

Copyright © 2007, SAS Institute Inc. All rights reserved.

80.0% 100.0%

Errores típicos en desarrollo de modelos predictivos

Muestreo y variable respuesta mal definidos.

  Muestreo “foto”.

Especificación incorrecta de las variables de entrada. Revisar que las escalas de medida sean las adecuadas.

 Tratar de imputar/reemplazar valores faltantes reales.

 Desarrollo del modelos solamente con muestras de entrenamiento.

 Multicolinealidad.

 Particiones de datos inadecuadas.

Copyright © 2007, SAS Institute Inc. All rights reserved.

Errores típicos en desarrollo de modelos predictivos

  Utilización de variables explicativas no replicables en el futuro.

Dedicar más tiempo a la técnica que al proceso de modelamiento (un modelo parte desde las definiciones de negocio)  Postular modelos sin sentido de negocio.

  No evaluar la estabilidad del modelo en el tiempo.

Interpretar mal el lift.

Copyright © 2007, SAS Institute Inc. All rights reserved.

Interpretar mal LIFT (Ejemplo)

• •

Escenario 1:

El target ocurre con una probabilidad de 0,5.

Con el modelo el target ocurre con una probabilidad de 0,75 en el primer decil (10%) LIFT = 1,5

• •

Escenario 2:

El target ocurre con una probabilidad de 0,02.

Con el modelo el target ocurre con una probabilidad de 0,08 en el primer decil (10%) LIFT = 4

Copyright © 2007, SAS Institute Inc. All rights reserved.

Interpretar mal LIFT (Ejemplo)

No confundir PERAS y MANZANAS… No comparar modelos sin sentido

Copyright © 2007, SAS Institute Inc. All rights reserved.

Conclusiones

• Es necesaria una metodología o un proceso en Data Mining • SAS provee: • La metodología SEMMA basada en su experiencia.

• El software, que brinda las herramientas para llevar adelante la metodología.

• No usar el software como una licuadora de datos. • El diseño integral de la solución es clave.

Copyright © 2007, SAS Institute Inc. All rights reserved.

Otras soluciones y productos SAS relacionados: SAS Data Integration

Copyright © 2007, SAS Institute Inc. All rights reserved.

Otras soluciones y productos SAS relacionados: SAS Model Manager

• Ambiente integrado para el seguimiento de la performance de los modelos de Data Mining • Permite satisfacer requerimientos regulatorios

Copyright © 2007, SAS Institute Inc. All rights reserved.

Otras soluciones y productos SAS relacionados: SAS Text Miner

Copyright © 2007, SAS Institute Inc. All rights reserved.

Otras soluciones y productos SAS relacionados: SAS Forecast Server

Copyright © 2007, SAS Institute Inc. All rights reserved.

Otras soluciones y productos SAS relacionados: SAS Campaign Management

Copyright © 2007, SAS Institute Inc. All rights reserved.

Otras soluciones y productos SAS relacionados: SAS Business Intelligence

Copyright © 2007, SAS Institute Inc. All rights reserved.

 Red Profesional  Encuentros temáticos con especialistas  Novedades en Analytics  Acceso a especialistas  Material de lectura SAS

Copyright © 2007, SAS Institute Inc. All rights reserved.

Objetivos: • • Acelerar crecimiento profesional Promover el uso metódico e inteligente de información

Copyright © 2007, SAS Institute Inc. All rights reserved.

GRUPOS DE DISCUSION Copyright © 2007, SAS Institute Inc. All rights reserved.

MIEMBROS NUEVOS ULTIMOS BLOGS

Registrarse en

www.analyticsconosur.com

Copyright © 2007, SAS Institute Inc. All rights reserved.

Lecturas recomendadas

• OLIVIA PARR RUD

.

“Data mining cookbook: modeling data for marketing, risk and CRM". Wiley. 2001.

• MATIGNON. “Data Mining Using SAS Enterprise Miner”. Wiley, 2009.

• ANDERSON & TATHAM. “Analisis Multivariante”. Prentice-Hall. 1999.

• HOAGLIN, MOSTELLER, TUCKEY & WILDER. “

Exploring Data Tables, Trends and Shapes

.” Wiley. 1985.

• HOSMER & LEMESHOW. “Applied Logistic Regression”. Wiley. 1989.

• MONTGOMERY “Introduction to Linear Regression Analysis”. Wiley. 2001.

• COCHRAN

.

"Técnicas de Muestreo". Cecsa. 1990. • DES RAJ. "Teoría de Muestreo" Fondo de Cultura Económica. 1989.

Copyright © 2007, SAS Institute Inc. All rights reserved.

Gracias!!!

[email protected]