Transcript Algoritmos de Data Mining
1
Business Intelligence y Data Mining
Preguntas y respuestas
Preguntas ¿Cuál es el valor de los clientes?
¿Cuáles son los clientes que tienen mayor probabilidad de abandonar?
¿Cuáles son los productos que se venden en forma conjunta?
Respuestas Están en los datos del usuario Como las encontramos????
2
Business Intelligence
“Es un paraguas bajo el que se incluye un conjunto de
conceptos, metodologías y procesos
cuya misión consiste en
mejorar el proceso de toma de decisiones
en los negocios basándose en
hechos y sistemas que trabajan con hechos
” Howard Dresner (Gartner Group), 1989 3
Business Intelligence Recursos y herramientas
Fuentes de datos: Base de Datos de Marketing, Data Warehouse de la compañia, Datamarts, etc.
Herramientas de extracción y consulta.
Herramientas de modelización o tecnicas de Data Mining 4
¿Qué es Data Mining? (1997)
Data Mining: es el
proceso de exploración y análisis
(de manera automática o semiautomática) de los datos para obtener
patrones significativos
y reglas de negocio.
Michael Berry, Gordon Linoff Data Mining for marketing, sales and customer support.
Wiley, USA, 1997 5
Qué NO es Data Mining
No es un producto que se compra enlatado sino una disciplina que debe ser dominada.
No es una solución instantánea a los problemas de negocio.
No es un fin en sí mismo sino un proceso que ayuda a encontrar soluciones a problemas de negocio.
6
¿Qué es la estadística?
Es la disciplina que extrae información general a partir de datos específicos.
Es el estudio de la estabilidad en la variación.
Es el arte de examinar, sumarizar y extraer conclusiones a partir de los datos.
7
Data Mining y estadística
En la minería de datos, no se hacen supuestos a priori sobre la naturaleza de las variables y de las relaciones entre ellas (normalidad, linealidad, etc).
Los algoritmos estadísticos se adaptan – para Minería de Datos – al procesamiento de grandes volúmenes de datos.
8
Descubrimiento de la información
Desarrollado por un Analista Asistido por un Analista Mayormente a través de Algoritmos Querys y reportes Analisis Multidimensional Data Mining 9
Pilares del proceso de Data Mining
Datos Algoritmos y Técnicas (Software) Prácticas De modelización 10
Un proyecto genérico
Comprensión del Negocio Comprensión de los Datos Preparación de los Datos Desarrollo del Modelo Testing del Modelo Implementación 11
El analista de datos
Es el vínculo entre las áreas de tecnología informática y las áreas de negocios.
Traduce los requerimientos de información en preguntas apropiadas para su análisis con las herramientas de minería.
Realimenta el Data Warehouse de la compañía con nuevos criterios de Data Cleaning y Data Validation.
Tecnología informática Usuarios de negocio 12
Habilidades requeridas
Capacidad para manipular datos Conocimiento de lenguaje SQL (Lenguaje de consulta de datos) Conocimiento de herramientas para manipular datos Conocimiento de las técnicas de minería y análisis exploratorio Habilidad de comunicación (interpretación) de los problemas de negocio Creatividad Manejo de relaciones interpersonales con varias disciplinas (IT, Marketing, Finanzas, Comunicación, etc) 13
Tipos de fuentes de datos
Transaccionales Ej.: las operaciones realizadas con tarjeta de crédito.
Relacionales Ej.: la estructura de los productos que ofrece el banco.
Demográficos Ej.: características del grupo familiar.
14
La calidad de los datos
El Data Mining se relaciona directamente con la CALIDAD de los datos.
Garbage in – Garbage Out
Se debe identificar los datos faltantes “missings” o fuera de rango “outliers”.
15
Problemas con los datos
Demasiados datos: Datos corruptos o con ruido Datos redundantes (requieren factorización) Datos irrelevantes Excesiva cantidad de datos (muestreo) Pocos Datos Atributos perdidos (missings) Valores perdidos Poca cantidad de datos Datos facturados Datos incompatibles Múltiples fuentes de datos 16
Algoritmos de Data Mining
17
Algoritmos de Data Mining
Al hablar de Data Mining tenemos que hablar de los Algoritmos de Data Mining.
Los algoritmos son
técnicas y procedimientos
(en muchos casos basados en la estadística) implementados para descubrir o inferir patrones de información 18
Algoritmos de Data Mining
Las funciones más comunes de estos algoritmos son las siguientes: Clasificación Estimación Predicción
(Caso Disco)
Agrupamiento a partir de reglas de asociación
(Caso Disco)
Construcción de Grupos Descripción y visualización 19
Problemas usuales
Canasta de consumo de tarjetas de crédito y prevención de fraudes.
Caracterización de perfiles de clientes para definir acciones de Up Selling y Cross Selling Tracking de campañas y predicción de respuesta / no respuesta.
Modelos de predicción de abandono Programas de millaje y Fidelización.
Consolidación de Bases de Datos propias con fuentes externas.
Web Mining y análisis de tráfico y uso de recursos de e-business.
20
Un caso de segmentación: ¿Quiénes son mis clientes?
21
¿Qué es “clustering?
Es la partición del conjunto de individuos en subconjuntos lo más homogéneos posibles.
El objetivo es maximizar la similitud de los individuos del cluster y maximizar las diferencias entre clusters. 22
Aplicaciones de la técnica
Segmentación de la base de datos Detección de fraudes Detección de defectos 23
¿Con qué criterio se agrupan esta caras?
Casos Caso 7 8 9 1 2 3 4 5 6 Sexo
M M F M F M F M M
Anteojos
N S N N N N N N S
Bigote
N N N N N N S N S
Sonrisa
S S N S N N S N S
Sombrero
N N S N N S N N N
Un Criterio
Caso 1 4 No Evaluado
Sexo
M M Igual
Anteojos
N N Igual
Bigote
N S Diferente
Sonrisa
S S Igual
Sombrero Similaridad
N 0,8 N Igual 0,8 24
Distancias y similaridades
La distancia entre dos objetos es la medida del intervalo que los separa.
Las distancias no siempre se miden con “un metro”.
La similaridad entre dos objetos es la medida de su cercanía.
Disimilaridad es el término opuesto y se relaciona con distancia.
25
26