Algoritmos de Data Mining

Download Report

Transcript Algoritmos de Data Mining

1

Business Intelligence y Data Mining

Preguntas y respuestas

 Preguntas  ¿Cuál es el valor de los clientes?

 ¿Cuáles son los clientes que tienen mayor probabilidad de abandonar?

 ¿Cuáles son los productos que se venden en forma conjunta?

 Respuestas  Están en los datos del usuario  Como las encontramos????

2

Business Intelligence

“Es un paraguas bajo el que se incluye un conjunto de

conceptos, metodologías y procesos

cuya misión consiste en

mejorar el proceso de toma de decisiones

en los negocios basándose en

hechos y sistemas que trabajan con hechos

” Howard Dresner (Gartner Group), 1989 3

Business Intelligence Recursos y herramientas

 Fuentes de datos: Base de Datos de Marketing, Data Warehouse de la compañia, Datamarts, etc.

 Herramientas de extracción y consulta.

 Herramientas de modelización o tecnicas de Data Mining 4

¿Qué es Data Mining? (1997)

Data Mining: es el

proceso de exploración y análisis

(de manera automática o semiautomática) de los datos para obtener

patrones significativos

y reglas de negocio.

Michael Berry, Gordon Linoff Data Mining for marketing, sales and customer support.

Wiley, USA, 1997 5

Qué NO es Data Mining

 No es un producto que se compra enlatado sino una disciplina que debe ser dominada.

 No es una solución instantánea a los problemas de negocio.

 No es un fin en sí mismo sino un proceso que ayuda a encontrar soluciones a problemas de negocio.

6

¿Qué es la estadística?

 Es la disciplina que extrae información general a partir de datos específicos.

 Es el estudio de la estabilidad en la variación.

 Es el arte de examinar, sumarizar y extraer conclusiones a partir de los datos.

7

Data Mining y estadística

 En la minería de datos, no se hacen supuestos a priori sobre la naturaleza de las variables y de las relaciones entre ellas (normalidad, linealidad, etc).

 Los algoritmos estadísticos se adaptan – para Minería de Datos – al procesamiento de grandes volúmenes de datos.

8

Descubrimiento de la información

Desarrollado por un Analista Asistido por un Analista Mayormente a través de Algoritmos Querys y reportes Analisis Multidimensional Data Mining 9

Pilares del proceso de Data Mining

Datos Algoritmos y Técnicas (Software) Prácticas De modelización 10

Un proyecto genérico

Comprensión del Negocio Comprensión de los Datos Preparación de los Datos Desarrollo del Modelo Testing del Modelo Implementación 11

El analista de datos

 Es el vínculo entre las áreas de tecnología informática y las áreas de negocios.

 Traduce los requerimientos de información en preguntas apropiadas para su análisis con las herramientas de minería.

 Realimenta el Data Warehouse de la compañía con nuevos criterios de Data Cleaning y Data Validation.

Tecnología informática Usuarios de negocio 12

Habilidades requeridas

 Capacidad para manipular datos  Conocimiento de lenguaje SQL (Lenguaje de consulta de datos)  Conocimiento de herramientas para manipular datos  Conocimiento de las técnicas de minería y análisis exploratorio  Habilidad de comunicación (interpretación) de los problemas de negocio  Creatividad  Manejo de relaciones interpersonales con varias disciplinas (IT, Marketing, Finanzas, Comunicación, etc) 13

Tipos de fuentes de datos

Transaccionales Ej.: las operaciones realizadas con tarjeta de crédito.

Relacionales Ej.: la estructura de los productos que ofrece el banco.

Demográficos Ej.: características del grupo familiar.

14

La calidad de los datos

 El Data Mining se relaciona directamente con la CALIDAD de los datos.

Garbage in – Garbage Out

 Se debe identificar los datos faltantes “missings” o fuera de rango “outliers”.

15

Problemas con los datos

 Demasiados datos:     Datos corruptos o con ruido Datos redundantes (requieren factorización) Datos irrelevantes Excesiva cantidad de datos (muestreo)  Pocos Datos    Atributos perdidos (missings) Valores perdidos Poca cantidad de datos  Datos facturados   Datos incompatibles Múltiples fuentes de datos 16

Algoritmos de Data Mining

17

Algoritmos de Data Mining

 Al hablar de Data Mining tenemos que hablar de los Algoritmos de Data Mining.

 Los algoritmos son

técnicas y procedimientos

(en muchos casos basados en la estadística) implementados para descubrir o inferir patrones de información 18

Algoritmos de Data Mining

 Las funciones más comunes de estos algoritmos son las siguientes:  Clasificación  Estimación  Predicción

(Caso Disco)

 Agrupamiento a partir de reglas de asociación

(Caso Disco)

 Construcción de Grupos  Descripción y visualización 19

Problemas usuales

 Canasta de consumo de tarjetas de crédito y prevención de fraudes.

 Caracterización de perfiles de clientes para definir acciones de Up Selling y Cross Selling  Tracking de campañas y predicción de respuesta / no respuesta.

 Modelos de predicción de abandono  Programas de millaje y Fidelización.

 Consolidación de Bases de Datos propias con fuentes externas.

 Web Mining y análisis de tráfico y uso de recursos de e-business.

20

Un caso de segmentación: ¿Quiénes son mis clientes?

21

¿Qué es “clustering?

 Es la partición del conjunto de individuos en subconjuntos lo más homogéneos posibles.

 El objetivo es maximizar la similitud de los individuos del cluster y maximizar las diferencias entre clusters. 22

Aplicaciones de la técnica

 Segmentación de la base de datos  Detección de fraudes  Detección de defectos 23

¿Con qué criterio se agrupan esta caras?

Casos Caso 7 8 9 1 2 3 4 5 6 Sexo

M M F M F M F M M

Anteojos

N S N N N N N N S

Bigote

N N N N N N S N S

Sonrisa

S S N S N N S N S

Sombrero

N N S N N S N N N

Un Criterio

Caso 1 4 No Evaluado

Sexo

M M Igual

Anteojos

N N Igual

Bigote

N S Diferente

Sonrisa

S S Igual

Sombrero Similaridad

N 0,8 N Igual 0,8 24

Distancias y similaridades

 La distancia entre dos objetos es la medida del intervalo que los separa.

 Las distancias no siempre se miden con “un metro”.

 La similaridad entre dos objetos es la medida de su cercanía.

 Disimilaridad es el término opuesto y se relaciona con distancia.

25

26

Preguntas