Tipos de problemas en Data Mining

Download Report

Transcript Tipos de problemas en Data Mining

Diplomado "Gestión de Negocios con
Data Warehouse y Data Mining".
Clase 2
Técnicas y conceptos de
modelamiento
José Antonio Lipari A.
1
Tipos de problemas en Data Mining
Predictivos
(supervisados)
Problemas
Clasificación
Regresión
Agrupamiento
Descriptivos
(no Supervisados)
Reglas de
asociación
Análisis
correlacional
2
Tipos de problemas
Predictivo
Descriptivo
(Supervisado)
(No supervisado)
Se sabe lo que se
busca
No se sabe lo que
se busca
Se utiliza información
histórica para ajustar
un modelo
Se utiliza información
disponible en busca de
recurrencias o similitudes
3
Problemas Predictivos o Supervisados
Modelos de
Clasificación
Buscan Predecir un
clase a partir de la
información
disponible
Modelos de regresión
Buscan predecir un valor
continuo a partir de la
información disponibles
4
Problemas Descriptivos no supervisados
Agrupamiento
(clustering)
Reglas de
asociación
Busca formar
grupos que
reúnen a
elementos con
características
comunes
Busca
identificar
reglas que
involucran la
ocurrencia de
eventos
simultáneos.
Análisis
correlacional
Busca
identificar
correlaciones
entre
variables de
interés
5
Ejemplos:
Se requiere saber con un mes de anticipación si un
clientes renunciará a la compañía.
Problema Predictivo de clasificación
Se requiere conocer la demanda de yogurt de
frutilla diaria en un supermercado
Problema supervisado de regresión
Se requiere segmentar la base de clientes de
un banco para ofrecer productos diferenciados
Problema no supervisado de agrupamiento
6
Ejemplos
Se requiere saber que productos se venden
juntos en un supermercado
Problema descriptivo de reglas de asociación
Se requiere saber que factores influyen en
el riesgo de contraer cáncer al pulmón
Modelo no supervisado de análisis correlacional
7
Método versus algoritmo
Un método es una forma de
conceptualizar la resolución de un
problema de Data Mining. Un método
puede permitir la resolución de distintos
problemas de Data Mining mediante el
uso de distintos algoritmos
Método
Árboles de decisión
Redes neuronales
Regresión lineal
Concepto
Realizar divisiones
sucesivas al conjunto de
datos disponible
Utilizar una simulación
matemática de las
neuronas que permiten el
aprendizaje humano
Estimar un conjunto de
constantes que
pertenecen a un polinimio
de grado 1
9
Concepto
Utilizar una
simulación
matemática de las
neuronas que
permiten el
aprendizaje humano
“REDES NEURONALES”
Algoritmo
Perceptron Multicapa
,utilizado en problemas
supervisados
Mapas auto-organizados
de Kohonen, utilizado en
problemas no
supervisados
10
El problema de identificar un patrón
Un patrón puede tener cualquier forma y
complejidad, la elección del método adecuado
puede hacer la diferencia entre identificar un
patrón o No (la detección de un patrón puede
requerir la elección de un método adecuado).
Por lo tanto, es importante entender en
términos generales como funcionan los
distintos métodos utilizados en Data Mining, y
comprender sus ventajas y desventajas
11
Patrón discontinuo
12
Patrón Lineal
13
Patrón no lineal
14
Patrón en espiral
15
Conceptos importantes en la detección de patrones
Sobre ajuste: Situación en la que un modelo
predictivo aprende con demasiada fidelidad el
comportamiento de los datos perdiendo
generalidad y por lo tanto disminuye la calidad
de predicciones futuras
Para enfrentar el sobre ajuste, por lo general, se
dividen los datos disponibles en validación,
entrenamiento y testeo, de esta formar se
rescatan únicamente los patrones que aparecen
en las bases de entrenamiento y validación, para
finalmente evaluar el modelo con la base de
testeo .
16
Conceptos importantes en la detección de patrones
Sobre Muestro: Técnica utilizada cuando la
ocurrencia del fenómeno a predecir es muy baja,
por ejemplo, la fuga de clientes es del orden de
0,5% contra un 99,5% de no fugados.
En este caso se acostumbra modificar la
proporción de fugados (sobremuestreo) hasta
llegar a 50% fugados y 50% no fugados. Por lo
general esta técnica facilita la detección de
patrones y disminuye los tiempos de proceso.
17
Conceptos importantes en la detección de patrones
Outliers o datos fuera de rango: Se trata de
registros que presentan valores que se alejan por
mucho de los rangos de normalidad. Por
ejemplo, clientes con edades de 1.500 años
Esta clase de registros pueden distorsionar
mucho el ajuste de los modelos predictivos , por
lo que generalmente son eliminados
18
Principales métodos y algoritmos
utilizados en Data Mining
K-medias
Árboles de decisión
Regresión Lineal y Logística
Redes Neuronales
Reglas de Asociación
Vector Suport Machine
19
Algoritmo K medias
El algoritmo K medias, identifica los centros de un
número datos de grupos o cluster ( C ) , a partir de
los cuales es posible asignar un grado de pertenencia
de cada elemento del conjunto a cada uno de los C
cluster definidos.
Este algoritmo es usado en problemas
no supervisados de agrupamiento.
20
Concepto de lógica difusa o Fuzzy Logic
Este concepto da una definición “difusa” de
pertenencia a un conjunto, a diferencia de la
logica tradicional en que un elemento pertenece
o no pertenece a un conjunto, en lógica difusa un
elemento tiene distintos grados de pertenencia a
todos los conjuntos.
21
Por ejemplo, si segmentamos la base clientes de
un banco, según la edad.
Lógica tradicional
24 años 365 días 25 años
Joven
Adulto
25
Lógica difusa
50%
joven
50%
49%
joven
51%
adulto
adulto
Joven
18
Adulto
30
22
Etapas del algoritmo K-medias
1. Determina una matriz U con ui,j [0,1;
2. Determina los centros de las clases:
c
u
i, j
j 1
n
cj =
 ui ,
j
m
xi
i 1
n
 ui ,
j
m
i 1
3. Actualiza los grados de pertenencia:
1
ui,j =
 d ( x ,c ) 

 
 d ( x ,c ) 
c
k 1
i
j
i
k
2
m 1
Uk = matriz en iteración k
4. Criterio para detener: Uk+1 - Uk < 
23
=1
C= 2 (2 clases)
Iteración 0
Se cuenta con un conjunto de datos y se desea
encontrar 2 clases o cluster
24
C= 2 (2 clases)
Iteración 1
C1
C2
En la primera iteración se asignan aleatóriamente 2
centros de cada clase y se asocia cada elemento como
perteneciente a la clase del centro mas cercano.
25
C= 2 (2 clases)
Iteración 2
C1
C2
En la segunda iteración se reposicionan los centros en las
coordenadas promedio de los elementos pertenecientes a
su clase y luego se reasignan los elementos pertenecientes
a cada clase.
26
C= 2 (2 clases)
C1
Iteración 3
C2
En la tercera iteración se repite lo mismo que en la
iteración anterior y se seguirá repitiendo hasta que se
cumpla con la condición de salida
27
C= 2 (2 clases)
C1
Iteración 4
C2
Finaliza el proceso iterativo porque los centros se
mueven menos que un mínimo definido
(condición salida)
28
Árboles de decisión
El método consiste en realizar sucesivas particiones
o “ramificaciones” sobre los datos con el objetivo de
formar subconjuntos de datos o “hojas” en las que
existan, idealmente, elementos de solo una clase
Pueden ser usados en problemas supervisados
tanto de regresión como de clasificación
29
Todos los
datos
Tronco
Ramas
Particiones
Hojas
Subconjuntos de clases puras idealmente
30
Principales características (árboles de decisión)
Son fáciles de entender
Las reglas extraídas son fácilmente programables
por lo que es fácil aplicar las predicciones
Son poco intensivos en uso de recursos
computacionales
Pueden ser utilizados con muchas variables y gran
cantidad de datos
No se requieren datos muy depurados
En muchos casos se utilizan para seleccionar las
variables de mayor importancia para realizar una
predicción
31
Regresión lineal
El método consiste en ajustar un polinomio de
grado 1 con los datos disponibles
Puede ser usada en problemas supervisados
de clasificación y regresión.
32
33
Principales características de la regresión lineal
Una vez identificadas las constantes del
polinomio son fáciles de implementar
Son bastante intensivas en uso de recursos
computacionales
Entregan información adicional sobre
correlaciones entre las variables utilizadas, lo
que resulta muy útil para entender el
fenómeno a predecir
34
Redes Neuronales
El método consiste en una simulación
matemática del método de aprendizaje que
ocurre en el cerebro humano
Se utiliza normalmente en problemas supervisados
de clasificación y regresión, además hay algunas
aplicaciones en problemas no supervisados de
agrupamiento.
35
Redes Neuronales
Natural
Artificial
Neurona

Conexiones con pesos
36
Entrenamiento de una red neuronal
1 Se presentan los datos de un registro
Neurona
2 Se evalúa la diferencia con variable
objetivo
3 Se modifican los valores de la
constantes

4 Se repiten los pasos 123 para el
siguiente registro
5 Se repiten los pasos 1234 hasta que
la diferencia del error entre validación
y entrenamiento se mayor que un
cierto límite
Conexiones con pesos
37
Principales características
Si se utiliza una topología de red adecuada una red
neuronal es capaz de ajustarse a cualquier función no
lineal por lo que potencialmente son capaces hacer muy
buenas predicciones
Son muy complejas de entender y no entregan
información derivada para entender el problema
Las predicciones realizadas con redes neuronales son
difíciles de implementar sin uso de un software
adecuado
Son muy intensivas en uso de recursos
Su uso requiere datos muy depurados
38
Reglas de asociación
El método consiste en identificar un conjunto
de reglas que se observan con cierta
recurrencia en los datos, para seleccionar las
reglas relevantes se utilizan dos conceptos que
son la confianza y soporte.
Este método se utiliza en problemas no
supervisados de reglas de asociación.
39
Reglas de asociación
“Confianza”:
La regla X ==>Y tiene “confianza” c si c% de
las transacciones en T con X también contienen
Y.
Ejemplo: Productos : {1, 2, 3, 4, 5}
Transacciones :
T = {(1, 3, 4), (2, 3, 5), (1, 2, 3, 5), (2, 5)}
(2, 3) ==> (5) tiene “confianza” 100%
(2 de 2 transacciones que contienen (2, 3) también
contienen (5))
40
Reglas de asociación
“Soporte”:
La regla X==>Y tiene “soporte” s en el conjunto de
transacciones D si s% de las transacciones en T
contienen (X e Y).
Ejemplo: Productos : {1, 2, 3, 4, 5}
Transacciones :
T = {(1, 3, 4), (2, 3, 5), (1, 2, 3, 5), (2, 5)}
(2, 3) ==> (5) tiene “support” 50%
(2 de 4 transacciones de T contienen (2, 3, 5))
41
Reglas de asociación
Podemos decir, entonces, que la Confianza nos
indica que tan fiable es una regla y el Soporte
nos indica cuan importante es esta regla
dentro del total de transacciones.
Utilizando estos 2 indicadores podemos
seleccionar las reglas que nos interezará
gestionar.
42
Principales características
Son fáciles de entender, verificar y demostrar
económicamente.
Son poco intensivas en uso de recursos
No requieren datos muy depurados
43
Vector suport machine
(maquinas de soporte vectorial)
Este es un método busca mejorar lo realizado por los
métodos mencionados antes, el objetivo es lograr la
mejor clasificación consiguiendo además la mayor
generalidad posible, es decir, minimizar el sobre
ajuste.
Es usado por general en problemas supervisados de
clasificación
44
V2
Árbol 1 Árbol 2
?
Regresión 1
Regresión 2 V1
45
V2
Vector suport machine
Máxima generalidad
en la solución
D
D
V1
46
Principales características
Es intensivo en uso de recursos
Las reglas encontradas son difíciles de entender
Requiere datos depurados
La predicción es difícil de aplicar sin uso de software
apropiado
Potencialmente es capaz de generar mejores modelos
predictivos que los otros método estudiados
47
FIN
48