Tema 9 teoria

Download Report

Transcript Tema 9 teoria

Árboles de decisión
Tema 9
Parte teórica
Minería de datos
Dr. Francisco J. Mata
1
Árboles de decisión

Conjunto de reglas representadas en
forma de una estructura de árbol
Minería de datos
Dr. Francisco J. Mata
2
Árboles de decisión

Son muy útiles cuando hay más de una manera
para convertirse en miembro de una clase meta
 Modelo
para encontrar tarjeta habientes rentables
puede identificar tres tipos de clientes:



Tarjeta habientes que mantienen saldos altos
Tarjeta habientes que compran mucho
Tarjeta habientes que ocasionalmente hacen compras
grandes y pagan sus balances a tiempo

Cada uno de estos representa un paso diferente a través del
árbol.
Minería de datos
Dr. Francisco J. Mata
3
Árboles de decisión

El paso a través del
árbol de decisión
explica la clasificación
Minería de datos
Dr. Francisco J. Mata
Envía hijos
a escuela
pública
4
Árboles de decisión


Cada hoja contiene
información sobre el
número de observaciones
que caen en ella y la
proporción para cada
clase
La clase más densa se
selecciona como la
clasificación para el nodo
Minería de datos
Dr. Francisco J. Mata
5
Árboles de decisión

Se utilizan para
 Asignar
“scores” a los datos
 Explorar datos
 Hacer clasificaciones y predicciones
 Comprender que variables son más
importantes
Minería de datos
Dr. Francisco J. Mata
6
Árboles de decisión y “scoring”

Se puede asignar un “score” a los datos
de acuerdo a la hoja a la que fueron
clasificados
Minería de datos
Dr. Francisco J. Mata
7
Árboles de decisión y “scoring”
Minería de datos
Dr. Francisco J. Mata
8
Árboles de decisión y “scoring”

Problemas
 Usualmente
hay muy pocas hojas por lo que
hay pocos valores de “scoring”
Minería de datos
Dr. Francisco J. Mata
9
Árboles de decisión y exploración

Árboles de decisión son útiles para
explorar un conjunto de datos y entender
cómo ciertas variables (“input”) inciden
sobre otra (“target”)
Minería de datos
Dr. Francisco J. Mata
10
Árboles de decisión y exploración
Penetración de un
producto en ciudades
Ciudades
producto no
está bien
Ciudades
producto
está bien
Minería de datos
Dr. Francisco J. Mata
11
Árboles de decisión y
clasificaciones/predicciones

Aplicación más común
Minería de datos
Dr. Francisco J. Mata
12
Árboles de decisión y
clasificaciones/predicciones
Predecir
clientes que
pondrían
órdenes si
se les envía
catálogo de
Navidad,
basado en
aquellos
que pusieron
órdenes el
año pasado
Minería de datos
Dr. Francisco J. Mata
13
Árboles de decisión y variables
más importantes

Ayuda a eliminar variables para otros
modelos, por ejemplo regresión
Minería de datos
Dr. Francisco J. Mata
14
Árboles de decisión y variables
más importantes
Minería de datos
Dr. Francisco J. Mata
15
Proceso para crear un árbol de
decisión
Se utiliza un conjunto de datos de
entrenamiento (“training”) para crear el
árbol
 Se utiliza un conjunto de datos de
validación para reducir la complejidad del
árbol y generalizarlo (proceso de poda o
“pruning”)

 Eliminar
el problema del “overfitting”
Minería de datos
Dr. Francisco J. Mata
16
Proceso para crear un árbol de
decisión

Tres conjuntos de datos obtenidos de
particionar el conjunto de datos original
 Entrenamiento:
40%
 Validación: 30%
 Prueba: 30%
Minería de datos
Dr. Francisco J. Mata
17
Algoritmos más comunes para
árboles de decisión
CART (“classification and regression
trees”)
 C4.5
 CHAID (“chi square automatic induction”)

 Varían
en
Medida de pureza utilizada para los grupos
 Forma de poda

Minería de datos
Dr. Francisco J. Mata
18
Creación de árboles de decisión

Proceso recursivo


Se inicia con todos los datos del conjunto de adiestramiento en
la raíz
Para cada variable “input” se decide la mejor forma para separar
los valores de la variable “target”



Se selecciona la variable “input” y criterio de mejor separación
mediante ésta para los valores de la variable “target”
Se divide el nodo en cuestión en dos o más hijos de acuerdo
con aquella variable que “mejor divide” la variable “target”
Se repite proceso con los otros nodos hasta que no sea posible
más divisiones
Minería de datos
Dr. Francisco J. Mata
19
Divisiones
Minería de datos
Dr. Francisco J. Mata
20
Divisiones

Medida para evaluar la calidad de una
división en un árbol de decisión se
denomina pureza
Minería de datos
Dr. Francisco J. Mata
21
Medidas de pureza

Depende de la variable “target” no de las
variables “input”
 Variable “target” categórica
 Gini (diversidad de población)
 Entropía (ganancia de información)
 Radio de ganancia de información
 Prueba chi cuadrado
 Variable “target” intervalo
 Reducción en varianza
 Prueba F
o radio
Minería de datos
Dr. Francisco J. Mata
22
Pureza

Índice de Gini
 Utilizado en las ciencias sociales y la economía
 Probabilidad de que dos cosas escogidas al azar
de
una población sean la misma
 Una población pura tiene un índice de Gini de 1
 Si hay dos grupos igualmente representados en una
población el índice de Gini es 0.5
 El índice de Gini es la suma de los cuadrados de las
proporciones de las poblaciones

 El
p1 2 + p 2 2
objetivo es maximizar el índice de Gini
Minería de datos
Dr. Francisco J. Mata
23
Gini
Minería de datos
Dr. Francisco J. Mata
24
Gini
Minería de datos
Dr. Francisco J. Mata
25
Gini
Minería de datos
Dr. Francisco J. Mata
26
Pureza

Entropía
 Utilizada
en la teoría de la información para medir la
cantidad de información almacenada en un número
de bits
 Una población pura tiene una entropía de 0
 Si existen dos grupos igualmente representados la
entropía es 1
 Cálculo de entropía

 El
-(p1 log p1 + p2 log p2)
objetivo es minimizar entropía
Minería de datos
Dr. Francisco J. Mata
27
Entropía
Minería de datos
Dr. Francisco J. Mata
28
Entropía
Minería de datos
Dr. Francisco J. Mata
29
Entropía
Minería de datos
Dr. Francisco J. Mata
30
Gini versus entropía
Entropía tiene preferencia por grupos más
pequeños y puros
 Gini tiene preferencia por grupos similares
en tamaño

Minería de datos
Dr. Francisco J. Mata
31
Pureza

Chi cuadrado
 Prueba importante en estadística para medir la
probabilidad de que la frecuencia observada de una
muestra sea debida sólo a la variación de la muestra
 Es relativa a la proporción en la población original
(nodo padre)
 Si las proporciones en los hijos son las mismas que
en el padre entonces el valor de chi cuadrado es 0
 Si los hijos son puros, el valor de chi cuadrado es alto
 Para una población dividida 50%-50%, el valor es
igual al tamaño de la población
Minería de datos
Dr. Francisco J. Mata
32
Pureza

Chi cuadrado
 Cálculo para el chi cuadrado para cada hijo:

 El
(observado (c1) – esperado (c1))2 / esperado (c1) +
(observado (c2) –esperado (c2))2/ esperado (c2)
 ci número de instancias de clase i en el hijo
 obsevado (ci ): número de instancias observadas de
clase i en el hijo
 esperado (ci ): número de instancias esperadas de clase
i en el hijo
 tamaño del hijo multiplicado por la proporción de la
clase en el padre
objetivo es maximizar chi cuadrado
Minería de datos
Dr. Francisco J. Mata
33
Chi cuadrado
Minería de datos
Dr. Francisco J. Mata
34
Chi cuadrado
Coinciden
en este caso
Minería de datos
Dr. Francisco J. Mata
35
Algoritmos y pureza
CART: Gini
 C4.5: entropía
 CHAID: chi cuadrado

Minería de datos
Dr. Francisco J. Mata
36
Valores perdidos

Tratamiento
 Ignorar
registros con valores perdidos (puede
introducir sesgo)
 Tratar los valores perdidos como legítimos y
asignarlos a un nodo del árbol
Minería de datos
Dr. Francisco J. Mata
37
Error en un árbol de decisión

Para una hoja:
 1-probabilidad
de clase dominante para la
hoja

Para un árbol:
 Suma
ponderada de error de hoja i
multiplicada por probabilidad de que un
registro pertenezca a esta hoja
Minería de datos
Dr. Francisco J. Mata
38
Poda de árboles de decisión

Incrementa la estabilidad del modelo al
reducir su complejidad
Minería de datos
Dr. Francisco J. Mata
39
Poda
Minería de datos
Dr. Francisco J. Mata
40
Poda

Con el conjunto de entrenamiento, cada división
del árbol reduce el error
 Pero
al aumentar el número de hojas, éstas
contienen menos registros o tuples y se reduce la
posibilidad de que la distribución de resultados en
una hoja sea similar de un conjunto de datos a otros
(“overfitting”)

Los datos de prueba son utilizados para
encontrar el punto donde la complejidad
adicional empieza a dañar en lugar de ayudar
Minería de datos
Dr. Francisco J. Mata
41
Poda
Minería de datos
Dr. Francisco J. Mata
42
Algoritmo típico de poda

Identificar sub-árboles candidatos para poda
 Tasa de error ajustada:
 AE(T) = E(T) + α leaf_count (T)
 Se inicia considerando todos los
subárboles que
contienen la raíz
 α se incrementa

 El
Si AE(Ti) <= E(T completo), Ti es un árbol candidato para
conservar y aquellas ramas que no pertenecen a él son
podadas
proceso se repite de nuevo para los subárboles en
Ti
Minería de datos
Dr. Francisco J. Mata
43
Poda

Varía de acuerdo con los diferentes
algoritmos
 CART
 C4.5
 CHAID
Minería de datos
Dr. Francisco J. Mata
44
Resultados clasificación
Minería de datos
Dr. Francisco J. Mata
45
Resultados clasificación
..
Solicitud es
realmente
Mala
Buena
Total
Es clasificada como
Mala
Buena
313
140
122
1809
435
1949
Total
453
1931
2384
Error clasificar solicitud como buena siendo mala: 140/453= 31%
Error clasificar solicitud como mala siendo buena: 122/1931= 6%
Error de mala clasificación: (140+122)/2384=11%
Minería de datos
Dr. Francisco J. Mata
46
Resultados clasificación
Clasificado 1
Clasificado 0
Realmente 1
Verdadero positivo
Falso negativo
Realmente 0
Falso positivo
Verdadero negativo
Minería de datos
Dr. Francisco J. Mata
47
Resultados clasificación
Minería de datos
Dr. Francisco J. Mata
48
Resultados de clasificación
Variable
respuesta
Adiestramiento
Validación
1=malo
0=bueno
Minería de datos
Dr. Francisco J. Mata
49
Resultado clasificación
Regla:
IF 492238.5 <= VALUE
AND DEBTINC < 45.43897
THEN
NODE :
5
N
:
12
1
: 83.3%
0
: 16.7%
Interpretación:
Condición
Resultado
esperado
492238.5 <=
VALUE AND
DEBTINC <
45.43897
Solicitud mala
Probabilidad
(Error de
clasificación}*
83%
(17%)
Minería de datos
Dr. Francisco J. Mata
N*
12
(0.50%)
50
Ventajas de los árboles de
decisiones
Fácil de entender
 Resultados se adaptan bien a reglas de
negocios
 No se requieren suposiciones acerca de
los datos
 Variables “input” pueden ser continuas y
categóricas

Minería de datos
Dr. Francisco J. Mata
51
Desventajas de los árboles de
decisiones



Algunos algoritmos sólo pueden tratar variables
“target” binarias
Otros algoritmos pueden tratar variables “target”
con más de dos valores pero no funcionan bien
cuando el número de casos de entrenamiento
es pequeño por clase
Son costosos en términos computacionales
Minería de datos
Dr. Francisco J. Mata
52