Transcript Tema 6
Exploración y preparación de
datos
Tema 6
Dr. Francisco J. Mata
1
Objetivos
Presentar la importancia de la exploración
de los datos
Discutir la necesidad de preparar los datos
Dr. Francisco J. Mata
2
Explorar
Obtener estadísticas básicas
Valores extremos
Valores perdidos
Distribuciones
Histogramas
Comparar valores con descripciones
¿Aparecen todos los códigos para una variable categórica?
¿Distribución de valores es esperada para variables
categóricas?
¿Valores mínimos y máximos para una variable son razonables?
Relaciones entre variables
Dr. Francisco J. Mata
3
Explorar
Haga lista de asuntos sorprendentes o
que no estén claros
Pregunte al proveedor de los datos
Dr. Francisco J. Mata
4
Explorar
Observar
Número de registros (observaciones)
Número de variables (columnas)
Dr. Francisco J. Mata
5
Ver la tabla de datos es otra buena forma
de iniciar la exploración
Dr. Francisco J. Mata
6
Explorar una variable
Penetración de producto
Dr. Francisco J. Mata
7
Explorar relaciones
Ingreso por hogar 1999
Ingreso por familia 1999
Dr. Francisco J. Mata
8
Ejemplo
Archivo de datos de censo sobre adultos
de los Estados Unidos
Dr. Francisco J. Mata
9
Estadísticas descriptivas para
variables continuas
Variable
x1
x5
x11
x12
x13
Label
age
education-num
capital-gain
capital-loss
hour-per-week
Mean
38.582
10.081
1077.650
87.304
40.437
Dr. Francisco J. Mata
Std Dev
13.640
2.573
7385.290
402.960
12.347
Range
73.000
15.000
99999.000
4356.000
98.000
10
0
.0
88 0
.0
84 0
.0
80 0
.0
76 0
.0
72 0
.0
68 0
.0
64 0
.0
60 0
.0
56 0
.0
52 0
.0
48 0
.0
44 0
.0
40 0
.0
36 0
.0
32 0
.0
28 0
.0
24 0
.0 g
20s in
is
M
0
Count
Age
1000
800
600
400
200
11
AGE
Minería de datos
Dr. Francisco J. Mata
Education-number
12000
10000
8000
6000
4000
Count
2000
0
Missing
2.00
1.00
4.00
3.00
6.00
5.00
8.00
7.00
10.00
9.00
Minería de datos
Dr. Francisco J. Mata
EDUCN
12.00
11.00
14.00
13.00
16.00
15.00
12
00
4.
12 00
25 20. 0
0 0
15 66.
5
10 .00
96 0
78 7.0
6 0
67 7.0
9 0
60 3.0
1 0
50 0.0
5 0
46 2.0
4 0
39 1.0
7 0
34 5.0
2 0
33 4.0
6 0
29 3.0
5 0
26 4.0
1 0
24 0.0
9 0
22 2.0
6 0
20 7.0
9 0
17 9.0
0
14 .00
1 g
99 s in
is
M
0
Count
Gain
40000
30000
20000
10000
13
Minería de datos
Dr. Francisco J. Mata
GAIN
0
.0
70
37 3.00
0 0
26 7.0
6 0
24 7.0
7 0
23 8.0
5
22 .00
05 0
22 9.0
4 0
21 2.0
4 0
20 4.0
7
19 8.00
4 0
18 5.0
5 0
17 1.0
2 0
17 1.0
5
16 4.00
9 0
15 9.0
3 0
15 0.0
8
13 0
0
4.
97 .00
9 g
41 s in
is
M
0
Count
Loss
40000
30000
20000
10000
14
Minería de datos
Dr. Francisco J. Mata
LOSS
0
.0
95 0
.0
89 0
.0
84 0
.0
77 0
.0
72 0
.0
65 0
.0
60 0
.0
55 0
.0
50 0
.0
45 0
.0
40 0
.0
35 0
.0
30 0
.0
25 0
.0
20 0
.0
15 0
.0
10
n0g
s.0i
is5
M
0
Count
Hours
20000
10000
15
Minería de datos
Dr. Francisco J. Mata
HOURS
Estadísticas Descriptivas para
Variables Discretas
Workclass
x2
Federal-gov
Local-gov
Never-worked
Private
Self-emp-inc
Self-emp-not-inc
State-gov
Without-pay
Frequency
Percent
Cumulative
Frequency
960
2093
7
22696
1116
2541
1298
14
3.12
6.81
0.02
73.87
3.63
8.27
4.22
0.05
960
3053
3060
25756
26872
29413
30711
30725
Cumulative
Percent
3.12
9.94
9.96
83.83
87.46
95.73
99.95
100.00
Frequency Missing = 1836
Chi-Square 107220.7383
DF
7
Pr > ChiSq
<.0001
Dr. Francisco J. Mata
16
Estadísticas Descriptivas para
Variables Discretas
Education
x4
10th
11th
12th
1st-4th
5th-6th
7th-8th
9th
Assoc-acdm
Assoc-voc
Bachelors
Doctorate
HS-grad
Masters
Preschool
Prof-school
Some-college
Frequency
933
1175
433
168
333
646
514
1067
1382
5355
413
10501
1723
51
576
7291
Cumulative
Cumulative
Percent
Frequency
Percent
2.87
933
2.87
3.61
2108
6.47
1.33
2541
7.80
0.52
2709
8.32
1.02
3042
9.34
1.98
3688
11.33
1.58
4202
12.91
3.28
5269
16.18
4.24
6651
20.43
16.45
12006
36.87
1.27
12419
38.14
32.25
22920
70.39
5.29
24643
75.68
0.16
24694
75.84
1.77
25270
77.61
22.39
32561
100.00
Chi-Square 66643.3355
DF
15
Pr > ChiSq
<.0001
17
Dr. Francisco J. Mata
education*education-num
Dr. Francisco J. Mata
18
education*education-num
Dr. Francisco J. Mata
19
Estadísticas Descriptivas para
Variables Discretas
Race
x9
Amer-Indian-Eskimo
Asian-Pac-Islander
Black
Other
White
Frequency
Percent
Cumulative
Frequency
311
1039
3124
271
27816
0.96
3.19
9.59
0.83
85.43
311
1350
4474
4745
32561
Chi-Square
DF
Pr > ChiSq
Dr. Francisco J. Mata
Cumulative
Percent
0.96
4.15
13.74
14.57
100.00
87941.8892
4
<.0001
20
Estadísticas Descriptivas para
Variables Discretas
Sex
x10
Female
Male
Frequency
10771
21790
Percent
33.08
66.92
Cumulative
Frequency
10771
32561
Chi-Square
DF
Pr > ChiSq
Dr. Francisco J. Mata
Cumulative
Percent
33.08
100.00
3728.9506
1
<.0001
21
Estadísticas Descriptivas para
Variables Discretas
Native-country
x14
Cambodia
Canada
China
Columbia
Cuba
Dominican-Republic
Ecuador
El-Salvador
England
France
Germany
Greece
Guatemala
Haiti
Holand-Netherlands
Honduras
Frequency
19
121
75
59
95
70
28
106
90
29
137
29
64
44
1
13
Percent
0.06
0.38
0.23
0.18
0.30
0.22
0.09
0.33
0.28
0.09
0.43
0.09
0.20
0.14
0.00
0.04
Dr. Francisco J. Mata
Cumulative
Frequency
19
140
215
274
369
439
467
573
663
692
829
858
922
966
967
980
Cumulative
Percent
0.06
0.44
0.67
0.86
1.15
1.37
1.46
1.79
2.07
2.16
2.59
2.68
2.88
3.02
3.02
3.06
22
Estadísticas Descriptivas para
Variables Discretas
Native-country
x14
Frequency
Hong
20
Hungary
13
India
100
Iran
43
Ireland
24
Italy
73
Jamaica
81
Japan
62
Laos
18
Mexico
643
Nicaragua
34
Outlying-US(Guam-USVI-etc) 14
Peru
31
Philippines
198
Poland
60
Portugal
37
Puerto-Rico
114
Scotland
12
Percent
0.06
0.04
0.31
0.13
0.08
0.23
0.25
0.19
0.06
2.01
0.11
0.04
0.10
0.62
0.19
0.12
0.36
0.04
Cumulative
Frequency
1000
1013
1113
1156
1180
1253
1334
1396
1414
2057
2091
2105
2136
2334
2394
2431
2545
2557
Cumulative
Percent
3.13
3.17
3.48
3.61
3.69
3.92
4.17
4.37
4.42
6.43
6.54
6.58
6.68
7.30
7.49
7.60
7.96
8.00
23
Dr. Francisco J. Mata
Estadísticas Descriptivas para
Variables Discretas
Native-country
x14
Scotland
South
Taiwan
Thailand
Trinadad&Tobago
United-States
Vietnam
Yugoslavia
Frequency
12
80
51
18
19
29170
67
16
Percent
0.04
0.25
0.16
0.06
0.06
91.22
0.21
0.05
Cumulative
Frequency
2557
2637
2688
2706
2725
31895
31962
31978
Cumulative
Percent
8.00
8.25
8.41
8.46
8.52
99.74
99.95
100.00
Frequency Missing = 583
Chi-Square
DF
Pr > ChiSq
1059744.4599
40
<.0001
Dr. Francisco J. Mata
24
Preparación de datos
Datos pueden ser
Incompletos: valores para una variable
perdidos
Ruidosos: contienen errores o valores extremos
Inconsistentes: esquemas de codificación
diferentes
Dr. Francisco J. Mata
25
Preparación de datos
Actividades
Limpieza de datos
Integración de datos
Transformación de datos
Reducción de datos
Dr. Francisco J. Mata
26
Limpieza de datos
Dar valores a datos perdidos
Suavizar el ruido en los datos
identificando valores extremos
Corregir inconsistencias
Dr. Francisco J. Mata
27
Valores perdidos
Valores para una variable no fueron
registrados
Dr. Francisco J. Mata
28
Valores perdidos
Opciones
Eliminar registros con valores perdidos: puede sesgar la
muestra
Reemplazar valores perdidos por un valor especial 999.99: modelos no pueden distinguir este valor de uno
perdido
Utilizar la media, mediana o moda: puede cambiar la
distribución de los datos
Generar un valor aleatoriamente: puede ser difícil
conocer la distribución de los valores particularmente si
existe un patrón en los valores perdidos
Dr. Francisco J. Mata
29
Valores perdidos
Opciones
Predecir el valor utilizando árboles de decisión
o redes neuronales
Particionar los registros y construir varios
modelos: posible cuando se puede conocer la
causa de la falta de registro de los datos
Utilizar procedimientos que puedan manipular
datos perdidos
Dr. Francisco J. Mata
30
Suavizar el ruido en los datos
identificando valores extremos
Utilizar las distribuciones de valores para
identificar valores extremos
Utilizar técnicas automáticas de detección
de grupos (“clustering”)
Utilizar métodos de regresión
Dr. Francisco J. Mata
31
Distribuciones para identificar valores
extremos
1000
800
600
400
Valor extremo
0
0
.0
88 0
.0
84 0
.0
80 0
.0
76 0
.0
72 0
.0
68 0
.0
64 0
.0
60 0
.0
56 0
.0
52 0
.0
48 0
.0
44 0
.0
40 0
.0
36 0
.0
32 0
.0
28 0
.0
24 0
.0 g
20s in
is
M
Count
200
AGE
Minería de datos
Dr. Francisco J. Mata
32
Técnicas automáticas para detectar
grupos
Dr. Francisco J. Mata
33
Métodos de regresión
Dr. Francisco J. Mata
34
Corregir inconsistencias
Inconsistencias pueden existir debido a la
forma en que fueron registrados lo datos
Corrección
Errores de entrada de datos pueden ser
corregidos buscando los registros originales
Uso de dependencias funcionales
Dr. Francisco J. Mata
35
Integración de datos
Combinación de datos de múltiples fuentes para
crear nuevos registros
Problemas
Identificación de entidades
Claves para hacer uniones
Redundancia
Valores que pueden ser derivados de otras variables o
atributos
• Algunas redundancias se pueden detectar mediante análisis de
correlación o tablas de contingencia
Duplicación de registros o tuples
Detección y corrección de conflictos en valores de datos
Pesos en kilos y libras
Dr. Francisco J. Mata
36
education*education-num
Dr. Francisco J. Mata
37
education*education-num
Dr. Francisco J. Mata
38
Transformación de datos
Datos son transformados o consolidados
en formas apropiadas para minería de
datos
Métodos
Discretización
Generalización
Normalización
Construcción de atributos o variables
Dr. Francisco J. Mata
39
Discretización
Tomar un valor continúo y representarlo
en valores discretos
Ejemplo: transformar edad en
Joven
Edad medio
Adulto mayor
Dr. Francisco J. Mata
40
Generalización
Tomar un valor más detallado y
generalizarlo de acuerdo con una
jerarquía 15 valores
País
365 valores
Provincia o estado
3,567 valores
Ciudad
674,339 valores
Calle
41
Dr. Francisco J. Mata
Normalización
Valores de una variable o atributo se
convierten para que caigan en un intervalo
pequeño
-1.0 a 1.0
0.0 a 1.0
o tengan cierta media y desviación
estándard
Dr. Francisco J. Mata
42
Normalización
Métodos
Normalización min-max
Normalización “z-score”
Dr. Francisco J. Mata
43
Normalización
Normalización min-max
v´ = ((v – minA) / (maxA-minA)) (new_maxAnew_minA) + new_minA
Ejemplo:
Mínimo y máximo para ingreso es $12,000 y
$98,000, respectivamente
Se quiere transformar ingreso al intervalo [0.0,1.0]
El valor 73,600 se convierte en
• ((73,600-12,000) / (98,000-12,000)) (1.0-0) + 0 = 0.716
Dr. Francisco J. Mata
44
Normalización
Normalización “z-score”
v´ = (v – media_A) / dev_est_A
Ejemplo:
Media y desviación estándar para ingreso es
$54,000 y $16,000, respectivamente
El valor 73,600 se convierte en
• (73,600-54,000) / 16,000 = 1.225
Dr. Francisco J. Mata
45
Construcción de atributos
Nuevos atributos son construidos a partir
de atributos existentes
Ejemplo: venta = cantidad * precio
Dr. Francisco J. Mata
46
Reducción de datos
Obtener una representación reducida del
conjunto de datos que es mucho más
pequeña en volumen pero mantiene la
integridad de los datos originales
Dr. Francisco J. Mata
47
Reducción de datos
Técnicas
Muestreo
Agregación
Reducción de dimensión
Dr. Francisco J. Mata
48
Reducción de datos
Muestreo
Seleccionar un subconjunto de registros o
tuples pequeño pero representativo de la
población
Existen técnicas estadísticas para seleccionar
muestras representativas
Dr. Francisco J. Mata
49
Reducción de datos
Agregación
Sumarizar información usualmente sobre
períodos de tiempo
Ejemplo: sumar las ventas por trimestre para obtener
ventas anuales
Asociado con cubos OLAP
Dr. Francisco J. Mata
50
Reducción de datos
Reducción de dimensión
Eliminar atributos o variables irrelevantes o
redundantes o reducir el número de estos
mediante rotación de ejes
Técnicas
“Decision tree induction”
Análisis de componentes principales
Dr. Francisco J. Mata
51
Análisis de componentes principales
Medir tres
especies X1 (S1),
X2 (S2) y X3 (S3)
en diferentes puntos
espaciales
Tomado de
http://ordination.okstate.edu/
PCA.htm
Dr. Francisco J. Mata
52
Análisis de componentes principales
Se estandarizan los datos:
se resta la media y divide por
desviación estándar
Dr. Francisco J. Mata
53
Análisis de componentes principales
Se rotan los ejes ortogonalmente de acuerdo con los
valores principales
Valor
principal
Varianza
explicada
1
2
3
1.8907
0.9951
0.1142
63%
33%
4%
Total
3.0063
100%
Dr. Francisco J. Mata
54
Análisis de componentes principales
Representación del
96 % de varianza
en dos dimensiones
55
Dr. Francisco J. Mata
Análisis de componentes principales
Factores de carga
Especie
PCA1
PCA2
PCA3
X1-S1
0.9688
0.0664
-0.2387
X2-S2
0.9701
0.0408
0.2391
X3-S3
-0.1045
0.9945
0.0061
Dr. Francisco J. Mata
56
Análisis de componentes principales
Curvas hipotéticas
de respuesta de
las especies al
gradiente ambiental
Dr. Francisco J. Mata
57