Transcript Tema 6

Exploración y preparación de
datos
Tema 6
Dr. Francisco J. Mata
1
Objetivos
Presentar la importancia de la exploración
de los datos
Discutir la necesidad de preparar los datos
Dr. Francisco J. Mata
2
Explorar
 Obtener estadísticas básicas
 Valores extremos
 Valores perdidos
 Distribuciones
 Histogramas
 Comparar valores con descripciones
 ¿Aparecen todos los códigos para una variable categórica?
 ¿Distribución de valores es esperada para variables
categóricas?
 ¿Valores mínimos y máximos para una variable son razonables?
 Relaciones entre variables
Dr. Francisco J. Mata
3
Explorar
Haga lista de asuntos sorprendentes o
que no estén claros
Pregunte al proveedor de los datos
Dr. Francisco J. Mata
4
Explorar
Observar
Número de registros (observaciones)
Número de variables (columnas)
Dr. Francisco J. Mata
5
Ver la tabla de datos es otra buena forma
de iniciar la exploración
Dr. Francisco J. Mata
6
Explorar una variable
Penetración de producto
Dr. Francisco J. Mata
7
Explorar relaciones
Ingreso por hogar 1999
Ingreso por familia 1999
Dr. Francisco J. Mata
8
Ejemplo
Archivo de datos de censo sobre adultos
de los Estados Unidos
Dr. Francisco J. Mata
9
Estadísticas descriptivas para
variables continuas
Variable
x1
x5
x11
x12
x13
Label
age
education-num
capital-gain
capital-loss
hour-per-week
Mean
38.582
10.081
1077.650
87.304
40.437
Dr. Francisco J. Mata
Std Dev
13.640
2.573
7385.290
402.960
12.347
Range
73.000
15.000
99999.000
4356.000
98.000
10
0
.0
88 0
.0
84 0
.0
80 0
.0
76 0
.0
72 0
.0
68 0
.0
64 0
.0
60 0
.0
56 0
.0
52 0
.0
48 0
.0
44 0
.0
40 0
.0
36 0
.0
32 0
.0
28 0
.0
24 0
.0 g
20s in
is
M
0
Count
Age
1000
800
600
400
200
11
AGE
Minería de datos
Dr. Francisco J. Mata
Education-number
12000
10000
8000
6000
4000
Count
2000
0
Missing
2.00
1.00
4.00
3.00
6.00
5.00
8.00
7.00
10.00
9.00
Minería de datos
Dr. Francisco J. Mata
EDUCN
12.00
11.00
14.00
13.00
16.00
15.00
12
00
4.
12 00
25 20. 0
0 0
15 66.
5
10 .00
96 0
78 7.0
6 0
67 7.0
9 0
60 3.0
1 0
50 0.0
5 0
46 2.0
4 0
39 1.0
7 0
34 5.0
2 0
33 4.0
6 0
29 3.0
5 0
26 4.0
1 0
24 0.0
9 0
22 2.0
6 0
20 7.0
9 0
17 9.0
0
14 .00
1 g
99 s in
is
M
0
Count
Gain
40000
30000
20000
10000
13
Minería de datos
Dr. Francisco J. Mata
GAIN
0
.0
70
37 3.00
0 0
26 7.0
6 0
24 7.0
7 0
23 8.0
5
22 .00
05 0
22 9.0
4 0
21 2.0
4 0
20 4.0
7
19 8.00
4 0
18 5.0
5 0
17 1.0
2 0
17 1.0
5
16 4.00
9 0
15 9.0
3 0
15 0.0
8
13 0
0
4.
97 .00
9 g
41 s in
is
M
0
Count
Loss
40000
30000
20000
10000
14
Minería de datos
Dr. Francisco J. Mata
LOSS
0
.0
95 0
.0
89 0
.0
84 0
.0
77 0
.0
72 0
.0
65 0
.0
60 0
.0
55 0
.0
50 0
.0
45 0
.0
40 0
.0
35 0
.0
30 0
.0
25 0
.0
20 0
.0
15 0
.0
10
n0g
s.0i
is5
M
0
Count
Hours
20000
10000
15
Minería de datos
Dr. Francisco J. Mata
HOURS
Estadísticas Descriptivas para
Variables Discretas
Workclass
x2
Federal-gov
Local-gov
Never-worked
Private
Self-emp-inc
Self-emp-not-inc
State-gov
Without-pay
Frequency
Percent
Cumulative
Frequency
960
2093
7
22696
1116
2541
1298
14
3.12
6.81
0.02
73.87
3.63
8.27
4.22
0.05
960
3053
3060
25756
26872
29413
30711
30725
Cumulative
Percent
3.12
9.94
9.96
83.83
87.46
95.73
99.95
100.00
Frequency Missing = 1836
Chi-Square 107220.7383
DF
7
Pr > ChiSq
<.0001
Dr. Francisco J. Mata
16
Estadísticas Descriptivas para
Variables Discretas
Education
x4
10th
11th
12th
1st-4th
5th-6th
7th-8th
9th
Assoc-acdm
Assoc-voc
Bachelors
Doctorate
HS-grad
Masters
Preschool
Prof-school
Some-college
Frequency
933
1175
433
168
333
646
514
1067
1382
5355
413
10501
1723
51
576
7291
Cumulative
Cumulative
Percent
Frequency
Percent
2.87
933
2.87
3.61
2108
6.47
1.33
2541
7.80
0.52
2709
8.32
1.02
3042
9.34
1.98
3688
11.33
1.58
4202
12.91
3.28
5269
16.18
4.24
6651
20.43
16.45
12006
36.87
1.27
12419
38.14
32.25
22920
70.39
5.29
24643
75.68
0.16
24694
75.84
1.77
25270
77.61
22.39
32561
100.00
Chi-Square 66643.3355
DF
15
Pr > ChiSq
<.0001
17
Dr. Francisco J. Mata
education*education-num
Dr. Francisco J. Mata
18
education*education-num
Dr. Francisco J. Mata
19
Estadísticas Descriptivas para
Variables Discretas
Race
x9
Amer-Indian-Eskimo
Asian-Pac-Islander
Black
Other
White
Frequency
Percent
Cumulative
Frequency
311
1039
3124
271
27816
0.96
3.19
9.59
0.83
85.43
311
1350
4474
4745
32561
Chi-Square
DF
Pr > ChiSq
Dr. Francisco J. Mata
Cumulative
Percent
0.96
4.15
13.74
14.57
100.00
87941.8892
4
<.0001
20
Estadísticas Descriptivas para
Variables Discretas
Sex
x10
Female
Male
Frequency
10771
21790
Percent
33.08
66.92
Cumulative
Frequency
10771
32561
Chi-Square
DF
Pr > ChiSq
Dr. Francisco J. Mata
Cumulative
Percent
33.08
100.00
3728.9506
1
<.0001
21
Estadísticas Descriptivas para
Variables Discretas
Native-country
x14
Cambodia
Canada
China
Columbia
Cuba
Dominican-Republic
Ecuador
El-Salvador
England
France
Germany
Greece
Guatemala
Haiti
Holand-Netherlands
Honduras
Frequency
19
121
75
59
95
70
28
106
90
29
137
29
64
44
1
13
Percent
0.06
0.38
0.23
0.18
0.30
0.22
0.09
0.33
0.28
0.09
0.43
0.09
0.20
0.14
0.00
0.04
Dr. Francisco J. Mata
Cumulative
Frequency
19
140
215
274
369
439
467
573
663
692
829
858
922
966
967
980
Cumulative
Percent
0.06
0.44
0.67
0.86
1.15
1.37
1.46
1.79
2.07
2.16
2.59
2.68
2.88
3.02
3.02
3.06
22
Estadísticas Descriptivas para
Variables Discretas
Native-country
x14
Frequency
Hong
20
Hungary
13
India
100
Iran
43
Ireland
24
Italy
73
Jamaica
81
Japan
62
Laos
18
Mexico
643
Nicaragua
34
Outlying-US(Guam-USVI-etc) 14
Peru
31
Philippines
198
Poland
60
Portugal
37
Puerto-Rico
114
Scotland
12
Percent
0.06
0.04
0.31
0.13
0.08
0.23
0.25
0.19
0.06
2.01
0.11
0.04
0.10
0.62
0.19
0.12
0.36
0.04
Cumulative
Frequency
1000
1013
1113
1156
1180
1253
1334
1396
1414
2057
2091
2105
2136
2334
2394
2431
2545
2557
Cumulative
Percent
3.13
3.17
3.48
3.61
3.69
3.92
4.17
4.37
4.42
6.43
6.54
6.58
6.68
7.30
7.49
7.60
7.96
8.00
23
Dr. Francisco J. Mata
Estadísticas Descriptivas para
Variables Discretas
Native-country
x14
Scotland
South
Taiwan
Thailand
Trinadad&Tobago
United-States
Vietnam
Yugoslavia
Frequency
12
80
51
18
19
29170
67
16
Percent
0.04
0.25
0.16
0.06
0.06
91.22
0.21
0.05
Cumulative
Frequency
2557
2637
2688
2706
2725
31895
31962
31978
Cumulative
Percent
8.00
8.25
8.41
8.46
8.52
99.74
99.95
100.00
Frequency Missing = 583
Chi-Square
DF
Pr > ChiSq
1059744.4599
40
<.0001
Dr. Francisco J. Mata
24
Preparación de datos
Datos pueden ser
Incompletos: valores para una variable
perdidos
Ruidosos: contienen errores o valores extremos
Inconsistentes: esquemas de codificación
diferentes
Dr. Francisco J. Mata
25
Preparación de datos
Actividades
Limpieza de datos
Integración de datos
Transformación de datos
Reducción de datos
Dr. Francisco J. Mata
26
Limpieza de datos
Dar valores a datos perdidos
Suavizar el ruido en los datos
identificando valores extremos
Corregir inconsistencias
Dr. Francisco J. Mata
27
Valores perdidos
Valores para una variable no fueron
registrados
Dr. Francisco J. Mata
28
Valores perdidos
 Opciones
Eliminar registros con valores perdidos: puede sesgar la
muestra
Reemplazar valores perdidos por un valor especial 999.99: modelos no pueden distinguir este valor de uno
perdido
Utilizar la media, mediana o moda: puede cambiar la
distribución de los datos
Generar un valor aleatoriamente: puede ser difícil
conocer la distribución de los valores particularmente si
existe un patrón en los valores perdidos
Dr. Francisco J. Mata
29
Valores perdidos
Opciones
Predecir el valor utilizando árboles de decisión
o redes neuronales
Particionar los registros y construir varios
modelos: posible cuando se puede conocer la
causa de la falta de registro de los datos
Utilizar procedimientos que puedan manipular
datos perdidos
Dr. Francisco J. Mata
30
Suavizar el ruido en los datos
identificando valores extremos
Utilizar las distribuciones de valores para
identificar valores extremos
Utilizar técnicas automáticas de detección
de grupos (“clustering”)
Utilizar métodos de regresión
Dr. Francisco J. Mata
31
Distribuciones para identificar valores
extremos
1000
800
600
400
Valor extremo
0
0
.0
88 0
.0
84 0
.0
80 0
.0
76 0
.0
72 0
.0
68 0
.0
64 0
.0
60 0
.0
56 0
.0
52 0
.0
48 0
.0
44 0
.0
40 0
.0
36 0
.0
32 0
.0
28 0
.0
24 0
.0 g
20s in
is
M
Count
200
AGE
Minería de datos
Dr. Francisco J. Mata
32
Técnicas automáticas para detectar
grupos
Dr. Francisco J. Mata
33
Métodos de regresión
Dr. Francisco J. Mata
34
Corregir inconsistencias
Inconsistencias pueden existir debido a la
forma en que fueron registrados lo datos
Corrección
Errores de entrada de datos pueden ser
corregidos buscando los registros originales
Uso de dependencias funcionales
Dr. Francisco J. Mata
35
Integración de datos
 Combinación de datos de múltiples fuentes para
crear nuevos registros
 Problemas
Identificación de entidades
 Claves para hacer uniones
Redundancia
 Valores que pueden ser derivados de otras variables o
atributos
• Algunas redundancias se pueden detectar mediante análisis de
correlación o tablas de contingencia
Duplicación de registros o tuples
Detección y corrección de conflictos en valores de datos
 Pesos en kilos y libras
Dr. Francisco J. Mata
36
education*education-num
Dr. Francisco J. Mata
37
education*education-num
Dr. Francisco J. Mata
38
Transformación de datos
Datos son transformados o consolidados
en formas apropiadas para minería de
datos
Métodos
Discretización
Generalización
Normalización
Construcción de atributos o variables
Dr. Francisco J. Mata
39
Discretización
Tomar un valor continúo y representarlo
en valores discretos
Ejemplo: transformar edad en
Joven
Edad medio
Adulto mayor
Dr. Francisco J. Mata
40
Generalización
Tomar un valor más detallado y
generalizarlo de acuerdo con una
jerarquía 15 valores
País
365 valores
Provincia o estado
3,567 valores
Ciudad
674,339 valores
Calle
41
Dr. Francisco J. Mata
Normalización
Valores de una variable o atributo se
convierten para que caigan en un intervalo
pequeño
 -1.0 a 1.0
 0.0 a 1.0
o tengan cierta media y desviación
estándard
Dr. Francisco J. Mata
42
Normalización
Métodos
Normalización min-max
Normalización “z-score”
Dr. Francisco J. Mata
43
Normalización
Normalización min-max
v´ = ((v – minA) / (maxA-minA)) (new_maxAnew_minA) + new_minA
Ejemplo:
Mínimo y máximo para ingreso es $12,000 y
$98,000, respectivamente
Se quiere transformar ingreso al intervalo [0.0,1.0]
El valor 73,600 se convierte en
• ((73,600-12,000) / (98,000-12,000)) (1.0-0) + 0 = 0.716
Dr. Francisco J. Mata
44
Normalización
Normalización “z-score”
v´ = (v – media_A) / dev_est_A
Ejemplo:
Media y desviación estándar para ingreso es
$54,000 y $16,000, respectivamente
El valor 73,600 se convierte en
• (73,600-54,000) / 16,000 = 1.225
Dr. Francisco J. Mata
45
Construcción de atributos
Nuevos atributos son construidos a partir
de atributos existentes
Ejemplo: venta = cantidad * precio
Dr. Francisco J. Mata
46
Reducción de datos
Obtener una representación reducida del
conjunto de datos que es mucho más
pequeña en volumen pero mantiene la
integridad de los datos originales
Dr. Francisco J. Mata
47
Reducción de datos
Técnicas
Muestreo
Agregación
Reducción de dimensión
Dr. Francisco J. Mata
48
Reducción de datos
Muestreo
Seleccionar un subconjunto de registros o
tuples pequeño pero representativo de la
población
Existen técnicas estadísticas para seleccionar
muestras representativas
Dr. Francisco J. Mata
49
Reducción de datos
Agregación
Sumarizar información usualmente sobre
períodos de tiempo
Ejemplo: sumar las ventas por trimestre para obtener
ventas anuales
Asociado con cubos OLAP
Dr. Francisco J. Mata
50
Reducción de datos
Reducción de dimensión
Eliminar atributos o variables irrelevantes o
redundantes o reducir el número de estos
mediante rotación de ejes
Técnicas
“Decision tree induction”
Análisis de componentes principales
Dr. Francisco J. Mata
51
Análisis de componentes principales
Medir tres
especies X1 (S1),
X2 (S2) y X3 (S3)
en diferentes puntos
espaciales
Tomado de
http://ordination.okstate.edu/
PCA.htm
Dr. Francisco J. Mata
52
Análisis de componentes principales
Se estandarizan los datos:
se resta la media y divide por
desviación estándar
Dr. Francisco J. Mata
53
Análisis de componentes principales
Se rotan los ejes ortogonalmente de acuerdo con los
valores principales
Valor
principal
Varianza
explicada
1
2
3
1.8907
0.9951
0.1142
63%
33%
4%
Total
3.0063
100%
Dr. Francisco J. Mata
54
Análisis de componentes principales
Representación del
96 % de varianza
en dos dimensiones
55
Dr. Francisco J. Mata
Análisis de componentes principales
Factores de carga
Especie
PCA1
PCA2
PCA3
X1-S1
0.9688
0.0664
-0.2387
X2-S2
0.9701
0.0408
0.2391
X3-S3
-0.1045
0.9945
0.0061
Dr. Francisco J. Mata
56
Análisis de componentes principales
Curvas hipotéticas
de respuesta de
las especies al
gradiente ambiental
Dr. Francisco J. Mata
57