Transcript Tema 6
Exploración y preparación de datos Tema 6 Dr. Francisco J. Mata 1 Objetivos Presentar la importancia de la exploración de los datos Discutir la necesidad de preparar los datos Dr. Francisco J. Mata 2 Explorar Obtener estadísticas básicas Valores extremos Valores perdidos Distribuciones Histogramas Comparar valores con descripciones ¿Aparecen todos los códigos para una variable categórica? ¿Distribución de valores es esperada para variables categóricas? ¿Valores mínimos y máximos para una variable son razonables? Relaciones entre variables Dr. Francisco J. Mata 3 Explorar Haga lista de asuntos sorprendentes o que no estén claros Pregunte al proveedor de los datos Dr. Francisco J. Mata 4 Explorar Observar Número de registros (observaciones) Número de variables (columnas) Dr. Francisco J. Mata 5 Ver la tabla de datos es otra buena forma de iniciar la exploración Dr. Francisco J. Mata 6 Explorar una variable Penetración de producto Dr. Francisco J. Mata 7 Explorar relaciones Ingreso por hogar 1999 Ingreso por familia 1999 Dr. Francisco J. Mata 8 Ejemplo Archivo de datos de censo sobre adultos de los Estados Unidos Dr. Francisco J. Mata 9 Estadísticas descriptivas para variables continuas Variable x1 x5 x11 x12 x13 Label age education-num capital-gain capital-loss hour-per-week Mean 38.582 10.081 1077.650 87.304 40.437 Dr. Francisco J. Mata Std Dev 13.640 2.573 7385.290 402.960 12.347 Range 73.000 15.000 99999.000 4356.000 98.000 10 0 .0 88 0 .0 84 0 .0 80 0 .0 76 0 .0 72 0 .0 68 0 .0 64 0 .0 60 0 .0 56 0 .0 52 0 .0 48 0 .0 44 0 .0 40 0 .0 36 0 .0 32 0 .0 28 0 .0 24 0 .0 g 20s in is M 0 Count Age 1000 800 600 400 200 11 AGE Minería de datos Dr. Francisco J. Mata Education-number 12000 10000 8000 6000 4000 Count 2000 0 Missing 2.00 1.00 4.00 3.00 6.00 5.00 8.00 7.00 10.00 9.00 Minería de datos Dr. Francisco J. Mata EDUCN 12.00 11.00 14.00 13.00 16.00 15.00 12 00 4. 12 00 25 20. 0 0 0 15 66. 5 10 .00 96 0 78 7.0 6 0 67 7.0 9 0 60 3.0 1 0 50 0.0 5 0 46 2.0 4 0 39 1.0 7 0 34 5.0 2 0 33 4.0 6 0 29 3.0 5 0 26 4.0 1 0 24 0.0 9 0 22 2.0 6 0 20 7.0 9 0 17 9.0 0 14 .00 1 g 99 s in is M 0 Count Gain 40000 30000 20000 10000 13 Minería de datos Dr. Francisco J. Mata GAIN 0 .0 70 37 3.00 0 0 26 7.0 6 0 24 7.0 7 0 23 8.0 5 22 .00 05 0 22 9.0 4 0 21 2.0 4 0 20 4.0 7 19 8.00 4 0 18 5.0 5 0 17 1.0 2 0 17 1.0 5 16 4.00 9 0 15 9.0 3 0 15 0.0 8 13 0 0 4. 97 .00 9 g 41 s in is M 0 Count Loss 40000 30000 20000 10000 14 Minería de datos Dr. Francisco J. Mata LOSS 0 .0 95 0 .0 89 0 .0 84 0 .0 77 0 .0 72 0 .0 65 0 .0 60 0 .0 55 0 .0 50 0 .0 45 0 .0 40 0 .0 35 0 .0 30 0 .0 25 0 .0 20 0 .0 15 0 .0 10 n0g s.0i is5 M 0 Count Hours 20000 10000 15 Minería de datos Dr. Francisco J. Mata HOURS Estadísticas Descriptivas para Variables Discretas Workclass x2 Federal-gov Local-gov Never-worked Private Self-emp-inc Self-emp-not-inc State-gov Without-pay Frequency Percent Cumulative Frequency 960 2093 7 22696 1116 2541 1298 14 3.12 6.81 0.02 73.87 3.63 8.27 4.22 0.05 960 3053 3060 25756 26872 29413 30711 30725 Cumulative Percent 3.12 9.94 9.96 83.83 87.46 95.73 99.95 100.00 Frequency Missing = 1836 Chi-Square 107220.7383 DF 7 Pr > ChiSq <.0001 Dr. Francisco J. Mata 16 Estadísticas Descriptivas para Variables Discretas Education x4 10th 11th 12th 1st-4th 5th-6th 7th-8th 9th Assoc-acdm Assoc-voc Bachelors Doctorate HS-grad Masters Preschool Prof-school Some-college Frequency 933 1175 433 168 333 646 514 1067 1382 5355 413 10501 1723 51 576 7291 Cumulative Cumulative Percent Frequency Percent 2.87 933 2.87 3.61 2108 6.47 1.33 2541 7.80 0.52 2709 8.32 1.02 3042 9.34 1.98 3688 11.33 1.58 4202 12.91 3.28 5269 16.18 4.24 6651 20.43 16.45 12006 36.87 1.27 12419 38.14 32.25 22920 70.39 5.29 24643 75.68 0.16 24694 75.84 1.77 25270 77.61 22.39 32561 100.00 Chi-Square 66643.3355 DF 15 Pr > ChiSq <.0001 17 Dr. Francisco J. Mata education*education-num Dr. Francisco J. Mata 18 education*education-num Dr. Francisco J. Mata 19 Estadísticas Descriptivas para Variables Discretas Race x9 Amer-Indian-Eskimo Asian-Pac-Islander Black Other White Frequency Percent Cumulative Frequency 311 1039 3124 271 27816 0.96 3.19 9.59 0.83 85.43 311 1350 4474 4745 32561 Chi-Square DF Pr > ChiSq Dr. Francisco J. Mata Cumulative Percent 0.96 4.15 13.74 14.57 100.00 87941.8892 4 <.0001 20 Estadísticas Descriptivas para Variables Discretas Sex x10 Female Male Frequency 10771 21790 Percent 33.08 66.92 Cumulative Frequency 10771 32561 Chi-Square DF Pr > ChiSq Dr. Francisco J. Mata Cumulative Percent 33.08 100.00 3728.9506 1 <.0001 21 Estadísticas Descriptivas para Variables Discretas Native-country x14 Cambodia Canada China Columbia Cuba Dominican-Republic Ecuador El-Salvador England France Germany Greece Guatemala Haiti Holand-Netherlands Honduras Frequency 19 121 75 59 95 70 28 106 90 29 137 29 64 44 1 13 Percent 0.06 0.38 0.23 0.18 0.30 0.22 0.09 0.33 0.28 0.09 0.43 0.09 0.20 0.14 0.00 0.04 Dr. Francisco J. Mata Cumulative Frequency 19 140 215 274 369 439 467 573 663 692 829 858 922 966 967 980 Cumulative Percent 0.06 0.44 0.67 0.86 1.15 1.37 1.46 1.79 2.07 2.16 2.59 2.68 2.88 3.02 3.02 3.06 22 Estadísticas Descriptivas para Variables Discretas Native-country x14 Frequency Hong 20 Hungary 13 India 100 Iran 43 Ireland 24 Italy 73 Jamaica 81 Japan 62 Laos 18 Mexico 643 Nicaragua 34 Outlying-US(Guam-USVI-etc) 14 Peru 31 Philippines 198 Poland 60 Portugal 37 Puerto-Rico 114 Scotland 12 Percent 0.06 0.04 0.31 0.13 0.08 0.23 0.25 0.19 0.06 2.01 0.11 0.04 0.10 0.62 0.19 0.12 0.36 0.04 Cumulative Frequency 1000 1013 1113 1156 1180 1253 1334 1396 1414 2057 2091 2105 2136 2334 2394 2431 2545 2557 Cumulative Percent 3.13 3.17 3.48 3.61 3.69 3.92 4.17 4.37 4.42 6.43 6.54 6.58 6.68 7.30 7.49 7.60 7.96 8.00 23 Dr. Francisco J. Mata Estadísticas Descriptivas para Variables Discretas Native-country x14 Scotland South Taiwan Thailand Trinadad&Tobago United-States Vietnam Yugoslavia Frequency 12 80 51 18 19 29170 67 16 Percent 0.04 0.25 0.16 0.06 0.06 91.22 0.21 0.05 Cumulative Frequency 2557 2637 2688 2706 2725 31895 31962 31978 Cumulative Percent 8.00 8.25 8.41 8.46 8.52 99.74 99.95 100.00 Frequency Missing = 583 Chi-Square DF Pr > ChiSq 1059744.4599 40 <.0001 Dr. Francisco J. Mata 24 Preparación de datos Datos pueden ser Incompletos: valores para una variable perdidos Ruidosos: contienen errores o valores extremos Inconsistentes: esquemas de codificación diferentes Dr. Francisco J. Mata 25 Preparación de datos Actividades Limpieza de datos Integración de datos Transformación de datos Reducción de datos Dr. Francisco J. Mata 26 Limpieza de datos Dar valores a datos perdidos Suavizar el ruido en los datos identificando valores extremos Corregir inconsistencias Dr. Francisco J. Mata 27 Valores perdidos Valores para una variable no fueron registrados Dr. Francisco J. Mata 28 Valores perdidos Opciones Eliminar registros con valores perdidos: puede sesgar la muestra Reemplazar valores perdidos por un valor especial 999.99: modelos no pueden distinguir este valor de uno perdido Utilizar la media, mediana o moda: puede cambiar la distribución de los datos Generar un valor aleatoriamente: puede ser difícil conocer la distribución de los valores particularmente si existe un patrón en los valores perdidos Dr. Francisco J. Mata 29 Valores perdidos Opciones Predecir el valor utilizando árboles de decisión o redes neuronales Particionar los registros y construir varios modelos: posible cuando se puede conocer la causa de la falta de registro de los datos Utilizar procedimientos que puedan manipular datos perdidos Dr. Francisco J. Mata 30 Suavizar el ruido en los datos identificando valores extremos Utilizar las distribuciones de valores para identificar valores extremos Utilizar técnicas automáticas de detección de grupos (“clustering”) Utilizar métodos de regresión Dr. Francisco J. Mata 31 Distribuciones para identificar valores extremos 1000 800 600 400 Valor extremo 0 0 .0 88 0 .0 84 0 .0 80 0 .0 76 0 .0 72 0 .0 68 0 .0 64 0 .0 60 0 .0 56 0 .0 52 0 .0 48 0 .0 44 0 .0 40 0 .0 36 0 .0 32 0 .0 28 0 .0 24 0 .0 g 20s in is M Count 200 AGE Minería de datos Dr. Francisco J. Mata 32 Técnicas automáticas para detectar grupos Dr. Francisco J. Mata 33 Métodos de regresión Dr. Francisco J. Mata 34 Corregir inconsistencias Inconsistencias pueden existir debido a la forma en que fueron registrados lo datos Corrección Errores de entrada de datos pueden ser corregidos buscando los registros originales Uso de dependencias funcionales Dr. Francisco J. Mata 35 Integración de datos Combinación de datos de múltiples fuentes para crear nuevos registros Problemas Identificación de entidades Claves para hacer uniones Redundancia Valores que pueden ser derivados de otras variables o atributos • Algunas redundancias se pueden detectar mediante análisis de correlación o tablas de contingencia Duplicación de registros o tuples Detección y corrección de conflictos en valores de datos Pesos en kilos y libras Dr. Francisco J. Mata 36 education*education-num Dr. Francisco J. Mata 37 education*education-num Dr. Francisco J. Mata 38 Transformación de datos Datos son transformados o consolidados en formas apropiadas para minería de datos Métodos Discretización Generalización Normalización Construcción de atributos o variables Dr. Francisco J. Mata 39 Discretización Tomar un valor continúo y representarlo en valores discretos Ejemplo: transformar edad en Joven Edad medio Adulto mayor Dr. Francisco J. Mata 40 Generalización Tomar un valor más detallado y generalizarlo de acuerdo con una jerarquía 15 valores País 365 valores Provincia o estado 3,567 valores Ciudad 674,339 valores Calle 41 Dr. Francisco J. Mata Normalización Valores de una variable o atributo se convierten para que caigan en un intervalo pequeño -1.0 a 1.0 0.0 a 1.0 o tengan cierta media y desviación estándard Dr. Francisco J. Mata 42 Normalización Métodos Normalización min-max Normalización “z-score” Dr. Francisco J. Mata 43 Normalización Normalización min-max v´ = ((v – minA) / (maxA-minA)) (new_maxAnew_minA) + new_minA Ejemplo: Mínimo y máximo para ingreso es $12,000 y $98,000, respectivamente Se quiere transformar ingreso al intervalo [0.0,1.0] El valor 73,600 se convierte en • ((73,600-12,000) / (98,000-12,000)) (1.0-0) + 0 = 0.716 Dr. Francisco J. Mata 44 Normalización Normalización “z-score” v´ = (v – media_A) / dev_est_A Ejemplo: Media y desviación estándar para ingreso es $54,000 y $16,000, respectivamente El valor 73,600 se convierte en • (73,600-54,000) / 16,000 = 1.225 Dr. Francisco J. Mata 45 Construcción de atributos Nuevos atributos son construidos a partir de atributos existentes Ejemplo: venta = cantidad * precio Dr. Francisco J. Mata 46 Reducción de datos Obtener una representación reducida del conjunto de datos que es mucho más pequeña en volumen pero mantiene la integridad de los datos originales Dr. Francisco J. Mata 47 Reducción de datos Técnicas Muestreo Agregación Reducción de dimensión Dr. Francisco J. Mata 48 Reducción de datos Muestreo Seleccionar un subconjunto de registros o tuples pequeño pero representativo de la población Existen técnicas estadísticas para seleccionar muestras representativas Dr. Francisco J. Mata 49 Reducción de datos Agregación Sumarizar información usualmente sobre períodos de tiempo Ejemplo: sumar las ventas por trimestre para obtener ventas anuales Asociado con cubos OLAP Dr. Francisco J. Mata 50 Reducción de datos Reducción de dimensión Eliminar atributos o variables irrelevantes o redundantes o reducir el número de estos mediante rotación de ejes Técnicas “Decision tree induction” Análisis de componentes principales Dr. Francisco J. Mata 51 Análisis de componentes principales Medir tres especies X1 (S1), X2 (S2) y X3 (S3) en diferentes puntos espaciales Tomado de http://ordination.okstate.edu/ PCA.htm Dr. Francisco J. Mata 52 Análisis de componentes principales Se estandarizan los datos: se resta la media y divide por desviación estándar Dr. Francisco J. Mata 53 Análisis de componentes principales Se rotan los ejes ortogonalmente de acuerdo con los valores principales Valor principal Varianza explicada 1 2 3 1.8907 0.9951 0.1142 63% 33% 4% Total 3.0063 100% Dr. Francisco J. Mata 54 Análisis de componentes principales Representación del 96 % de varianza en dos dimensiones 55 Dr. Francisco J. Mata Análisis de componentes principales Factores de carga Especie PCA1 PCA2 PCA3 X1-S1 0.9688 0.0664 -0.2387 X2-S2 0.9701 0.0408 0.2391 X3-S3 -0.1045 0.9945 0.0061 Dr. Francisco J. Mata 56 Análisis de componentes principales Curvas hipotéticas de respuesta de las especies al gradiente ambiental Dr. Francisco J. Mata 57