ANALISIS MULTIVARIADOS (Definiciones Dr. Roberto Mercado Hernández, Laboratorio de Estadística, México ANALISIS MULTIVARIADOS (Definiciones) Es la relación (función) entre más de dos variables, donde una de ellas.
Download ReportTranscript ANALISIS MULTIVARIADOS (Definiciones Dr. Roberto Mercado Hernández, Laboratorio de Estadística, México ANALISIS MULTIVARIADOS (Definiciones) Es la relación (función) entre más de dos variables, donde una de ellas.
ANALISIS MULTIVARIADOS (Definiciones Dr. Roberto Mercado Hernández, Laboratorio de Estadística, México ANALISIS MULTIVARIADOS (Definiciones) Es la relación (función) entre más de dos variables, donde una de ellas se asume como dependiente de las demás. Es el grado de asociación entre más de dos variables, donde no hay una variable dependiente de las otras. Es una técnica para estudiar las asociaciones entre dos conjuntos de variables. Correlación Ccorrelacionar simultaneamente varias variables dependientes y varias var. independientes canónica Consiste en la extracción de relaciones entre categorías y define similaridades o Correspondencia disimilaridades entre ellas, lo que permitirá su agrupamiento si se detecta que se (A F C) corresponden. Regresión y Correlación Componentes principales RMH Es una técnica estadística de síntesis de la información, o reducción de la dimensión (número de variables). Es decir, ante un banco de datos con muchas variables, el objetivo será reducirlas a un menor número, perdiendo la menor cantidad de información posible. Los nuevos componentes principales o factores serán una combinación lineal de las variables originales, y además serán independientes entre sí. Análisis Cluster Es un conjunto de técnicas que se utilizan para clasificar los objetos o casos en grupos relativamente homogéneos llamados conglomerados (clusters). Los objetos en cada grupo (conglomerado) tienden a ser similares entre sí (alta homogeneidad interna, dentro del cluster) y diferentes a los objetos de los otros grupos (alta heterogeneidad externa, ente clusters) Análisis Discriminante Es una técnica multivariante de clasificación de individuos, en la que se presupone la existencia de dos o más grupos bien definidos a priori (por ejemplo, ejemplares de la misma especie en dos localidades diferentes, clientes solventes y no solventes; votantes de uno u otro partido; compradores y no compradores de un producto; etc) ANALISIS MULTIVARIADOS (Condiciones) Regresión Correspondencias (A F C) Componentes principales (ACP) RMH Análisis Cluster (AC) Análisis Discriminante En la relación de las variables independientes (todas con distribución normal), con la variable dependiente (también normal), se establece un error. En este análisis se ordenan los datos en una tabla disyuntiva completa (Z) que consta de un conjunto de individuos I=1,2,…n (filas), unconjunto de variables o caracteres cualitativos JI, …, JK,…, JQ (columnas) y un conjunto de modalidades excluyentes 1, …, mk para cada carácter cualitativo. Los únicos requerimientos previos para la aplicación del ACP son: a) Continuidad en las variables. b) El número n de individuos o elementos observados debe ser mayor que el número p de variables originales. Por otra parte, el ACP tiene la ventaja de no exigir supuestos tales como la normalidad u homoscedasticidad. El AC es un objetivo metodológico para cuantificar las características de un conjunto de observaciones. Por ello, tiene fuertes propiedades matemáticas, pero no fundamentos estadísticos. Los requisitos de normalidad, linealidad y homocedasticidad (tan relevantes en otras técnicas), tienen poca consistencia en el AC. Es una técnica estadística de la rama del análisis multivariante, en la cual la variable dependiente es indicadora y no numérica como en el análisis de regresión. El modelo se construye basado en un set de observaciones para las cuales se conocen las clases. Este set de observaciones es algunas veces conocido como el training set. ANALISIS MULTIVARIADOS (a considerar) Regresión Correlación Correspondencias (A F C) Componentes Principales Es importante analizar la magnitud, sigo y significancia de los coeficientes. Su valor indica el grado de asociación entre las variables. Es centrado y el centro de gravedad de las modalidades de una variable coincide con el del conjunto J, y con el origen, las modalidades de cada variable están centradas en torno al origen, no pudiendo tener todas el mismo signo. Un aspecto clave en ACP es la interpretación de los factores, ya que ésta no viene dada a priori, sino que será deducida tras observar la relación de los factores con las variables iniciales (habrá, pues, que estudiar tanto el signo como la magnitud de las correlaciones). No jerárquicos Asignan los casos a grupos diferenciados que el propio análisis configura, sin que unos dependan de otros. Jerárquicos Aquéllos que configuran grupos con estructura arborescente, de forma que clusters de niveles más bajos van siendo englobados en otros de niveles superiores. RMH Análisis Cluster Explicar La pertenencia de cada caso del archivo patrón a uno u otro grupo, en función de las variables de su perfil, para comprobar su pertenencia. Predecir A qué grupo más probable habrá de pertenecer un nuevo individuo del que únicamente se conoce su perfil de variables. Análisis Discriminante ANALISIS MULTIVARIADOS (Ecuaciones) Regresión Regresión múltiple Y = a0 + a1X1 + a2X2 + …. + apXp +ε Correspondencias (Inercia = variación explicada) Inercia debida a la modalidad J 1 k.j I(j) 1 Q n Inercia debida a una variable 1 I(J k ) mk 1 Q Inercia total I j 1 Q Componentes principales RMH Primer componente principal Z1i = u1iX1i + u2iX2i + …. + u1pXpi Análisis Cluster Fórmula de Lance y Williams Dk(ij) = αiDki + αjDkj + βDij + γ│Dki - Dkj│ Análisis Discriminante Función discriminante de Fisher D1i = u1iX1 + u2iX2 + …. + ukiXk EJEMPLO DE REGRESION Y CORRELACION MULTIPLE 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Total N PESO 51.4 72.0 53.2 83.2 57.4 66.5 98.3 74.8 92.2 97.9 88.1 94.8 62.8 81.6 14 L. PICO .2 1.9 .2 10.7 6.8 10.6 9.6 6.3 10.8 9.6 10.5 20.5 .4 2.3 14 L. ALA 17.8 29.4 17.0 30.2 15.3 17.6 35.6 28.2 34.7 35.8 29.6 26.3 22.3 37.9 14 AREA ALA 24.6 20.7 18.5 10.6 8.9 11.1 10.6 8.8 11.9 10.8 11.7 6.7 26.5 20.0 14 L. COLA 18.9 8.0 22.6 7.1 27.3 20.8 5.6 13.1 5.9 5.5 7.8 10.0 14.3 .5 14 Statistics N Mean Std. Error of Mean Std. Deviation Skewness Kurtosis Minimum Maximum (Constant) L. PICO L. ALA AREA ALA L. COLA B -30.137 2.070 2.582 .636 1.106 Std. Error 37.528 .456 .740 .460 .765 L. PICO 14 7.171 1.543 5.774 .613 .606 .2 20.5 L. ALA 14 26.98 2.078 7.777 -.216 -1.385 15.3 37.9 AREA ALA 14 14.386 1.699 6.358 .811 -.737 6.7 26.5 L. COLA 14 11.957 2.086 7.807 .632 -.554 .5 27.3 RMH Model Summary Unstandardized Coefficients Model 1 PESO 14 76.729 4.428 16.567 -.185 -1.392 51.4 98.3 t -.803 4.537 3.490 1.382 1.446 Sig . .443 .001 .007 .200 .182 Model 1 R .988a R Sq uare .976 Adjusted R Sq uare .965 a. ANOVAb Variables no significativas Model 1 a. Reg ression Residual Total Sum of Squares 3480.994 86.854 3567.849 df 4 9 13 Mean Square 870.249 9.650 F 90.177 Sig . .000a EJEMPLO DE CORRELACION CANONICA 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Total N LOCALIDAD 1.00 1.00 1.00 1.00 1.00 2.00 2.00 2.00 2.00 2.00 3.00 3.00 3.00 3.00 3.00 15 PESO 51.4 72.0 53.2 83.2 57.4 66.5 98.3 74.8 92.2 97.9 88.1 94.8 62.8 81.6 80.0 15 L. PICO .2 1.9 .2 10.7 6.8 10.6 9.6 6.3 10.8 9.6 10.5 20.5 .4 2.3 3.5 15 L. ALA 17.8 29.4 17.0 30.2 15.3 17.6 35.6 28.2 34.7 35.8 29.6 26.3 22.3 37.9 35.0 15 AREA ALA 24.6 20.7 18.5 10.6 8.9 10.1 10.6 8.8 9.9 10.8 11.7 25.0 26.5 20.0 24.0 15 L. COLA 18.9 8.0 22.6 7.1 27.3 20.8 5.6 13.1 5.9 5.5 7.8 10.0 14.3 .5 1.3 15 Variables in the Analysis RMH Step 1 2 L. ALA L. ALA Min. D Squared Tolerance 1.000 F to Remove 30.725 .974 27.028 .846 .974 5.191 1.115 AREA ALA Between Groups 1.00 and 3.00 2.00 and 3.00 The canonical correlation measures the association between the discriminant scores and the groups. Eigenv alues Function 1 2 Eig envalue 5.125a .942a % of Variance 84.5 15.5 Cumulative % 84.5 100.0 a. First 2 canonical discriminant functions were used in the analysis. Canonical Correlation .915 .697 EJEMPLO DE CORRSPONDENCIAS Frecuencias de pupas y larvas de dos especies encontradas en cadáveres en dos localidades. Especie 1 Cadáver Localidad A RMH Localidad B Pupas Larvas Especie 2 Pupas Larvas M. Natural 50 315 24 4012 M. P. Asesinato 9 40 6 459 M. Natural 41 147 14 1594 M. P. Asesinato 4 11 1 124 X2 = 19.11 gl = 9 p < 0.05 Resultados del análisis de correspondencias Coordenada 1 Coordenada 2 Hileras Loc. 1 M. natural (1) Loc. 1 M.P. asesinato (2) Loc. 2 M. natural (3) Loc. 2 M.P. asesinato (4) - 0.037 0.043 0.070 0.104 - 0.002 0.052 - 0.008 - 0.032 Columnas Sp. 1 pupas (5) Sp. 1 larvas (6) Sp. 2 pupas (7) Sp. 2 larvas (8) 0.350 0.060 0.202 - 0.012 - 0.045 - 0.001 0.180 0.000 Categorías Inercia total = 0.0028 Los primeros dos eigenvalues comprenden el 95.5% de la inercia 0.2 7 2 RMH Coordenada 2 0.05 4 0.01 3 0.0 8 5 -0.001 6 1 -0.002 -0.01 0.0 0.1 0.2 Coordenada 1 0.3 0.4 EJEMPLO DE COMPONENTES PRINCIPALES 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Total N LOCALIDAD 1.00 1.00 1.00 1.00 1.00 2.00 2.00 2.00 2.00 2.00 3.00 3.00 3.00 3.00 3.00 15 PESO 51.4 72.0 53.2 83.2 57.4 66.5 98.3 74.8 92.2 97.9 88.1 94.8 62.8 81.6 80.0 15 L. PICO .2 1.9 .2 10.7 6.8 10.6 9.6 6.3 10.8 9.6 10.5 20.5 .4 2.3 3.5 15 L. ALA 17.8 29.4 17.0 30.2 15.3 17.6 35.6 28.2 34.7 35.8 29.6 26.3 22.3 37.9 35.0 15 AREA ALA 24.6 20.7 18.5 10.6 8.9 10.1 10.6 8.8 9.9 10.8 11.7 25.0 26.5 20.0 24.0 15 L. COLA 18.9 8.0 22.6 7.1 27.3 20.8 5.6 13.1 5.9 5.5 7.8 10.0 14.3 .5 1.3 15 Communalities PESO L. PICO L. ALA AREA ALA L. COLA Extraction Method: Principal Component Analysis. Total Variance Explained a Raw 400 RMH 350 Component 1 2 3 4 5 Total 360.520 59.237 47.924 18.715 2.816 Initial Eigenvalues % of Variance Cumulative % 73.694 73.694 12.109 85.803 9.796 95.599 3.825 99.424 .576 100.000 Extraction Method: Principal Component Analysis. a. When analyzing a covariance matrix, the initial eigenvalues are the same across the raw and rescaled solution. 300 Eigenvalue Raw Initial Extraction 255.560 248.866 31.854 12.302 91.089 53.030 46.546 3.810 64.164 42.513 250 Component Matrixa 200 150 PESO L. PICO L. ALA AREA ALA L. COLA 100 50 0 1 2 3 Component Number 4 5 Raw Component 1 15.775 3.507 7.282 -1.952 -6.520 Rescaled Component 1 .987 .621 .763 -.286 -.814 Extraction Method: Principal Component Analysis. a. 1 components extracted. EJEMPLO DE COMPONENTES PRINCIPALES (Localidad 1) Communalitiesa Total Variance Explainedb a Raw Component 1 2 3 4 5 Total 264.433 67.821 1.898 .407 -1.85E-14 Initial Eigenvalues % of Variance Cumulative % 79.039 79.039 20.272 99.311 .567 99.878 .122 100.000 -5.519E-15 100.000 PESO L. PICO L. ALA AREA ALA L. COLA Extraction Method: Principal Component Analysis. a. Only cases for which LOCALIDAD = 1 are used in the analysis phase. Component Matrixa,b Extraction Method: Principal Component Analysis. a. When analyzing a covariance matrix, the initial eigenvalues are the same across the raw and rescaled solution. 300 b. Only cases for which LOCALIDAD = 1 are used in the analysis phase. Raw Component 250 200 150 RMH 100 50 0 -50 -100 1 2 3 Component Number 4 Raw Initial Extraction 187.508 187.364 21.503 20.122 .668 .119 44.923 44.779 79.957 79.870 5 PESO L. PICO L. ALA AREA ALA L. COLA 1 13.674 3.222 -.237 -2.503 -7.794 Rescaled Component 2 -.617 -3.122 .251 6.206 -4.372 1 .999 .695 -.290 -.373 -.872 2 -.045 -.673 .307 .926 -.489 Extraction Method: Principal Component Analysis. a. 2 components extracted. a,b Rotated Component Matrix b. Only cases for which LOCALIDAD = 1 are used in the analysis phase. Raw Rescaled Component Component 1 2 1 2 PESO 6.800 11.880 .497 .868 L. PICO 4.249 1.438 .916 .310 L. ALA -.332 -.096 -.406 -.118 AREA ALA -6.664 .611 -.994 .091 L. COLA .326 -8.931 .036 -.999 Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a. Rotation converged in 3 iterations. b. Only cases for which LOCALIDAD = 1 are used in the Component Plot in Rotated Space 1.0 a,b Rotated Component Matrix 1 6.800 4.249 -.332 -6.664 .326 PESO L. PICO L. ALA AREA ALA L. COLA .8 Rescaled Component 2 11.880 1.438 -.096 .611 -8.931 1 .5 2 .497 .916 -.406 -.994 .036 l. pico Component 2 Raw Component peso .868 .310 -.118 .091 -.999 .3 area ala 0.0 l. ala -.3 Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a. Rotation converged in 3 iterations. -.5 -.8 b. Only cases for which LOCALIDAD = 1 are used in the analysis phase. l. cola -1.0 -1.0 -.8 -.5 -.3 0.0 .3 .5 .8 1.0 Component 1 300 RMH % of Variance = 94.84 in Component 1 250 Component Plot in Rotated Space peso 1.0 l. pico .8 200 Component 2 .5 150 100 .3 l. cola 0.0l. ala area ala -.3 -.5 50 -.8 0 1 Localidad 2 2 3 4 5 -1.0 -1.0 Component Number -.8 Localidad 3 -.5 -.3 0.0 Component 1 .3 .5 .8 1.0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Total EJEMPLO DE ANALISIS CLUSTER RMH N LOCALIDAD 1.00 1.00 1.00 1.00 1.00 2.00 2.00 2.00 2.00 2.00 3.00 3.00 3.00 3.00 3.00 15 PESO 51.4 72.0 53.2 83.2 57.4 66.5 98.3 74.8 92.2 97.9 88.1 94.8 62.8 81.6 80.0 15 L. PICO .2 1.9 .2 10.7 6.8 10.6 9.6 6.3 10.8 9.6 10.5 20.5 .4 2.3 3.5 15 LOCALIDAD .476 .261 .677 .296 -.528 PESO .476 .681 .656 -.282 -.781 Matrix File Input L. PICO L. ALA .261 .677 .681 .656 .266 .266 -.361 -.242 -.177 -.607 C A S E Label Num AREA ALA 24.6 20.7 18.5 10.6 8.9 10.1 10.6 8.8 9.9 10.8 11.7 25.0 26.5 20.0 24.0 15 L. COLA 18.9 8.0 22.6 7.1 27.3 20.8 5.6 13.1 5.9 5.5 7.8 10.0 14.3 .5 1.3 15 Agglomeration Schedule Proximity Matrix Case LOCALIDAD PESO L. PICO L. ALA AREA ALA L. COLA L. ALA 17.8 29.4 17.0 30.2 15.3 17.6 35.6 28.2 34.7 35.8 29.6 26.3 22.3 37.9 35.0 15 AREA ALA .296 -.282 -.361 -.242 -.100 L. COLA -.528 -.781 -.177 -.607 -.100 Stage 1 2 3 4 5 Cluster Combined Cluster 1 Cluster 2 2 3 1 4 1 2 5 6 1 5 Coefficients .681 .677 .415 -.100 -.335 0 5 10 15 20 25 +---------+---------+---------+---------+---------+ Peso 2 L. Pico 3 Loc. 1 L. Ala 4 A. Ala 5 L. Cola 6 Stage Cluster First Appears Cluster 1 Cluster 2 0 0 0 0 2 1 0 0 3 4 EJEMPLO DE ANALISIS DISCRIMINANTE 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Total N LOCALIDAD 1.00 1.00 1.00 1.00 1.00 2.00 2.00 2.00 2.00 2.00 3.00 3.00 3.00 3.00 3.00 15 PESO 51.4 72.0 53.2 83.2 57.4 66.5 98.3 74.8 92.2 97.9 88.1 94.8 62.8 81.6 80.0 15 L. PICO .2 1.9 .2 10.7 6.8 10.6 9.6 6.3 10.8 9.6 10.5 20.5 .4 2.3 3.5 15 L. ALA 17.8 29.4 17.0 30.2 15.3 17.6 35.6 28.2 34.7 35.8 29.6 26.3 22.3 37.9 35.0 15 AREA ALA 24.6 20.7 18.5 10.6 8.9 10.1 10.6 8.8 9.9 10.8 11.7 25.0 26.5 20.0 24.0 15 RMH L. COLA 18.9 8.0 22.6 7.1 27.3 20.8 5.6 13.1 5.9 5.5 7.8 10.0 14.3 .5 1.3 15 Min. D Squared Step 1 2 Entered Statistic L. ALA 1.115 AREA ALA 5.323 Between Groups 2.00 and 3.00 2.00 and 3.00 df1 df2 1 12.000 .121 6.100 2 11.000 1.650E-02 Eigenv alues Function 1 2 Eig envalue 5.125a .942a % of Variance 84.5 15.5 Cumulative % 84.5 100.0 Canonical Correlation .915 .697 a. First 2 canonical discriminant functions were used in the analysis. Structure Matrix 1 1.005 .032 Function 1 Function 2 .130 1.013 L. ALA L. COLAa AREA ALA L. PICOa PESOa .999* -.561* -.129 -.301 .247 Sig . 2.788 At each step, the variable that maximizes the Mahalanobis distance between the two closest groups is entered. Standardized Canonical Discriminant Function Coefficients L. ALA AREA ALA Exact F Statistic 2 -.032 -.083 .992* -.405* -.258* Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function. *. Largest absolute correlation between each variable and any discriminant function a. This variable not used in the analysis. Highest Group Case Number 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Original RMH Actual Group 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 Predicted Group 1 1 1 1 1 2 2 2 2 2 2** 3 3 3 3 P(D>d | G=g) p df .300 .687 .939 .454 .324 .394 .962 .715 1.000 .943 .480 .555 .131 .183 .409 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 Discriminant Scores P(G=g | D=d) .996 .997 1.000 1.000 1.000 .836 .931 .977 .939 .928 .753 .987 .874 .680 .946 Squared Mahalanobis Distance to Centroid 2.405 .752 .126 1.578 2.255 1.862 .077 .670 .001 .118 1.468 1.178 4.072 3.397 1.786 Function 1 -2.742 -2.525 -2.876 -3.119 -2.768 .543 2.138 2.705 1.916 2.187 .698 -.015 -.970 2.751 2.077 Function 2 1.304 .576 .103 -1.462 -1.746 -1.084 -.780 -1.055 -.944 -.735 -.753 1.736 1.903 1.124 1.813 **. Misclassified case Canonical Discriminant Functions 2 Classification Resultsa 3 1 Original 0 % 1 LOCALIDAD Group Centroids 2 3 2 -2 1 -3 Function 1 -2 -1 0 1 2 Predicted Group Membership 1.00 2.00 3.00 5 0 0 0 5 0 0 1 4 100.0 .0 .0 .0 100.0 .0 .0 20.0 80.0 a. 93.3% of orig inal grouped cases correctly classified. -1 -4 Count LOCALIDAD 1.00 2.00 3.00 1.00 2.00 3.00 3 Total 5 5 5 100.0 100.0 100.0 LITERATURA Everitt, B. S. and Graham Dunn, 2001. Applied Multivariate data Analysis, Edt. ARNOLD Gnanadesikan, R., 1997. Methods for Statistical Data Analysis of Multivariate Observations, JOHN WILEY & SONS, INC. Johnson R. A. and Dean W. Wichern, 2002. Applied Multivariate Statistical Analysis, PRENTICE HALL. Kachigan, S. K., 1991. Multivariate Statistical Analysis, RADIUS PRESS, NY. Hair J. F., R. E. Anderson, R. L. Tatham y W. C. Black, 1999. PRENTICE HALL. Kleinbaum, D. G., L. L. Kupper, K. E. Muller and A. Nizam, 1998. Applied Regression Analysis and Other Multivariate Methods, DUXBURY PRESS.