ANALISIS MULTIVARIADOS (Definiciones Dr. Roberto Mercado Hernández, Laboratorio de Estadística, México ANALISIS MULTIVARIADOS (Definiciones) Es la relación (función) entre más de dos variables, donde una de ellas.

Download Report

Transcript ANALISIS MULTIVARIADOS (Definiciones Dr. Roberto Mercado Hernández, Laboratorio de Estadística, México ANALISIS MULTIVARIADOS (Definiciones) Es la relación (función) entre más de dos variables, donde una de ellas.

ANALISIS
MULTIVARIADOS
(Definiciones
Dr. Roberto Mercado Hernández,
Laboratorio de Estadística,
México
ANALISIS MULTIVARIADOS
(Definiciones)
Es la relación (función) entre más de dos variables, donde una de ellas se asume
como dependiente de las demás. Es el grado de asociación entre más de dos
variables, donde no hay una variable dependiente de las otras.
Es una técnica para estudiar las asociaciones entre dos conjuntos de variables.
Correlación
Ccorrelacionar simultaneamente varias variables dependientes y varias var. independientes
canónica
Consiste en la extracción de relaciones entre categorías y define similaridades o
Correspondencia
disimilaridades entre ellas, lo que permitirá su agrupamiento si se detecta que se
(A F C)
corresponden.
Regresión y
Correlación
Componentes
principales
RMH
Es una técnica estadística de síntesis de la información, o reducción de la
dimensión (número de variables). Es decir, ante un banco de datos con muchas
variables, el objetivo será reducirlas a un menor número, perdiendo la menor
cantidad de información posible. Los nuevos componentes principales o factores
serán una combinación lineal de las variables originales, y además serán
independientes entre sí.
Análisis Cluster
Es un conjunto de técnicas que se utilizan para clasificar los objetos o casos en
grupos relativamente homogéneos llamados conglomerados (clusters). Los objetos
en cada grupo (conglomerado) tienden a ser similares entre sí (alta homogeneidad
interna, dentro del cluster) y diferentes a los objetos de los otros grupos (alta
heterogeneidad externa, ente clusters)
Análisis
Discriminante
Es una técnica multivariante de clasificación de individuos, en la que se
presupone la existencia de dos o más grupos bien definidos a priori (por ejemplo,
ejemplares de la misma especie en dos localidades diferentes, clientes solventes
y no solventes; votantes de uno u otro partido; compradores y no compradores de
un producto; etc)
ANALISIS MULTIVARIADOS
(Condiciones)
Regresión
Correspondencias
(A F C)
Componentes
principales
(ACP)
RMH
Análisis Cluster
(AC)
Análisis
Discriminante
En la relación de las variables independientes (todas con distribución normal), con
la variable dependiente (también normal), se establece un error.
En este análisis se ordenan los datos en una tabla disyuntiva completa (Z) que
consta de un conjunto de individuos I=1,2,…n (filas), unconjunto de variables o
caracteres cualitativos JI, …, JK,…, JQ (columnas) y un conjunto de modalidades
excluyentes 1, …, mk para cada carácter cualitativo.
Los únicos requerimientos previos para la aplicación del ACP son:
a) Continuidad en las variables.
b) El número n de individuos o elementos observados debe ser mayor que el
número p de variables originales.
Por otra parte, el ACP tiene la ventaja de no exigir supuestos tales como la
normalidad u homoscedasticidad.
El AC es un objetivo metodológico para cuantificar las características de un conjunto de
observaciones. Por ello, tiene fuertes propiedades matemáticas, pero no fundamentos
estadísticos. Los requisitos de normalidad, linealidad y homocedasticidad (tan
relevantes en otras técnicas), tienen poca consistencia en el AC.
Es una técnica estadística de la rama del análisis multivariante, en la cual la
variable dependiente es indicadora y no numérica como en el análisis de
regresión. El modelo se construye basado en un set de observaciones para las
cuales se conocen las clases. Este set de observaciones es algunas veces
conocido como el training set.
ANALISIS MULTIVARIADOS (a considerar)
Regresión
Correlación
Correspondencias
(A F C)
Componentes
Principales
Es importante analizar la magnitud, sigo y significancia de los coeficientes.
Su valor indica el grado de asociación entre las variables.
Es centrado y el centro de gravedad de las modalidades de una variable coincide
con el del conjunto J, y con el origen, las modalidades de cada variable están
centradas en torno al origen, no pudiendo tener todas el mismo signo.
Un aspecto clave en ACP es la interpretación de los factores, ya que ésta no
viene dada a priori, sino que será deducida tras observar la relación de los
factores con las variables iniciales (habrá, pues, que estudiar tanto el signo
como la magnitud de las correlaciones).
No jerárquicos
Asignan los casos a grupos diferenciados que el propio
análisis configura, sin que unos dependan de otros.
Jerárquicos
Aquéllos que configuran grupos con estructura arborescente,
de forma que clusters de niveles más bajos van siendo
englobados en otros de niveles superiores.
RMH
Análisis Cluster
Explicar
La pertenencia de cada caso del archivo patrón a uno u otro
grupo, en función de las variables de su perfil, para comprobar
su pertenencia.
Predecir
A qué grupo más probable habrá de pertenecer un nuevo
individuo del que únicamente se conoce su perfil de variables.
Análisis
Discriminante
ANALISIS MULTIVARIADOS
(Ecuaciones)
Regresión
Regresión múltiple
Y = a0 + a1X1 + a2X2 + …. + apXp +ε
Correspondencias
(Inercia = variación explicada)
Inercia debida a la modalidad J
1  k.j
I(j)  1  
Q
n 
Inercia debida a una variable
1
I(J k )  mk  1
Q
Inercia total
I
j
1
Q
Componentes principales
RMH
Primer componente principal
Z1i = u1iX1i + u2iX2i + …. + u1pXpi
Análisis Cluster
Fórmula de Lance y Williams Dk(ij) = αiDki + αjDkj + βDij + γ│Dki - Dkj│
Análisis Discriminante
Función discriminante de Fisher
D1i = u1iX1 + u2iX2 + …. + ukiXk
EJEMPLO DE REGRESION Y CORRELACION MULTIPLE
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Total
N
PESO
51.4
72.0
53.2
83.2
57.4
66.5
98.3
74.8
92.2
97.9
88.1
94.8
62.8
81.6
14
L.
PICO
.2
1.9
.2
10.7
6.8
10.6
9.6
6.3
10.8
9.6
10.5
20.5
.4
2.3
14
L.
ALA
17.8
29.4
17.0
30.2
15.3
17.6
35.6
28.2
34.7
35.8
29.6
26.3
22.3
37.9
14
AREA
ALA
24.6
20.7
18.5
10.6
8.9
11.1
10.6
8.8
11.9
10.8
11.7
6.7
26.5
20.0
14
L.
COLA
18.9
8.0
22.6
7.1
27.3
20.8
5.6
13.1
5.9
5.5
7.8
10.0
14.3
.5
14
Statistics
N
Mean
Std. Error of Mean
Std. Deviation
Skewness
Kurtosis
Minimum
Maximum
(Constant)
L. PICO
L. ALA
AREA ALA
L. COLA
B
-30.137
2.070
2.582
.636
1.106
Std. Error
37.528
.456
.740
.460
.765
L.
PICO
14
7.171
1.543
5.774
.613
.606
.2
20.5
L. ALA
14
26.98
2.078
7.777
-.216
-1.385
15.3
37.9
AREA
ALA
14
14.386
1.699
6.358
.811
-.737
6.7
26.5
L.
COLA
14
11.957
2.086
7.807
.632
-.554
.5
27.3
RMH
Model Summary
Unstandardized
Coefficients
Model
1
PESO
14
76.729
4.428
16.567
-.185
-1.392
51.4
98.3
t
-.803
4.537
3.490
1.382
1.446
Sig .
.443
.001
.007
.200
.182
Model
1
R
.988a
R Sq uare
.976
Adjusted
R Sq uare
.965
a.
ANOVAb
Variables no
significativas
Model
1
a.
Reg ression
Residual
Total
Sum of
Squares
3480.994
86.854
3567.849
df
4
9
13
Mean Square
870.249
9.650
F
90.177
Sig .
.000a
EJEMPLO DE CORRELACION CANONICA
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Total
N
LOCALIDAD
1.00
1.00
1.00
1.00
1.00
2.00
2.00
2.00
2.00
2.00
3.00
3.00
3.00
3.00
3.00
15
PESO
51.4
72.0
53.2
83.2
57.4
66.5
98.3
74.8
92.2
97.9
88.1
94.8
62.8
81.6
80.0
15
L.
PICO
.2
1.9
.2
10.7
6.8
10.6
9.6
6.3
10.8
9.6
10.5
20.5
.4
2.3
3.5
15
L.
ALA
17.8
29.4
17.0
30.2
15.3
17.6
35.6
28.2
34.7
35.8
29.6
26.3
22.3
37.9
35.0
15
AREA
ALA
24.6
20.7
18.5
10.6
8.9
10.1
10.6
8.8
9.9
10.8
11.7
25.0
26.5
20.0
24.0
15
L.
COLA
18.9
8.0
22.6
7.1
27.3
20.8
5.6
13.1
5.9
5.5
7.8
10.0
14.3
.5
1.3
15
Variables in the Analysis
RMH
Step
1
2
L. ALA
L. ALA
Min. D
Squared
Tolerance
1.000
F to Remove
30.725
.974
27.028
.846
.974
5.191
1.115
AREA ALA
Between
Groups
1.00 and
3.00
2.00 and
3.00
The canonical correlation measures the association between
the discriminant scores and the groups.
Eigenv alues
Function
1
2
Eig envalue
5.125a
.942a
% of Variance
84.5
15.5
Cumulative %
84.5
100.0
a. First 2 canonical discriminant functions were used in the
analysis.
Canonical
Correlation
.915
.697
EJEMPLO DE CORRSPONDENCIAS
Frecuencias de pupas y larvas de dos especies
encontradas en cadáveres en dos localidades.
Especie 1
Cadáver
Localidad
A
RMH
Localidad
B
Pupas
Larvas
Especie 2
Pupas
Larvas
M.
Natural
50
315
24
4012
M. P.
Asesinato
9
40
6
459
M.
Natural
41
147
14
1594
M. P.
Asesinato
4
11
1
124
X2 = 19.11 gl = 9 p < 0.05
Resultados del análisis de correspondencias
Coordenada
1
Coordenada
2
Hileras
Loc. 1 M. natural (1)
Loc. 1 M.P. asesinato (2)
Loc. 2 M. natural (3)
Loc. 2 M.P. asesinato (4)
- 0.037
0.043
0.070
0.104
- 0.002
0.052
- 0.008
- 0.032
Columnas
Sp. 1 pupas (5)
Sp. 1 larvas (6)
Sp. 2 pupas (7)
Sp. 2 larvas (8)
0.350
0.060
0.202
- 0.012
- 0.045
- 0.001
0.180
0.000
Categorías
Inercia total = 0.0028
Los primeros dos eigenvalues comprenden el
95.5% de la inercia
0.2
7
2
RMH
Coordenada 2
0.05
4
0.01
3
0.0
8
5
-0.001
6
1
-0.002
-0.01
0.0
0.1
0.2
Coordenada 1
0.3
0.4
EJEMPLO DE COMPONENTES PRINCIPALES
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Total
N
LOCALIDAD
1.00
1.00
1.00
1.00
1.00
2.00
2.00
2.00
2.00
2.00
3.00
3.00
3.00
3.00
3.00
15
PESO
51.4
72.0
53.2
83.2
57.4
66.5
98.3
74.8
92.2
97.9
88.1
94.8
62.8
81.6
80.0
15
L.
PICO
.2
1.9
.2
10.7
6.8
10.6
9.6
6.3
10.8
9.6
10.5
20.5
.4
2.3
3.5
15
L.
ALA
17.8
29.4
17.0
30.2
15.3
17.6
35.6
28.2
34.7
35.8
29.6
26.3
22.3
37.9
35.0
15
AREA
ALA
24.6
20.7
18.5
10.6
8.9
10.1
10.6
8.8
9.9
10.8
11.7
25.0
26.5
20.0
24.0
15
L.
COLA
18.9
8.0
22.6
7.1
27.3
20.8
5.6
13.1
5.9
5.5
7.8
10.0
14.3
.5
1.3
15
Communalities
PESO
L. PICO
L. ALA
AREA ALA
L. COLA
Extraction Method: Principal Component Analysis.
Total Variance Explained
a
Raw
400
RMH
350
Component
1
2
3
4
5
Total
360.520
59.237
47.924
18.715
2.816
Initial Eigenvalues
% of Variance
Cumulative %
73.694
73.694
12.109
85.803
9.796
95.599
3.825
99.424
.576
100.000
Extraction Method: Principal Component Analysis.
a. When analyzing a covariance matrix, the initial eigenvalues are
the same across the raw and rescaled solution.
300
Eigenvalue
Raw
Initial
Extraction
255.560
248.866
31.854
12.302
91.089
53.030
46.546
3.810
64.164
42.513
250
Component Matrixa
200
150
PESO
L. PICO
L. ALA
AREA ALA
L. COLA
100
50
0
1
2
3
Component Number
4
5
Raw
Component
1
15.775
3.507
7.282
-1.952
-6.520
Rescaled
Component
1
.987
.621
.763
-.286
-.814
Extraction Method: Principal Component Analysis.
a. 1 components extracted.
EJEMPLO DE COMPONENTES PRINCIPALES (Localidad 1)
Communalitiesa
Total Variance Explainedb
a
Raw
Component
1
2
3
4
5
Total
264.433
67.821
1.898
.407
-1.85E-14
Initial Eigenvalues
% of Variance
Cumulative %
79.039
79.039
20.272
99.311
.567
99.878
.122
100.000
-5.519E-15
100.000
PESO
L. PICO
L. ALA
AREA ALA
L. COLA
Extraction Method: Principal Component Analysis.
a. Only cases for which LOCALIDAD = 1 are
used in the analysis phase.
Component Matrixa,b
Extraction Method: Principal Component Analysis.
a. When analyzing a covariance matrix, the initial eigenvalues are
the same across the raw and rescaled solution.
300
b. Only cases for which LOCALIDAD = 1 are used in the analysis
phase.
Raw
Component
250
200
150
RMH
100
50
0
-50
-100
1
2
3
Component Number
4
Raw
Initial
Extraction
187.508
187.364
21.503
20.122
.668
.119
44.923
44.779
79.957
79.870
5
PESO
L. PICO
L. ALA
AREA ALA
L. COLA
1
13.674
3.222
-.237
-2.503
-7.794
Rescaled
Component
2
-.617
-3.122
.251
6.206
-4.372
1
.999
.695
-.290
-.373
-.872
2
-.045
-.673
.307
.926
-.489
Extraction Method: Principal Component Analysis.
a. 2 components extracted.
a,b
Rotated Component Matrix
b. Only cases for which LOCALIDAD = 1 are used in the
analysis phase. Raw
Rescaled
Component
Component
1
2
1
2
PESO
6.800
11.880
.497
.868
L. PICO
4.249
1.438
.916
.310
L. ALA
-.332
-.096
-.406
-.118
AREA ALA
-6.664
.611
-.994
.091
L. COLA
.326
-8.931
.036
-.999
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 3 iterations.
b. Only cases for which LOCALIDAD = 1 are used in the
Component Plot in Rotated Space
1.0
a,b
Rotated Component Matrix
1
6.800
4.249
-.332
-6.664
.326
PESO
L. PICO
L. ALA
AREA ALA
L. COLA
.8
Rescaled
Component
2
11.880
1.438
-.096
.611
-8.931
1
.5
2
.497
.916
-.406
-.994
.036
l. pico
Component 2
Raw
Component
peso
.868
.310
-.118
.091
-.999
.3
area ala
0.0
l. ala
-.3
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 3 iterations.
-.5
-.8
b. Only cases for which LOCALIDAD = 1 are used in the
analysis phase.
l. cola
-1.0
-1.0
-.8
-.5
-.3
0.0
.3
.5
.8
1.0
Component 1
300
RMH
% of Variance = 94.84 in Component 1
250
Component Plot in Rotated Space
peso
1.0
l. pico
.8
200
Component 2
.5
150
100
.3
l. cola
0.0l. ala
area ala
-.3
-.5
50
-.8
0
1
Localidad 2
2
3
4
5
-1.0
-1.0
Component Number
-.8
Localidad 3
-.5
-.3
0.0
Component 1
.3
.5
.8
1.0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Total
EJEMPLO DE ANALISIS CLUSTER
RMH
N
LOCALIDAD
1.00
1.00
1.00
1.00
1.00
2.00
2.00
2.00
2.00
2.00
3.00
3.00
3.00
3.00
3.00
15
PESO
51.4
72.0
53.2
83.2
57.4
66.5
98.3
74.8
92.2
97.9
88.1
94.8
62.8
81.6
80.0
15
L.
PICO
.2
1.9
.2
10.7
6.8
10.6
9.6
6.3
10.8
9.6
10.5
20.5
.4
2.3
3.5
15
LOCALIDAD
.476
.261
.677
.296
-.528
PESO
.476
.681
.656
-.282
-.781
Matrix File Input
L. PICO
L. ALA
.261
.677
.681
.656
.266
.266
-.361
-.242
-.177
-.607
C A S E
Label
Num
AREA
ALA
24.6
20.7
18.5
10.6
8.9
10.1
10.6
8.8
9.9
10.8
11.7
25.0
26.5
20.0
24.0
15
L.
COLA
18.9
8.0
22.6
7.1
27.3
20.8
5.6
13.1
5.9
5.5
7.8
10.0
14.3
.5
1.3
15
Agglomeration Schedule
Proximity Matrix
Case
LOCALIDAD
PESO
L. PICO
L. ALA
AREA ALA
L. COLA
L.
ALA
17.8
29.4
17.0
30.2
15.3
17.6
35.6
28.2
34.7
35.8
29.6
26.3
22.3
37.9
35.0
15
AREA ALA
.296
-.282
-.361
-.242
-.100
L. COLA
-.528
-.781
-.177
-.607
-.100
Stage
1
2
3
4
5
Cluster Combined
Cluster 1
Cluster 2
2
3
1
4
1
2
5
6
1
5
Coefficients
.681
.677
.415
-.100
-.335
0
5
10
15
20
25
+---------+---------+---------+---------+---------+
Peso
2

L. Pico
3

Loc.
1


L. Ala
4


A. Ala
5

L. Cola
6

 
Stage Cluster First
Appears
Cluster 1
Cluster 2
0
0
0
0
2
1
0
0
3
4
EJEMPLO DE ANALISIS DISCRIMINANTE
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Total
N
LOCALIDAD
1.00
1.00
1.00
1.00
1.00
2.00
2.00
2.00
2.00
2.00
3.00
3.00
3.00
3.00
3.00
15
PESO
51.4
72.0
53.2
83.2
57.4
66.5
98.3
74.8
92.2
97.9
88.1
94.8
62.8
81.6
80.0
15
L.
PICO
.2
1.9
.2
10.7
6.8
10.6
9.6
6.3
10.8
9.6
10.5
20.5
.4
2.3
3.5
15
L.
ALA
17.8
29.4
17.0
30.2
15.3
17.6
35.6
28.2
34.7
35.8
29.6
26.3
22.3
37.9
35.0
15
AREA
ALA
24.6
20.7
18.5
10.6
8.9
10.1
10.6
8.8
9.9
10.8
11.7
25.0
26.5
20.0
24.0
15
RMH
L.
COLA
18.9
8.0
22.6
7.1
27.3
20.8
5.6
13.1
5.9
5.5
7.8
10.0
14.3
.5
1.3
15
Min. D Squared
Step
1
2
Entered
Statistic
L. ALA
1.115
AREA ALA
5.323
Between
Groups
2.00 and
3.00
2.00 and
3.00
df1
df2
1
12.000
.121
6.100
2
11.000
1.650E-02
Eigenv alues
Function
1
2
Eig envalue
5.125a
.942a
% of Variance
84.5
15.5
Cumulative %
84.5
100.0
Canonical
Correlation
.915
.697
a. First 2 canonical discriminant functions were used in the
analysis.
Structure Matrix
1
1.005
.032
Function
1
Function
2
.130
1.013
L. ALA
L. COLAa
AREA ALA
L. PICOa
PESOa
.999*
-.561*
-.129
-.301
.247
Sig .
2.788
At each step, the variable that maximizes the Mahalanobis distance between the two closest
groups is entered.
Standardized Canonical Discriminant Function Coefficients
L. ALA
AREA ALA
Exact F
Statistic
2
-.032
-.083
.992*
-.405*
-.258*
Pooled within-groups correlations between discriminating
variables and standardized canonical discriminant functions
Variables ordered by absolute size of correlation within function.
*. Largest absolute correlation between each variable and
any discriminant function
a. This variable not used in the analysis.
Highest Group
Case Number
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Original
RMH
Actual Group
1
1
1
1
1
2
2
2
2
2
3
3
3
3
3
Predicted
Group
1
1
1
1
1
2
2
2
2
2
2**
3
3
3
3
P(D>d | G=g)
p
df
.300
.687
.939
.454
.324
.394
.962
.715
1.000
.943
.480
.555
.131
.183
.409
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
Discriminant Scores
P(G=g | D=d)
.996
.997
1.000
1.000
1.000
.836
.931
.977
.939
.928
.753
.987
.874
.680
.946
Squared
Mahalanobis
Distance to
Centroid
2.405
.752
.126
1.578
2.255
1.862
.077
.670
.001
.118
1.468
1.178
4.072
3.397
1.786
Function 1
-2.742
-2.525
-2.876
-3.119
-2.768
.543
2.138
2.705
1.916
2.187
.698
-.015
-.970
2.751
2.077
Function 2
1.304
.576
.103
-1.462
-1.746
-1.084
-.780
-1.055
-.944
-.735
-.753
1.736
1.903
1.124
1.813
**. Misclassified case
Canonical Discriminant Functions
2
Classification Resultsa
3
1
Original
0
%
1
LOCALIDAD
Group Centroids
2
3
2
-2
1
-3
Function 1
-2
-1
0
1
2
Predicted Group Membership
1.00
2.00
3.00
5
0
0
0
5
0
0
1
4
100.0
.0
.0
.0
100.0
.0
.0
20.0
80.0
a. 93.3% of orig inal grouped cases correctly classified.
-1
-4
Count
LOCALIDAD
1.00
2.00
3.00
1.00
2.00
3.00
3
Total
5
5
5
100.0
100.0
100.0
LITERATURA



Everitt, B. S. and Graham Dunn, 2001. Applied Multivariate data Analysis, Edt.
ARNOLD
Gnanadesikan, R., 1997. Methods for Statistical Data Analysis of Multivariate
Observations, JOHN WILEY & SONS, INC.
Johnson R. A. and Dean W. Wichern, 2002. Applied Multivariate Statistical
Analysis, PRENTICE HALL.

Kachigan, S. K., 1991. Multivariate Statistical Analysis, RADIUS PRESS, NY.

Hair J. F., R. E. Anderson, R. L. Tatham y W. C. Black, 1999. PRENTICE HALL.

Kleinbaum, D. G., L. L. Kupper, K. E. Muller and A. Nizam, 1998. Applied
Regression Analysis and Other Multivariate Methods, DUXBURY PRESS.