第十章 多维标度法

Download Report

Transcript 第十章 多维标度法

第十章
多维标度法
第一节
引言
第二节
古典多维标度法(Classical
MDS)
第三节
权重多维标度(WMDS)
第四节
实例分析与计算实现
第一节 引 言
 在实际中我们会经常遇到这些的问题,给你一组城市,你总
能从地图上测出任何一对城市之间的距离。但若给你若干城
市的距离,你能否确定这些城市之间的相对位置呢?假定你
知道只是哪两个城市最近,哪两个城市次近等等,你是否还
能确定它们之间的相对位置呢?假定通过调查了解了10种饮
料产品在消费者心中的相似程度,你能否确定这些产品在消
费者心理空间中的相对位置呢?在实际中我们常常会遇到类
似这样的问题。
 多维标度法(Multidimensional Scaling)就是解决这类问题
的一种方法,它是一种在低维空间展示“距离”数据结构的
多元数据分析技术,简称MDS。
 多维标度法起源于心理测度学,用于理解人们判断的相似性。
Torgerson拓展了Richardson及Klingberg等人在三、四十年
代的研究,具有突破性地提出了多维标度法,后经
Shepard和Kruskal等人进一步加以发展完善。多维标度法
现在已经成为一种广泛用于心理学、市场调查、社会学、物
理学、政治科学及生物学等领域的数据分析方法。
 多维标度法解决的问题是:当n个对象(object)中各对对象
之间的相似性(或距离)给定时,确定这些对象在低维空间
中的表示(感知图Perceptual Mapping),并使其尽可能与
原先的相似性(或距离)“大体匹配”,使得由降维所引起
的任何变形达到最小。多维空间中排列的每一个点代表一个
对象,因此点间的距离与对象间的相似性高度相关。也就是
说,两个相似的对象由多维空间中两个距离相近的点表示,
而两个不相似的对象则由多维空间两个距离较远的点表示。
多维空间通常为二维或三维的欧氏空间,但也可以是非欧氏
三维以上空间。
 多维标度法内容丰富、方法较多。按相似性(距离)数据测
量尺度的不同MDS可分为:度量MDS和非度量MDS。当利
用原始相似性(距离)的实际数值为间隔尺度和比率尺度时
称为度量MDS(metric MDS),当利用原始相似性(距离)的
等级顺序(即有序尺度)而非实际数值时称为非度量
MDS(nonmetric MDS)。按相似性(距离)矩阵的个数和
MDS模型的性质MDS可分为:古典多维标度CMDS(一个
矩阵,无权重模型)、重复多维标度Replicated MDS(几个
矩阵,无权重模型)、权重多维标度WMDS(几个矩阵,
权重模型)。本章仅介绍常用的古典多维标度法和权重多维
标度法。
第二节 古典多维标度法
(Classical MDS)
一 相似与距离的概念
二 古典多维标度分析的思想及方法
三 度量MDS的古典解
四 非度量MDS的古典解(nonmetric MDS)
 首先我们提出这样一个问题,表10.1是美国十城市之间的飞
行距离,我们如何在平面坐标上据此标出这10城市之间的相
对位置,使之尽可能接近表中的距离数据呢?
表10.1
1
2
美国10城市间的飞行距离
3
4
5
6
7
8
9
10
1
0
587
1212
701
1936
604
748
2139
2182
543
2
587
0
920
940
1745
1188
713
1858
1737
597
3
1212
920
0
879
831
1726
1631
949
1021
1494
4
701
940
879
0
1374
968
1420
1645
1891
1220
5
1936
1745
831
1374
0
2339
2451
347
959
2300
6
604
1188
1726
968
2339
0
1092
2594
2734
923
7
748
713
1631
1420
2451
1092
0
2571
2408
205
8
2139
1858
949
1645
347
2594
2571
0
678
2442
9
2182
1737
1021
1891
959
2734
2408
678
0
2329
10
543
597
1494
1220
2300
923
205
2442
2329
0
1=Atlanta , 2=Chicago,
3=Denver,
4=Houston,
5=Los Angeles
6=Miami , 7=New York, 8=S an Francisco , 9=Seattle, 10=Washington. DC
一、相似与距离的概念
 在解决上述问题之前,我们首先明确与多维标度法相关的数
据概念。
1.相似数据与不相似数据
 相似数据:如果用较大的数据表示非常相似,用较小的
数据表示非常不相似,则数据为相似数据。如用10表示
两种饮料非常相似,用1表示两种饮料非常不相似。
 不相似数据:如果用较大的数值表示非常不相似,较小
的数值表示非常相似,则数据为不相似数据,也称距离
数据。如用10表示两种饮料非常不相似,用1表示两种饮
料非常相似。
2.距离阵
 定义10.1 一个n  n阶的矩阵D=(dij ) n  n ,如果满足条件:
(1) D  D
(2) dij  0, dii  0,
i, j  1, 2,
,n
则矩阵 D 为广义距离阵, dij 称为第 i 点与第 j 点间的距离。
 定义 10.2 对于一个 n  n 的距离阵 D  (d ) ,如果存在某个正
ij nn
整数 r 和 R r 中的 n 个点 X1 , X 2 ,
dij2  ( X i  X j )( X i  X j )
, X n ,使得
i, j  1,2,
,n
则称 D 为欧氏距离阵
3.相似系数阵
 定义 10.3 一个 n  n 阶的矩阵 C  (cij )nn ,如果满足条件:
(1) C  C
(2) cij  cii
i, j  1, 2,
,n
则矩阵 C 为相似系数阵, cij 称为第 i 点与第 j 点间的相似系数。
 在进行多维标度分析时,如果数据是多个分析变量的原始数
据,则要根据聚类分析中介绍的方法,计算分析对象间的相
似测度;如果数据不是广义距离阵,要通过一定的方法将其
转换成广义距离阵才能进行多维标度分析。
二、古典多维标度分析的思想及方
法
 设 r 维空间中的 n 个点表示为 X1 , X 2 ,
, X n ,用矩阵表示为
, X n ) 。在多维标度法中,我们称 X 为距离
ˆ 称为 D
阵 D 的一个拟合构图,
求得的 n 个点之间的距离阵 D
ˆ  D ,则称 X 为
ˆ 和 D 尽可能接近。如果 D
的拟合距离阵,D
X  ( X1 , X 2 ,
D 的一个构图。
 我们假设有 n 个城市对应欧氏空间的 n 个点,其距离阵为
D ,它们所对应的空间的维数为 r ,第 i 个城市对应的点记
为 X i ,则 X i 的坐标记作 X i  ( X i1 , X i 2 ,
, X ir ) 。
设 B  (bij )nn ,其中:
n
n
n
n
1
1
1
1
bij  (dij2   dij2   dij2  2  dij2 )
2
n j 1
n i 1
n i 1 j 1
dij2 为 i 城市与 j 城市之间的距离。那么,如果一个 n × n 的
距离阵 D 是欧氏距离阵的充要条件是 B  0 。
 首先考虑必要性,设
X1 , X 2 ,
D 是欧氏距离阵,则存在
, X n  R r ,使得
dij2  ( X i  X j )( X i  X j )
 X iX i  X j X j  X j X i  X iX j
(10.1)
 X iX i  X j X j  2 X iX j
1 n 2
1 n
2 n
dij  X j X j   X iX i   X iX j

(10.2)
n i 1
n i 1
n i 1
1 n 2
1 n
2 n
dij  X iX i   X j X j   X iX j

n j 1
n j 1
n j 1
1 n 1 n 2
1 n n 2
(  dij )  2  dij

n j 1 n i 1
n i 1 j 1
n
n
n
n
1
1
2
  X iX i   X j X j   X iX j
n i 1
n j 1
n i 1 j 1
由(10.1)
、
(10.2)
、
(10.3)和(10.4)式,得知
(10.3)
(10.4)
1
1 n 2 1 n 2 1 n n 2
2
bij  (dij   dij   dij  2  dij )
2
n j 1
n i 1
n i 1 j 1
1
2 n
2 n
2 n n
 (2 X iX j   X iX j   X iX j   X iX j )
2
n j 1
n i 1
n i 1 j 1
 ( X iX j  X iX  X  X j  X  X )
 ( X i  X )( X j  X )
1 n
其中, X   X i 。用矩阵表示为:
n i 1
 ( X 1  X ) 


B  (bij ) nn  
 ( X1  X ,
 ( X  X ) 
 n

, Xn  X )  0
这里,我们称 B 为 X 的中心化内积阵。
 再来考虑充分性,如果假设 B  0 ,我们欲指出 X 正好为 D 的
一个构图,且 D 是欧氏型的。
 r 为 B 的正特征根,1 , 2 , , r 对应的单位
 记 1  2 
特征向量为 e1 , e2 ,
, er ,Γ  (e1 , e2 ,
列组成的矩阵,则 X  (
, er ) 是单位特征向量为
1 e1 , 2 e2 , , r er )  ( xij )nr ,X
矩 阵 中 每 一行 对 应 空间 中 的 一个 点 , 第 i 行 即 为 X i 。 令
Λ  diag (1 , 2 ,
, r ) ,那么,
B  XX  ΓΛΓ
X  ΓΛ1/ 2
(10.6)
(10.7)
即 bij  X iX j 。由于,
n
n
n
n
1
1
1
1
bij  (dij2   dij2   dij2  2  dij2 ) ,
2
n j 1
n i 1
n i 1 j 1
因此,
( X i  X j )( X i  X j )  X iX i  X j X j  2 X iX j
 bii  b jj  2bij  dij2
 这样说明 X 正好是 X 正好为 D 的一个构图,D 是欧氏型的。
通过上面的讨论我们知道,只要按公式(10.5)求出各个点
对之间的内积,求得内积矩阵 B 的 r 个非零特征值及所对应
的一组特征向量,据公式(10.7)即可求出 X 矩阵的 r 个列
向量或空间 n 个点的坐标。
 这里需要特别注意,并非所有的距离阵都存在一个r维的欧
氏空间和n个点,使得n个点之间的距离等于D。因而,并不
是所有的距离阵都是欧氏距离阵,还存在非欧氏距离阵。
 当距离阵为欧氏时,可求得一个D的构图X,当距离阵不是
欧氏时,只能求得D的拟合构图。在实际应用中,即使D为
欧氏,一般也只求r =2或3的低维拟合构图。
 值得注意的是,由于多维标度法求解的n个点仅仅要求它们
的相对欧氏距离与D相近,也就是说,只与相对位置相近而
与绝对位置无关,根据欧氏距离在正交变换和平移变换下的
不变性,显然所求得解并不唯一。
三、度量MDS的古典解
 根据上述古典多维标度法的基本思想及方法,可给出求古典
解的一般步骤:
(1)根据距离阵数据,按照公式(10.5)计算出 bij ;
(2)根据 bij 构造出内积矩阵 B;
(3)计算内积矩阵 B 的特征值 1  2 
特征值 1  2 
 n 和 r 个最大
 r  0 对应的单位特征向量。其中,r
的确定有两种方法:一是事先确定 r =1,2 或 3;二是通过计
算前 r 个大于零的特征值占全体特征值的比例  确定。
1  2   r

 0
1  2   n
0 预先给定的变差贡献比例。
ˆ ,得到r维拟合构图(简称古典
(4)根据(10.7)式计算 X
解)。 这里需要注意,如果λi中有负值,表明D是非欧氏
型的。
(一)已知距离矩阵的CMDS计算
 以前述美国10城市间的飞行距离数据来说明古典度量多维标
度法的计算过程。
 表10.1美国10城市间的飞行距离为比率测度。数值越大表明
距离越远,数值越小表明距离越短,符合广义距离阵的定义,
又只涉及一个距离阵,因此为度量CMDS。
 根据上述度量古典CMDS的计算方法,首先可求得内积矩阵,
结果见表10.2。
表10.2
美国10城市内积矩阵
537138
227674.7
-348122
198968.7
-808343
894857.1
696696.2
-1005131
-1050183
656444.9
227674.7
262780.5
-174029
-134310
-593986
234414.3
585085
-580732
-315384
488486.2
-348122
-174029
235561.7
-92439.5
569636.6
-563061
-504420
681440.4
658370.2
-462937
198968.7
-134310
-92439.5
352200.4
B 29298.47
516284.3
-124221
-162952
-550030
-32799.4
-808343
-593986
569636.6
29298.47
1594273
-1129628
-1498685
1750892
1399106
-1312563
894857.1
234414.3
-563061
516284.3
-1129628
1617392
920343.3
-1541762
1866872
918032
696696.2
585085
-504420
-124221
-1498685
920343.3
1415758
-1583181
-1129543
1222167
-1005131
-580732
681440.4
-162952
1750892
-1541762
-1583181
2027920
1845928
-1432422
-1050183
-315384
658370.2
-550030
1399106
-1866872
-1129543
1845928
2123620
-1115010
656444.9
488486.2
-462937
-32799.4
-1312563
918032
1222167
-1432422
-1115010
1070601
 B 的特征值:λ1=9582144,λ2=1686820,λ3=8157,λ4=1433,
λ5 = 509, λ6 = 26, λ7 = 0.35, λ8 = -898, λ9 =-5468, λ10 = -35479。
1  2
2 
1  2   10
9582144 1686820

9582144 1686820 8157 1433509  26  0.35898546835479
 0.995969
因此取 r =2。按照(10.7)式得到如下结果:
 1 e1
2 e2
-718.759
-382.056
e1
e2
142.994
-340.84
-0.23219
-0.12342
0.110099
-0.26243
481.602
-25.285
0.155581
-0.01947
-161.466
572.77
-0.05216
0.441007
1203.738
390.100
0.388867
0.30036
-1133.53
581.907
-0.36618
0.448043
-1072.24
-519.024
-0.34638
-0.39963
1420.603
112.589
0.458925
0.086689
1341.723
-579.739
0.433442
-0.44637
-979.622
-335.473
-0.31647
-0.2583
 10个城市的坐标分别为:
(-718.759,142.9942),(-382.056,-340.84),
(481.602,-25.285),(-161.466,572.77),(1203.738,
390.100),(-1133.53,581.907),(1072.24,-519.024),
(1420.603,112.589),(1341.723,-579.739),(979.622,-335.473)。
 计算结果表明,较大的特征值有两个,说明在二维平面上表
示10城市间的相对位置是合适的。由于有特征值小于零,表
明距离阵不是欧氏型,其结果为拟合构图。在此,城市是
“对象”,飞行里程是“相似性”。图10.1给出了MDS反映
美国10座城市相对位置的感知图。图中的10个点,每个点代
表一个城市,相近的点代表飞行距离短的城市,相距较远的
点代表飞行距离远的城市。
图10.1 10城市坐标感知图
(二)已知相似矩阵的 CMDS 计算
 如果已知的数据不是 n 个对象之间的某种距离,而是 n 个对
象间的某种相似性测度,只需将相似系数阵 C 转换为广义距
离阵 D ,其他计算与上述方法相同。令
dij  (cii  c jj  2cij )1 2
(10.8)
由定义 10.3 可知,cii  c jj  2cij  0 ,显见 dii  0, dij  d ji ,
故 D 为距离阵。根据数学定理易知,当 C  0 时,由(10.8)
式定义的距离阵为欧氏型。
 【例 10.2】为了分析下列六门课程之间的结构关系,根据劳
雷和马克斯维尔得到的相关系数矩阵(详见表 10.3)
,使用
多维标度法用图形直观的反映这六门课之间的相似性。
 相关系数的值越大,表示课程越相似,相关系数值越小,表
明课程越不相似,显而易见,相关系数矩阵为相似系数矩阵,
记为C。
盖尔语
英语
历史
算术
代数
几何
盖尔语
1
0.439
0.41
0.288
0.329
0.248
英语
历史
0.439
0.41
1
0.351
0.351
1
0.354
0.164
0.32
0.19
0.329
0.181
算术
代数
0.288
0.329
0.354
0.32
0.164
0.19
1
0.595
0.595
1
0.47
0.464
几何
0.248
0.329
0.181
0.47
0.464
1
表10.3
6门课程相关系数阵
 根据变换(10.8)式可得到距离阵D,见表10.4。在此基础
上,根据(10.5)式得到内积矩阵B,具体结果见表10.5。
0
1.059245
1.086278
1.193315
1.158447
1.226377
1.059245
0
1.139298
1.136662
1.16619
1.158447
1.086278
1.139298
0
1.293058
1.272792
1.279844
1.193315
1.136662
1.293058
0
0.9
1.029563
表10.4
距离阵D
1.158447
1.16619
1.272792
0.9
0
1.035374
1.2263768
1.1584472
1.2798437
1.029563
1.0353743
0
表10.5
内积矩阵
0.547111
-0.02706
-0.02706
0.520778
0.026778
-0.04539
-0.19106
-0.13822
-0.15456
-0.17672
-0.201222
-0.133389
0.026778
-0.19106
-0.04539
-0.13822
0.686444
-0.24539
-0.24539
0.494778
-0.22389
0.085278
-0.198556
-0.005389
-0.15456
-0.20122
-0.17672
-0.13339
-0.22389
-0.19856
0.085278
-0.00539
0.485778
-0.01589
-0.015889
0.5544444
 计算 B 的特征值,结果如下:
λ1 =1.142875,λ2=0.6232836,λ3=0.602,λ4=0.525,λ5=0.396,
λ6 =-0.000005。
 从结果知距离阵D不是欧氏型,我们取r=2,由(10.7)式求
得D的古典解,结果如下:
e1
0.3775357
0.2258566
0.5805312
-0.428132
-0.394165
-0.36163
e2
0.3376794
0.6106644
-0.643831
0.0506569
-0.049315
-0.305851
1 e1
0.403606
0.241453
0.620619
-0.4577
-0.42138
-0.3866
2 e2
0.266592
0.482109
-0.50829
0.039993
-0.03893
-0.24146
 图10.2大体反映了这六门课程的基本结构,从图中可以直观
的看出,算术、代数、几何较为相近,英语和盖尔语较为相
近,而历史课程与其他课程的差异性较大。
图10.2 六门课程的古典解感知图
四、非度量MDS的古典解
(nonmetric MDS)
 在实际问题中,我们涉及更多的是不易量化的相似性测度,
如两种颜色的相似性,虽然我们可以用1表示颜色非常相似,
10表示颜色非常不相似,但是这里的数字只表示颜色之间的
相似或不相似程度,并不表示实际的数值大小,因而是定序
尺度,这时是由两两颜色间的不相似数据 ij形成“距离”矩
阵。对于非度量的不相似性矩阵,我们如何进行多维标度分
析呢?假定有一个n个对象的不相似矩阵( ij)n n ,要寻找n
个对象的一个r维拟合构造点X。下面介绍Kruskal的非度量
MDS分析方法。
 为了寻找一个较好的拟合构造点,我们可以从某一个拟合构
造点开始,即先将n个对象随意放置在r维空间,形成一个感
知图,用Xi =(Xi 1,Xi 2,…,Xir) ′表示i对象在r维空间的坐
标,对象i与j在r维空间的距离为 :
dij  ( X i1  X j1 )2  ( X i 2  X j 2 )2 
 ( X ir  X jr )2
 然后微调 n 个对象在空间的位置,改进空间距离 dij 与不相
似数据 ij 间的匹配程度,直到匹配性无法改进为止。显然,
定量测度 dij 与 ij 间的匹配性是问题的难点。因为,对于
定序尺度 ij 来说,如何量化它与 dij 间的对应程度是解决
问题的关键。Kruskal 提出了用最小平方单调回归的方法,
确定 ij 的单调转换 dˆij 。然后,又提出用以测度偏离完美
匹配程度的量度 STRESS,称之为应力。定义为
STRESS 
ˆ )2
(
d

d
 ij ij
i
j
2
d
 ij (10.9)
i
j

dij 与 dˆij 之间差异越大,STRESS 值越大,表明匹配性也
就越差。非度量多维标度法就是要采用迭代方法,找到使
STRESS 尽可能地小的 r 维空间中 n 个对象的坐标。对于
找到的拟合构造点,当 STRESS=0 时,表示拟合完美,
dij  dˆij ;当 0<STRESS≤2.5%时,表示拟合非常好;当
2.5 % <STRESS≤5% 时 , 表 示 拟 合 好 ; 当 5 %
<STRESS≤10% 时 , 表 示 拟 合 一 般 ; 当 10 %
<STRESS≤20%时,表示拟合差。
 另一种测量偏离完美匹配的量度是由塔卡杨(Takane)等
人提出,已成为一个更受欢迎的准则。对给定维数 r ,将
这个量度记为 S 应力,其定义为:

S 应力=  (dij  dˆij )
2
2 2
  dij4

12
(10.10)
 也就是说,S应力是将(10.9)式中的dij和 dˆ 用它们的平方代
ij
表后所得到的量度。S应力的值介于0和1之间。典型的情况
是:此值小于0.1意味着感知图是n个对象的一个好的几何表
示。
 在非度量MDS分析过程中,另一个需要解决的问题是感知图
空间维数r的确定。我们可以制作应力-r图确定感知图的维数
r 。从前述可知,对每一个r ,可以找到使应力达到最小的点
结构。随着r的增加,最小应力将在运算误差的范围内逐渐
下
降,且当r =n-1时达到零。从r =1开始,可将应力S( r )对
r作图。这些点随r的增加而呈下降排列。若找到一个r ,上
述
下降趋势到这一点开始接近水平状态,即形成一个“肘”形
曲
线,这个r便是“最佳”维数。
 非度量MDS虽然是基于非度量尺度数据的分析方法,但是,
第三节 权重多维标度(WMDS)
 以上我们的讨论都是以单个“距离”阵数据出发进行的,但
在实践中,往往需要确定多个距离阵数据的感知图,比如由
10个人分别对5种饮料进行两两相似评测,结果就会得到10
个相似性矩阵,那么,我们如何根据这10个人的评测结构得
出5种饮料的相似性感知图呢?显然,按照古典多维的方法,
我们只能是每一个相似性矩阵确定一个感知图,10个人分别
确定10个感知图。但是,往往我们想要得到的是这10个人共
同的一个感知图而非10个。这一节将介绍由Carroll和Chang
提出的解决这类问题的多维标度方法——权重多维标度法
(WMDS)。基础权重多维标度法也称权重个体差异欧氏
距离模型。
 设由 m 个个体对 n 个对象进行比较评测,得到 m 个 n  n 不
相似(相似)矩阵,然后将其转换为距离阵。每个距离阵都
有自己的拟合构造空间,权重个体差异欧氏距离模型通过给
予不同个体不同的权重综合得到 m 个个体的公共拟合构造
空间。设 X it 表示 i 对象在公共拟合构造空间的 t 维坐标,则
对于 i 对象第 k 个个体在公共拟合构造空间的 t 维坐标为
k 
Yit
k 
Yit  w X it
1/ 2
kt
(10.11)
2
 其中 w1/
为第 k 个个体在 t 维的权重。对于第 k 个个体,对
kt
象 i 和 j 的欧氏距离为:
d kij 
r
(k )
(k ) 2
(
Y

Y
 it jt )
(10.12)
t 1
将(10.11)式代入(10.12)式可得
d kij  wk1 ( X i1  X j1 )2 
 注意:
(10.13)式中 wk
 wkr ( X ir  X jr )2
 (wk1 , wk 2 ,
(10.13)
, wkr ) 是个体间唯一不
同的参数,而分析对象在公共感知图中的坐标则所有个体都
相同。在此基础上可依据古典 MDS 求内积的(10.5)式得到
如下公式:
n
n
n
n
1
1
1
1
bkij  (d kij2   d kij2   d kij2  2  d kij2 )
2
n i 1
n j 1
n i 1 j 1
r
  wkt X it X jt
t 1
(10.14)
 Carroll 和 Chang 采用非线性迭代最小平方法求得 X 的最
优解,得到公共拟合构造点。
第四节 实例分析与计算实现
一 多维标度法在SPSS中的实现
二 利用SPSS对本章美国十城市的例子
进行多维标度
一、多维标度法在SPSS中的实现
—— 实例1
 以SPSS自带文件World95.sav为例,对亚洲国家和地区的17
个国家的人口寿命情况进行分析。
(一)操作步骤:
1. 在Data→Select case对话框的If过滤条件中输入过滤条件
“region=3”。得到17个国家和地区。
2. 主菜单中选择Analyze→Scale→Multidimensional Scaling
(ALSCAL) 。就进入多维标度法的主对话框(图10.3)。在
左上方是变量列表选择以下变量:urban(城市人口比例),
lifeexpf(女性平均寿命),lifeexpm(男性平均寿命),
gdp_cap(人均GDP),death_rt(千人死亡率),birth_rt
(千人出生率),literacy(受教育人口比例)。由于原始
数据不是距离阵,因此需要在下方Distances单选项中选择
Create distances from data,这时Measure子对话框被激活,
默认计算Euclidean distance,即欧氏距离。
图10.3 多维标度法的主对话框
3. 点击进入Measure子对话框,对距离阵进行设定,(图
10.4)。由于我们的变量都是连续数值型的,所以应在
Measure单选项中选择Interval。并在其下方的Transform
Values栏中选择变量标准化变换的方式,这里我们选择Z
scores和By variable,表示对变量进行正态标准化。然后在
Create Distance Matrix单选项中选择Between cases,表示计
算样品之间的距离阵。设置完毕后,点击Continue回到主对
话框。
图10.4 Measure子对话框
4. 在主对话框中点击进入Model子对话框,如图10.5。这里
可以设定变量取值的类型。在Level of Measurement中选择
Interval,即连续取值的数值型变量。其他设置无需改变,
点击Continue返回主对话框。
图10.5 Model子对话框
5. 点击进入Options子对话框(图10.6),该对话框中提供了
一些结果显示的选择。Display栏中默认不输出任何图表。
选择Group plots项可得到多维标度图,这里图表的维度由
Model中的Dimensions中填入最小维度Minimum和最大维度
Maximum决定;择选Data matrix项可得到距离阵和拟合构
造点的坐标;而Model and options summary是显示出多维
标度法中的参数设置,计算方法等。这里我们选择Group
plots和Data matrix项后,点击Continue返回主对话框,再点
击OK运行。
图10.6 Options子对话框
(二)结果分析:
1. 样品验证表,发现有一个样品存在缺失值。查原始数据后
发现Taiwan缺少千人死亡率,该样品被去除。国家地区的编
号如下(表10.6)。
Afghanistan
var1
Indonesia
var7
S . Korea
var13
Bangladesh
var2
Japan
var8
Singapore
var14
Cambodia
var3
Malaysia
var9
Taiwan
*
China
var4
N. Korea
var10
Thailand
var15
Hong Kong
var5
Pakistan
var11
Vietnam
var16
India
var6
Philippines
var12
表10.6 国家和地区的编号
2. SPSS会依次输出原始距离阵(表10.7),古典解的迭代过
程和有关压力指标值(表10.8),拟合构造点在二维空间中
的坐标(表10.9),以及最优标度的距离阵(表10.10)。在
表3中,Young氏压力指标值为0.02289,K压力指标为
0.03880,都小于0.05。RSQ=0.99485。这些都说明模型拟合
效果很好。
Raw (unscaled) Data for Subject 1
1
2
3
4
1
2
0
3.15
0
3
1.794
1.451
0
4
5.822
3.144
4.177
0
5
7.905
5.685
6.554
3.59
表10.7 原始距离阵(部分)
5
0
Iteration history for the 2 dimensional solution (in squared distances)
Young's S-stress formula 1 is used.
Iteration
S-stress
1
Improvement
.03057
2
.02463
.00594
3
4
.02338
.02289
.00124
.00049
Iterations stopped because
S-stress improvement is less than
.001000
Stress and squared correlation (RSQ) in distances
RSQ values are the proportion of variance of the scaled data (disparities)
in the partition (row, matrix, or entire data) which
is accounted for by their corresponding distances.
Stress values are Kruskal's stress formula 1.
Stress
=
.03880
For matrix
RSQ = .99485
表10.8 压力指标检验
Configuration derived in 2 dimensions
Stimulus Coordinates
Stimulus
Number
1
2
3
4
5
表10.9
Stimulus
Name
VAR1
VAR2
VAR3
VAR4
VAR5
Dimension
1
2.8077
1.4351
2
-.7825
.0200
1.9799
-.1950
-.2425
.5249
-1.7190
-.7151
拟合点的在2维标度中的坐标(部分)
Optimally scaled data (disparities) for subject
1
1
2
3
4
1
2
3
4
5
.000
1.676
.856
3.293
4.553
.000
.648
1.673
3.210
.000
2.298
3.736
.000
1.942
5
.000
表10.10 最优标度的距离阵(部分)
3. 接下来是欧氏距离下的16个国家和地区的拟合构造点的二
维图(图10.7),从图上可以看出比较发达的地区基本都在
第三个象限,如香港,日本,新加坡。而中国和泰国,菲律
宾等国较为接近。而线性拟合散点图(图10.8)从图形上告
诉我们采用欧氏距离来拟合原始数据的距离阵是非常合适的。
Derived Stimulus Configuration
Dimension 2
Euclidean distance model
VAR15
VAR16
VAR10VAR4
VAR12
VAR7
0.5
VAR13
VAR9
VAR6
0.0
VAR2
VAR11
VAR3
-0.5
VAR5
VAR8
VAR1
VAR14
-3
-2
-1
0
1
2
Dimension 1
图10.7 拟合构造点的二维坐标图
3
Scatterplot of Linear Fit
Euclidean distance model
5
Distances
4
3
2
1
0
0
1
2
3
4
Disparities
图10.8 欧氏距离下的线性拟合散点图
5
二、利用SPSS对本章美国十城市的
例子进行多维标度
(一)操作步骤:
1. 打开文件之后,在主对话框的distances单选项中选择Data
are distances,此时shape对话框被激活(图10.9),默认距
离形式为Square symmetric。
图10.9 shape子对话框
 若原始数据的距离是对称的,则只需要输入三角阵即可,运算
中SPSS会自动填充,如本例;Square asymmetric表示不对称
的距离阵;而Rectangular表示距离阵不是方阵,这时需要指
定矩阵使用的行数Number of rows,该数值必需大于等于4。
本例中选择Square symmetric,点击Continue返回主对话框。
2. 在Options子对话框中选中Group plots,点击Continue返
回,再点击OK运行。
(二)结果分析:
1. 首先观察压力指标(表10.11),Young氏指标值为0.00291,
K氏指标值为0.00272,RSQ=0.99996,说明欧氏距离模型拟
合效果很好。
Iteration history for the 2 dimensional solution (in squared distances)
Young's S-stress formula 1 is used.
Iteration
S-stress
Improvement
1
.00291
Iterations stopped because
S-stress is less than
.005000
Stress and squared correlation (RSQ) in distances
RSQ values are the proportion of variance of the scaled data (disparities)
in the partition (row, matrix, or entire data) which
is accounted for by their corresponding distances.
Stress values are Kruskal's stress formula 1.
Stress
=
表10.11
For matrix
.00272
RSQ = .99996
压力指标检验
2. 拟合点的坐标(表10.12),二维坐标图(图10.10)以及
线性拟合散点图(图10.11)。从图10.11可以看出采用欧氏
距离的拟合标度非常符合原始距离阵。各个城市之间的距离
可以非常好地用图10.10中的散点来表示。
Derived Stimulus Configuration
Euclidean distance model
newyork
Dimension 2
seattle
chicago
0.5
washdc
denver
0.0
sanfran
atlanta
losangeles
-0.5
houston
-2
-1
0
miami
1
Dimension 1
图10.10 欧氏距离模型下的二维散点图
2
Configuration derived in 2 dimensions
Stimulus Coordinates
Stimulus
Stimulus
Number
Name
Dimension
1
2
atlanta
.9575
-.1905
2
3
chicago
denver
.5090
-.6416
.4541
.0337
4
houston
.2151
-.7631
5
losangel
-1.6036
-.5197
6
miami
1.5101
-.7752
7
8
newyork
sanfran
1.4284
-1.8925
.6914
-.1500
9
seattle
-1.7875
.7723
10
washdc
1.3051
.4469
1
表10.12
拟合点坐标
Scatterplot of Linear Fit
Euclidean distance model
Distances
4
3
2
1
0
0
1
2
Disparities
图10.11 拟合散点图
3
4
本章结束