第七章地理系统的主成分分析

download report

Transcript 第七章地理系统的主成分分析

第七章 地理系统的主成分分析
(Principal Component Analysis)
线性代数知识补充
 1. 矩阵的初等变换
 2. 行阶梯形矩阵和行最简形阶梯形矩阵
 3. 齐次现行方程组的求解
 4. 矩阵的特征值和特征向量
矩阵的初等变换
定义1 下面三种变换称为矩阵的初等行变换:
1 互换两行(对调i, j 两行, 记作ri  rj);
2 以数 k  0 乘以某一行的所有元素;
(第 i 行乘 k , 记作 ri  k)
3 把某一行所有元素的k 倍加到另一行
对应的元素上去(第 j 行的 k 倍加到第 i 行上
记作ri  krj)
.
 对矩阵施行初等变换时,
由于矩阵中的元素已经
改变,变换后的矩阵和
变换前的矩阵已经不相
等,所以在表达上不能
用等号,而要用箭号
“→”.
r1  r2
r3  2
1
2
2 1 1


1 2
1  4
1
B
4 6
2 2
4


6 9
7
9
3
1

2
2


3
1
1
3
6
2
1
1
9
1
1
1
7
4
2
2
9
行阶梯形矩阵和行最简形阶梯形矩阵
行阶梯形矩阵需满足
的条件
1

0
0

(2)、每个台阶 只  0
有一行,
(1)可划出一条阶
梯线,线的下方全
为零;
0 1 0
4

1 1 0
3
 B5

0
0 1 3

0
0 0
0
台阶数即是非零行的行数,阶梯线的竖线后面的
第一个元素为非零元,即非零行的第一个非零
元.
行阶梯形矩阵B5还称为行最简形矩阵,即非
零行的第一个非零元为1,且这些非零元所在的列
的其他元素都为零.
对于任何矩阵Amn , 总可经过有限次初等行
变换把他变为行阶梯形和行最简形.
注意:行最简形矩阵是由方程组唯一确定的,行
阶梯形矩阵的行数也是由方程组唯一确定的.
行最简形矩阵再经过初等列变换,可化成标
准形.
主成分分析问题的提出
 例1:我们知道生产服装有很多指标,比如袖长、
肩宽、身高等十几个指标,服装厂生产时,不可能
按照这么多指标来做,怎么办?一般情况,生产者
考虑几个综合的指标,象标准体形、特形等。
 例2:企业经济效益的评价,它涉及到很多指标。
例百元固定资产原值实现产值、百元固定资产原值
实现利税,百元资金实现利税,百元工业总产值实
现利税,百元销售收入实现利税,每吨标准煤实现
工业产值,每千瓦时电力实现工业产值,全员劳动
生产率,百元流动资金实现产值等,我们要找出综
合指标,来评价企业的效益。
地理系统是多要素的复杂系统。在地理学研究中,
多变量问题是经常会遇到的。变量太多,无疑会
增加分析问题的难度与复杂性,而且在许多实际
问题中,多个变量之间是具有一定的相关关系的。
因此,人们会很自然地想到,能否在相关分
析的基础上,用较少的新变量代替原来较多的旧
变量,而且使这些较少的新变量尽可能多地保留
原来变量所反映的信息?
事实上,这种想法是可以实现的,主成分
分析方法就是综合处理这种问题的一种强有力
的工具。
主成分分析是把原来多个变量划为少数几
个综合指标的一种统计分析方法。
从数学角度来看,这是一种降维处理技术。
一、主成分分析的基本原理
假定有n个地理样本,每个样本共有p个
变量,构成一个n×p阶的地理数据矩阵
 x11
x
21

X 
 


 xn1
x12

x22


xn 2

x1 p 
x2 p 

 

xnp 

(3.5.1)
当p较大时,在p维空间中考察问题比较麻
烦。为了克服这一困难,就需要进行降维处理,
即用较少的几个综合指标代替原来较多的变量指
标,而且使这些较少的综合指标既能尽量多地反
映原来较多变量指标所反映的信息,同时它们之
间又是彼此独立的。
1. 主成分分析的几何意义
(以两个变量为例)



对这两个相关变量所携带的信息(在统计上信息往往是
指数据的变异)进行浓缩处理
假定只有两个变量x1 和x2 ,从散点图可见两个变量存
在相关关系,这意味着两个变量提供的信息有重叠
如果把两个变量用
一个变量来表示,
同时这一个新的变
量又尽可能包含原
来的两个变量的信
息,这就是降维的
过程
主成分分析的基本思想
(以两个变量为例)



椭圆中有一个长轴和一个短轴,称为主轴。在长轴方向,数据
的变化明显较大,而短轴方向变化则较小
如果沿着长轴方向设定一个新的坐标系,则新产生的两个变量
和原始变量间存在一定的数学换算关系,同时这两个新变量之
间彼此不相关,而且长轴变量携带了大部分的数据变化信息,而
短轴变量只携带了一小
部分变化的信息(变异)
此时,只需要用长轴方
向的变量就可以代表原
来两个变量的信息 。这
样也就把原来的两个变
量降维成了一个变量 。
长短轴相差越大,降维
也就越合理
主成分分析的基本思想
(以两个变量为例)



多维变量的情形类似,只不过是一个高维椭球,无法
直观地观察
每个变量都有一个坐标轴,所以有几个变量就有几主
轴。首先把椭球的各个主轴都找出来,再用代表大多
数数据信息的最长的几个轴作为新变量,这样,降维
过程也就完成了
找出的这些新变量
是原来变量的线性
组合,叫做主成分
2. 主成分分析的基本原理
定义:记x1,x2,…,xP为原变量指标,z1,
z2,…,zm(m≤p)为新变量指标
 z1  l11 x1  l12 x2    l1 p x p

 z 2  l21 x1  l22 x2    l2 p x p

............

 z m  lm1 x1  lm 2 x2    lmp x p

(3.5.2)
系数lij的确定原则:
① zi与zj(i≠j;i,j=1,2,…,m)相
互无关;
② z1是x1,x2,…,xP的一切线性组合
中方差最大者,z2是与z1不相关的x1,x2,…,
xP的所有线性组合中方差最大者;…; zm是与
z1,z2,……,zm-1都不相关的x1,x2,…xP,
的所有线性组合中方差最大者。
则新变量指标z1,z2,…,zm分别称为原
变量指标x1,x2,…,xP的第1,第2,…,第
m主成分。
从以上的分析可以看出,主成分分析的
实质就是确定原来变量xj(j=1,2 ,…, p)
在诸主成分zi(i=1,2,…,m)上的荷载 lij
( i=1,2,…,m; j=1,2 ,…,p)。
从数学上可以证明,它们分别是相关矩
阵m个较大的特征值所对应的特征向量。
二、主成分分析的计算步骤
(一)计算相关系数矩阵
 r11
r
21
R
 

rp1
r12

r22



rp 2
r1 p 
r2 p 
 

rpp 
(3.5.3)
rij (i,j=1,2,…,p)为原变量xi
与xj的相关系数, rij=rji,其计算公式为
n
rij 
 (x
k 1
ki
 xi )(xkj  x j )
n
 ( xki  xi )
k 1
n
2
2
(
x

x
)
 kj j
k 1
(3.5.4)
(二)计算特征值与特征向量
① 解特征方程 I  R  0 ,常用雅可比法
(Jacobi)求出特征值,并使其按大小顺序排
列 1  2    p  0 ;
② 分别求出对应于特征值 i 的特征向量
ei (i  1,2,, p) ,要求 ei =1,即
p
2
其中
表示向量
e
 ij  1
j 1
ei
eij
的第j个分量。
,
③ 计算主成分贡献率及累计贡献率

贡献率
i
(i  1,2, , p)
p

k 1
k
累计贡献率
i

k

k
k 1
p
k 1
(i  1,2, , p)
1 , 2 ,, m
一般取累计贡献率达85%~95%的特征值
所对应的第1、第2、…、第m(m≤p)个主成分。
④ 计算主成分载荷
lij  p( zi , x j )  i eij (i, j  1,2,, p)
(3.5.5)
⑤ 各主成分的得分
 z11
z
21

Z
 

 z n1
z12
z 22

zn 2
z1m 
 z 2 m 
 

 z nm 

(3.5.6)
主成分的选择
 选择几个主成分?选择标准是什么?
 被选的主成分所代表的主轴的长度之和占了主轴
总程度之和的大部分
 在统计上,主成分所代表的原始变量的信息用其
方差来表示。因此,所选择的第一个主成分是所
有主成分中的方差最大者,即Var(yi)最大
 如果第一个主成分不足以代表原来的个变量,在
考虑选择第二个主成分,依次类推
 这些主成分互不相关,且方差递减
主成分的选择
 究竟选择几个主成分才合适呢?
 一般要求所选主成分的方差总和占全部方差的
80%以上就可以了。当然,这只是一个大体标准
,具体选择几个要看实际情况
 如果原来的变量之间的相关程度高,降维的效果
就会好一些,所选的主成分就会少一些,如果原
来的变量之间本身就不怎么相关,降维的效果自
然就不好
 不相关的变量就只能自己代表自己了
三、 主成分分析方法应用实例
下面,我们根据表7.1给出的数据,对某
农业生态经济系统做主成分分析。
表7.1 某农业生态经济系统各区域单元的有关数据
人均耕 森林覆
经济作物占农 耕地占土地 果园与林
样本
人口密度
农民人均纯收入 人均粮食产量
地面积 盖率
作物播面比例 面积比率 地面积之
-1
-1
序号 x 1 /(人.km-2 )
x
/(元.人
)
x
/(kg.人
)
4
5
x 6 /%
x 7 /%
比x 8 /%
x 2 /hm2 x 3 /%
1
363.912
0.352
16.101
192.11
295.34
26.724
18.492
2.231
2
141.503
1.684
24.301
1 752.35
452.26
32.314
14.464
1.455
3
100.695
1.067
65.601
1 181.54
270.12
18.266
0.162
7.474
4
143.739
1.336
33.205
1 436.12
354.26
17.486
11.805
1.892
5
131.412
1.623
16.607
1 405.09
586.59
40.683
14.401
0.303
6
68.337
2.032
76.204
1540.29
216.39
8.128
4.065
0.011
4.861
7
95.416
0.801
71.106
926.35
291.52
8.135
4.063
0.012
4.862
8
62.901
1.652
73.307 1 501.24 225.25
18.352
2.645
0.034
3.201
9
86.624
0.841
68.904
897.36
196.37
16.861
5.176
0.055
6.167
10
91.394
0.812
66.502
911.24
226.51
18.279
5.643
0.076
4.477
11
76.912
0.858
50.302
103.52
217.09
19.793
4.881
0.001
6.165
12
51.274
1.041
64.609
968.33
181.38
4.005
4.066
0.015
5.402
13
68.831
0.836
62.804
957.14
194.04
9.11
4.484
0.002
5.79
14
77.301
0.623
60.102
824.37
188.09
19.409
5.721
5.055
8.413
15
76.948
1.022
68.001 1 255.42 211.55
11.102
3.133
0.01
3.425
16
99.265
0.654
60.702 1 251.03 220.91
4.383
4.615
0.011
5.593
17
118.51
0.661
63.304 1 246.47 242.16
10.706
6.053
0.154
8.701
18
141.47
0.737
54.206
193.46
11.419
6.442
0.012
12.945
19
137.76
0.598
55.901 1 124.05 228.44
9.521
7.881
0.069
12.654
20
117.61
1.245
54.503
175.23
18.106
5.789
0.048
8.461
21
122.78
0.731
49.102 1 313.11 236.29
26.724
7.162
0.092
10.078
814.21
805.67
步骤如下:
(1)将表中的数据作标准差标准化处理,
然后将它们代入公式,计算相关系数矩阵,如
表7.2所示.
表7.2
x1
x2
x1
1
x2
-0.33
x3
-0.71 -0.035
x4
-0.34
x5
x3
相关系数矩阵
x4
-0.327 -0.714 -0.336
1
-0.035 0.644
x5
x6
x7
x8
x9
0.309
0.408
0.79
0.156
0.744
0.42
0.255
0.009 -0.078
0.094
1
0.07
-0.74
-0.755
-0.93 -0.109
-0.924
0.644
0.07
1
0.383
0.069
-0.05 -0.031
0.073
0.309
0.42
-0.74
0.383
1
0.734
0.672
0.098
0.747
x6
0.408
0.255 -0.755 0.069
0.734
1
0.658
0.222
0.707
x7
0.79
0.009
-0.046
0.672
0.658
1
-0.03
0.89
x8
0.156 -0.078 -0.109 -0.031
0.098
0.222
-0.03
1
0.29
x9
0.744
0.747
0.707
0.89
0.29
1
-0.93
0.094 -0.924 0.073
(2)由相关系数矩阵计算特征值,以及
各个主成分的贡献率与累计贡献率(表7.3)。
由表7.3可知,第1,第2,第3主成分的累计
贡献率已高达86.596%(大于85%),故只
需要求出第1、第2、第3主成分z1,z2,z3即
可。
表7.3
特征值及主成分贡献率
主成分
z1
特征值
4.661
贡献率/%
51.791
累计贡献率/%
51.791
z2
2.089
23.216
75.007
z3
1.043
11.589
86.596
z4
0.507
5.638
92.234
z5
0.315
3.502
95.736
z6
0.193
2.14
97.876
z7
0.114
1.271
99.147
z8
0.045 3
0.504
99.65
z9
0.0315
0.35
100
(3)对于特征值=4.661 0,=2.089 0,
=1.0430分别求出其特征向量e1,e2,e3,再
用公式计算各变量x1,x2,…,x9在主成分z1,
z2,z3上的载荷(表7.4)。
表7.4
主成分载荷
占方差的百分数/%
z1
z2
z3
x1
0.739
-0.532
-0.0061
82.918
x2
0.123
0.887
-0.0028
80.191
x3
-0.964
0.009 6
0.009 5
92.948
x4
0.004 2
0.868
0.003 7
75.346
x5
0.813
0.444
-0.0011
85.811
x6
0.819
0.179
0.125
71.843
x7
0.933
-0.133
-0.251
95.118
x8
0.197
-0.1
0.97
98.971
x9
0.964
-0.0025
0.009 2
92.939
上述计算过程,可以借助于SPSS或Matlab软件系统实现。
分析:
(1)第1主成分z1与x1,x5,x6,x7,x9
呈现出较强的正相关,与x3呈现出较强的
负相关,而这几个变量则综合反映了生态
经济结构状况,因此可以认为第1主成分z1
是生态经济结构的代表。
(2)第2主成分z2与x2,x4,x5呈现出较
强的正相关,与x1呈现出较强的负相关,
其中,除了x1为人口总数外,x2,x4,x5都
反映了人均占有资源量的情况,因此可以
认为第2主成分z2代表了人均资源量。
(3)第3主成分z3与x8呈现出的正相关程度
最高,其次是x6,而与x7呈负相关,因此可
以认为第3主成分在一定程度上代表了农业
经济结构。
(4)另外,表7.4中最后一列(占方差的
百分数),在一定程度上反映了3个主成分z1、
z2、z3包含原变量(x1,x2,…,x9)的信息
量多少。
显然,用3个主成分z1、z2、z3代替原来
9个变量(x1 ,x2 ,…,x9 )描述农业生态
经济系统,可以使问题更进一步简化、明
了。
 进行主成分分析主要步骤如下:
指标数据标准化(SPSS软件自动执
行);
2.
指标之间的相关性判定;
3.
确定主成分个数m;
4.
主成分Zi表达式;
5.
主成分Zi命名;
 1.




SPSS-主成分分析
(实例分析)
【例】根据我国31个省市自治区2006年的6项主
要经济指标数据,进行主成分分析,找出主成
分并进行适当的解释
31个地区的6项经济指标
用SPSS进行主成分分析










第1步
选 择 【Analyze】 下 拉 菜 单 , 并 选 择 【Data
ReductionFactor】,进入主对话框
第2步 在主对话框中将所有原始变量选入【Variables】
第3步 点击【Descriptives】,在【correlation Matrix】下
选择
【Coefficirnts】,点击【Continue】回到主对话框
第4步 点击【Extraction】,在【Display】下选择
【Scree
Plot】,点击【Continue】回到主对话框
第5步 点击【Rotation】,在【Display】下选择
【Loading
Plot】,点击【Continue】回到主对话框
点击【OK】
用SPSS进行主成分分析
SPSS的输出结果
各变量之间的相关系数矩阵
变量之间的存在较强的相关关系,适合作主成分分析
SPSS的输出结果
(选择主成分)
各主成分所解释的原始变量的方差
该表是选则主成分的主要依据
根据什么选择主成分?

“Initial Eigenvalues”(初始特征根)




实际上就是本例中的6个主轴的长度
特征根反映了主成分对原始变量的影响程度,表示引入
该主成分后可以解释原始变量的信息
特征根又叫方差,某个特征根占总特征根的比例称为主
成分方差贡献率
p
设特征根为,则第i个主成分的方差贡献率为 i  i
i 1

比如,第一个主成分的特征根为3.963,占总特征根的的
比例(方差贡献率)为66.052%,这表示第一个主成分解释
了原始6个变量66.052%的信息,可见第一个主成分对原
来的6个变量解释的已经很充分了
根据什么选择主成分?

根据主成分贡献率



一般来说,主成分的累计方差贡献率达到80%以上的前
几个主成分,都可以选作最后的主成分
比如表13.3中前两个主成分的累计方差贡献率为95.57%
根据特特征根的大小



一般情况下,当特征根小于1时,就不再选作主成分了,
因为该主成分的解释力度还不如直接用原始变量解的释
力度大
比如表13.3中除前两个外,其他主成分的特征根都小于1
。所以SPSS只选择了两个主成分
就本例而言,两个主成分就足以说明各地区的经济发展
状况了
根据什么选择主成分?
(Scree Plot)



SPSS还提供了一个更
为直观的图形工具来帮
助选择主成分,即碎石
图(Scree Plot)
从碎石图可以看到6个
主轴长度变化的趋势
实践中,通常结合具体
情况,选择碎石图中变
化趋势出现拐点的前几
个主成分作为原先变量
的代表,该例中选择前
两个主成分即可
拐点
怎样解释主成分?
主成分的因子载荷矩阵


表1中的每一列表示一个主成分作为原来变量线性组合的系数,也就是
主成分分析模型中的系数aij
比如,第一主成分所在列的系数0.670表示第1个主成分和原来的第一个
变量(人均GDP)之间的线性相关系数。这个系数越大,说明主成分对该
变量的代表性就越大
怎样解释主成分?
(主成分与原始变量的关系)
 根据主成分分析模型和因子载荷,可以得到
两个主成分与原来6个变量之间的线性组合
表达式如下
 y1  0.670x1  0.976x2  0.896x3  0.633x4  0.674x5  0.950x6

 y 2  0.725x1  0.055x2  0.351x3  0.728x4  0.721x5  0.263x6
注意:表达式中的不是原始变量,而是标准化变量
怎样解释主成分?
(Loading Plot)
相关系数的点越
远离坐标轴,主
成分对原始变量
的代表性就越大。
这3个点远离主
成分2的坐标
 载荷图(Loading Plot)直观显示
主成分对原始6变量的解释情况
 图中横轴表示第一个主成分与
原始变量间的相关系数;纵轴
表示第二个主成分与原始变量
之间的相关系数
 每一个变量对应的主成分载荷
就对应坐标系中的一个点,比
如,人均GDP变量对应的点是
(0.670,0.725)
 第一个主成分很充分地解释了
原始的6个变量(与每个原始变量
都有较强的正相关关系),第二
个主成分则较好地解释了居民
消费水平、人均GDP和年末总
人口这3个变量(与它们的相关关
系较高),而与其他变量的关系
则较弱(相关系数的点靠近坐标
轴)