Transcript 第二章

第一章 地理数据系统
地理数据类型及其变换
地理数据的分布特征
地理数据库
一.地理数据类型及其变换
(一) 地理数据的基本类型
空间数据:用于描述地理实体、地理要素、地理
现象、地理事件及地理过程产生、存在和发展的
地理位置、区域范围及空间联系。
属性数据:用于描述地理实体、地理要素、地理
现象、地理事件、地理过程的有关属性特征。
空间数据的表达:

点——由一个独立的坐标点(x,y)定位,是空
间上不可再分的几何实体 。

线——由若干个(至少两个,理论上是无穷个)
坐标点(xi,yi)(i =1,2,…)定义,有一定
的长度和走向,表示线状地物或点实体之间的联
系。

面——表示在空间上连续分布的地理景观或区域。
三种基本的地理几何实体及其组合
点
网络
地域类型
区域
线
地带
面
(二)、地理数据的变换
是将原始数据的每个数据通过某种特定的运
算把它们变成一个新的数值,而且数值的变化不
依赖于数据集合中其他数据的数值。
变换方式:对数变换、开(立)方平方变换、
倒数变换、概率变换、模数变换、指数变换、滑
动平均变换、差分算子法、累加(减)生成数法
变换目的:去伪存真、易识规律、减少变幅、
便于建模等。
我国工农业生产总值(单位:亿元)
年代
1961
1965
1970
1975
1980
1985
1986
工业总
产值
1621
2235
3138
4467
7077
13336
15207
lnx
7.3098 7.7120 8.0513 8.4045 8.8646 9.4982 9.6295
二.地理数据的分布特征
(一) 地理数据的来源与整理
地理数据的渠道来源 :
① 来自于观测、测量部门的有关专业数据。
② 来自于统计年鉴、统计公报中的有关自然
资源及社会经济发展数据。
③ 来自于有关单位或个人的不定期的典型调
查数据、抽样调查数据。
④ 来自于政府公报、政府文件中的有关数
据。
⑤来自于档案、图书等文献资料中的有关数据。
⑥来自于互联网(Internet)的有关共享数据。
⑦地图图件。主要包括各种比例尺的地形图、
影像地图、专题地图等。
⑧遥感数据。主要包括各种航空遥感数据和卫
星遥感数据。
⑨其它来源的有关数据。
整理的基本步骤:
1.检查资料
2.统计分组
3.绘制图表
举例说明:
上海市年降水量表(单位:mm)
974.8
1002.6 1588.1
770.7
1008.9 1206.8 1271.5 1101.9 1341.2 1331.0
1085.4 1184.4 1113.4 1203.9 1170.7
975.4
1462.3
1147.5
849.9
1233.4 1008.6 1063.8 1004.9
935.0
1016.3 1031.6 1105.7
947.8
1416.0
709.2
1086.2 1022.5 1330.9 1439.4 1236.5 1088.1 1288.7 1115.8 1217.5 1320.7
1078.1 1203.4 1480.0 1269.9 1049.2 1318.4 1192.0 1016.0 1508.2 1159.6
1021.3
986.1
794.7
1318.3 1171.2
1003.2
840.4
1061.4
958.0
1123.3
910.2
1398.5 1208.6 1305.5 1242.1 1572.3 1416.9 1253.8 1282.3
982.1
1388.5 1057.5 1282.8 1472.7 1011.7 1214.8 1193.4 1139.5 1012.4
1237.6
903.5
1025.5 1121.8
1143.8 1602.0
951.4
1025.2 1265.0 1196.5 1120.7 1659.3
942.7
807.8
1161.7
815.6
791.2
1180.1 1105.0
989.4
900.8
第一步: 求变数的全距R
所谓全距(或称极差),就是地理数据中的最
大值与最小值之差: R  xmax  xmin
由上表可知:
R  xmax  xmin  1659.3  709.2  950.1mm
第二步: 确定组数n , 按 Sturges公式计算:
n  1 3.32lg N
或查下表:
N
32
64
128
256
512
1024
2048
4096
8192
n
6
7
8
9
10
11
12
13
14
可确定组数为8
第三步 计算组距h :
950 .1
h  R/n 
 118 .7  119
8
第四步 确定组限
组限是指组的界限,即组距两端的数值。数值
小的为起点数值,称为下限;数值大的为终点数
值,称为上限。
第一组的下限值,可从样本数据最小值中减去1/2
的组距求得,
下限为: 709 .2  1 119  649 .7
2
其上限等于下限值再加上组距,即:
649 .7  119  768 .7mm
组 序
设定组限
修订组限
组中值
1
649.7~768.7
649.7~768..6
709.2
2
768.7 ~887.7
768.7 ~887.6
828.2
3
887.7 ~1006.7
887.7 ~1006.6
947.2
4
1006.7 ~1125.7
1006.7 ~1125.6
1066.2
5
1125.7 ~1244.7
1125.7 ~1244.6
1185.2
6
1244.7 ~1363.7
1244.7 ~1363.6
1304.2
7
1363.7 ~1482.7
1363.7 ~1482.6
1423.2
8
1482.7 ~1601.7
1482.7 ~1601.6
1542.2
9
1601.7 ~1720.7
1601.7 ~1720.6
1661.2
第五步 计算组中值m
m  下限  上限 / 2 (649.7  768.6) / 2  709.2mm
频数分布表:
组序
组距h
组中值m
1
649.7~768..6
2
频数分布
累积频数分布
频数f
频率%
累积频数F
累积频率%
709.2
1
1
1
1
768.7 ~887.6
828.2
7
7
8
8
3
887.7 ~1006.6
947.2
16
16
24
24
4
1006.7 ~1125.6
1066.2
27
27
51
51
5
1125.7 ~1244.6
1185.2
22
22
73
73
6
1244.7 ~1363.6
1304.2
14
14
87
87
7
1363.7 ~1482.6
1423.2
8
8
95
95
8
1482.7 ~1601.6
1542.2
3
3
98
98
9
1601.7 ~1720.6
1661.2
2
2
100
100
2
2
2
2
13
14
15
16
频数分布直方图
2
61
.
42
.
23
.
04
.
85
.
2
11
66
.
10
7.
2
94
8.
2
82
9.
2
70
频数表
30
20
10
0
频数表
16
61
.2
14
23
.2
11
85
.2
94
7.
2
70
9.
2
30
25
20
15
10
5
0
系列1
频数分布多边形图
累积频数表
120
累积频率
100
80
60
40
20
0
709.2
828.2
947.2
1066.2
1185.2
组中值
累积频数(率)图
1304.2
1423.2
1542.2
1661.2
(二) 地理数据的分布特征值
(一)集中性的代表值

1.平均数:
① 算术平均数
简单算术平均数
1
x
n
n
x
i
i 1
m
加权算术平均数 x 
f
i
xi
i 1
m
f
i 1
i


②几何平均数
未分组资料

n
1
ln x g   ln xi
n i 1

分组资料

n
1
ln xg   f i ln xi
n i 1

xg 
n
xn
x0
下表为各国原煤生产量,计算年平均发展速度
(单位:104t)
1960
1965
1970
1975
1980
前苏联
37492
42788
43271
48467
49299
中国
39152
47528
55039
57590
71446
波兰
10444
11883
14010
17162
19311
德国
14325
13546
11634
9675
8714
xn前苏联 
20
49299
 1.0138 或 101.38%
37492
xn美国 
20
71446
 1.0305 或 103.05%
39152
xn波兰 
20
19311
 1.0312 或 103.12%
10444
xn德国 
20
8714
 0.9755 或 97.55%
14325
对于分组资料,可按下式计算:
xn  x x  x
n
f1
1
f2
2
1
或: ln xn 
N
fn
n
n
f
i 1
i
ln xi
2.中位数(也称中央数):将地理数据按从大到
小排列,居中间位置的那个数.
① 对于未分组的地理数据:
当样本数n为奇数时,中位数是位置排在第
(n+1)/2位的数据:me  x n1
2
例如现有某地九年年平均气温资料,如下表:
原始数据
4.8
5.0
4.5
3.9
4.7
5.1
4.4
4.6
5.2
按大小顺
序排列
5.2
5.1
5.0
4.8
4.7
4.6
4.5
4.4
3.9
me  x n1  x91  x5  4.7C
2
2
当样本数n为偶数时,中位数是排在中间位置
1
的两个数据平均数:me  ( x n  x n )
2
2
2
1
例如,某地八年季节性冻土深度,如下表:
原始数据
50
51
53.5
53
53.6
52
57
58
按大小顺
序排列
58
57
53.6
53.5
53
52
51
50
1
1
1
me  ( x n  x n )  ( x 8  x 8 )  (53.5  53)  53.3m m
1
1
2 2
2 2
2
2
2
② 对于分组的地理数据: 确定中位数所在的
组位置,可按下式计算中位数:
1 n
f i  f m 1

2 i 1
M e  Lme  h 
fm
lme 是中位数所在组的下限值
f m 1是中位数所在组的前一组的累积频数
f m是中位数所在组的频数
h为组距
3.众数:是变量序列中出现频数(次数)最多的数.
计算方法 分为以下两种情况:
① 未分组的地理数据,可以根据每一个数据出现的频
数大小直接确定众数。
② 对于已经分组的地理数据,众数的计算步骤如下:
a.确定频数最多的组为众数所在组。
b.按以下公式计算众数:
f m1
M 0  lm 0  h 
f m1  f m1
lm 0  众数所在组的下限值,
f m 1  众数所在组的前一组的频数
f m 1  众数所在组的后一组的频数
h为  众数所在组组距
例1:下表给出了某农场各农田地块的面积,试计算其平均
值、中位数和众数。
地块
编号
1
2
3
4
5
6
7
8
9
10
11
面积 12
(h
a)
83
50
35
55
50
72
40
85
29
65
应按照未分组数据计算其平均值(54.25)、中位数
(52.5)和众数(50),
12
75
例2:下表给出了中国西部地区某城市2000年家庭月收入的抽
样调查结果,试计算其平均值、中位数和众数。
家庭月收入分组(元)
户数
累计频数
2000~3000
300
300
3000~4000
1300
1600
4000~5000
200
1800
5000~6000
150
1950
6000~7000
100
2050
7000~8000
50
2100
8000~9000
30
2130
合 计
2130
—
解题步骤:

用公式(2.4.2)计算平均数:
x  3899.06(元)
 计算中位数。先确定中位数所在组的位置,再按
照(2.4.3)计算中位数Me =2588.46(元),或
者按(2.4.4)计算中位数。
 计算众数。先确定众数所在组。再按照公式
(2.4.5)计算众数。首先确定众数所在组。显
然,众数所在组应该在第二组。再按照公式
(2.4.5)计算众数M0 =3476.19 (元),或者按
照公式(2.4.6)计算众数(元)。
比较平均数、中位数和众数的相对位置
关系



x  me  m0 x  me  m0 x  me  m0
x
偏倚性的三种情形
(二)离散性的代表值
1.绝对离散度
(1)离差(偏差、离均差):
指每一个地理数据与平均值的差,代表
每一个数据与平均值的离散程度。计算公
式为:
di  xi  x
例如,朝阳县和固原县1961~1970年间的
降水量离差表,如下表:
离差表
年份
朝
阳
固
原
1961
1962
1963
1964
1965
1966
1967
1968
1969
1970
多年平均
降水量
年降
水
412.0
633.7
608.0
606.3
520.5
436.2
402.7
371.9
692.8
526.3
474.9
离差
-62.9
158.8
133.1
131.4
45.6
-38.7
-72.2
-103.0
217.9
51.4
年降
水
732.4
412.5
373.4
766.4
475.9
619.2
515.6
501.1
352.6
434.2
离差
257.6
-62.3
-101.4
291.6
1.1
144.4
40.8
26.3
-122.2
-40.6
(2)离差平方和:
它从总体上衡量一组地理数据与平均值的离
2
n
散程度,其计算公式为: d 2   ( x  x)
i 1
i
474.8
(3)方差
各离差平方和除以其数据的个数。
总体方差计算公式为:
n
1
2
   ( x  x) 2
ni 1 i
样本方差计算公式为:
n
1
2
2
S 
(
x

x
)

n 1 i  1 i
(4)标准差
总体标准差(方差的平方根),计算公式为:
 
1
n
n

( xi  x) 2
i 1
样本标准差计算公式为:
n
S 

( xi  x ) 2
i 1
n 1
式中 n-1称为自由度
1.设一个样本含有n个变量,都同样用来计算标准

差,每一个 x i与 x比较都有一个离差。但均
值也是从样本资料中估算出来的,即由每一个
变量与自身的1/n做比较,实际上相当与n-1个
比较。

2.样本方差受  ( xi  x)  0 的约束,在n个离差之
中只有n-1个离差可以自由取值。
2.相对离散度
变异系数(或离差系数、变差系数),
简记作(Cv):表示了地理数据的相对变化
(波动)程度,其计算公式为:
n
S
1
Cv   100%  
x
x
 (x
i 1
i
 x)
n 1
2
 100%
例:对于下表中的数据,分别计算极差、离差、
离差平方和、方差、标准差、标准差的无偏
估计,以及变异系数。
序
号
1
2
3
4
5
6
7
8
9
10
11
12
12
83
50
35
55
50
72
40
85
29
65
75
-42.25
28.75
-4.25
-19.25
0.75
-4.25
17.75
-14.25
30.75
-25.25
10.75
20.75
步骤:

计算离差平方和:
d
2
12
  d i  5666 .25
i 1
1

d 2  472 .19
12

计算方差:


计算标准差:
   2  472.19  21.73
2



d2
 22.70
12  1
计算标准差的无偏估 S 
计(样本标准差):
S
Cv 
 100%
计算变异系数:
x
例:变异系数的一个应用实例--中国经济发展
水平的省际差异分析
以xi 代表中国各省(市、自治区)的人均GDP,则计
算得到的变异系数Cv 就测度了中国经济发展水平的省际
差异。
图2.4.5 1978—1999年中国省际经济发展水平的变异系数
1998
1996
1994
1992
1990
1988
1986
1984
1982
1980
1978
140.00%
130.00%
120.00%
110.00%
100.00%
90.00%
80.00%
70.00%
60.00%
50.00%
结果分析:

变差系数由1978年的117.64%减小到1990年的
66.82%,然后再增加到1999年的76.66%。

在1978~1990年期间,中国经济发展水平的省际差
异呈缩小趋势,而1990~1999年期间则呈扩大趋势。

国家区域发展政策的实施对省际经济发展差异的变
化有很大的影响。
三.地理数据库
(一) 数据库
数据库理论上定义为贮存的数据集合,它采用多个系统或
程序能共同使用的形式贮存数据.
(二) 地理数据库的建立
地理数据库主要包括以下几个部分:
1.计算机硬件设备
2.地理数据库软件—数据库管理系统(DBMS)
(1) 建立数据库命令
(2) 添加数据命令
(3) 删除数据命令
(4) 修改数据命令
(5) 检索数据命令
3.地理数据文件
4.地理数据库应用程序
地理数据库建立步骤包括:
(1)用户需求调查
(2)系统分析
(3)系统设计
(4)系统调试与运行