第二章

Transcript 第二章

第一章地理数据系统
地理数据类型及其变换
地理数据的分布特征
地理数据库
一.地理数据类型及其变换
(一) 地理数据的基本类型
空间数据：用于描述地理实体、地理要素、地理
现象、地理事件及地理过程产生、存在和发展的
地理位置、区域范围及空间联系。
属性数据：用于描述地理实体、地理要素、地理
现象、地理事件、地理过程的有关属性特征。
空间数据的表达：

点——由一个独立的坐标点（x，y）定位，是空
间上不可再分的几何实体。

线——由若干个（至少两个，理论上是无穷个）
坐标点（xi，yi）（i =1，2，…）定义，有一定
的长度和走向，表示线状地物或点实体之间的联
系。

面——表示在空间上连续分布的地理景观或区域。
三种基本的地理几何实体及其组合
点
网络
地域类型
区域
线
地带
面
(二)、地理数据的变换
是将原始数据的每个数据通过某种特定的运
算把它们变成一个新的数值，而且数值的变化不
依赖于数据集合中其他数据的数值。
变换方式:对数变换、开（立）方平方变换、
倒数变换、概率变换、模数变换、指数变换、滑
动平均变换、差分算子法、累加（减）生成数法
变换目的：去伪存真、易识规律、减少变幅、
便于建模等。
我国工农业生产总值（单位：亿元）
年代
1961
1965
1970
1975
1980
1985
1986
工业总
产值
1621
2235
3138
4467
7077
13336
15207
lnx
7.3098 7.7120 8.0513 8.4045 8.8646 9.4982 9.6295
二.地理数据的分布特征
(一) 地理数据的来源与整理
地理数据的渠道来源 :
① 来自于观测、测量部门的有关专业数据。
② 来自于统计年鉴、统计公报中的有关自然
资源及社会经济发展数据。
③ 来自于有关单位或个人的不定期的典型调
查数据、抽样调查数据。
④ 来自于政府公报、政府文件中的有关数
据。
⑤来自于档案、图书等文献资料中的有关数据。
⑥来自于互联网（Internet）的有关共享数据。
⑦地图图件。主要包括各种比例尺的地形图、
影像地图、专题地图等。
⑧遥感数据。主要包括各种航空遥感数据和卫
星遥感数据。
⑨其它来源的有关数据。
整理的基本步骤:
1.检查资料
2.统计分组
3.绘制图表
举例说明:
上海市年降水量表(单位:mm)
974.8
1002.6 1588.1
770.7
1008.9 1206.8 1271.5 1101.9 1341.2 1331.0
1085.4 1184.4 1113.4 1203.9 1170.7
975.4
1462.3
1147.5
849.9
1233.4 1008.6 1063.8 1004.9
935.0
1016.3 1031.6 1105.7
947.8
1416.0
709.2
1086.2 1022.5 1330.9 1439.4 1236.5 1088.1 1288.7 1115.8 1217.5 1320.7
1078.1 1203.4 1480.0 1269.9 1049.2 1318.4 1192.0 1016.0 1508.2 1159.6
1021.3
986.1
794.7
1318.3 1171.2
1003.2
840.4
1061.4
958.0
1123.3
910.2
1398.5 1208.6 1305.5 1242.1 1572.3 1416.9 1253.8 1282.3
982.1
1388.5 1057.5 1282.8 1472.7 1011.7 1214.8 1193.4 1139.5 1012.4
1237.6
903.5
1025.5 1121.8
1143.8 1602.0
951.4
1025.2 1265.0 1196.5 1120.7 1659.3
942.7
807.8
1161.7
815.6
791.2
1180.1 1105.0
989.4
900.8
第一步: 求变数的全距R
所谓全距(或称极差),就是地理数据中的最
大值与最小值之差: R  xmax  xmin
由上表可知:
R  xmax  xmin  1659.3  709.2  950.1mm
第二步: 确定组数n , 按 Sturges公式计算:
n  1 3.32lg N
或查下表:
N
32
64
128
256
512
1024
2048
4096
8192
n
6
7
8
9
10
11
12
13
14
可确定组数为8
第三步计算组距h :
950 .1
h  R/n 
 118 .7  119
8
第四步确定组限
组限是指组的界限,即组距两端的数值。数值
小的为起点数值，称为下限；数值大的为终点数
值，称为上限。
第一组的下限值，可从样本数据最小值中减去1/2
的组距求得，
下限为： 709 .2  1 119  649 .7
2
其上限等于下限值再加上组距，即：
649 .7  119  768 .7mm
组序
设定组限
修订组限
组中值
1
649.7～768.7
649.7～768..6
709.2
2
768.7 ～887.7
768.7 ～887.6
828.2
3
887.7 ～1006.7
887.7 ～1006.6
947.2
4
1006.7 ～1125.7
1006.7 ～1125.6
1066.2
5
1125.7 ～1244.7
1125.7 ～1244.6
1185.2
6
1244.7 ～1363.7
1244.7 ～1363.6
1304.2
7
1363.7 ～1482.7
1363.7 ～1482.6
1423.2
8
1482.7 ～1601.7
1482.7 ～1601.6
1542.2
9
1601.7 ～1720.7
1601.7 ～1720.6
1661.2
第五步计算组中值m
m  下限  上限 / 2 （649.7  768.6) / 2  709.2mm
频数分布表:
组序
组距h
组中值m
1
649.7～768..6
2
频数分布
累积频数分布
频数f
频率%
累积频数F
累积频率%
709.2
1
1
1
1
768.7 ～887.6
828.2
7
7
8
8
3
887.7 ～1006.6
947.2
16
16
24
24
4
1006.7 ～1125.6
1066.2
27
27
51
51
5
1125.7 ～1244.6
1185.2
22
22
73
73
6
1244.7 ～1363.6
1304.2
14
14
87
87
7
1363.7 ～1482.6
1423.2
8
8
95
95
8
1482.7 ～1601.6
1542.2
3
3
98
98
9
1601.7 ～1720.6
1661.2
2
2
100
100
2
2
2
2
13
14
15
16
频数分布直方图
2
61
.
42
.
23
.
04
.
85
.
2
11
66
.
10
7.
2
94
8.
2
82
9.
2
70
频数表
30
20
10
0
频数表
16
61
.2
14
23
.2
11
85
.2
94
7.
2
70
9.
2
30
25
20
15
10
5
0
系列1
频数分布多边形图
累积频数表
120
累积频率
100
80
60
40
20
0
709.2
828.2
947.2
1066.2
1185.2
组中值
累积频数(率)图
1304.2
1423.2
1542.2
1661.2
(二) 地理数据的分布特征值
（一）集中性的代表值

1.平均数：
① 算术平均数
简单算术平均数
1
x
n
n
x
i
i 1
m
加权算术平均数 x 
f
i
xi
i 1
m
f
i 1
i


②几何平均数
未分组资料

n
1
ln x g   ln xi
n i 1

分组资料

n
1
ln xg   f i ln xi
n i 1

xg 
n
xn
x0
下表为各国原煤生产量，计算年平均发展速度
(单位:104t)
1960
1965
1970
1975
1980
前苏联
37492
42788
43271
48467
49299
中国
39152
47528
55039
57590
71446
波兰
10444
11883
14010
17162
19311
德国
14325
13546
11634
9675
8714
xn前苏联 
20
49299
 1.0138 或 101.38%
37492
xn美国 
20
71446
 1.0305 或 103.05%
39152
xn波兰 
20
19311
 1.0312 或 103.12%
10444
xn德国 
20
8714
 0.9755 或 97.55%
14325
对于分组资料，可按下式计算：
xn  x x  x
n
f1
1
f2
2
1
或： ln xn 
N
fn
n
n
f
i 1
i
ln xi
2.中位数(也称中央数):将地理数据按从大到
小排列,居中间位置的那个数.
① 对于未分组的地理数据:
当样本数n为奇数时，中位数是位置排在第
(n+1)/2位的数据：me  x n1
2
例如现有某地九年年平均气温资料，如下表：
原始数据
4.8
5.0
4.5
3.9
4.7
5.1
4.4
4.6
5.2
按大小顺
序排列
5.2
5.1
5.0
4.8
4.7
4.6
4.5
4.4
3.9
me  x n1  x91  x5  4.7C
2
2
当样本数n为偶数时，中位数是排在中间位置
1
的两个数据平均数：me  ( x n  x n )
2
2
2
1
例如，某地八年季节性冻土深度，如下表：
原始数据
50
51
53.5
53
53.6
52
57
58
按大小顺
序排列
58
57
53.6
53.5
53
52
51
50
1
1
1
me  ( x n  x n )  ( x 8  x 8 )  (53.5  53)  53.3m m
1
1
2 2
2 2
2
2
2
② 对于分组的地理数据: 确定中位数所在的
组位置,可按下式计算中位数:
1 n
f i  f m 1

2 i 1
M e  Lme  h 
fm
lme 是中位数所在组的下限值
f m 1是中位数所在组的前一组的累积频数
f m是中位数所在组的频数
h为组距
3.众数:是变量序列中出现频数(次数)最多的数.
计算方法分为以下两种情况:
① 未分组的地理数据，可以根据每一个数据出现的频
数大小直接确定众数。
② 对于已经分组的地理数据，众数的计算步骤如下：
a.确定频数最多的组为众数所在组。
b.按以下公式计算众数:
f m1
M 0  lm 0  h 
f m1  f m1
lm 0  众数所在组的下限值，
f m 1  众数所在组的前一组的频数
f m 1  众数所在组的后一组的频数
h为  众数所在组组距
例1：下表给出了某农场各农田地块的面积，试计算其平均
值、中位数和众数。
地块
编号
1
2
3
4
5
6
7
8
9
10
11
面积 12
（h
a）
83
50
35
55
50
72
40
85
29
65
应按照未分组数据计算其平均值(54.25)、中位数
(52.5)和众数(50)，
12
75
例2:下表给出了中国西部地区某城市2000年家庭月收入的抽
样调查结果，试计算其平均值、中位数和众数。
家庭月收入分组（元）
户数
累计频数
2000～3000
300
300
3000～4000
1300
1600
4000～5000
200
1800
5000～6000
150
1950
6000～7000
100
2050
7000～8000
50
2100
8000～9000
30
2130
合计
2130
—
解题步骤:

用公式（2.4.2）计算平均数:
x  3899.06(元)
 计算中位数。先确定中位数所在组的位置，再按
照（2.4.3）计算中位数Me =2588.46（元），或
者按（2.4.4）计算中位数。
 计算众数。先确定众数所在组。再按照公式
（2.4.5）计算众数。首先确定众数所在组。显
然，众数所在组应该在第二组。再按照公式
（2.4.5）计算众数M0 =3476.19 （元），或者按
照公式（2.4.6）计算众数（元）。
比较平均数、中位数和众数的相对位置
关系



x  me  m0 x  me  m0 x  me  m0
x
偏倚性的三种情形
（二）离散性的代表值
1.绝对离散度
（1）离差（偏差、离均差）：
指每一个地理数据与平均值的差，代表
每一个数据与平均值的离散程度。计算公
式为：
di  xi  x
例如，朝阳县和固原县1961~1970年间的
降水量离差表，如下表：
离差表
年份
朝
阳
固
原
1961
1962
1963
1964
1965
1966
1967
1968
1969
1970
多年平均
降水量
年降
水
412.0
633.7
608.0
606.3
520.5
436.2
402.7
371.9
692.8
526.3
474.9
离差
－62.9
158.8
133.1
131.4
45.6
－38.7
－72.2
－103.0
217.9
51.4
年降
水
732.4
412.5
373.4
766.4
475.9
619.2
515.6
501.1
352.6
434.2
离差
257.6
－62.3
－101.4
291.6
1.1
144.4
40.8
26.3
－122.2
－40.6
（2）离差平方和：
它从总体上衡量一组地理数据与平均值的离
2
n
散程度，其计算公式为: d 2   ( x  x)
i 1
i
474.8
（3）方差
各离差平方和除以其数据的个数。
总体方差计算公式为:
n
1
2
   ( x  x) 2
ni 1 i
样本方差计算公式为：
n
1
2
2
S 
(
x

x
)

n 1 i  1 i
（4）标准差
总体标准差(方差的平方根)，计算公式为:
 
1
n
n

( xi  x) 2
i 1
样本标准差计算公式为:
n
S 

( xi  x ) 2
i 1
n 1
式中 n-1称为自由度
1.设一个样本含有n个变量，都同样用来计算标准

差，每一个 x i与 x比较都有一个离差。但均
值也是从样本资料中估算出来的，即由每一个
变量与自身的1/n做比较，实际上相当与n-1个
比较。

2.样本方差受  ( xi  x)  0 的约束，在n个离差之
中只有n-1个离差可以自由取值。
2.相对离散度
变异系数（或离差系数、变差系数），
简记作（Cv）:表示了地理数据的相对变化
（波动）程度，其计算公式为:
n
S
1
Cv   100%  
x
x
 (x
i 1
i
 x)
n 1
2
 100%
例:对于下表中的数据，分别计算极差、离差、
离差平方和、方差、标准差、标准差的无偏
估计，以及变异系数。
序
号
1
2
3
4
5
6
7
8
9
10
11
12
12
83
50
35
55
50
72
40
85
29
65
75
-42.25
28.75
-4.25
-19.25
0.75
-4.25
17.75
-14.25
30.75
-25.25
10.75
20.75
步骤:

计算离差平方和:
d
2
12
  d i  5666 .25
i 1
1

d 2  472 .19
12

计算方差：


计算标准差：
   2  472.19  21.73
2



d2
 22.70
12  1
计算标准差的无偏估 S 
计(样本标准差)：
S
Cv 
 100%
计算变异系数：
x
例:变异系数的一个应用实例--中国经济发展
水平的省际差异分析
以xi 代表中国各省（市、自治区）的人均GDP，则计
算得到的变异系数Cv 就测度了中国经济发展水平的省际
差异。
图2.4.5 1978—1999年中国省际经济发展水平的变异系数
1998
1996
1994
1992
1990
1988
1986
1984
1982
1980
1978
140.00%
130.00%
120.00%
110.00%
100.00%
90.00%
80.00%
70.00%
60.00%
50.00%
结果分析:

变差系数由1978年的117.64%减小到1990年的
66.82%，然后再增加到1999年的76.66%。

在1978～1990年期间，中国经济发展水平的省际差
异呈缩小趋势，而1990～1999年期间则呈扩大趋势。

国家区域发展政策的实施对省际经济发展差异的变
化有很大的影响。
三.地理数据库
(一) 数据库
数据库理论上定义为贮存的数据集合,它采用多个系统或
程序能共同使用的形式贮存数据.
(二) 地理数据库的建立
地理数据库主要包括以下几个部分:
1.计算机硬件设备
2.地理数据库软件—数据库管理系统(DBMS)
(1) 建立数据库命令
(2) 添加数据命令
(3) 删除数据命令
(4) 修改数据命令
(5) 检索数据命令
3.地理数据文件
4.地理数据库应用程序
地理数据库建立步骤包括:
(1)用户需求调查
(2)系统分析
(3)系统设计
(4)系统调试与运行

第二章

Transcript 第二章

Directory