Transcript 第二章
第一章 地理数据系统 地理数据类型及其变换 地理数据的分布特征 地理数据库 一.地理数据类型及其变换 (一) 地理数据的基本类型 空间数据:用于描述地理实体、地理要素、地理 现象、地理事件及地理过程产生、存在和发展的 地理位置、区域范围及空间联系。 属性数据:用于描述地理实体、地理要素、地理 现象、地理事件、地理过程的有关属性特征。 空间数据的表达: 点——由一个独立的坐标点(x,y)定位,是空 间上不可再分的几何实体 。 线——由若干个(至少两个,理论上是无穷个) 坐标点(xi,yi)(i =1,2,…)定义,有一定 的长度和走向,表示线状地物或点实体之间的联 系。 面——表示在空间上连续分布的地理景观或区域。 三种基本的地理几何实体及其组合 点 网络 地域类型 区域 线 地带 面 (二)、地理数据的变换 是将原始数据的每个数据通过某种特定的运 算把它们变成一个新的数值,而且数值的变化不 依赖于数据集合中其他数据的数值。 变换方式:对数变换、开(立)方平方变换、 倒数变换、概率变换、模数变换、指数变换、滑 动平均变换、差分算子法、累加(减)生成数法 变换目的:去伪存真、易识规律、减少变幅、 便于建模等。 我国工农业生产总值(单位:亿元) 年代 1961 1965 1970 1975 1980 1985 1986 工业总 产值 1621 2235 3138 4467 7077 13336 15207 lnx 7.3098 7.7120 8.0513 8.4045 8.8646 9.4982 9.6295 二.地理数据的分布特征 (一) 地理数据的来源与整理 地理数据的渠道来源 : ① 来自于观测、测量部门的有关专业数据。 ② 来自于统计年鉴、统计公报中的有关自然 资源及社会经济发展数据。 ③ 来自于有关单位或个人的不定期的典型调 查数据、抽样调查数据。 ④ 来自于政府公报、政府文件中的有关数 据。 ⑤来自于档案、图书等文献资料中的有关数据。 ⑥来自于互联网(Internet)的有关共享数据。 ⑦地图图件。主要包括各种比例尺的地形图、 影像地图、专题地图等。 ⑧遥感数据。主要包括各种航空遥感数据和卫 星遥感数据。 ⑨其它来源的有关数据。 整理的基本步骤: 1.检查资料 2.统计分组 3.绘制图表 举例说明: 上海市年降水量表(单位:mm) 974.8 1002.6 1588.1 770.7 1008.9 1206.8 1271.5 1101.9 1341.2 1331.0 1085.4 1184.4 1113.4 1203.9 1170.7 975.4 1462.3 1147.5 849.9 1233.4 1008.6 1063.8 1004.9 935.0 1016.3 1031.6 1105.7 947.8 1416.0 709.2 1086.2 1022.5 1330.9 1439.4 1236.5 1088.1 1288.7 1115.8 1217.5 1320.7 1078.1 1203.4 1480.0 1269.9 1049.2 1318.4 1192.0 1016.0 1508.2 1159.6 1021.3 986.1 794.7 1318.3 1171.2 1003.2 840.4 1061.4 958.0 1123.3 910.2 1398.5 1208.6 1305.5 1242.1 1572.3 1416.9 1253.8 1282.3 982.1 1388.5 1057.5 1282.8 1472.7 1011.7 1214.8 1193.4 1139.5 1012.4 1237.6 903.5 1025.5 1121.8 1143.8 1602.0 951.4 1025.2 1265.0 1196.5 1120.7 1659.3 942.7 807.8 1161.7 815.6 791.2 1180.1 1105.0 989.4 900.8 第一步: 求变数的全距R 所谓全距(或称极差),就是地理数据中的最 大值与最小值之差: R xmax xmin 由上表可知: R xmax xmin 1659.3 709.2 950.1mm 第二步: 确定组数n , 按 Sturges公式计算: n 1 3.32lg N 或查下表: N 32 64 128 256 512 1024 2048 4096 8192 n 6 7 8 9 10 11 12 13 14 可确定组数为8 第三步 计算组距h : 950 .1 h R/n 118 .7 119 8 第四步 确定组限 组限是指组的界限,即组距两端的数值。数值 小的为起点数值,称为下限;数值大的为终点数 值,称为上限。 第一组的下限值,可从样本数据最小值中减去1/2 的组距求得, 下限为: 709 .2 1 119 649 .7 2 其上限等于下限值再加上组距,即: 649 .7 119 768 .7mm 组 序 设定组限 修订组限 组中值 1 649.7~768.7 649.7~768..6 709.2 2 768.7 ~887.7 768.7 ~887.6 828.2 3 887.7 ~1006.7 887.7 ~1006.6 947.2 4 1006.7 ~1125.7 1006.7 ~1125.6 1066.2 5 1125.7 ~1244.7 1125.7 ~1244.6 1185.2 6 1244.7 ~1363.7 1244.7 ~1363.6 1304.2 7 1363.7 ~1482.7 1363.7 ~1482.6 1423.2 8 1482.7 ~1601.7 1482.7 ~1601.6 1542.2 9 1601.7 ~1720.7 1601.7 ~1720.6 1661.2 第五步 计算组中值m m 下限 上限 / 2 (649.7 768.6) / 2 709.2mm 频数分布表: 组序 组距h 组中值m 1 649.7~768..6 2 频数分布 累积频数分布 频数f 频率% 累积频数F 累积频率% 709.2 1 1 1 1 768.7 ~887.6 828.2 7 7 8 8 3 887.7 ~1006.6 947.2 16 16 24 24 4 1006.7 ~1125.6 1066.2 27 27 51 51 5 1125.7 ~1244.6 1185.2 22 22 73 73 6 1244.7 ~1363.6 1304.2 14 14 87 87 7 1363.7 ~1482.6 1423.2 8 8 95 95 8 1482.7 ~1601.6 1542.2 3 3 98 98 9 1601.7 ~1720.6 1661.2 2 2 100 100 2 2 2 2 13 14 15 16 频数分布直方图 2 61 . 42 . 23 . 04 . 85 . 2 11 66 . 10 7. 2 94 8. 2 82 9. 2 70 频数表 30 20 10 0 频数表 16 61 .2 14 23 .2 11 85 .2 94 7. 2 70 9. 2 30 25 20 15 10 5 0 系列1 频数分布多边形图 累积频数表 120 累积频率 100 80 60 40 20 0 709.2 828.2 947.2 1066.2 1185.2 组中值 累积频数(率)图 1304.2 1423.2 1542.2 1661.2 (二) 地理数据的分布特征值 (一)集中性的代表值 1.平均数: ① 算术平均数 简单算术平均数 1 x n n x i i 1 m 加权算术平均数 x f i xi i 1 m f i 1 i ②几何平均数 未分组资料 n 1 ln x g ln xi n i 1 分组资料 n 1 ln xg f i ln xi n i 1 xg n xn x0 下表为各国原煤生产量,计算年平均发展速度 (单位:104t) 1960 1965 1970 1975 1980 前苏联 37492 42788 43271 48467 49299 中国 39152 47528 55039 57590 71446 波兰 10444 11883 14010 17162 19311 德国 14325 13546 11634 9675 8714 xn前苏联 20 49299 1.0138 或 101.38% 37492 xn美国 20 71446 1.0305 或 103.05% 39152 xn波兰 20 19311 1.0312 或 103.12% 10444 xn德国 20 8714 0.9755 或 97.55% 14325 对于分组资料,可按下式计算: xn x x x n f1 1 f2 2 1 或: ln xn N fn n n f i 1 i ln xi 2.中位数(也称中央数):将地理数据按从大到 小排列,居中间位置的那个数. ① 对于未分组的地理数据: 当样本数n为奇数时,中位数是位置排在第 (n+1)/2位的数据:me x n1 2 例如现有某地九年年平均气温资料,如下表: 原始数据 4.8 5.0 4.5 3.9 4.7 5.1 4.4 4.6 5.2 按大小顺 序排列 5.2 5.1 5.0 4.8 4.7 4.6 4.5 4.4 3.9 me x n1 x91 x5 4.7C 2 2 当样本数n为偶数时,中位数是排在中间位置 1 的两个数据平均数:me ( x n x n ) 2 2 2 1 例如,某地八年季节性冻土深度,如下表: 原始数据 50 51 53.5 53 53.6 52 57 58 按大小顺 序排列 58 57 53.6 53.5 53 52 51 50 1 1 1 me ( x n x n ) ( x 8 x 8 ) (53.5 53) 53.3m m 1 1 2 2 2 2 2 2 2 ② 对于分组的地理数据: 确定中位数所在的 组位置,可按下式计算中位数: 1 n f i f m 1 2 i 1 M e Lme h fm lme 是中位数所在组的下限值 f m 1是中位数所在组的前一组的累积频数 f m是中位数所在组的频数 h为组距 3.众数:是变量序列中出现频数(次数)最多的数. 计算方法 分为以下两种情况: ① 未分组的地理数据,可以根据每一个数据出现的频 数大小直接确定众数。 ② 对于已经分组的地理数据,众数的计算步骤如下: a.确定频数最多的组为众数所在组。 b.按以下公式计算众数: f m1 M 0 lm 0 h f m1 f m1 lm 0 众数所在组的下限值, f m 1 众数所在组的前一组的频数 f m 1 众数所在组的后一组的频数 h为 众数所在组组距 例1:下表给出了某农场各农田地块的面积,试计算其平均 值、中位数和众数。 地块 编号 1 2 3 4 5 6 7 8 9 10 11 面积 12 (h a) 83 50 35 55 50 72 40 85 29 65 应按照未分组数据计算其平均值(54.25)、中位数 (52.5)和众数(50), 12 75 例2:下表给出了中国西部地区某城市2000年家庭月收入的抽 样调查结果,试计算其平均值、中位数和众数。 家庭月收入分组(元) 户数 累计频数 2000~3000 300 300 3000~4000 1300 1600 4000~5000 200 1800 5000~6000 150 1950 6000~7000 100 2050 7000~8000 50 2100 8000~9000 30 2130 合 计 2130 — 解题步骤: 用公式(2.4.2)计算平均数: x 3899.06(元) 计算中位数。先确定中位数所在组的位置,再按 照(2.4.3)计算中位数Me =2588.46(元),或 者按(2.4.4)计算中位数。 计算众数。先确定众数所在组。再按照公式 (2.4.5)计算众数。首先确定众数所在组。显 然,众数所在组应该在第二组。再按照公式 (2.4.5)计算众数M0 =3476.19 (元),或者按 照公式(2.4.6)计算众数(元)。 比较平均数、中位数和众数的相对位置 关系 x me m0 x me m0 x me m0 x 偏倚性的三种情形 (二)离散性的代表值 1.绝对离散度 (1)离差(偏差、离均差): 指每一个地理数据与平均值的差,代表 每一个数据与平均值的离散程度。计算公 式为: di xi x 例如,朝阳县和固原县1961~1970年间的 降水量离差表,如下表: 离差表 年份 朝 阳 固 原 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 多年平均 降水量 年降 水 412.0 633.7 608.0 606.3 520.5 436.2 402.7 371.9 692.8 526.3 474.9 离差 -62.9 158.8 133.1 131.4 45.6 -38.7 -72.2 -103.0 217.9 51.4 年降 水 732.4 412.5 373.4 766.4 475.9 619.2 515.6 501.1 352.6 434.2 离差 257.6 -62.3 -101.4 291.6 1.1 144.4 40.8 26.3 -122.2 -40.6 (2)离差平方和: 它从总体上衡量一组地理数据与平均值的离 2 n 散程度,其计算公式为: d 2 ( x x) i 1 i 474.8 (3)方差 各离差平方和除以其数据的个数。 总体方差计算公式为: n 1 2 ( x x) 2 ni 1 i 样本方差计算公式为: n 1 2 2 S ( x x ) n 1 i 1 i (4)标准差 总体标准差(方差的平方根),计算公式为: 1 n n ( xi x) 2 i 1 样本标准差计算公式为: n S ( xi x ) 2 i 1 n 1 式中 n-1称为自由度 1.设一个样本含有n个变量,都同样用来计算标准 差,每一个 x i与 x比较都有一个离差。但均 值也是从样本资料中估算出来的,即由每一个 变量与自身的1/n做比较,实际上相当与n-1个 比较。 2.样本方差受 ( xi x) 0 的约束,在n个离差之 中只有n-1个离差可以自由取值。 2.相对离散度 变异系数(或离差系数、变差系数), 简记作(Cv):表示了地理数据的相对变化 (波动)程度,其计算公式为: n S 1 Cv 100% x x (x i 1 i x) n 1 2 100% 例:对于下表中的数据,分别计算极差、离差、 离差平方和、方差、标准差、标准差的无偏 估计,以及变异系数。 序 号 1 2 3 4 5 6 7 8 9 10 11 12 12 83 50 35 55 50 72 40 85 29 65 75 -42.25 28.75 -4.25 -19.25 0.75 -4.25 17.75 -14.25 30.75 -25.25 10.75 20.75 步骤: 计算离差平方和: d 2 12 d i 5666 .25 i 1 1 d 2 472 .19 12 计算方差: 计算标准差: 2 472.19 21.73 2 d2 22.70 12 1 计算标准差的无偏估 S 计(样本标准差): S Cv 100% 计算变异系数: x 例:变异系数的一个应用实例--中国经济发展 水平的省际差异分析 以xi 代表中国各省(市、自治区)的人均GDP,则计 算得到的变异系数Cv 就测度了中国经济发展水平的省际 差异。 图2.4.5 1978—1999年中国省际经济发展水平的变异系数 1998 1996 1994 1992 1990 1988 1986 1984 1982 1980 1978 140.00% 130.00% 120.00% 110.00% 100.00% 90.00% 80.00% 70.00% 60.00% 50.00% 结果分析: 变差系数由1978年的117.64%减小到1990年的 66.82%,然后再增加到1999年的76.66%。 在1978~1990年期间,中国经济发展水平的省际差 异呈缩小趋势,而1990~1999年期间则呈扩大趋势。 国家区域发展政策的实施对省际经济发展差异的变 化有很大的影响。 三.地理数据库 (一) 数据库 数据库理论上定义为贮存的数据集合,它采用多个系统或 程序能共同使用的形式贮存数据. (二) 地理数据库的建立 地理数据库主要包括以下几个部分: 1.计算机硬件设备 2.地理数据库软件—数据库管理系统(DBMS) (1) 建立数据库命令 (2) 添加数据命令 (3) 删除数据命令 (4) 修改数据命令 (5) 检索数据命令 3.地理数据文件 4.地理数据库应用程序 地理数据库建立步骤包括: (1)用户需求调查 (2)系统分析 (3)系统设计 (4)系统调试与运行