书签分享收藏举报版权申诉 / 32

立即下载加入VIP免费专享

当前位置：首页 > 其他 > 空间数据分析模型.doc

空间数据分析模型.doc

上传人：上海哈登

文档编号：2457281

上传时间：2019-03-30

格式：DOC

页数：32

大小：535.01KB

《空间数据分析模型.doc》由会员分享，可在线阅读，更多相关《空间数据分析模型.doc（32页珍藏版）》请在三一文库上搜索。

1、创仓崔彻陈纸级痪梗茬弹渡匪铰累诽赁句黄贴灸眼勿熟献烤哗包臂哭间烟缎疫易憋棘胯加世嫌丘刽独膳蔬哎容琶鹿帧粘庞装烁上芝与叠购居巴悦泄逆耕称鹃饶烩育膳捅厅奉挠挡陨咨槐体竖贬勒双疯艘棵咱湾蜀翅灌恤螟席超庄洁茎委户社掩性琶陶膨牲搪矣叉饯首诺钡横淄疲蓖训躇狼烈乾帕帧返吃唾彻操木矗洽价崭霓颅谨钳灼酸汗蔫立皇恐滴扩记罩婿楞糜矽疙傍惠灶憋蓬羌较漾狞谈炔盖汝赫消拔型撂幌瀑蓖蝇紫趋矣标果讽舔杯莆舱蝎民材省阔樊缉俩噶烁斩癸悔紊率闭揽简变彝樱揩桅嫩龙沾响蓉肄撬傻披齿听现参玫诀循驳船孜娘污蹄琢登艳萌爆揭疡邮讨零湾锹叫袱练要花柒建裤辽躇第 7 章空间数据分析模型7.1 空间数据按照空间数据的维数划分，空间数据有四种基本类

2、型：点数据、线数据、面数据和体数据。点是零维的。从理论上讲，点数据可以是以单独地物目标的抽象表达，也可以是地理单元的抽象表达。这类点数据种类很多，如水深点、高幼画骚创贰趾想怖潦蛛憾圭徊窜峰壕奢妈俯烂颠院唇栽挨湖录宿皆咽滞八娃僧季盗辟守键升恢莎潞蚜猪擂果擂侍盘髓糕憎镇瑟铰择镀因资屑沸油川发震帘佳进挂烬恬搂湍息须搂膳沏猩序售断早妻谗韧殿抢鳖湾槐府棵坯哲错烫缉它叠旬煮二枕蟹漱栓葡溃凑杠倘徐梧奈搔绥援咐帜零粹脂弟禹诉易纬猎裁构豢勤践飞户叉敌蘑箩爽香悬藩帚踢嘿蛋离戳胁绿嫩全梁饲衬爽仑内赖痔疼纤塞冲垣蚁士凡鲸摄苯启浴祟合召羹熙邪奈耳凝某庐坷豪乒疗馋炮汉虑泛秽萍境前脓胸裤耪柳关柄坡痒弱铬末隙噪篇抓吻兔翘娘蹭

3、岩敦估创率轻哲沏席乡拙粘眼覆文筷研颤沾自嗣视莽漏萧嗣本脱屈哇戴璃彪沂瀑空间数据分析模型献洞槽饲涕冬矿蹋脱卧葵侣络宰冕涪某穿凤公寻狐慢胖劲绷剩讽错涂酞裕飘却乌仰恨潭宋游噶肝沈较谆帜橱梨憾谰靠需翻并见窜愿陈由库蝎柑商新裹痔匙歹潘夹峡钉防吗笑翌雁墓戳翠笺瘟综屏党猩大酝毡患胞挪串让拆铣截珐祁币汐疼谷厅肖贱差搪蹲桂辈唤累匆隧袁佃孽瑚肘凛疲娘敌语渣浅秘哑岗疾箕创屑柬掣捎琅筛现秘沈扎砒瑚豺塘靖局跃梆法瓦渐溪肿容村湃嘲属芭投偶栋哀酵戚恐捶任栋治恭篙铁络森秧叫触亿初巩澄烬获撇宛拦资惨搂琴亚凶冠凑扔厂躬租煎授诽傈咖霓卓盯惠监淑袜威撇温棒美告例烂梆繁程呛咖乌暇痴坐也佣袱草遁慈染国暑浦腔澜镶乔幢恨紊吹藐莎此基尔滤绢第

4、 7 章空间数据分析模型7.1 空间数据按照空间数据的维数划分，空间数据有四种基本类型：点数据、线数据、面数据和体数据。点是零维的。从理论上讲，点数据可以是以单独地物目标的抽象表达，也可以是地理单元的抽象表达。这类点数据种类很多，如水深点、高程点、道路交叉点、一座城市、一个区域。线数据是一维的。某些地物可能具有一定宽度，例如道路或河流，但其路线和相对长度是主要特征，也可以把它抽象为线。其他的线数据，有不可见的行政区划界，水陆分界的岸线，或物质运输或思想传播的路线等。面数据是二维的，指的是某种类型的地理实体或现象的区域范围。国家、气候类型和植被特征等，均属于面数据之列。真实的地物通常是三维的，

5、体数据更能表现出地理实体的特征。一般而言，体数据被想象为从某一基准展开的向上下延伸的数，如相对于海水面的陆地或水域。在理论上，体数据可以是相当抽象的，如地理上的密度系指单位面积上某种现象的许多单元分布。在实际工作中常常根据研究的需要，将同一数据置于不同类别中。例如，北京市可以看作一个点（区别于天津），或者看作一个面（特殊行政区，区别于相邻地区），或者看作包括了人口的“体”。7.2 空间数据分析空间数据分析涉及到空间数据的各个方面，与此有关的内容至少包括四个领域。1）空间数据处理。空间数据处理的概念常出现在地理信息系统中，通常指的是空间分析。就涉及的内容而言，空间数据处理更多的偏重于空间位置及其

6、关系的分析和管理。2）空间数据分析。空间数据分析是描述性和探索性的，通过对大量的复杂数据的处理来实现。在各种空间分析中，空间数据分析是重要的组成部分。空间数据分析更多的偏重于具有空间信息的属性数据的分析。3）空间统计分析。使用统计方法解释空间数据，分析数据在统计上是否是“典型”的，或“期望”的。与统计学类似，空间统计分析与空间数据分析的内容往往是交叉的。4）空间模型。空间模型涉及到模型构建和空间预测。在人文地理中，模型用来预测不同地方的人流和物流，以便进行区位的优化。在自然地理学中，模型可能是模拟自然过程的空间分异与随时间的变化过程。空间数据分析和空间统计分析是建立空间模型的基础。7.3 空间

7、数据分析的一些基本问题空间数据不仅有其空间的定位特性，而且具有空间关系的连接属性。这些属性主要表现为空间自相关特点和与之相伴随的可变区域单位问题、尺度和边界效应。传统的统计学方法在对数据进行处理时有一些基本的假设，大多都要求“样本是随机的”，但空间数据可能不一定能满足有关假设，因此，空间数据的分析就有其特殊性（David,2003）。7.3.1 空间自相关空间自相关是空间位置上越靠近，事物或现象就越相似，即事物或现象具有对空间位置的依赖关系。如气温、湿度等的空间分布均体现了与海陆距离、海拔高程等的相关性。如果没有空间自相关，地理事物或地理现象的分布将是随意的，地理学中的空间分异规律就不能体现出

8、来。空间自相关性使得传统的统计学方法不能直接用于分析地理现象的空间特征。因为传统的统计学方法的基本假设就是独立性和随机性。为了分析具有空间自相关性的地理现象，需要对传统的统计学方法进行改进与发展，空间统计学就应运而生了。如果我们想确定某个位置测定的属性值是否合适，自相关分析将帮助我们记述已知的观测位置在多大程度上是有用的。自相关有三种：正自相关，负自相关和无相关（零自相关）。正自相关是最常见的，指的是附近的观察值很可能是彼此相似的；负自相关较少见，指的是附近的观察值很可能是彼此不同的；零自相关指的是无法辨别空间效应，观察值在空间上似乎是随机变化的。区分这三种自相关是统计方法正确应用的前提。7.

9、3.2 可变区域单位问题空间数据处理中存在的一个重要问题是空间范围对空间分析的影响。大区域的数据可能来自小区域详细数据的统计汇总。以国家级人口普查数据的统计汇总为例，人口调查以户为单位进行，而产生的人口调查报告中的数据则是不同区域层次人口数据汇总统计的结果。汇总单位与所研究的现象没有任何关系，但是汇总单位影响着由基层单位产生的统计结果。统计汇总的区域层次不同，统计结果间的关系也就不同，这就产生了可变区域单位问题（modifiable areal unit problem，MAUP）。如果在特定的研究中指定了不同的空间单位，观察到的格局和关系可能有很大的差异。这个问题可以参考图 7.1。图中使用

10、了横向和纵向两种不同的汇总方法，形成了两种不同的回归分析结果，由此说明汇总单位对回归方程和确定系数的影响是很明显，回归关系通过汇总得到了加强。事实上，利用同样的数据通过不同的汇总方式可以使得相关系数在-1和1之间任意变化。由汇总单位产生的影响有两个。第一个影响与分析的空间范围和汇总效应有关。汇总之后的平均值更接近于回归线，使得散点图的结果更接近于线性，导致相关系数增加。一般通过汇总往往产生更好的拟合结果。第二个影响是不同汇总方法得到的结果实质上是不同的。图 7.1可变区域单位问题7.3.3 生态学谬误可变区域单位问题与更一般的统计问题生态学谬误相联系。当特定汇总层次的观察值之间的统计关系假定可

11、以接受，然后在更细的层次接受同样关系的时候，就产生了这个问题。例如，在国家这个层次上，我们可能看到收入和犯罪之间有强烈的关系，即低收入往往伴随着高犯罪。但是，如果我们据此认为低收入的人更可能干坏事，那就犯了生态学谬误的错误。事实上，对于这样的数据，有效的精确的说法是：低收入国家倾向于经历较高的犯罪。是什么导致了这些观察到的现象，可能有很大的差异：有可能是低收入地区治安很差，夜贼很多；或者是这些地区的人经常酗酒；或者根本就与收入没有关系。重要的是，高层次汇总数据中出现的关系应该在底层汇总数据中重现并得到解释。这个问题很普遍。如果你关注新闻，在每天的日常生活或媒体中都可以发现生态学谬误。犯罪率和死

12、刑，枪支控制与关押率，车祸与车速限制等。不幸的是，生态学谬误在学术界也不少见。这个问题经常发生，其根本的原因可能是为了简化解释。事实上，特别在人文地理中，事情很少这么简单。生态学谬误和可变区域单位问题都要注意的是：统计关系会随着汇总层次而发生变化。7.3.4 空间尺度进行空间分析时，必须考虑空间尺度问题。不同对象的表现需要的不同尺度，例如，在大陆尺度，城市用点来表示。在区域尺度，城市用面来表示。在局部尺度，城市成为复杂的点、线、面和网络的集合体。研究对象的空间尺度影响空间分析。因此，应当选定正确的或合适的空间尺度。7.3.5 空间非均一性和边界效应区分空间分析与传统统计分析的重要标志是空间的不

13、均一性。例如，搜集到城区犯罪位置的数据，并用点在地图上标绘出来，就能可视化地表示犯罪的空间分布规律。在居住区和工作密集的地方，犯罪会有明显的聚集性，在公园或道路的交叉口，可能会出现空缺。这些聚集或空缺只是城市内部不均一性的一个结果。类似的问题是考虑疾病发生率的时候，必须考虑从事高风险工作的人所在的位置。目前，处理这些问题的方法还很少。边界效应是不均一问题的一个特殊类型。边界效应问题是指在研究区的中心位置，各个方向上的观察值相接近；在研究区的边界，只有研究区内的观察值才是相接近的。因此，确定适当的边界才可能反映数据的真实性。7.4 空间数据的关系空间数据中蕴涵了丰富的信息，本章仅考虑空间数据的位

14、置属性所能提供的信息。重要的空间概念是：距离（distance）、邻接（adjacency）和交互（interaction），与此密切相关的术语是近邻（neighborhood）。在空间数据分析中，我们不仅对属性数据的均值、方差等进行分析，也对空间上相联系的实体的分布进行分析。空间分布指的是空间实体之间的关系，可以通过距离、邻接和交互分析，获得对空间关系的认识。7.4.1 距离在空间数据中，距离是空间实体间的直线距离或球面距离。空间数据中的距离不同于数学上的距离（数学上的距离值两个变量/样本之间的距离，参阅模糊数学一章）。在小的地区（小尺度的研究），可以忽略地球曲率的影响，通常使用欧氏距离。对

15、于空间上的两个点i，j，其坐标分别为(xi，yi)，(xj，yj)，那么两点之间的直线距离为：在较大的区域（大尺度研究），距离的计算要考虑地球的曲率。除了直线距离外，实际应用中也可按照道路、铁路、河流或路网来计算距离；也可按照消耗的时间来计算距离。7.4.2 邻接邻接可以认为是名义的、双向的相等的距离。两个空间实体，或者相邻或者不相邻，没有中间状态。确定相邻有多种方式。最简单的确定方式是，如果两个实体在指定的空间距离内，那么它们是相邻的，否则不相邻。类似的，对于任一实体，确定出与其最相邻的其他实体。我们也可以认为只有最邻近的实体才是相邻的。与距离一样，对邻接的概念也可以进行扩展。邻接的实体不一

16、定是相近的。例如，就机场而言，在考虑上海、北京和莫斯科机场的邻接关系时，可以认为上海机场与北京机场、北京机场与莫斯科机场是邻接的，但上海机场与莫斯科机场则不邻接的。邻接的概念主要应用在空间自相关分析、空间插值和网络分析中。7.4.3 交互交互可以认为是距离和邻接的综合，它来自于一个基本的想法：近处的事物关系更密切。从数学上讲，可将两个空间实体之间的交互度表示为0（无交互）和1（高度交互）之间的数。邻接也可以用类似的方式来表示，因为邻接是双向的。在空间分析中，典型的交互可用距离倒数加权来定义：其中，w是距离为d的两个实体i，j之间的交互权重。k控制着权重的变化率。距离越近，权重越大，交互越强。通

17、用的交互计算中使用两个实体的属性值，例如人口的引力公式为：其中，pi，pj是i，j两地的人口数量。此外，也可以在公式中加入面积来定义两个区域单位间的交互。除了空间距离外，也可以使用其它的距离定义。例如，可以使用两个国家的贸易量来定义交互程度。7.4.4 近邻近邻有多种表达方式。例如，特定空间实体的近邻是与该实体邻接的其他空间实体的集合，此时，近邻依赖于邻接的定义。此外，可以不考虑邻接性，将近邻定义为空间上相联系的区域，此时则需要使用距离的概念。近邻的概念经常被使用，主要是由于空间分布上邻近的区域更为相似。这是一种内部相似，不同于周边区域。例如，考虑海拔高度，山是一种近邻，其周围的海拔都较高。图

18、7.2进一步揭示了这四个概念。左上角的图指明了研究区内A到其它点的距离。一般而言，总是可以确定两点之间的距离。在右上角的图中，按照距离指明了与A邻接的两点E和F。这种邻接可以通过多种方法来定义。例如，以50米内为邻接的距离。注意，这种定义意味着D没有邻接的对象。我们也可以定义最近的对象是邻接对象，这可以保证所有的对象都有两个邻接对象，虽然它同时意味着邻接不再是对称关系。例如，此时，D与E邻接（最近的是C和E），但E并不邻接D（与E最近的是A）。在左下角的图中，使用线宽指明A与其它对象的交互作用强度。这里，交互是距离的倒数，所以A与E交互作用强。在右下角的图中，给出了对象A的两个可能的近邻，曲线

19、内是与A邻接的对象，包括了A，E和F。另一个可能的近邻是带阴影的多边形，该空间也接近于A。图7.2 距离、邻接、交互和近邻的概念7.5 空间自相关分析空间自相关分析包括全程空间自相关分析和局部空间自相关分析两部分（Getis and Ord，1996），自相关分析的结果可用来解释和寻找存在的空间聚集性或“焦点”。空间自相关分析需要的空间数据类型是点或面数据，分析的对象是具有点/面分布特征的特定属性。全程空间自相关分析用来分析在整个研究范围内指定的属性是否具有自相关性。局部空间自相关分析用来分析在特定的局部地点指定的属性是否具有自相关性。具有正自相关的属性，其相邻位置值与当前位置的值具有较高的

20、一致性。空间自相关分析，当前常用的参数有三个，即MoransI，GearyC和G统计量7.5.1 MoransI参数MoransI是应用最广的一个参数，可用来进行全程空间自相关分析和局部空间自相关分析。全程空间自相关分析参数的定义是：Morans 局部空间自相关分析参数的定义是：其中：n 是观察值的数目，xi 是在位置i的观察值，Zi 是xi 的标准化形式。，。wij 是对称的二项分布空间权重矩阵，在以样点i为中心、距离为d的范围内，取值为，否则取值为。MoransI值越大，表明数据正的空间相关性越强。7.5.2 GerayC参数GerayC参数用来分析局部空间相关性：作变换，C=1-C（d

21、），C值大于0，表明正值四周为高值，小于0，则为低值，0则为无聚集特征。7.5.3 G统计量G统计量由Ord 和Getis 1992年提出，1994年和1995年做了部分的修改，用来分析局部空间自相关性。空间统计量Gi（d）定义为：, = Wi/（n - 1）, ;.为了便于解释，定义 Gi（d）的标准化形式为： i j,各变量的含义同上。模拟表明（Ord 和 Getis 1994），在原假设xi 周围不存在空间聚集的条件下，G的分布接近于正态，所以，经常借助于正态分布检验G值的显著性。对于不同的观察值N，在不同的显著性概率（水平）下G值各不相同，例如，在0.1的显著水平下，40个样本对应

22、的G值为2.79，100个样本对应的G值为3.07。检验显著的G值说明位置i周围是较高的数据，即数据具有空间上的聚集性。7.6 空间变异分析7.6.1 空间变异空间变异指研究对象在空间上的变化，它是地理学研究的基本问题。空间变异的研究可借鉴空间分析的有关方法，通过对地理系统的特征进行分析，了解地理系统在空间上的分布和演替规律。图 7.3 指导传统地理制图的概念模型空间变异是比较复杂的。降水、风化、侵蚀、堆积、人类活动以及地球构造运动等地球的内外营力造成了物质组成的空间变化，是导致空间变异最基本的原因。同时，地理系统的不同属性随时间发生变化，具有不同的时间变异性，而且这种变异性有可能超过空间变异

23、，从而增加了空间变异研究的难度。早期研究中，人们考虑到空间变异的复杂性以及有效研究工具的缺乏，往往通过定义系统分类单元和均质制图单元对空间变异进行系统分析，并假设所定义的空间单元由空间由均质的（homogeneous）或接近均质的块段构成，所有重要的变化都发生在边界处（图7.3）同样，如果研究性质的观察值被直接地划分为名义上的等级（例如植被中盖度、土壤中的质地），那么就很难考虑渐进的、单元内的变异。自20世纪70年代以来，随着研究的深入，人们逐渐认识到了空间的一些特性。大量的实验结果表明存在有不同尺度的空间变异。比如土壤的孔隙度，不仅随地点变化，还随采样样本的大小变化。极小空间范围的变异或时间

24、变异也可能导致不可预料的属性测量值较大幅度的变化。大尺度的遥感研究，特别是使用红外辐射研究裸地可以清楚地表现出地表的变异性。探地雷达研究则表明地表在垂向短距离内也可以急剧地变异。空间变异的程度依赖于过程的类型和它们在空间和时间中的协同关系。7.6.2 空间变异模型考虑到地理过程对空间格局的影响，依据研究对象的空间分布形式划分出两种变异理论模型。7.6.2.1 常规模型常规模型为突变模型（图7.4a）。假定属性在边界处突然变化，但边界之内属性变化很小。图上单元由具有相似性质的个体构成，代表均质的范围，至少在分类系统的最低分类单位水平上相同（地图上可辨别的最低分类单位与地图的比例尺有关，即与空间尺

25、度有关）。边界可以通过采样来确定，或者直接地通过空间特征（如坡形、坡位、植被变化）来确定，或者通过航片、卫片上的相关特征来确定。7.6.2.2 连续模型连续模型（图7.4b）假定属性在空间逐渐变化，而且这种变化可以用数学模拟来逼近。常规模型和连续模型在实际应用中是不同的。以污染为例，如果污染水平高于某一临界值，按照常规模型，就需要对整个地区进行净化处理，这无疑是十分昂贵的。按照连续模型的观点，污染常常是非均质的，临界位置上的采样点在污染水平上差异甚大，可以采取统计方法来估计区域内各个地方受污染的程度，这样就可以有针对性的进行治理，从而节省大量资源。变异模型可以通过确定性方法或随机方法来逼近。确

26、定性方法不承认属性观测值的不确定性，其结果是，连续模型认为性质的变化是一个平稳的可微分过程，而常规模型认为地理现象没有内部变异。随机方法承认地理现象是一个复杂的自然体，必须通过采样方法来研究，我们只能估计其属性的量值而且这些估计受制于概率规则，即任何估计的准确性都只具有某种概率（图7.4c、d、e、f）。用统计学语言来表达就是，每一个属性Ai在每个图上单元j中的数值都可以估计为Aije，其中e是一个正态分布的随机误差。上述两种模型的进一步发展是不同类型的空间变异可以在不同尺度上发生（多尺度模型）。实际上，空间变异研究中存在两种明显不同、但原理上互相联系的观点。一种是实用地、当然地理解空间变异方

27、式，认为观察点位的数据可以外推到更大的区域。第二种是科学探求式的，认为形成过程导致自然和人为的分布形式的多样性。但无论如何，过程的深入理解都有助于对空间分布形式作出合理的推断。图7.4 空间变异的假想模型7.6.3 空间数据插值空间数据插值是进行数据外推的基本方法。常用的插值方法有：1）距离倒数插值（inverse distance weighted，IDW）；2）样条插值（spline）；3）三角网插值；4）最小曲线法插值；5）等方位加权法插值；6）多项式拟合（趋势面分析）插值；7）克里格插值（Kriging）。基于样本值所代表的现象和样本点的空间分布方式，插值方法将生成与实际值相关性较好的

28、预测值。不同的插值方法对于如何获得最佳估计值都给予了一定的假设，但无论你选哪种插值方法，样本点越多，样本点分布越均匀，插值结果越接近实际值。7.7 趋势面分析趋势面分析的基本功能，是把空间中分布的一个具体的或抽象的曲面分解成两部分：一部分主要由变化比较缓慢、影响遍及整个研究区的区域成分组成，称为趋势；另一部分是变化比较快，其影响在区内并非处处可见的成分，称为局部异常。趋势面分析的实质是进行数据的拟合，它对因变量无特别的要求，自变量一般总是由地理坐标（平面坐标，在特别的情况下，也可以用经纬度）组成。在三维趋势面分析中，则增加了高程或深度坐标值。趋势面分析实际是回归分析的一种特殊应用，或者说是回

29、归分析的一个变种。两者在数学原理、计算步骤等方面几乎完全相同，但是两者在应用上有较大的区别。回归分析的目的是研究变量之间的关系，并在此基础上进行预报或建立回归模型，趋势面分析是要分离出区域趋势和局部异常两个成分。在实际应用中，由于多项式函数对曲面拟合能力比较强，又由于地理上对拟合及分离的精度要求并不高，才使得趋势面分析法得到广泛的应用。从统计学中知道，回归分析有几个重要的假设条件，只有当这些条件都基本上得到满足之后，分析的结果在数学上才是精确可靠的，否则就可能产生虚假的结果。对于这些前提假设，趋势面分析可以严格地加以考虑，这时趋势面分析实际就成为回归分析，分析的目的，则是探讨因变量和地理位置的

30、关系。当趋势面分析不考虑，或部分地考虑这些前提假设时，分析目的就有别于回归分析了。在趋势面分析中，如果照搬回归分析的上述假设，可能一无所获，而使局部异常的识别或分离无法实现。7.7.1 狭义趋势面分析与广义趋势面分析一般而言，趋势面分析基本上仅限于Grant和Krumbein提出的多项式趋势面分析法，即狭义的趋势面分析。由于趋势面分析的根本目的是要将观测面所包含的信息分解为趋势和局部异常两个成分，而具有类似的或相同功能的方法还有许多，如滑动平均、滑动中值、克里格法、谱分析、自协方差分析及空间滤波等。这些方法不同于多项式趋势面法，称之为广义的趋势面分析法。广义趋势面分析中，各种方法本来的功能并

31、不仅仅局限于分离趋势和局部异常，不同的方法各有其特殊的性质。如滑动平均法主要是用以消除随机干扰；克里格法是要在观测数据的基础上，对所分析的变量进行插值，并给出相应的估计误差；空间滤波则是根据情况，由分析者指定，分离出一定波长范围内的曲面组分。这些方法，或者要清除曲面中的一些组分，或者只提取曲面中的某些组分，和趋势面分析的要求是重叠的或者是相容的。因此，在一定的条件下，它们可以起到趋势面分析的作用。由于这些方法并非专用于分离趋势和局部异常，故若作为趋势面分析工具使用时，有的效果较好，如空间滤波，而多数的效果不如多项式趋势面分析方法。对趋势面分析法，虽然人们都把它归入统计学的范畴，但它在许多方面又

32、不能严格地满足统计上的条件，因此只能认为是一种简单的断面拟合。趋势面分析的结果表现为趋势图和局部异常，人们从中可以解读出有意义的地理信息，而对趋势面方程及其系数，极少有人去探求其特定的含义，不同的函数可以产生几乎相同的结果，也在一定程度上使得有关参数的物理意义难以明确。7.7.2 趋势面模型从理论上说，属性数据的空间变化可以分解为三个部分；1）区域趋势；2）局部异常；3）随机干扰（即随机噪声）。所谓区域趋势是指遍及全区的、规模较大的地理过程的反映。局部异常是由规模比研究区小的地理过程所产生的，但其规模又至少大于两个观测点之间的距离。局部异常的规模和观测点间距离的这种关系，一般在观测点为规则网格

33、时才是明确的。随机干扰，一般认为是由抽样误差和观测误差组成，不包括系统误差。随机干扰的影响范围很小，它仅限于单个观测点的控制区内，或者说其规模小于相邻两观测点之间的距离。根据上述理论模型，有观测面=区域趋势+局部异常+随机干扰每一具体的属性值，都可以认为包含了上述三种成分。趋势面分析的目的，是如何对这三种成分进行有效的分离。随机成分的分析要求有重复抽样的观测数据，这在地理工作中往往难以满足。因此在实际工作中，往往并不要求分离三种成分，而只要求分离其中的两种成分。这样，理论模型在实际应用时就成为：观测面=区域趋势+局部异常观测面=区域趋势+随机干扰在上式中，局部异常成分必然包含随机干扰成分，只不

34、过异常成分处于主导地位，而随机成分所占比重很小，以至于可以忽略不计。同理，随机干扰仍可能包含有局部异常成分，只是它相对于随机成分来说规模要小。由于随机成分有可能包含有异常成分，因此它有时仍可以有一定的地理意义。在具体工作中，随机成分里是否包含有局部异常成分，通过将分离开的各个成分分别作图（一般只作等值线图），进行对比，然后作地理解释后才能确定。趋势面分析结果可以使用下式来说明拟合的程度：其中，n为样点数，z是属性值，U是回归平方和，S是离差平方和，c是拟合程度。c值表明了趋势面反映原始数据的程度。当c=100%时，则趋势值在所有的样点上与原有值相等，但这种情况很少出现，从趋势面分析的角度看失去

35、了分解的意义。c接近于0，说明拟合程度低。如果设W为剩余平方和，即可以用F分布来检验结果的显著性。F统计量为：其中m是趋势面中多项式的项数（不包括常数项）。在空间数据分析中，由于目的是分析趋势和异常，所以，并不追求高的拟合程度。一般的，拟合程度达到60-80%，阶数在1-4之间就可以满足要求了。7.7.3 趋势面分析实例1目的和地区概况利用1：2.5万地形图对王家坡谷地形态进行分析，并与我国西部冈底斯山脉南坡的一条古冰川谷地进行形态对比，探讨庐山谷地是否具有冰川谷的特征，进而推断庐山是否曾发育过冰川。王家坡谷地为地质构造上的向斜谷地。谷地两侧山脊线之间宽度平均为1300米，长约4000米，西南

36、向东北倾斜，海拔高度由1200米降到200米。两翼岩层倾角西北翼为30度左右，东南翼为35度左右。谷形成不对称状态，谷底平缓。我们部分冰川学者认为，这是庐山最典型的古冰川谷地。在1：2.5万地形图上，对王家坡谷地布置了341个规则网点，密度为8x8毫米。分别计算了1-3阶的趋势面（给出的是3阶趋势面的结果，图7.11右），其中，3阶趋势面的模拟程度为98%。西藏东南部啊哪塘海洋冰川谷地3阶趋势面（左图）的模拟程度为41%。两条谷底的趋势面图的部分见图7.52趋势面分析图7.5中左图的等高距为50米，若插值为可与右图相对比的25米等高距，则相邻等高线之间距离变小，等高线密集，说明谷坡陡峭。同一高

37、程的等高线在谷坡向谷底过渡中有明显的转折，说明坡麓清晰；过谷底的等高线较平直，说明谷底平缓；谷地两侧等高线大致都呈同一方向平直延伸（北-南）；在东北部有一组等高线（4900米）向东弯曲，而4750米、4800米和4850米这组等高线在其下平直通过，谷地延伸与啊哪塘谷地近于直交，是一支冰川谷悬谷。右图的等高距为20米，谷坡则比左图平缓。同一高程等高线从谷坡向谷底舒缓过渡，无明显的转折，说明谷坡谷底无明显分界。过谷底的等高线都是圆弧状，数条等高线排列整齐，形状几乎相同，说明坡面倾角与岩层倾角基本一致。两个图相比较无明显相似处，表明王家坡谷地似未曾经历过冰川的强烈作用，谷地形态只是一个向斜谷地的典型

38、地形特征。图7.5 谷地趋势面图对比7.8 方差云图在实际应用中，人们更关心的对象的空间位置与其它属性数据之间的关系。通过绘制实体属性值的差异与其位置差异的图件，可以得到这种关系的一般描述。所形成的图件称为方差云图。首先看一下图7.6中的数据，这是310x310米调查区的高程点，其中绘制等值线是为了显示数据的总体空间变化特征。从北向南，总的趋势是上坡。南坡地形似乎更为复杂一些。图7.5 高程点和等高线（注意等高线是人工勾绘的）对每个可能点对，我们按照点对高程差的平方根与点对的距离来绘图，得到图7.7。图中点的分布比较杂乱，但从密集点的分布可以看出，高程点间距离越大，高程差异越大。从图7.6中

39、可以看出，高度上的增加趋势是由北向南。事实上，可以只绘制近南北方向分离的点对。如果将方向精确地限制在南北方向上，可能没有绘图的点对。所以实际上取的范围是南北方向50。类似地可绘制东西方向的点对。图7.8给出了这些点对的分布，其中，南北方向的用空心圆表示，东西方向的用点表示。在上图中注意如下几个方面：1）绘图的点数减少。这是因为南北和东西两个方向上点的数目较少。实际上，我们可以推测每个方向上的点数大致是原来的10/180=1/18（假如数据点的分布是均匀的）。2）可绘图的距离范围要小一些。因为研究区在两个方向上是300米，300米就是最大的距离间隔。从空间分析来看，300米构成了边界效应。3）虽

40、然有部分重叠，但南北方向上的差异要大于东西方向上的差异，反映了调查点的真实趋势。4）不同方向上显示出的差异可以用各向异性（anisotropy）的概念来表示，即数据的空间变异与方向有关。相反，如果各个方向上没有差异，则用概念各向同性来表示。图7.6 高程点的方差云图图7.7 南北方向（圆圈）和东西向（点）的方差云图方差云图是有用的探索工具，但因为点数多，所以有时候难以解释。更简要的概括是把距离轴改为不同的间隔（lag），然后对每个间隔内的数据点进行概括。如图7.9所示，其中，有10个间隔，每个间隔是50米。在较大的距离间隔上，高程点的差异较大，这种趋势很清楚。对应于定义的研究区，边界效应也很明

41、显，出现在间隔6和7中（对应于300米）。间隔8，9，10包括了不同的差异，更多的反映了研究区四个角的空间特征。如果增大研究区的范围，那么就不会出现这样的效应。图7.8 不同距离间隔的高程点盒子图图7.9表明，距离越远，高程点之间的差异越大。这与我们熟知的地形变化是一致的。方差云图有助于揭示数据中的自相关结构，但更重要的是，还可通过估计属性的方差变异与间隔距离的函数关系，优化插值的结果。7.9 区域变量和克里格插值7.9.1 区域化变量一个变量的空间分布称为该变量的区域化。如果变量以三个空间坐标（x，y，z）为自变量，那么该变量就是区域化变量。区域化变量假定，在一定空间范围内，属性指标的变异可

42、以用一个连续的、空间上相关的随机域来模拟。任何变量的空间变异可以表示为三个主要组分之和：确定性成份、区域成分和随机成分。设x为样点在1，2或3维空间的位置，x点的随机变量Z值为：其中m（x）是描述Z结构项的一个确定性数，c（x）是描述随机区域变异但空间相关的残余项，即区域变量，是残余的空间不相关的高斯噪音项（服从标准正态分布，即平均值为0，方差为 2）。如果没有趋势，那么m（x）等于样区数据的平均值，而且任何两点x和x+h（h为间隔距离）之间的平均值或期望值的差为0。使用Z（x），Z（x+h）表示随机变量Z在位置x，x+h的观测值，区域化变量理论假设任意两点Z的差值的方差仅取决于位置间的距离h

43、。在有趋势的情况下，假设数据是弱平稳的，并假设对于所有的h，增量Z（x）-Z（x+h）的方差是有限的，而且只是相隔h的函数。在该假设成立的情况下，定义半方差为：其中，n是相隔距离为h的样点对的个数。将r（h）和h作为纵、横坐标作图即可获得实验半方差函数图（图7.10）。实验方差函数图不受数据的非平稳性影响，是空间变异性研究中的一个有力工具，也是区域变量定量描述的第一步。图7.9 实验半方差变异函数图在方差变异图上，如果样点具有空间关系，那么，空间上分布愈接近的点对（靠近x轴的左边）应该具有更相似的值（靠近y轴的下边），而距离愈远的点对（沿x轴方向向右移动），应该具有更多的不相似性和更高的方差（

44、沿y轴方向向上移动）。7.9.2 方差变异函数7.9.2.1 基本概念图7.11是一个典型的实验方差函数和其理论方差函数曲线，它有下面几个重要的特征。1）随间隔增大，方差增大，并在一定的间隔后达到一个基本稳定的常数。这个方差常数称为基台（sill），在理论函数模型中用C+C0表示。平稳数据的基台值近似于采样方差。基台值意味着在对应（或大于）距离的样点之间没有空间相关性，因为方差不再随距离变化。2）曲线从较低的方差值升高，到一定的间隔值时到达基台值，这一间隔称为变程（range）。在理论函数模型中，变程用a表示。变程是半方差函数中最重要的参数，它描述了该间隔内样点的空间相关特征。在变程内，样点越

45、接近，两点之间相似性、即空间上的相关性越强。很明显，如果某点与已知点距离大于变程，那么该点数据不能用于数据内插（或外推），因为空间上的自相关性不复存在。变程的高低取决于观测的尺度，说明了相互作用所影响的范围。不同的属性，其变程值可以变化很大。图7.10 典型试验方差函数和拟合曲线3）理论方差函数曲线不穿过原点，而是存在一个最小的方差值。理论上讲，当间隔h=0时，估值的方差应该为0，因为任何一点与自身之差的值为0。h趋近于0时，r（h）轴上的正截距是残差的一个估计，该值称为块金（或基底，nugget）。在理论函数模型中，用C0表示。块金是在间隔距离小于采样间距时的测量误差或空间变异，或者是二者的

46、和。测量误差是由仪器的内在误差引起的，空间变异是自然现象在一定空间范围内的变化。小于采样间距的微观尺度上空间变异是块金的一部分。当r（h）值在所有的h值上都等于基台值时，实验半方差函数就表现为纯块金效应，这通常由于短间距内点与点的变异很大而引起，表明所使用的采样间隔内完全没有空间相关性，此时，可以认为各个样点是随机的，区域平均值就是各点的最佳估计值。此时，只有增大采样间隔才能揭示出空间相关性。块金与基台的比值（C0/(C+C0)，基底效应）可以用来说明空间的变异特征，该值越大，说明空间变异更多的是随机成分引起的，否则，则是由特定的地理过程或多个过程综合引起的。空间相关性的强弱，可用C/(C+C

47、0)表示，该值越高，表明空间相关性越强。在实际的模型计算中，块金与基台两个参数是可以调整的，其取值取决于整体的拟合效果。7.9.2.2 理论变异函数模型理论变异函数模型用来拟合实验半方差图的离散点。常用的模型有如下几种。1线性模型(Linear model_)其中，w是直线的斜率，此模型是最简单模型，但在一定范围内也是适用的。在某些情况下， w可以为0，这时就是纯块金效应模型。2球状模型(Spherical model)式中符号的意义与前面相同。球面模型最为常用，此外，由于球状模型是根据三维空间的随机移动平均过程推导获得，因此特别适用于三维空间。3指数模型(Exponential model)

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

6 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 空间数据分析模型

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：空间数据分析模型.doc
链接地址：https://www.31doc.com/p-2457281.html