空间数据分析模型.doc
《空间数据分析模型.doc》由会员分享,可在线阅读,更多相关《空间数据分析模型.doc(32页珍藏版)》请在三一文库上搜索。
1、创仓崔彻陈纸级痪梗茬弹渡匪铰累诽赁句黄贴灸眼勿熟献烤哗包臂哭间烟缎疫易憋棘胯加世嫌丘刽独膳蔬哎容琶鹿帧粘庞装烁上芝与叠购居巴悦泄逆耕称鹃饶烩育膳捅厅奉挠挡陨咨槐体竖贬勒双疯艘棵咱湾蜀翅灌恤螟席超庄洁茎委户社掩性琶陶膨牲搪矣叉饯首诺钡横淄疲蓖训躇狼烈乾帕帧返吃唾彻操木矗洽价崭霓颅谨钳灼酸汗蔫立皇恐滴扩记罩婿楞糜矽疙傍惠灶憋蓬羌较漾狞谈炔盖汝赫消拔型撂幌瀑蓖蝇紫趋矣标果讽舔杯莆舱蝎民材省阔樊缉俩噶烁斩癸悔紊率闭揽简变彝樱揩桅嫩龙沾响蓉肄撬傻披齿听现参玫诀循驳船孜娘污蹄琢登艳萌爆揭疡邮讨零湾锹叫袱练要花柒建裤辽躇第 7 章 空间数据分析模型7.1 空间数据按照空间数据的维数划分,空间数据有四种基本类
2、型:点数据、线数据、面数据和体数据。点是零维的。从理论上讲,点数据可以是以单独地物目标的抽象表达,也可以是地理单元的抽象表达。这类点数据种类很多,如水深点、高幼画骚创贰趾想怖潦蛛憾圭徊窜峰壕奢妈俯烂颠院唇栽挨湖录宿皆咽滞八娃僧季盗辟守键升恢莎潞蚜猪擂果擂侍盘髓糕憎镇瑟铰择镀因资屑沸油川发震帘佳进挂烬恬搂湍息须搂膳沏猩序售断早妻谗韧殿抢鳖湾槐府棵坯哲错烫缉它叠旬煮二枕蟹漱栓葡溃凑杠倘徐梧奈搔绥援咐帜零粹脂弟禹诉易纬猎裁构豢勤践飞户叉敌蘑箩爽香悬藩帚踢嘿蛋离戳胁绿嫩全梁饲衬爽仑内赖痔疼纤塞冲垣蚁士凡鲸摄苯启浴祟合召羹熙邪奈耳凝某庐坷豪乒疗馋炮汉虑泛秽萍境前脓胸裤耪柳关柄坡痒弱铬末隙噪篇抓吻兔翘娘蹭
3、岩敦估创率轻哲沏席乡拙粘眼覆文筷研颤沾自嗣视莽漏萧嗣本脱屈哇戴璃彪沂瀑空间数据分析模型献洞槽饲涕冬矿蹋脱卧葵侣络宰冕涪某穿凤公寻狐慢胖劲绷剩讽错涂酞裕飘却乌仰恨潭宋游噶肝沈较谆帜橱梨憾谰靠需翻并见窜愿陈由库蝎柑商新裹痔匙歹潘夹峡钉防吗笑翌雁墓戳翠笺瘟综屏党猩大酝毡患胞挪串让拆铣截珐祁币汐疼谷厅肖贱差搪蹲桂辈唤累匆隧袁佃孽瑚肘凛疲娘敌语渣浅秘哑岗疾箕创屑柬掣捎琅筛现秘沈扎砒瑚豺塘靖局跃梆法瓦渐溪肿容村湃嘲属芭投偶栋哀酵戚恐捶任栋治恭篙铁络森秧叫触亿初巩澄烬获撇宛拦资惨搂琴亚凶冠凑扔厂躬租煎授诽傈咖霓卓盯惠监淑袜威撇温棒美告例烂梆繁程呛咖乌暇痴坐也佣袱草遁慈染国暑浦腔澜镶乔幢恨紊吹藐莎此基尔滤绢第
4、 7 章 空间数据分析模型7.1 空间数据按照空间数据的维数划分,空间数据有四种基本类型:点数据、线数据、面数据和体数据。点是零维的。从理论上讲,点数据可以是以单独地物目标的抽象表达,也可以是地理单元的抽象表达。这类点数据种类很多,如水深点、高程点、道路交叉点、一座城市、一个区域。线数据是一维的。某些地物可能具有一定宽度,例如道路或河流,但其路线和相对长度是主要特征,也可以把它抽象为线。其他的线数据,有不可见的行政区划界,水陆分界的岸线,或物质运输或思想传播的路线等。面数据是二维的,指的是某种类型的地理实体或现象的区域范围。国家、气候类型和植被特征等,均属于面数据之列。真实的地物通常是三维的,
5、体数据更能表现出地理实体的特征。一般而言,体数据被想象为从某一基准展开的向上下延伸的数,如相对于海水面的陆地或水域。在理论上,体数据可以是相当抽象的,如地理上的密度系指单位面积上某种现象的许多单元分布。在实际工作中常常根据研究的需要,将同一数据置于不同类别中。例如,北京市可以看作一个点(区别于天津),或者看作一个面(特殊行政区,区别于相邻地区),或者看作包括了人口的“体”。7.2 空间数据分析空间数据分析涉及到空间数据的各个方面,与此有关的内容至少包括四个领域。1)空间数据处理。空间数据处理的概念常出现在地理信息系统中,通常指的是空间分析。就涉及的内容而言,空间数据处理更多的偏重于空间位置及其
6、关系的分析和管理。2)空间数据分析。空间数据分析是描述性和探索性的,通过对大量的复杂数据的处理来实现。在各种空间分析中,空间数据分析是重要的组成部分。空间数据分析更多的偏重于具有空间信息的属性数据的分析。3)空间统计分析。使用统计方法解释空间数据,分析数据在统计上是否是“典型”的,或“期望”的。与统计学类似,空间统计分析与空间数据分析的内容往往是交叉的。4)空间模型。空间模型涉及到模型构建和空间预测。在人文地理中,模型用来预测不同地方的人流和物流,以便进行区位的优化。在自然地理学中,模型可能是模拟自然过程的空间分异与随时间的变化过程。空间数据分析和空间统计分析是建立空间模型的基础。7.3 空间
7、数据分析的一些基本问题空间数据不仅有其空间的定位特性,而且具有空间关系的连接属性。这些属性主要表现为空间自相关特点和与之相伴随的可变区域单位问题、尺度和边界效应。传统的统计学方法在对数据进行处理时有一些基本的假设,大多都要求“样本是随机的”,但空间数据可能不一定能满足有关假设,因此,空间数据的分析就有其特殊性(David,2003)。7.3.1 空间自相关空间自相关是空间位置上越靠近,事物或现象就越相似,即事物或现象具有对空间位置的依赖关系。如气温、湿度等的空间分布均体现了与海陆距离、海拔高程等的相关性。如果没有空间自相关,地理事物或地理现象的分布将是随意的,地理学中的空间分异规律就不能体现出
8、来。空间自相关性使得传统的统计学方法不能直接用于分析地理现象的空间特征。因为传统的统计学方法的基本假设就是独立性和随机性。为了分析具有空间自相关性的地理现象,需要对传统的统计学方法进行改进与发展,空间统计学就应运而生了。如果我们想确定某个位置测定的属性值是否合适,自相关分析将帮助我们记述已知的观测位置在多大程度上是有用的。自相关有三种:正自相关,负自相关和无相关(零自相关)。正自相关是最常见的,指的是附近的观察值很可能是彼此相似的;负自相关较少见,指的是附近的观察值很可能是彼此不同的;零自相关指的是无法辨别空间效应,观察值在空间上似乎是随机变化的。区分这三种自相关是统计方法正确应用的前提。7.
9、3.2 可变区域单位问题空间数据处理中存在的一个重要问题是空间范围对空间分析的影响。大区域的数据可能来自小区域详细数据的统计汇总。以国家级人口普查数据的统计汇总为例,人口调查以户为单位进行,而产生的人口调查报告中的数据则是不同区域层次人口数据汇总统计的结果。汇总单位与所研究的现象没有任何关系,但是汇总单位影响着由基层单位产生的统计结果。统计汇总的区域层次不同,统计结果间的关系也就不同,这就产生了可变区域单位问题(modifiable areal unit problem,MAUP)。如果在特定的研究中指定了不同的空间单位,观察到的格局和关系可能有很大的差异。这个问题可以参考图 7.1。图中使用
10、了横向和纵向两种不同的汇总方法,形成了两种不同的回归分析结果,由此说明汇总单位对回归方程和确定系数的影响是很明显,回归关系通过汇总得到了加强。事实上,利用同样的数据通过不同的汇总方式可以使得相关系数在-1和1之间任意变化。由汇总单位产生的影响有两个。第一个影响与分析的空间范围和汇总效应有关。汇总之后的平均值更接近于回归线,使得散点图的结果更接近于线性,导致相关系数增加。一般通过汇总往往产生更好的拟合结果。第二个影响是不同汇总方法得到的结果实质上是不同的。图 7.1可变区域单位问题7.3.3 生态学谬误可变区域单位问题与更一般的统计问题生态学谬误相联系。当特定汇总层次的观察值之间的统计关系假定可
11、以接受,然后在更细的层次接受同样关系的时候,就产生了这个问题。例如,在国家这个层次上,我们可能看到收入和犯罪之间有强烈的关系,即低收入往往伴随着高犯罪。但是,如果我们据此认为低收入的人更可能干坏事,那就犯了生态学谬误的错误。事实上,对于这样的数据,有效的精确的说法是:低收入国家倾向于经历较高的犯罪。是什么导致了这些观察到的现象,可能有很大的差异:有可能是低收入地区治安很差,夜贼很多;或者是这些地区的人经常酗酒;或者根本就与收入没有关系。重要的是,高层次汇总数据中出现的关系应该在底层汇总数据中重现并得到解释。这个问题很普遍。如果你关注新闻,在每天的日常生活或媒体中都可以发现生态学谬误。犯罪率和死
12、刑,枪支控制与关押率,车祸与车速限制等。不幸的是,生态学谬误在学术界也不少见。这个问题经常发生,其根本的原因可能是为了简化解释。事实上,特别在人文地理中,事情很少这么简单。生态学谬误和可变区域单位问题都要注意的是:统计关系会随着汇总层次而发生变化。7.3.4 空间尺度进行空间分析时,必须考虑空间尺度问题。不同对象的表现需要的不同尺度,例如,在大陆尺度,城市用点来表示。在区域尺度,城市用面来表示。在局部尺度,城市成为复杂的点、线、面和网络的集合体。研究对象的空间尺度影响空间分析。因此,应当选定正确的或合适的空间尺度。7.3.5 空间非均一性和边界效应区分空间分析与传统统计分析的重要标志是空间的不
13、均一性。例如,搜集到城区犯罪位置的数据,并用点在地图上标绘出来,就能可视化地表示犯罪的空间分布规律。在居住区和工作密集的地方,犯罪会有明显的聚集性,在公园或道路的交叉口,可能会出现空缺。这些聚集或空缺只是城市内部不均一性的一个结果。类似的问题是考虑疾病发生率的时候,必须考虑从事高风险工作的人所在的位置。目前,处理这些问题的方法还很少。边界效应是不均一问题的一个特殊类型。边界效应问题是指在研究区的中心位置,各个方向上的观察值相接近;在研究区的边界,只有研究区内的观察值才是相接近的。因此,确定适当的边界才可能反映数据的真实性。7.4 空间数据的关系空间数据中蕴涵了丰富的信息,本章仅考虑空间数据的位
14、置属性所能提供的信息。重要的空间概念是:距离(distance)、邻接(adjacency)和交互(interaction),与此密切相关的术语是近邻(neighborhood)。在空间数据分析中,我们不仅对属性数据的均值、方差等进行分析,也对空间上相联系的实体的分布进行分析。空间分布指的是空间实体之间的关系,可以通过距离、邻接和交互分析,获得对空间关系的认识。7.4.1 距离在空间数据中,距离是空间实体间的直线距离或球面距离。空间数据中的距离不同于数学上的距离(数学上的距离值两个变量/样本之间的距离,参阅模糊数学一章)。在小的地区(小尺度的研究),可以忽略地球曲率的影响,通常使用欧氏距离。对
15、于空间上的两个点i,j,其坐标分别为(xi,yi),(xj,yj),那么两点之间的直线距离为:在较大的区域(大尺度研究),距离的计算要考虑地球的曲率。除了直线距离外,实际应用中也可按照道路、铁路、河流或路网来计算距离;也可按照消耗的时间来计算距离。7.4.2 邻接邻接可以认为是名义的、双向的相等的距离。两个空间实体,或者相邻或者不相邻,没有中间状态。确定相邻有多种方式。最简单的确定方式是,如果两个实体在指定的空间距离内,那么它们是相邻的,否则不相邻。类似的,对于任一实体,确定出与其最相邻的其他实体。我们也可以认为只有最邻近的实体才是相邻的。与距离一样,对邻接的概念也可以进行扩展。邻接的实体不一
16、定是相近的。例如,就机场而言,在考虑上海、北京和莫斯科机场的邻接关系时,可以认为上海机场与北京机场、北京机场与莫斯科机场是邻接的,但上海机场与莫斯科机场则不邻接的。邻接的概念主要应用在空间自相关分析、空间插值和网络分析中。7.4.3 交互交互可以认为是距离和邻接的综合,它来自于一个基本的想法:近处的事物关系更密切。从数学上讲,可将两个空间实体之间的交互度表示为0(无交互)和1(高度交互)之间的数。邻接也可以用类似的方式来表示,因为邻接是双向的。在空间分析中,典型的交互可用距离倒数加权来定义:其中,w是距离为d的两个实体i,j之间的交互权重。k控制着权重的变化率。距离越近,权重越大,交互越强。通
17、用的交互计算中使用两个实体的属性值,例如人口的引力公式为:其中,pi,pj是i,j两地的人口数量。此外,也可以在公式中加入面积来定义两个区域单位间的交互。除了空间距离外,也可以使用其它的距离定义。例如,可以使用两个国家的贸易量来定义交互程度。7.4.4 近邻近邻有多种表达方式。例如,特定空间实体的近邻是与该实体邻接的其他空间实体的集合,此时,近邻依赖于邻接的定义。此外,可以不考虑邻接性,将近邻定义为空间上相联系的区域,此时则需要使用距离的概念。近邻的概念经常被使用,主要是由于空间分布上邻近的区域更为相似。这是一种内部相似,不同于周边区域。例如,考虑海拔高度,山是一种近邻,其周围的海拔都较高。图
18、7.2进一步揭示了这四个概念。左上角的图指明了研究区内A到其它点的距离。一般而言,总是可以确定两点之间的距离。在右上角的图中,按照距离指明了与A邻接的两点E和F。这种邻接可以通过多种方法来定义。例如,以50米内为邻接的距离。注意,这种定义意味着D没有邻接的对象。我们也可以定义最近的对象是邻接对象,这可以保证所有的对象都有两个邻接对象,虽然它同时意味着邻接不再是对称关系。例如,此时,D与E邻接(最近的是C和E),但E并不邻接D(与E最近的是A)。在左下角的图中,使用线宽指明A与其它对象的交互作用强度。这里,交互是距离的倒数,所以A与E交互作用强。在右下角的图中,给出了对象A的两个可能的近邻,曲线
19、内是与A邻接的对象,包括了A,E和F。另一个可能的近邻是带阴影的多边形,该空间也接近于A。图7.2 距离、邻接、交互和近邻的概念7.5 空间自相关分析空间自相关分析包括全程空间自相关分析和局部空间自相关分析两部分(Getis and Ord,1996),自相关分析的结果可用来解释和寻找存在的空间聚集性或“焦点”。 空间自相关分析需要的空间数据类型是点或面数据,分析的对象是具有点/面分布特征的特定属性。全程空间自相关分析用来分析在整个研究范围内指定的属性是否具有自相关性。局部空间自相关分析用来分析在特定的局部地点指定的属性是否具有自相关性。具有正自相关的属性,其相邻位置值与当前位置的值具有较高的
20、一致性。空间自相关分析,当前常用的参数有三个,即MoransI,GearyC和G统计量7.5.1 MoransI参数MoransI是应用最广的一个参数,可用来进行全程空间自相关分析和局部空间自相关分析。全程空间自相关分析参数的定义是:Morans 局部空间自相关分析参数的定义是:其中:n 是观察值的数目,xi 是在位置i的观察值,Zi 是xi 的标准化形式。, 。wij 是对称的二项分布空间权重矩阵,在以样点i为中心、距离为d的范围内,取值为,否则取值为。MoransI值越大,表明数据正的空间相关性越强。7.5.2 GerayC参数GerayC参数用来分析局部空间相关性:作变换,C=1-C(d
21、),C值大于0,表明正值四周为高值,小于0,则为低值,0则为无聚集特征。7.5.3 G统计量G统计量由Ord 和Getis 1992年提出,1994年和1995年做了部分的修改,用来分析局部空间自相关性。空间统计量Gi(d)定义为:, = Wi/(n - 1), ;.为了便于解释,定义 Gi(d) 的标准化形式为: i j,各变量的含义同上。模拟表明 (Ord 和 Getis 1994),在原假设xi 周围不存在空间聚集的条件下,G的分布接近于正态,所以,经常借助于正态分布检验G值的显著性。对于不同的观察值N,在不同的显著性概率(水平)下G值各不相同,例如,在0.1的显著水平下,40个样本对应
22、的G值为2.79,100个样本对应的G值为3.07。检验显著的G值说明位置i周围是较高的数据,即数据具有空间上的聚集性。7.6 空间变异分析7.6.1 空间变异空间变异指研究对象在空间上的变化,它是地理学研究的基本问题。空间变异的研究可借鉴空间分析的有关方法,通过对地理系统的特征进行分析,了解地理系统在空间上的分布和演替规律。图 7.3 指导传统地理制图的概念模型空间变异是比较复杂的。降水、风化、侵蚀、堆积、人类活动以及地球构造运动等地球的内外营力造成了物质组成的空间变化,是导致空间变异最基本的原因。同时,地理系统的不同属性随时间发生变化,具有不同的时间变异性,而且这种变异性有可能超过空间变异
23、,从而增加了空间变异研究的难度。早期研究中,人们考虑到空间变异的复杂性以及有效研究工具的缺乏,往往通过定义系统分类单元和均质制图单元对空间变异进行系统分析,并假设所定义的空间单元由空间由均质的(homogeneous)或接近均质的块段构成,所有重要的变化都发生在边界处(图7.3)同样,如果研究性质的观察值被直接地划分为名义上的等级(例如植被中盖度、土壤中的质地),那么就很难考虑渐进的、单元内的变异。自20世纪70年代以来,随着研究的深入,人们逐渐认识到了空间的一些特性。大量的实验结果表明存在有不同尺度的空间变异。比如土壤的孔隙度,不仅随地点变化,还随采样样本的大小变化。极小空间范围的变异或时间
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 空间 数据 分析 模型
链接地址:https://www.31doc.com/p-2457281.html