地理学中的第一条法则,任何事物都与其它事情相关,但是距离近的事物比距离远的关系更大。
Waldo Tobler
第八章 空间分析
导读:空间分析源于60年代地理和区域科学的计量革命,在开始阶段,主要是应用定量(主要是统计)分析手段用于分析点、线、面的空间分布模式。后来更多的是强调地理空间本身的特征、空间决策过程和复杂空间系统的时空演化过程分析。实际上自有地图以来,人们就始终在自觉或不自觉地进行着各种类型的空间分析。如在地图上量测地理要素之间的距离、方位、面积,乃至利用地图进行战术研究和战略决策等,都是人们利用地图进行空间分析的实例,而后者实质上已属较高层次上的空间分析。
地理信息系统集成了多学科的最新技术,如关系数据库管理,高效图形算法,插值,区划和网络分析,为空间分析提供了强大的工具,使得过去复杂困难的高级空间分析任务变得简单易行。目前绝大多数地理信息系统软件都有空间分析功能。空间分析早已成为地理信息系统的核心功能之一,它特有的对地理信息(特别是隐含信息)的提取、表现和传输功能,是地理信息系统区别于一般信息系统的主要功能特征。
空间分析是对分析空间数据有关技术的统称。根据作用的数据性质不同,可以分为:(1)基于空间图形数据的分析运算;(2)基于非空间属性的数据运算;(3)空间和非空间数据的联合运算。空间分析赖以进行的基础是地理空间数据库,其运用的手段包括各种几何的逻辑运算、数理统计分析,代数运算等数学手段,最终的目的是解决人们所涉及到地理空间的实际问题,提取和传输地理空间信息,特别是隐含信息,以辅助决策。
本章介绍GIS中实现空间分析的基本功能,包括空间查询与量算,缓冲区分析、叠加分析、路径分析、空间插值、统计分类分析等,并描述了相关的算法,以及其中的计算公式。
1.空间查询与量算
查询和定位空间对象,并对空间对象进行量算是地理信息系统的基本功能之一,它是地理信息系统进行高层次分析的基础。在地理信息系统中,为进行高层次分析,往往需要查询定位空间对象,并用一些简单的量测值对地理分布或现象进行描述,如长度,面积,距离,形状等。实际上,空间分析首先始于空间查询和量算,它是空间分析的定量基础。
1.1空间查询
图形与属性互查是最常用的查询,主要有两类:第一类是按属性信息的要求来查询定位空间位置,称为“属性查图形”。如在中国行政区划图上查询人口大于4000万且城市人口大于1000万的省有哪些,这和一般非空间的关系数据库的SQL查询没有区别,查询到结果后,再利用图形和属性的对应关系,进一步在图上用指定的显示方式将结果定位绘出。第二类是根据对象的空间位置查询有关属性信息,称为“图形查属性”。如一般地理信息系统软件都提供一个“INFO”工具,让用户利用光标,用点选、画线、矩形、圆、不规则多边形等工具选中地物,并显示出所查询对象的属性列表,可进行有关统计分析。该查询通常分为两步,首先借助空间索引,在地理信息系统数据库中快速检索出被选空间实体,然后根据空间实体与属性的连接关系即可得到所查询空间实体的属性列表。
在大多数GIS中,提供的空间查询方式有:
1)基于空间关系查询
空间实体间存在着多种空间关系,包括拓扑、顺序、距离、方位等关系。通过空间关系查询和定位空间实体是地理信息系统不同于一般数据库系统的功能之一。如查询满足下列条件的城市:
在京沪线的东部
距离京沪线不超过50公里
城市人口大于100万
城市选择区域是特定的多边形;
整个查询计算涉及了空间顺序方位关系(京沪线东部),空间距离关系(距离京沪线不超过50公里),空间拓扑关系(使选择区域是特定的多边形),甚至还有属性信息查询(城市人口大于100万)。
简单的面、线、点相互关系的查询包括:
面面查询,如与某个多边形相邻的多边形有哪些。
面线查询,如某个多边形的边界有哪些线。
面点查询,如某个多边形内有哪些点状地物。
线面查询,如某条线经过(穿过)的多边形有哪些,某条链的左、右多边形是哪些。
线线查询,如与某条河流相连的支流有哪些,某条道路跨过哪些河流。
线点查询,如某条道路上有哪些桥梁,某条输电线上有哪些变电站。
点面查询,如某个点落在哪个多边形内。
点线查询,如某个结点由哪些线相交而成。
2)基于空间关系和属性特征查询
传统的关系数据库的标准SQL并不能处理空间查询,这是由于关系数据库技术的弱点造成的,对于GIS而言,需要对SQL进行扩展。对于传统的SQL,要实现空间操作,需要将SQL命令嵌入一种编程语言中,如C语言;而新的SQL允许用户定义自己的操作,并嵌入到SQL命令中。
3)地址匹配查询
根据街道的地址来查询事物的空间位置和属性信息是地理信息系统特有的一种查询功能,这种查询利用地理编码,输入街道的门牌号码,就可知道大致的位置和所在的街区。它对空间分布的社会、经济调查和统计很有帮助,只要在调查表中添了地址,地理信息系统可以自动地从空间位置的角度来统计分析各种经济社会调查资料。另外这种查询也经常用于公用事业管理,事故分析等方面,如邮政、通讯、供水、供电、治安、消防、医疗等领域。
1.2空间量算
1.2.1几何量算
几何量算对不同的点、线、面地物有不同的含义:
点状地物(0维):坐标;
线状地物(1维):长度,曲率,方向;
面状地物(2维):面积,周长,形状,曲率等;
体状地物(3维):体积,表面积等。
一般的GIS软件都具有对点、线、面状地物的几何量算功能,或者是针对矢量数据结构,或者是针对栅格数据结构的空间数据。
1)线的长度计算
线状地物对象最基本的形态参数之一是长度。在矢量数据结构下,线表示为点对坐标(X,Y)或(X,Y,Z)的序列,在不考虑比例尺情况下,线长度的计算公式为:
对于复合线状地物对象,则需要在对诸分支曲线求长度后,再求其长度总和。
通过离散坐标点对串来表达线对象,选择反映曲线形状的选点方案非常重要,往往由于选点方案不同,会带来长度计算的不同精度问题。为提高计算精度,增加点的数目,会对数据获取、管理与分析带来额外的负担,折中的选点方案是在曲线的拐弯处加大点的数目,在平直段减少点数,以达到计算允许精度要求。
在栅格数据结构里,线状地物的长度就是累加地物骨架线通过的格网数目,骨架线通常采用8方向连接,当连接方向为对角线方向时,还要乘上。
2)面状地物的面积
面积是面状地物最基本的参数。在矢量结构下,面状地物以其轮廓边界弧段构成的多边形表示的。对于没有空洞的简单多边形,假设有N个顶点,其面积计算公式为:
所采用的是几何交叉处理方法,即沿多边形的每个顶点作垂直与X轴的垂线,然后计算每条边、它的两条垂线及这两条垂线所截得X轴部分所包围的面积,所求出的面积的代数和,即为多边形面积。对于有孔或内岛的多边形,可分别计算外多边形与内岛面积,其差值为原多边形面积。此方法亦适合于体积的计算。
对于栅格结构,多边形面积计算就是统计具有相同属性值的格网数目。但对计算破碎多边形的面积有些特殊,可能需要计算某一个特定多边形的面积,必须进行再分类,将每个多边形进行分割赋给单独的属性值,之后再进行统计。
1.2.2形状量算
面状地物形状量测的两个基本考虑:空间一致性问题,即有孔多边形和破碎多边形的处理;多边形边界特征描述问题。
度量空间一致性最常用的指标是欧拉函数,用来计算多边形的破碎程度和孔的数目。欧拉函数的结果是一个数,称为欧拉数。欧拉函数的计算公式为:
欧拉数=(孔数)-(碎片数-1)
图8-1表示了多边形的三种可能的情形。
图8-1:欧拉数
对于图(a),欧拉数=4-(1-1)=4或欧拉数=4-0=4;对于图(b)欧拉数=4-(2-1)=3或欧拉数=4-1=3;图(c)欧拉数=5-(3-1)=3。
关于多边形边界描述的问题,由于面状地物的外观是复杂多变的,很难找到一个准确的指标进行描述。最常用的指标包括多边形长、短轴之比,周长面积比,面积长度比等。其中绝大多数指标是基于面积和周长的。通常认为圆形地物既非紧凑型也非膨胀型,则可定义其形状系数r为:
其中P为地物周长,A为面积。如果r<1为紧凑型;r=1为标准圆;r>1为膨胀型。
1.2.3质心量算
质心是描述地理对象空间分布的一个重要指标。例如要得到一个全国的人口分布等值线图,而人口数据只能到县级,所以必须在每个县域里定义一个点作为质心,代表该县的数值,然后进行插值计算全国人口等值线。质心通常定义为一个多边形或面的几何中心,当多边形比较简单,比如矩形,计算很容易。但当多边形形状复杂时,计算也更加复杂。
在某些情况下,质心描述的是分布中心,而不是绝对几何中心。同样以全国人口为例,当某个县绝大部分人口明显集中于一侧时,可以把质心放在分布中心上,这种质心称为平均中心或重心。如果考虑其它一些因素的话,可以赋予权重系数,称为加权平均中心。计算公式是:
其中,Wi为第i个离散目标物权重,Xi,Yi为第i个离散目标物的坐标。
质心量测经常用于宏观经济分析和市场区位选择,还可以跟踪某些地理分布的变化,如人口变迁,土地类型变化等。
1.2.4距离量算
“距离”是人们日常生活中经常涉及到的概念,它描述了两个事物或实体之间的远近程度。最常用的距离概念是欧氏距离,无论是矢量结构,还是栅格结构都很容易实现。在GIS中,距离通常是两个地点之间的计算,但有时人们想知道一个地点到所有其它地点的距离,这时得到的距离是一个距离表面。如果一区域中所有的性质与方向无关,则称为各向同性区域。以旅行时间为例,如果从某一点出发,到另一点的所耗费的时间只与两点之间的欧氏距离成正比,则从一固定点出发,旅行特定时间后所能达到的点必然组成一个等时圆。而现实生活中,旅行所耗费的时间不只与欧氏距离成正比,还与路况、运输工具性能等有关,从固定点出发,旅行特定时间后所能到达的点则在各个方向上是不同距离的,形成各向异性距离表面。(图8-2)
图8-2:各向同性和各向异性的距离表面
考虑到阻力影响,计算的距离称为耗费距离。物质在空间中移动总要花费一些代价,如资金、时间等。阻力越大耗费也越大。相应的通过耗费距离得到的距离表面称为阻力表面或耗费表面,其属性值代表一耗费或阻力大小。可以根据阻力表面计算最小耗费距离。
对于描述点、线、面坐标的矢量结构,也有一系列的不同于欧氏距离的概念。欧氏距离通常用于计算两点的直线距离:
当有障碍或阻力存在时,两点之间的距离就不能用直线距离,计算非标准欧氏距离的一般公式为:
当k=2时,就是欧氏距离计算公式。当k=1时,得到的距离称为曼哈顿距离。欧氏距离、曼哈顿距离和非欧氏距离的计算如图8-3所示。
图8-3:欧氏距离、曼哈顿距离和一种非欧氏距离
2.空间变换
地理信息系统通常是按有一定意义的图层和相应的属性建立空间数据库的。为了满足特定空间分析的需要,需对原始图层及其属性进行一系列的逻辑或代数运算,以产生新的具有特殊意义的地理图层及其属性,这个过程称为空间变换。空间变换可以基于单个图层进行,也可以对多个图层,本章将空间变换仅限于对单个图层的操作或计算,基于多图层的操作,将在叠加分析里讲述。
地理信息系统中空间数据可分为矢量和栅格两种数据结构。由于矢量结构中包含了大量的拓扑信息,数据组织复杂,使得空间变换十分繁琐。而栅格结构简单规则,空间变换比较容易。另外基于矢量结构的空间变换,对于单个图层意义不大,生成新图层时往往需要多个图层的信息,在多图层叠加分析中意义很大。
基于栅格结构的空间变换可分为三种方式:(1)单点变换;(2)邻域变换;(3)区域变换。
单点变换只考虑单个点的属性值进行运算,假定独立单元的变换不依赖于其邻点上属性的影响,也不受区域内一般特征的影响。单点变换最常见的函数有加、减、乘、除等代数运算;与、并、非、异或等逻辑运算;大于、小于等比较运算;指数函数,对数函数、三角函数等。其得到的新图层可与原图层属性意义完全不同。
邻域变换是指在计算新图层图元值时,不仅考虑原始图层上相应图元本身的值,而且还要考虑与该图元有邻域关联的其它图元值的影响。这种关联可以是直接的几何关联,也可能是间接的几何关联。常见的函数有平滑、离散点搜索、连续表面描述(坡度、坡向、可视域分析)、点在多边形中的判断等。
区域变换是指在计算新图层属性值时,要考虑整个区域的属性值,即通过一个函数对某一区域内的所有值进行综合,然后计算新属性值。常见的函数有求区域平均值、众数,极值、求和、归组、整体插值等方法。
3.再分类
通过分类找出隐藏信息是地理信息系统的重要功能之一。与传统地图相比,地图上所载负的数据是经过专门分类和处理过的,而地理信息系统存储的数据则具有原始数据的性质,所以可以根据不同的需要对数据再进行分类和提取。由于这种分类是对原始数据进行的再次分类组织,因此称为再分类(Reclassification)。
地理信息系统区别于其它信息系统的方面是其对空间信息的处理功能,同时也提供了对非空间属性的处理功能,尽管比较简单,但它在实际应用中有着重要的作用。根据地理信息的非空间属性,如材料、价值、使用性质等,进行再分类,这种纯粹基于非空间属性的分类,与其它信息系统对简单结构化的数据进行分类的方法是一样的,可以使用经典的数理统计方法,如主成分分析、层次分析、聚类分析、判别分析等等。这种分类属于普通的分类,它不改变地物已有的属性值,而只是根据地物的属性,将它们划分到相应的类别中。本章主要论述GIS中通过地物属性信息,经过分类组织产生新地物特征的再分类。
点、线状地物的再分类,对于矢量数据结构可以通过简单的修改属性表中的数值来实现,对于栅格数据结构也可以通过修改属性值来获得新的点、线地物。面状地物的再分类,对于栅格数据结构则和点、线分类一样,简单的改变属性数值并改变图例表现这一变化。例如有一个栅格图,属性值从1到15分别代表一种农作物,如果1到5及13为粮食作物,其它代表经济作物,可将1到5和13重新赋值1,其它数赋值2,则可得到只有粮食作物和经济作物两类地物的栅格图,并改变图例体现这一变化。对于矢量数据结构的面状地物再分类,则需要同时改变实体的几何形状和属性。首要的任务是去掉将要合并的多边形之间的分界线(Line Dissolve),再把这两个多边形的属性值变为同一属性。如图8-4所示:
图8-4:多边形的合并
因为对面状地物的再分类得到的新图层的类别比原图层少,称为归组(Group),它是最常用和最简单的再分类。如果想把面状地物进一步分解成不同类别的地物,就不能用此方法,因为不能知道界线的位置,可使用另一个图层,通过多边形叠加方法来实现*。
上面讲的再分类方法,都是只根据面状地物本身的属性,通过重新改变属性值而实现分类的目的,当然也可以结合邻域范围的属性值进行再分类。如坡度计算,缓冲区计算。再分类还可以综合多个图层的属性信息,如图8-5所示。
图8-5:多个属性的再分类
4.缓冲区分析
邻近度(Proximity)描述了地理空间中两个地物距离相近的程度,其确定是空间分析的一个重要手段。交通沿线或河流沿线的地物有其独特的重要性,公共设施(商场,邮局,银行,医院,车站,学校等)的服务半径,大型水库建设引起的搬迁,铁路,公路以及航运河道对其所穿过区域经济发展的重要性等,均是一个邻近度问题。缓冲区分析是解决邻近度问题的空间分析工具之一 。
所谓缓冲区就是地理空间目标的一种影响范围或服务范围。从数学的角度看,缓冲区分析的基本思想是给定一个空间对象或集合,确定它们的邻域,邻域的大小由邻域半径R决定。因此对象Oi的缓冲区定义为:
即对象 Oi 的半径为R的缓冲区为距Oi的距离d小于R的全部点的集合。d一般是最小欧氏距离,但也可是其它定义的距离。对于对象集合
其半径为R的缓冲区是各个对象缓冲区的并,即:
图8-6为点对象、线对象、面对象及对象集合的缓冲区示例。
图8-6:点、线、多边形的缓冲区
另外还有一些特殊形态的缓冲区,如点对象有三角形,矩形和圈形等,对于线对象有双侧对称,双侧不对称或单侧缓冲区,对于面对象有内侧和外侧缓冲区。这些适合不同应用要求的缓冲区,尽管形态特殊,但基本原理是一致的。
缓冲区计算的基本问题是双线问题。双线问题有很多另外的名称,如图形加粗,加宽线,中心线扩张等,它们指的都是相同的操作。
1)角分线法
双线问题最简单的方法是角分线法(简单平行线法)。算法是在轴线首尾点处,作轴线的垂线并按缓冲区半径R截出左右边线的起止点;在轴线的其它转折点上,用与该线所关联的前后两邻边距轴线的距离为R的两平行线的交点来生成缓冲区对应顶点。如图8-7所示。
图8-7:角平分线法
角分线法的缺点是难以最大限度保证双线的等宽性,尤其是在凸侧角点在进一步变锐时,将远离轴线顶点。根据上图,远离情况可由下式表示:
当缓冲区半径不变时,d随张角B的减小而增大,结果在尖角处双线之间的宽度遭到破坏。
因此,为克服角分线法的缺点,要有相应的补充判别方案,用于校正所出现的异常情况。但由于异常情况不胜枚举,导致校正措施繁杂。
2)凸角圆弧法
在轴线首尾点处,作轴线的垂线并按双线和缓冲区半径截出左右边线起止点;在轴线其它转折点处,首先判断该点的凸凹性,在凸侧用圆弧弥合,在凹侧则用前后两邻边平行线的交点生成对应顶点。这样外角以圆弧连接,内角直接连接,线段端点以半圆封闭。如图8-8所示。
图8-8:凸角圆弧法
在凹侧平行边线相交在角分线上。交点距对应顶点的距离与角分线法类似公式:
该方法最大限度的保证了平行曲线的等宽性,避免了角分线法的众多异常情况。
该算法非常重要的一环是折点凸凹性的自动判断。此问题可转化为两个矢量的叉积:把相邻两个线段看成两个矢量,其方向取坐标点序方向。若前一个矢量以最小角度扫向第二个矢量时呈逆时针方向,则为凸顶点,反之为凹顶点。具体算法过程如下:
由矢量代数可知,矢量AB,BC可用其端点坐标差表示(9-9):
图8-9:采用向量叉乘判断向量排列
矢量代数叉积遵循右手法则,即当ABC呈逆时针方向时,S为正,否则为负。
若S>0,则ABC呈逆时针,顶点为凸;
若S<0,则ABC呈顺时针,顶点为凹;
若S=0,则ABC三点共线。
对于简单情形,缓冲区是一个简单多边形,但当计算形状比较复杂的对象或多个对象集合的缓冲区时,就复杂得多。为使缓冲区算法适应更为普遍的情况,就不得不处理边线自相交的情况。当轴线的弯曲空间不容许双线的边线无压盖地通过时,就会产生若干个自相交多边形。图8-10给出一个缓冲区边线自相交的例子。
图8-10:缓冲区边界相交的情况
自相交多边形分为两种情况:岛屿多边形和重叠多边形。岛屿多边形是缓冲区边线的有效组成部分;重叠多边形不是缓冲区边线的有效组成,不参与缓冲区边线的最终重构。对于岛屿多边形和重叠多边形的自动判别方法,首先定义轴线坐标点序为其方向,缓冲区双线分成左右边线,左右边线自相交多边形的判别情形恰好对称。对于左边线,岛屿自相交多边形呈逆时针方向,重叠自相交多边形呈顺时针方向;对于右边线,岛屿多边形呈顺时针方向,重叠多边形呈逆时针方向。
当存在岛屿和重叠自相交多边形时,最终计算的边线被分为外部边线和若干岛屿。对于缓冲区边线绘制,只要把外围边线和岛屿轮廓绘出即可。对于缓冲区检索,在外边线所形成的多边形检索后,要再扣除所有岛屿多边形的检索结果。
基于栅格结构也可以作缓冲区分析,通常称为推移或扩散(Spread)。推移或扩散实际上是模拟主体对邻近对象的作用过程,物体在主体的作用下在一阻力表面移动,离主体越远作用力越弱。例如可以将地形、障碍物和空气作为阻力表面,噪声源为主体,用推移或扩散的方法计算噪声离开主体后在阻力表面上的移动,得到一定范围内每个栅格单元的噪声强度。
5.叠加分析
大部分GIS软件是以分层的方式组织地理景观,将地理景观按主题分层提取,同一地区的整个数据层集表达了该地区地理景观的内容。每个主题层,可以叫做一个数据层面。数据层面既可以用矢量结构的点、线、面图层文件方式表达,也可以用栅格结构的图层文件格式进行表达。
叠加分析是地理信息系统最常用的提取空间隐含信息的手段之一。该方法源于传统的透明材料叠加,即将来自不同的数据源的图纸绘于透明纸上,在透光桌上将其叠放在一起,然后用笔勾出感兴趣的部分—提取出感兴趣的信息。地理信息系统的叠加分析是将有关主题层组成的数据层面,进行叠加产生一个新数据层面的操作,其结果综合了原来两层或多层要素所具有的属性。叠加分析不仅包含空间关系的比较,还包含属性关系的比较。地理信息系统叠加分析可以分为以下几类:视觉信息叠加、点与多边形叠加、线与多边形叠加、多边形叠加、栅格图层叠加。
5.1视觉信息叠加
视觉信息叠加是将不同侧面的信息内容叠加显示在结果图件或屏幕上,以便研究者判断其相互空间关系,获得更为丰富的空间信息。地理信息系统中视觉信息叠加包括以下几类:
点状图,线状图和面状图之间的叠加显示。
面状图区域边界之间或一个面状图与其他专题区域边界之间的叠加。
遥感影象与专题地图的叠加。
专题地图与数字高程模型(DEM)叠加显示立体专题图。
视觉信息叠加不产生新的数据层面,只是将多层信息复合显示,便于分析。
5.2点与多边形叠加
点与多边形叠加,实际上是计算多边形对点的包含关系。矢量结构的GIS能够通过计算每个点相对于多边形线段的位置,进行点是否在一个多边形中的空间关系判断。
在完成点与多边形的几何关系计算后,还要进行属性信息处理。最简单的方式是将多边形属性信息叠加到其中的点上。当然也可以将点的属性叠加到多边形上,用于标识该多边形,如果有多个点分布在一个多边形内的情形时,则要采用一些特殊规则,如将点的数目或各点属性的总和等信息叠加到多边形上。
通过点与多边形叠加,可以计算出每个多边形类型里有多少个点,不但要区分点是否在多边形内,还要描述在多边形内部的点的属性信息。通常不直接产生新数据层面,只是把属性信息叠加到原图层中,然后通过属性查询间接获得点与多边形叠加的需要信息。例如一个中国政区图(多边形)和一个全国矿产分布图(点),二者经叠加分析后,并且将政区图多边形有关的属性信息加到矿产的属性数据表中,然后通过属性查询,可以查询指定省有多少种矿产,产量有多少;而且可以查询,指定类型的矿产在哪些省里有分布等信息。
5.3线与多边形叠加
线与多边形的叠加,是比较线上坐标与多边形坐标的关系,判断线是否落在多边形内。计算过程通常是计算线与多边形的交点,只要相交,就产生一个结点,将原线打断成一条条弧段,并将原线和多边形的属性信息一起赋给新弧段。叠加的结果产生了一个新的数据层面,每条线被它穿过的多边形打断成新弧段图层,同时产生一个相应的属性数据表记录原线和多边形的属性信息。根据叠加的结果可以确定每条弧段落在哪个多边形内,可以查询指定多边形内指定线穿过的长度。如果线状图层为河流,叠加的结果是多边形将穿过它的所有河流打断成弧段,可以查询任意多边形内的河流长度,进而计算它的河流密度等;如果线状图层为道路网,叠加的结果可以得到每个多边形内的道路网密度,内部的交通流量,进入、离开各个多边形的交通量,相邻多边形之间的相互交通量。
5.4多边形叠加
多边形叠加是GIS最常用的功能之一。多边形叠加将两个或多个多边形图层进行叠加产生一个新多边形图层的操作,其结果将原来多边形要素分割成新要素,新要素综合了原来两层或多层的属性。如图8-11所示:
图8-11:多边形叠加分析
进行多个多边形的叠加运算,在参与运算多边形所构成的属性空间(就图10而言,为宗地ID,宗地号,土壤ID,稳定性)内,每个结果多边形内部的属性值是一致的,可以称为最小 公共地理单元(Least Common Geographic Unit,LCGU)。
叠加过程可分为几何求交过程和属性分配过程两步。几何求交过程首先求出所有多边形边界线的交点,再根据这些交点重新进行多边形拓扑运算,对新生成的拓扑多边形图层的每个对象赋一多边形唯一标识码,同时生成一个与新多边形对象一一对应的属性表。由于矢量结构的有限精度原因,几何对象不可能完全匹配,叠加结果可能会出现一些碎屑多边形(Silver Polygon),如图8-12所示。通常可以设定一模糊容限以消除它。
图8-12:多边形叠加产生碎屑多边形
多边形叠加结果通常把一个多边形分割成多个多边形,属性分配过程最典型的方法是将输入图层对象的属性拷贝到新对象的属性表中,或把输入图层对象的标识作为外键,直接关联到输入图层的属性表。这种属性分配方法的理论假设是多边形对象内属性是均质的,将它们分割后,属性不变。也可以结合多种统计方法为新多边形赋属性值。
多边形叠加完成后,根据新图层的属性表可以查询原图层的属性信息,新生成的图层和其它图层一样可以进行各种空间分析和查询操作。
根据叠加结果最后欲保留空间特征的不同要求,一般的GIS软件都提供了三种类型的多边形叠加操作,如图8-13所示:
图8-13:多边形的不同叠加方式
5.5栅格图层叠加
栅格数据结构空间信息隐含属性信息明显的特点,可以看作是最典型的数据层面,通过数学关系建立不同数据层面之间的联系是GIS提供的典型功能。空间模拟尤其需要通过各种各样的方程将不同数据层面进行叠加运算,以揭示某种空间现象或空间过程。例如土壤侵蚀强度与土壤可蚀性,坡度,降雨侵蚀力等因素有关,可以根据多年统计的经验方程,把土壤可蚀性、坡度、降雨侵蚀力作为数据层面输入,通过数学运算得到土壤侵蚀强度分布图。这种作用于不同数据层面上的基于数学运算的叠加运算,在地理信息系统中称为地图代数。地图代数功能有三种不同的类型:
基于常数对数据层面进行的代数运算;
基于数学变换对数据层面进行的数学变换(指数、对数、三角变换等);
多个数据层面的代数运算(加、减、乘、除、乘方等)和逻辑运算(与、或、非、异或等)。
下面给出一个地图代数的典型例子。有一个森林地区融雪经验模型:
M=(0.19T+0.17D)
式中,M是融雪速度(厘米/天),T是空气温度,D是露点温度。根据此方程,使用该地区的气温和露点温度分布图层,就能计算该地区融雪速率分布图。计算过程是先分别把温度分布图乘以0.19和露点温度分布图乘以0.17,再把得到的结果相加。需要说明的是地图代数在形式和概念上都比较简单,使用起来方便灵活,但把图层作为代数公式的变量进行计算,在实现的技术上难度较大。
栅格图层叠加的另一形式是二值逻辑叠加,常作为栅格结构的数据库查询工具。数据库查询就是查找数据库中已有的信息,例如:基于位置信息查询如已知地点的土地类型,以及基于属性信息的查询如地价最高的位置;比较复杂的查询涉及多种复合条件,如查询所有的面积大于10公顷且邻近工业区的全部湿地。这种数据库查询通常分为两步,首先进行再分类(见第三节)操作,为每个条件创建一个新图层,通常是二值图层,1代表符合条件,0表示所有不符合条件。第二步进行二值逻辑叠加操作得到想查询的结果。逻辑操作类型包括与、或、非、异或。
6.网络分析
对地理网络(如交通网络)、城市基础设施网络(如各种网线、电力线、电话线、供排水管线等)进行地理分析和模型化,是地理信息系统中网络分析功能的主要目的。网络分析是运筹学模型中的一个基本模型,它的根本目的是研究、筹划一项网络工程如何安排,并使其运行效果最好,如一定资源的最佳分配,从一地到另一地的运输费用最低等。其基本思想则在于人类活动总是趋于按一定目标选择达到最佳效果的空间位置。这类问题在社会经济活动中不胜枚举,因此在地理信息系统中此类问题的研究具有重要意义。
6.1网络数据结构
网络数据结构的基本组成部分和属性如下:
1)链(Link)
网络中流动的管线,如街道、河流、水管等,其状态属性包括阻力和需求。
2)结点(Node)*
网络中链的结点,如港口、车站、电站等,其状态属性包括阻力和需求等。结点中又有下面几种特殊的类型。
障碍(Barrier),禁止网络中链上流动的点。
拐点(Turn),出现在网络链中的分割结点上,状态属性有阻力,如拐弯的时间和限制(如在8:00到18:00不允许左拐)。
中心(Center),是接受或分配资源的位置,如水库、商业中心、电站等,其状态属性包括资源容量(如总量),阻力限额(中心到链的最大距离或时间限制)。
站点(Stop),在路径选择中资源增减的结点,如库房、车站等,其状态属性有资源需求,如产品数量。
除了基本的组成部分外,有时还要增加一些特殊结构,如邻接点链表用来辅助进行路径分析。
6.2主要网络分析功能
6.2.1路径分析
1)静态求最佳路径:在给定每条链上的属性后,求最佳路径。
2)N条最佳路径分析:确定起点或终点,求代价最小的N条路径,因为在实践中最佳路径的选择只是理想情况,由于种种因素而要选择近似最优路径。
3)最短路径或最低耗费路径:确定起点、终点和要经过的中间点、中间连线,求最短路径或最小耗费路径。
4)动态最佳路径分析:实际网络中权值是随权值关系式变化的,可能还会临时出现一些障碍点,需要动态的计算最佳路径。
6.2.2计算最短路径的Dijkstra算法
为了进行网络最短路径分析,需要将网络转换成有向图。无论是计算最短路径还是最佳路径,其算法都是一致的,不同之处在于有向图中每条弧的权值设置。如果要计算最短路径,则权重设置为两个节点的实际距离;而要计算最佳路径,则可以将权值设置为从起点到终点的时间或费用。Dijkstra算法可以用于计算从有向图中任意一个节点到其它节点的最短路径。下面是该算法的描述。
1)用带权的邻接矩阵Cost来表示带权的n个节点的有向图,Cost[i,j]表示弧<vi,vj>的权值,如果从vi到vj不连通,则Cost[i,j]=∞。图8-14表示了一个带权有向图以及其邻接矩阵。
图8-14:带权的有向图和邻接矩阵
然后,引进一个辅助向量Dist,每个分量Dist[i]表示从起始点到每个终点vi的最短路径长度。假定起始点在有向图中的序号为i0,并设定该向量的初始值为:
Dist[i]=Cost[i0,i] vi∈V。
令S为已经找到的从起点出发的最短路径的终点的集合。
2)选择Vj,使得
Dist[j]=Min{ Dist[i]|Vi∈V-S} vi∈V
vj就是当前求得的一条从vi0出发的最短路径的终点,令
S=S∪{vj}
3)修改从vi0出发到集合V-S中任意一顶点vk的最短路径长度。如果
Dist[j]+Cost[j,k]<Dist[k]
则修改Dist[k]为:
Dist[k]=Dist[j]+Cost[j,k]
4)重复第2、3步操作共n-1次,由此求得从vi0出发的到图上各个顶点的最短路径是依路径长度递增的序列。表8-1是图8-14根据Dijkstra计算的结果。
表8-1:用Dijkstra计算的结果
终点
从v0到其它各个节点的最短路径
v1
∞
∞
∞
∞
∞
无
v2
10
(v0,v2)
v3
∞
60
(v0,v2,v3)
50
(v0,v4,v3)
v4
30
(v0,v4)
30
(v0,v4)
v5
100
(v0,v5)
100
(v0,v5)
90
(v0,v4,v5)
60
(v0,v4,v3,v5)
vj
v2
v4
v3
v5
在实际应用中,采用Dijkstra算法计算两点之间的最短路径和求从一点到其它所有点的最短路径所需要的时间是一样的,算法时间复杂度为O(n2)。
6.2.3资源分配
资源分配网络模型由中心点(分配中心或收集中心)及其属性和网络组成。分配有两种形式,一种是由分配中心向四周分配,另一种是由四周向收集中心分配。资源分配的应用包括消防站点分布和求援区划分、学校选址、垃圾收集站点分布,停水停电对区域的社会、经济影响估计等。
1)负荷设计
负荷设计可用于估计排水系统在暴雨期间是否溢流,输电系统是否超载等。
2)时间和距离估算
时间和距离估算除用于交通时间和交通距离分析外,还可模拟水、电等资源或能量在网络上的距离损耗。
网络分析的具体门类、对象、要求变化非常多,一般的GIS软件往往只能提供一些常用的分析方法、或提供描述网络的数据模型和存储信息的数据库。其中最常用的方法是线性阻抗法,即资源在网络上的运输与所受的阻力和距离(或时间)成线性正比关系,在这基础上选择路径,估计负荷,分配资源,计算时间和距离等。对于特殊的、精度要求极高的、非线性阻抗的网络,则需要特殊的算法分析。
7.空间插值
7.1空间插值的概念和理论
空间插值常用于将离散点的测量数据转换为连续的数据曲面,以便与其它空间现象的分布模式进行比较,它包括了空间内插和外推两种算法。空间内插算法是一种通过已知点的数据推求同一区域其它未知点数据的计算方法;空间外推算法则是通过已知区域的数据,推求其它区域数据的方法。在以下几种情况下必须作空间插值:
1)现有的离散曲面的分辨率,象元大小或方向与所要求的不符,需要重新插值。例如将一个扫描影象(航空像片、遥感影象)从一种分辨率或方向转换到另一种分辨率或方向的影象。
2)现有的连续曲面的数据模型与所需的数据模型不符,需要重新插值。如将一个连续的曲面从一种空间切分方式变为另一种空间切分方式,从TIN到栅格、栅格到TIN或矢量多边形到栅格。
3)现有的数据不能完全覆盖所要求的区域范围,需要插值。如将离散的采样点数据内插为连续的数据表面。
空间插值的理论假设是空间位置上越靠近的点,越可能具有相似的特征值;而距离越远的点,其特征值相似的可能性越小。然而,还有另外一种特殊的插值方法——分类,它不考虑不同类别测量值之间的空间联系,只考虑分类意义上的平均值或中值,为同类地物赋属性值。它主要用于地质、土壤、植被或土地利用的等值区域图或专题地图的处理,在“景观单元”或图斑内部是均匀和同质的,通常被赋给一个均一的属性值,变化发生在边界上。
7.2空间插值的数据源
连续表面空间插值的数据源包括:
摄影测量得到的正射航片或卫星影象;
卫星或航天飞机的扫描影象;
野外测量采样数据,采样点随机分布或有规律的线性分布(沿剖面线或沿等高线);
数字化的多边形图、等值线图;
空间插值的数据通常是复杂空间变化有限的采样点的测量数据,这些已知的测量数据称为“硬数据”。如果采样点数据比较少的情况下,可以根据已知的导致某种空间变化的自然过程或现象的信息机理,辅助进行空间插值,这种已知的信息机理,称为“软信息”。但通常情况下,由于不清楚这种自然过程机理,往往不得不对该问题的属性在空间的变化作一些假设,例如假设采样点之间的数据变化是平滑变化,并假设服从某种分布概率和统计稳定性关系。
采样点的空间位置对空间插值的结果影响很大,理想的情况是在研究区内均匀布点。然而当区域景观大量存在有规律的空间分布模式时,如有规律间隔的数或沟渠,用完全规则的采样网络则显然会得到片面的结果,正是这个原因,统计学家希望通过一些随机的采样来计算无偏的均值和方差。但是完全随机的采样同样存在缺陷,首先随机的采样点的分布位置是不相关的,而规则采样点的分布则只需要一个起点位置,方向和固定大小的间隔,尤其是在复杂的山地和林地里比较容易。其次完全随机采样,会导致采样点的分布不均,一些点的数据密集,另一些点的数据缺少。图8-15列出空间采样点分布的几种选择。
图8-15:各种不同的采样方式
规则采样和随机采样好的结合方法是成层随机采样,即单个的点随机的分布于规则的格网内。聚集采样可用于分析不同尺度的空间变化。规则断面采样常用于河流、山坡剖面的测量。等值线采样是数字化等高线图插值数字高程模型最常用的方法。
术语:是一个数据点的属性值,其中是所有测量点中的一个。是一个点x0插值后的数值。如果一种插值方法计算的数据,其中采样点的计算数据等于已知的采样数据,称这种插值方法是精确插值方法;所有的其它插值方法为近似插值方法。统计计算值和测量值之间的差异(绝对值和平方差),-,是评价不精确插值方法质量常用的指标。
7.3空间插值方法
空间插值方法可以分为整体插值和局部插值方法两类。整体插值方法用研究区所有采样点的数据进行全区特征拟合;局部插值方法是仅仅用邻近的数据点来估计未知点的值。
整体插值方法通常不直接用于空间插值,而是用来检测不同于总趋势的最大偏离部分,在去除了宏观地物特征后,可用剩余残差来进行局部插值。由于整体插值方法将短尺度的、局部的变化看作随机的和非结构的噪声,从而丢失了这一部分信息。局部插值方法恰好能弥补整体插值方法的缺陷,可用于局部异常值,而且不受插值表面上其它点的内插值影响。
7.3.1整体插值方法
1)边界内插方法
边界内插方法假设任何重要的变化发生在边界上,边界内的变化是均匀的,同质的,即在各方向都是相同的。这种概念模型经常用于土壤和景观制图,可以通过定义“均质的”土壤单元、景观图斑,来表达其它的土壤、景观特征属性。
边界内插方法最简单的统计模型是标准方差分析(ANOVAR)模型:
式中,z是在x0位置的属性值,μ是总体平均值,αk是k类平均值与μ的差,ε为类间平均误差(噪声)。
该模型假设每一类别k的属性值是正态分布;每类k的平均值(μ+αk)由一个独立样品集估计,并假设它们是与空间无关的;类间平均误差ε假设所有类间都是相同的。
评价分类效果的指标是,为类间方差,为总体方差,比值越小分类效果越好。分类效果的显著性检验可以用F检验。
实质上,边界内插方法的理论假设是:
属性值z在“图斑”或景观单元内是随机变化的,不是有规律的;
同一类别的所有“图斑”存在同样的类方差(噪声);
所有的属性值都呈正态分布;
所有的空间变化发生在边界上,是突变而不是渐变。
在使用边界内插时,应仔细考虑数据源是否符合这些理论假设。
2)趋势面分析
某种地理属性在空间的连续变化,可以用一个平滑的数学平面加以描述。思路是先用已知采样点数据拟合出一个平滑的数学平面方程,再根据该方程计算无测量值的点上的数据。这种只根据采样点的属性数据与地理坐标的关系,进行多元回归分析得到平滑数学平面方程的方法,称为趋势面分析。它的理论假设是地理坐标(x,y)是独立变量,属性值Z也是独立变量且是正态分布的,同样回归误差也是与位置无关的独立变量。
多项式回归分析是描述长距离渐变特征的最简单方法。多项式回归的基本思想是用多项式表示线、面,按最小二乘法原理对数据点进行拟合。线或面多项式的选择取决于数据是一维的还是二维的。
用一个简单的示例来说明,地理或环境调查中特征值z沿一个断面在x1,x2…xn处采样,若z值随x值增加而线性增大,则该特征值的长期变化可以用下面一个回归方程进行计算:
其中,b0,b1为回归系数,ε为独立于x的正态分布残差(噪声)。
然而许多情况下,不是以线性函数,而是以更为复杂的方式变化,则需用二次多项式进行拟合:
对于二维的情况,XY坐标的多元回归分析得到的曲面多项式,形式如下:
前三种形式分别是:
平面
斜平面
二次曲面
其中,p是趋势面方程的次数。
是趋势面多项式正常情况下的最少项数个数。零次多项式是平面,有1个项数;一次多项式是斜平面,有3个项数;二次曲面有6个项数,三次趋势面有10个项数。
计算系数bi是一个标准的多元回归问题。趋势面分析的优点是非常容易理解,至少是在计算方面。另外大多数情况下可用低次多项式进行拟合,但给复杂的多项式赋与明确的物理意义比较困难。
趋势面是个平滑函数,很难正好通过原始数据点,除非是数据点少且趋势面次数高才能是曲面正好通过原始数据点,所以趋势面分析是一个近似插值方法。实际上趋势面最有成效的应用是揭示区域中不同于总趋势的最大偏离部分,所以趋势面分析的主要用途是,在使用某种局部插值方法之前,可用趋势面分析从数据中去掉一些宏观特征,不直接用它进行空间插值。
趋势面拟合程度的检验,同多元回归分析一样,可用F分布进行检验,其检验统计量为:
其中,U为回归平方和,Q为残差平方和(剩余平方和),p为多项式项数(不包括常数项b0),n为使用数据点数目。当F>Fa时,趋势面显著,否则不显著。
3)变换函数插值
根据一个或多个空间参量的经验方程进行整体空间插值,也是经常使用的空间插值方法,这种经验方程称为变换函数。下面以一个研究实例进行说明。
冲积平原的土壤重金属污染与几个重要因子有关,其中距污染源(河流)的距离,和高程两个因子最重要。一般情况,携带重金属的粗粒泥沙沉积在河滩上,携带重金属的细粒泥沙沉淀在低洼的在洪水期容易被淹没的地方,而那些洪水频率低的地方,由于携带重金属污染泥沙颗粒比较少,受到污染轻。由于距河流的距离和高程是比较容易得到的空间变量,可以用各种重金属含量与它们的经验方程进行空间插值,以改进对重金属污染的预测。本例回归方程的形式如下:
式中是z(x)某种重金属含量(ppm),b0…bn是回归系数,p1…pn是独立空间变量,本例p1是距河流的距离因子,p2是高程因子。
这种回归模型通常叫做转换函数,大多数GIS软件都可以计算。转换函数可以应用于其他独立变量,如温度、高程、降雨量和距海、植被的距离关系可以组合为一个超剩含水量的函数。地理位置及其属性可以尽可能多的信息组合成需要的回归模型,然后进行空间插值。但应该注意的一点是,必须清楚回归模型的物理意义。还要指出的是所有的回归转换函数都属于近似的空间插值。
整体插值方法通常使用方差分析和回归方程等标准的统计方法,计算比较简单。其它的许多方法也可用于整体空间插值,如傅立叶级数和小波变换,特别是遥感影象分析方面 ,但它们需要的数据量大。
7.3.2局部插值方法
局部插值方法只使用邻近的数据点来估计未知点的值,包括几个步骤:
1)定义一个邻域或搜索范围;
2)搜索落在此邻域范围的数据点;
3)选择表达这有限个点的空间变化的数学函数;
4)为落在规则格网单元上的数据点赋值。重复这个步骤直到格网上的所有点赋值完毕。
使用局部插值方法需要注意的几个方面是:所使用的插值函数;邻域的大小、形状和方向;数据点的个数;数据点的分布方式是规则的还是不规则的。
1)最近邻点法:泰森多边形方法
泰森多边形(Thiessen,又叫Dirichlet 或Voronoi多边形)采用了一种极端的边界内插方法,只用最近的单个点进行区域插值。泰森多边形按数据点位置将区域分割成子区域,每个子区域包含一个数据点,各子区域到其内数据点的距离小于任何到其它数据点的距离,并用其内数据点进行赋值。连接所有数据点的连线形成Delaunay三角形,与不规则三角网TIN具有相同的拓扑结构。
GIS和地理分析中经常采用泰森多边形进行快速的赋值,实际上泰森多边形的一个隐含的假设是任何地点的气象数据均使用距它最近的气象站的数据。而实际上,除非是有足够多的气象站,否则这个假设是不恰当的,因为降水、气压、温度等现象是连续变化的,用泰森多边形插值方法得到的结果图变化只发生在边界上,在边界内都是均质的和无变化的。
2)移动平均插值方法:距离倒数插值
距离倒数插值方法综合了泰森多边形的邻近点方法和趋势面分析的渐变方法的长处,它假设未知点x0处属性值是在局部邻域内中所有数据点的距离加权平均值。距离倒数插值方法是加权移动平均方法的一种。加权移动平均方法的计算公式如下:
式中,权重系数由函数计算,要求当时,一般取倒数或负指数形式。其中最常见的形式是距离倒数加权函数,形式如下:
式中,xj为未知点,xi为已知数据点。
加权移动平均公式最简单的形式称为线性插值,公式如下:
距离倒数插值方法是GIS软件根据点数据生成栅格图层的最常见方法。距离倒数法计算值易受数据点集群的影响,计算结果经常出现一种孤立点数据明显高于周围数据点的“鸭蛋”分布模式,可以在插值过程中通过动态修改搜索准则进行一定程度的改进。
3)样条函数插值方法
在计算机用于曲线与数据点拟合以前,绘图员是使用一种灵活的曲线规逐段的拟合出平滑的曲线。这种灵活的曲线规绘出的分段曲线称为样条。与样条匹配的那些数据点称为桩点,绘制曲线时桩点控制曲线的位置。曲线规绘出的曲线在数学上用分段的三次多项式函数来描述这种曲线,其连接处有连续的一阶和二阶连续导数。
样条函数是数学上与灵活曲线规对等的一个数学等式,是一个分段函数,进行一次拟合只有与少数点拟合,同时保证曲线段连接处连续。这就意味着样条函数可以修改少数数据点配准而不必重新计算整条曲线,趋势面分析方法做不到这一点,(图16)。
图8-16:样条函数的局部特征
(a:当二次样条曲线的一个点位置变化时,只需要重新计算四段曲线;
b:而一次样条曲线的一个点位置变化时,只需要重新计算两段曲线)
一般的分段多项式p(x)定义为:
p(x)=pi (x) xi < x < xi+1 ( i=1, 2, 3…, k-1 )
( j=0, 1, 2, ..., r-1; i=1, 2, ... , k-1 )
x1, ..., xk-1将区间x0,xk分成k个子区间,这些分割点称“断点”,曲线上具有这些x值的点称为“节”。函数pi (x)为小于等于m次的多项式。r项用来表示样条函数的约束条件:
r=0,无约束;
r=1,函数连续且对它的导数无任何约束;
r=m-1,区间[x0xk]可用一个多项式表示;
r=m,约束条件最多。
m=1,2,3时的样条分别为一次、二次、三次样条函数,其导数分别是0阶、1阶、2阶导数,二次样条函数的每个节点处必须有一阶连续导数,三次样条函数的每个节点初必须有二阶连续导数。r=m的简单样条只有k+m个自由度,r=m=3有着特殊的意义,因为它是三次多项式,该函数首次被人们称为样条函数。术语“三次样条”用于三维情况,此时进行曲面内插,而不是曲线内插。
由于离散子区间的范围较宽,可能是一条数字化的曲线,在这个范围内计算简单样条会引起一定的数学问题,因此在实际应用中都用B样条—一种特殊的样条函数。B样条是感兴趣区间以外均为零的其它样条的和,因此可按简单的方法用低次多项式进行局部拟合。
B样条经常用于数字化的线划在显示之前进行平滑处理,例如土壤、地质图上的各种边界,传统的制图总希望绘出较平滑的曲线。但是用B样条做多边形边界平滑也存在一些问题,特别是多边形面积和周长的计算,结果会与平滑前的不同。
综上所述,样条函数是分段函数,每次只用少量数据点,故插值速度快。样条函数与趋势面分析和移动平均方法相比,它保留了局部的变化特征。线性和曲面样条函数都在视觉上上得到了令人满意的结果。样条函数的一些缺点是:样条内插的误差不能直接估算,同时在实践中要解决的问题是样条块的定义以及如何在三维空间中将这些“块”拼成复杂曲面,又不引入原始曲面中所没有的异常现象等问题。
4)空间自协方差最佳插值方法:克里金插值
前面介绍的几个插值方法对影响插值效果的一些敏感性问题仍没有得到很好的解决,例如趋势面分析的控制参数和距离倒数插值方法的权重对结果影响很大,这些问题包括:
需要计算平均值数据点的数目;
搜索数据点的邻域大小、方向和形状如何确定;
有没有比计算简单距离函数更好的估计权重系数的方法;
与插值有关的误差问题。
为解决这些问题,法国地理数学学家Georges Matheron和南非矿山工程师D.G.Krige研究了一种优化插值方法,用于矿山勘探。这个方法被广泛地应用于地下水模拟、土壤制图等领域,成为GIS软件地理统计插值的重要组成部分。这种方法充分吸收了地理统计的思想,认为任何在空间连续性变化的属性是非常不规则的,不能用简单的平滑数学函数进行模拟,可以用随机表面给予较恰当的描述。这种连续性变化的空间属性称为“区域性变量”,可以描述象气压、高程及其它连续性变化的描述指标变量。这种应用地理统计方法进行空间插值的方法,被称为克里金(Kriging)插值。 地理统计方法为空间插值提供了一种优化策略,即在插值过程中根据某种优化准则函数动态的决定变量的数值。Matheron ,Krige等人研究的插值方法着重于权重系数的确定,从而使内插函数处于最佳状态,即对给定点上的变量值提供最好的线性无偏估计。
克里金插值方法的区域性变量理论假设任何变量的空间变化都可以表示为下述三个主要成分的和(图8-17):
1)与恒定均值或趋势有关的结构性成分;
2)与空间变化有关的随机变量,即区域性变量;
3)与空间无关的随机噪声项或剩余误差项。
图8-17:区域变量理论将复杂的空间变化分为三个部分
(i)地形的平均特性;(ii)空间相关的不规则变化;(iii)随机的、局部的变化
另x为一维、二维或三维空间中的某一个位置,变量z在x处的值可又下式计算:
式中,m(x)是描述z(x)的结构性成分的确定性函数;是与空间变化有关的随机变化项,即区域性变量; 是剩余误差项,空间上具有零平均值、与空间无关的高斯噪声项。
克里金方法的第一步是确定适当的m(x)函数,最简单的情况是m(x)等于采样区的平均值,距离矢量h分离的两点x,x+h之间的数学期望等于零:
式中z(x), z(x+h) 是随机变量z在x, x+h处的值,同时还假设两点之间的方差只与距离h有关,于是:
式中,是一种函数,称为半方差函数。
区域性变量理论的两个内在假设条件是差异的稳定性和可变性,一旦结构性成分确定后,剩余的差异变化属于同质变化,不同位置之间的差异仅是距离的函数。这样,区域性变量计算公式可以写成下式的形式:
半方差的估算公式如下:
式中,n为距离为h的采样点对的数目(n对点),采样间隔h也叫延迟。对应于h的的图被称为“半方差图”。图8-18表示一个典型的半方差图。
半方差是定量描述区域性变化的第一步,它为空间插值、优化采样方案提供了有益的信息。为了求得半方差图,必须先得到拟合半方差的理论模型,在半方差理论模型中:
1)延迟h的值较大的部分曲线呈水平方向。曲线的水平部分成为“梁(Sill)”。说明在延迟的这个范围内数据点没有空间相关性,因为所有的方差不随距离增减而变化。
2)曲线从的低值升到梁为止的延迟范围,称为“变程(Range)”。变程是半方差图最重要的部分,因为它描述了与空间有关的差异怎样随距离变化的。在变程范围内距离越近的点具有更相近的特征。变程给移动加权平均方法提供了一个确定窗口大小的方法。很显然,数据点和未知点之间的距离大于变程范围,表明该数据点与未知点距离太远,对插值没有作用。
3)图中的拟合模型没有通过原点,而是在的正方向与坐标轴相截。
图8-18:半方差图
按半方差计算公式,当h=0时,必须为零。模型中出现的正值是剩余误差的估计值,它是与空间无关的噪声。称为“核(Nugget)”方差,是观测误差的和距离间隔很小的情况下的空间变化的组合。
当存在明显的变程和梁,同时核方差也很重要但数值不太大的情况下,可用球面模型进行半方差拟合(图8-19-1)。公式是:
0 < h < a
h >= a
h=0
式中,a是变程,h是延迟,c0+c1为梁。一般情况下用球面模型拟合效果比较理想。
如果存在明显的核方差和梁,而没有渐变的变程,则可用指数模型(图8-19-2)进行拟合:
如果核方差相对于与空间变化有关的随机变化很小的情况下,最好使用比较弯曲的曲线,如高斯曲线:(图8-19-4)
如果空间变化随变程渐变,但没有梁,则可用线性模型(图8-19-3)进行拟合:
式中,b为线的斜率。当变程的大小远超过人们希望的插值范围时,也用线性模型。
前面的讨论都假设地表特征在各个方向都是相同的,然而许多情况下空间变化中的都具有明显的方向性,这是就要用不同参数的模型来拟合半方差图。
图8-19:各种不同的变方差图
拟合后的半方差图重要的用途是确定局部内插需要的权重因子。确定的过程与加权移动插值方法类似,但不是按一种固定的函数计算,而是按采样点数据的半方差图的统计分析原理计算。即:
权重的选择应使是无偏估计,且估计的方差小于观测值的其它线性组合产生的方差。
的最小方差为:
只有下式成立时,才可获得的最小方差:
式中,是z在采样点xi, xj之间的半方差;是采样点xj和未知点x0之间的半方差,这两个量均可从已拟合模型的半方差图上得到。量计算最小方差需要的拉格朗日算子。
这个方法叫常规克里金插值。它是一个精确插值模型,内插值或最佳局部均值与数据点上的值一致。制图中常用比采样间隔更细的规则格网进行插值,内插值又可用前边提到的方法转换成等值线图。与此类似,估计的误差,又叫克里金方差,可以用来制图以反映在整个研究区内插值结果的可靠性。
一个克里金插值的示例:(图8-20)
图8-20:克里金插值的示例
计算图中(x=5,y = 5 )处未知点I0的克里金方法的权重,使用球面模型对半方差进行拟和,参数c0 = 2.5 ,c1 =7.5;变程 a= 10.0。这5个采样点的数据分别是:
I
x
y
z
I1
2
2
3
I2
3
7
4
I3
9
9
2
I4
6
5
4
I5
5
3
6
解法过程用矩阵的表示如下:
其中,A为数据点之间的半方差矩阵,b是每个数据点与未知点之间的半方差向量,λ为要计算的权重系数向量,Φ为解方程的拉格郎日算子。
首先计算这5个数据点之间的距离矩阵:
I 1 2 3 4 5
I1 0.0 5.099 9.899 5.000 3.162
I2 5.099 0.0 6.325 3.606 4.472
I3 9.899 6.325 0.0 5.0 7.211
I4 5.0 3.606 5.0 0.0 2.236
I5 3.162 4.472 7.211 2.236 0.0
和它们与未知点之间的距离向量:
I I0
I1 4.243
I2 2.808
I3 5.657
I4 1.0
I5 2.0
将上述数值带入球面模型,得到相应的半方差(矩阵A, b):
A= I 1 2 3 4 5 6
1 2.500 7.739 9.999 7.656 5.939 1.000
2 7.739 2.500 8.677 6.381 7.196 1.000
3 9.999 8.677 2.500 7.656 9.206 1.000
4 7.656 6.381 7.656 2.500 4.936 1.000
5 5.939 7.196 9.206 4.936 2.500 1.000
6 1.000 1.000 1.000 1.000 1.000 0.000
b = I 0
1 7.151
2 5.597
3 8.815
4 3.621
5 4.720
6 1.000
注意额外的第6行和第6列,是为了保证权重之和为1。
计算A的逆矩阵,得:
A-1= I 1 2 3 4 5 6
1 -0.172 0.050 0.022 -0.026 0.126 0.273
2 0.050 -0.167 0.032 0.077 0.007 0.207
3 0.022 0.032 -0.111 0.066 -0.010 0.357
4 -0.026 0.077 0.066 -0.307 0.190 0.030
5 0.126 0.007 -0.010 0.190 -0.313 0.134
6 0.273 0.207 0.357 0.003 0.134 -6.873
于是,权重λ为:
I 权重系数 距离
1 0.0175 4.423
2 0.2281 2.828
3 -0.0891 ∑ = 1 5.657
4 0.6437 1.000
5 0.1998 2.000
6 0.1182 φ
得未知点插值后得数值为:
z(I0) =0.0175*3 + 0.2281*4 - 0.0891*2 + 0.6437*4 + 0.1998*6
= 4.566
估计方差为:
σe2 = [0.0175* 7.151+ 0.2281* 5.597 - 0.0891* 8.815
+ 0.6437 *3.621 + .1998 *4.720 ] +φ
= 3.890 + 0.1182
= 4.008
克里金插值方法的目的是提供确定权重系数最优的方法和并能描述误差信息。由于克里金点模型(常规克里金模型)的内插值与原始样本的容量有关,当样本少的情况下,采用简单的点常规克里金插值的内插结果图会出现明显的凹凸现象。可以通过修改克里金方程以估计子块B内的平均值来克服这一缺点。该方法叫块克里金插值,该方法对估算给定面积试验小区的平均值或对给定格网大小的规则格网进行插值比较适用。
子块B内z的均值为:
式中,SB为子块B的面积。z(x)仍用相同的估计公式:
最小方差仍为:
但成立条件则变为:
块克里金插值估算的方差结果常常小于点克里金插值,所以生成的平滑插值表面不会发生点模型的凹凸现象。
8.空间统计分类分析
多变量统计分析主要用于数据分类和综合评价。数据分类方法是地理信息系统重要的组成部分。一般说地理信息系统存储的数据具有原始性质,用户可以根据不同的实用目的,进行提取和分析,特别是对于观测和取样数据,随着采用分类和内插方法的不同,得到的结果有很大的差异。因此,在大多数情况下,首先是将大量未经分类的数据输入信息系统数据库,然后要求用户建立具体的分类算法,以获得所需要的信息。
综合评价模型是区划和规划的基础。从人类认识的角度来看有精确的和模糊的两种类型,因为绝大多数地理现象难以用精确的定量关系划分和表示,因此模糊的模型更为实用,结果也往往更接近实际。综合评价一般经过四个过程:
1)评价因子的选择与简化;
2)多因子重要性指标(权重)的确定;
3)因子内各类别对评价目标的隶属度确定;
4)选用某种方法进行多因子综合。
分类和评价的问题通常涉及大量的相互关联的地理因素,主成分分析方法可以从统计意义上将各影响要素的信息压缩到若干合成因子上,从而使模型大大地简化;因子权重的确定是建立评价模型的重要步骤,权重正确与否极大地影响评价模型的正确性,而通常的因子权重确定依赖较多的主观判断,层次分析法是综合众人意见,科学地确定各影响因子权重的简单而有效的数学手段。隶属度反映因子内各类别对评价目标的不同影响,依据不同因子的变化情况确定,常采用分段线性函数或其它高次函数形式计算。常用的分类和综合的方法包括聚类分析和判别分析两大类。聚类分析可根据地理实体之间影响要素的相似程度,采用某种与权重和隶属度有关的距离指标,将评价区域划分若干类别;判别分析类似于遥感图像处理的分类方法,即根据各要素的权重和隶属度,采用一定的评价标准将各地理实体判归最可能的评价等级或以某个数据值所示的等级序列上;分类定级是评价的最后一步,将聚类的结果根据实际情况进行合并,并确定合并后每一类的评价等级,对于判别分析的结果序列采用等间距或不等间距的标准划分为最后的评价等级。
下面简要介绍分类评价中常用的几种数学方法。
8.1主成分分析(Principal Component Analysis,PCA)
地理问题往往涉及大量相互关联的自然和社会要素,众多的要素常常给模型的构造带来很大困难,同时也增加了运算的复杂性。为使用户易于理解和解决现有存储容量不足的问题,有必要减少某些数据而保留最必要的信息。由于地理变量中许多变量通常都是相互关联的,就有可能按这些关联关系进行数学处理达到简化数据的目的。主成分分析是通过数理统计分析,求得各要素间线性关系的实质上有意义的表达式,将众多要素的信息压缩表达为若干具有代表性的合成变量,这就克服了变量选择时的冗余和相关,然后选择信息最丰富的少数因子进行各种聚类分析,构造应用模型。
设有n个样本,户个变量。将原始数据转换成一组新的特征值——主成分,主成分是原变量的线性组合且具有正交特征。即将x1,x2,…,xp综合成m(m<p)个指标z1,z2,…,zm,即:
z1=l11*x1+l12*x2+…+l1p*xp
z2=l21*x1+l22*x2+…+l2p*xp
… …
zm=lm1*x1+lm2*x2+…+lmp*xp
这样决定的综合指标z1,z2,…,zm分别称做原指标的第一,第二,…,第m主成分。其中z1在总方差中占的比例最大,其余主成分z2,z3,…,zm的方差依次递减。在实际工作中常挑选前几个方差比例最大的主成分,这样既减少了指标的数目,又抓住了主要矛盾,简化了指标之间的关系。
从几何上看,确定主成分的问题,就是找p维空间中椭球体的主轴问题,就是得到即将x1,x2,…,xp的相关矩阵中m个较大特征值所对应的特征向量,通常用雅可比(Jacobi)法计算特征值和特征向量。
很显然,主成分分析这一数据分析技术是把数据减少到易于管理的程度,也是将复杂数据变成简单类别便于存储和管理的有力工具。
8.2层次分析法
层次分析(Analytic Hierarchy Process,AHP)法是系统分析的数学工具之一,它把人的思维过程层次化、数量化,并用数学方法为分析、决策、预报或控制提供定量的依据。事实上这是一种定性和定量分析相结合的方法。在模型涉及大量相互关联、相互制约的复杂因素的情况下,各因素对问题的分析有着不同的重要性,决定它们对目标重要性的序列,对建立模型十分重要。
AHP方法把相互关联的要素按隶属关系分为若干层次,请有经验的专家对各层次各因素的相对重要性给出定量指标,利用数学方法综合专家意见给出各层次各要素的相对重要性权值,作为综合分析的基础。
8.3系统聚类分析
系统聚类是根据多种地学要素对地理实体进行划分类别的方法,对不同的要素划分类别往往反映不同目标的等级序列,如土地分等定级、水土流失强度分级等。
系统聚类的步骤一般是根据实体间的相似程度,逐步合并若干类别,其相似程度由距离或者相似系数定义。进行类别合并的准则是使得类间差异最大,而类内差异最小。
8.4判别分析
判别分析与聚类分析同属分类问题,所不同的是,判别分析是预先根据理论与实践确定等级序列的因子标准,再将待分析的地理实体安排到序列的合理位置上的方法,对于诸如水土流失评价、土地适宜性评价等有一定理论根据的分类系统定级问题比较适用。
判别分析依其判别类型的多少与方法的不同,可分为两类判别、多类判别和逐步判别等。
通常在两类判别分析中,要求根据已知的地理特征值进行线性组合,构成一个线性判别函数Y,即:
Y= c1*x1+c2*x2+…+cm*xp
式中,ck(k=1,2,…,m)为判别系数,它可反映各要素或特征值作用方向、分辨能力和贡献率的大小。只要确定了ck,判别函数Y也就确定了。在确定判别函数后,根据每个样本计算判别函数数值,可以将其归并到相应的类别中。常用的判别分析有距离判别法、Bayes最小风险判别、费歇准则判别等等。