在其中理论T的所有有效句子都被满足的一种可能的认识,称为T的一个模型。
萨帕斯
一个模型可以是一种理论、一条规律、一种关系、或者一种假说、一个方程式、一条规则。
斯基林
第十章 空间建模与空间决策支持
导读:本章介绍了“更高层次”的GIS分析功能,第一节讲述了如何利用基本的分析,如缓冲区、叠加分析,进行组合,以完成特定的功能。
后面几节分别介绍了空间决策支持系统、专家系统、数据仓库、元胞自动机和空间定位和配置方面的知识,这些内容,或者在其它的领域已经成熟,或者属于新兴的领域。在GIS的支持下,实现相关功能,并将其应用于空间分析,可以解决更为复杂的空间问题。
1.空间分析过程及其模型
1.1空间分析过程
空间分析的目的是解决某类与地理空间有关的问题,通常涉及多种空间分析操作的组合。好的空间分析过程设计将十分有利于问题的解决,一般步骤是:
1)明确分析的目的和评价准则;
2)准备分析数据;
3)进行空间分析操作;
4)进行结果分析;
5)解释、评价结果(如有必要,返回步骤1);
6)结果输出(地图、表格和文档)。
1.1.1例1:道路拓宽改建过程中的拆迁指标计算
这里将举例说明如何利用建立缓冲区、拓扑叠加和特征提取,计算一条道路拓宽改建过程中的拆迁指标。
1)明确分析的目的和标准
本例的目的是计算由于道路拓宽而需拆迁的建筑物的建筑面积和房产价值,道路拓宽改建的标准是:
道路从原有的20m拓宽至60m;
拓宽道路应尽量保持直线;
部分位于拆迁区内的10层以上的建筑不拆除。
2)准备进行分析的数据
本例需要涉及两类信息,一类是现状道路图;另一类为分析区域内建筑物分布图及相关信息。
3)进行空间操作
首先选择拟拓宽的道路,根据拓宽半径,建立道路的缓冲区。
然后将此缓冲区与建筑物层数据进行拓扑叠加,产生一幅新图,此图包括所有部分或全部位于拓宽区内的建筑物信息。
4)进行统计分析
首先对全部或部分位于拆迁区内的建筑物进行选择,凡部分落入拆迁区且楼层高于10层以上的建筑物,将其从选择组中去掉,并对道路的拓宽边界进行局部调整。
然后对所有需拆迁的建筑物进行拆迁指标计算。
5)将分析结果以地图和表格的形式打印输出。
1.1.2例2:辅助建设项目选址
本例说明如何利用空间操作和特征提取功能,为一建设项目选择最佳的建设位置。
1)建立分析的目的和标准
分析的目的是确定一些具体的地块,作为一个轻度污染工厂的可能建设位置。工厂选址的标准包括:
地块建设用地面积不小于10000m2;
地块的地价不超过1万元/m2;
地块周围不能有幼儿园、学校等公共设施,以免受到工厂生产的影响。
2)从数据库中提取用于选址的数据
为达到选址的目的,需准备两种数据,一种为包括全市所有地块信息的数据层;另一类为全市公共设施(包括幼儿园、学校等)的分布图。
3)进行特征提取和空间拓扑叠加
从地块图中选择所有满足条件1、2的地块,并与公共设施层数据进行拓扑叠加。
4)进行邻域分析
对叠加的结果进行邻域分析和特征提取,选择出满足要求的地块。
5)将选择的地块及相关信息以地图和表格形式打印输出。
1.2空间分析建模
1.2.1地图模型(Cartographic Model)的概念
模型是人类对事物的一种抽象,人们在正式建造实物前,往往首先建立一个简化的模型,以便抓住问题的要害,剔除与问题无关的非本质的东西,从而使模型比实物更简单明了,易于把握。同样为了解决复杂的空间问题,人们也试图建立一个简化的模型,模拟空间分析过程。空间分析建模,由于是建立在对图层数据的操作上的,又称为 “地图建模” (Cartographic Modeling)。它是通过组合空间分析命令操作以回答有关空间现象问题的过程,更形式化一些的定义是通过作用于原始数据和派生数据的一组顺序的、交互的空间分析操作命令,对一个空间决策过程进行的模拟。地图建模的结果得到一个“地图模型”,它是对空间分析过程及其数据的一种图形或符号表示,目的是帮助分析人员组织和规划所要完成的分析过程,并逐步指定完成这一分析过程所需的数据。地图模型也可用于研究说明文档,作为分析研究的参考和素材。
地图建模可以是一个空间分析流程的逆过程,即从分析的最终结果开始,反向一步步分析为得到最终结果,哪些数据是必须的,并确定每一步要输入的数据以及这些数据是如何派生而来。以下的例子将说明其过程:
假定需要获得这样一个结果,即要显示出所有坡度大于20度的地区。首先的问题是要生成这样一幅图像,哪些数据是必须具备的:如要生成一幅坡度大于20度的图像,需要一幅反映所有坡度的图像,数据库里有这样的图像吗?如果没有,就进一步沿着反向思路提问:“如要生成一幅所有坡度的图像,需要什么样的数据?”。一幅高程数据图像可用于生成坡度图像。那么,这幅高程数据图像有没有呢?如果没有的话,生成该图像需要何种数据?这一过程一直持续,直至找出所有必备数据为止。然后反向用图形或符号将有关数据及其操作流程表示出来就得到一个地图模型。本例表示如图10-1:
图10-1:提取坡度大于20度的计算流程
图中,矩形框内为数据,箭头表示操作命令,方向表示操作顺序。
1.2.2地图模型实例
地图模型有多种表示方法,为了进一步理解制图建模过程,下面给出三个不同领域的地图模型实例,分别采用了三种不同的表示方法。
1)食草动物栖息地质量评价模型
本例是一个食草动物栖息地质量评价简化模型,模型只考虑了影响食草动物生存的基本因子:水源、食物、和隐藏条件,以及景观单元的面积,连通性和破碎程度的度量指标。模型形式如图10-2所示:
图10-2:食草动物栖息地质量评价模型
图中操作顺序从左向右,从上向下,矩形框内为原始数据和派生中间数据以及结果数据,矩形框连线上面的文字为操作命令。
2)国家森林公园选址模型
本例是一个为某地建立一国家森林公园确定大致范围,是一个数据源已知,需要进行空间信息提取的模型。数据源包括公路铁路分布图(线状地物),森林分布图(面状地物),城镇区划图(面状地物)。地图模型可以用下面的形式表示:
表10-1:国家森林公园选址模型
步骤
操作命令
找出所有森林地区
1为林地 ,0为非林地
再分类
合并森林分类图属性相同的相邻多边形的边界
归组
找出距公路或铁路0.5公里的地区
缓冲区分析
找出距公路或铁路1公里的地区
缓冲区分析
找出非城市区用地
1为非市区,0为市区
再分类
找出森林地区、非市区、且距公路或铁路0.5至1公里范围内的地区
拓扑叠加分析
合并相同属性的多边形
归组
3)木材毁坏量回归预测模型
根据多年的统计数字和经验方程,本例是一个林场砍伐木材时木材毁坏量回归预测模型。
模型的因变量有坡度,树径,树高,蓄积量,树木缺矢量。公式如下:
地图模型可以表示成下面的形式(图10-3):
图10-3:木材毁坏量回归预测模型
1.2.3 地图模型实现
大多数GIS软件提供了宏命令或脚本描述语言,可以将上述建立的各种地图模型表示成GIS的操作命令序列,自动批处理完成整个模型过程。例如一个根据DEM图像生成坡度图,可以表达成GIS命令格式:
CALC Slopemap = slope ( DEMmap )
由多个原始图层生成一个新图可以写成下面的形式:
Newmap = f (Map1,Map2,...... )
式中,f ( ) 表示一个GIS命令。
一些GIS软件还提供了书写复杂函数的功能,甚至可以在一个命令行里,使用多个函数表达一个完整的地图模型,形式如下:
Newmap1,Newmap2,......=f1,f2,f3,.......( Map1, Map2,......, Newmap1, Newmap2,......)
式中,Newmap1, Newmap2,... 为派生的中间图层。
还有一些GIS软件提供了高级的可视化的地图建模辅助工具,用户只需使用其提供的工具在窗口中绘出模型的流程图,指定流程图的意义、所用的参数,矩阵等即可完成地图模型的设计,而无需书写复杂的命令程序。可视化地图建模工具为用户提供了高层次的设计工具和手段,可使用户将更多的精力集中于专业领域的研究(图10-4)。
图10-4:通过流程图表现的GIS模型
2.空间决策支持模型
区域规划、土地利用规划、设施位置选择、环境管理等都是有关空间行为的决策问题,这些问题的解决方案是由决策者或领域专家在专业领域知识和经验的启发下,在分析大量的空间和非空间信息的基础上得到的。空间决策问题大大超过了地理信息系统通常的空间分析功能的要求。
2.1空间决策过程的复杂性
决策是一个决策者为达到某种目标或目标集合,根据一定的约束条件下在多种侯选方案里进行选择的复杂过程。当采用数学表述形式表达一般化决策问题时,包括以下几个构成部分:
1)方案集合:决策问题的方案集合是指可以选择的行动方案集合,记为A。
2)状态集合:任何一个决策问题都面临一定的外界环境,称之为状态。系统各种可能的状态,称为状态集合,记为Q。
3)损益函数:这是决策分析中的一个重要概念。在决策问题中,如果采用策略,假定系统状态出现,系统收益。因此定义映射为决策问题的损益函数。在A、Q可数的情况下,可获得损益表如下所示(表10-2)。
表10-2:决策损益表
Q1
Q2
...
Qn
A1
W11
W12
...
W1n
...
...
...
...
...
Am
Wm1
Wm2
...
Wmn
4)目标函数(决策准则):记为F。损益函数只给出了系统的实际收益情况,但没给出收益的评价标准,即“抉择”时的优化准则。决策准则对于不同的决策者、问题、方法都是不同的,它最终决定了方案的形成。
综上所述,可以将一个决策问题记为:
其中,F为目标函数或决策准则,A为侯选方案集,Q为状态集,W为损益函数。
决策学常规方法用于解决普通决策问题,这类问题满足以下条件:
存在决策者希望达到的明确目标;
存在可供决策者选择且可以明确组分的侯选方案;
存在不受决策者控制的系统状态,系统状态集与侯选方案集相互独立;
损益值可以精确数量化,A,Q均为可数集合。
当系统状态集Q中状态数n=1时,为确定性决策问题;当n>1时,且系统各状态出现的概率未知时,为不确定性决策问题;当n>1,且系统各状态出现的概率服从一个已知的概率分布时,为风险决策问题。
空间决策与一般决策问题同样有确定性决策、不确定性决策和风险决策。确定性决策实际上是一个最优化问题,象土地适宜性评价的多准则决策和线性规划均属此类决策问题,它们可以和地理信息系统的空间分析功能完全集成。而大量的空间决策问题往往涉及到结构、非结构化知识,人的评价和判断等不同形式的知识,决策的不确定性和风险性的成分很大。以设施配置为例,领域专家已经有一组有关位置适宜性的判别规则,这些规则属于描述性方式表达的知识,设施位置的选择是建立在有关社会经济、地质条件、环境质量等因素分析的基础上的在判别规则启发下的推理过程;另外领域专家还有有关社会经济、地质条件和环境质量的评价模拟模型,这些知识都属于程式式知识,设施位置的选择是建立在定量模型计算分析的基础上估算过程。
随信息技术的快速发展,为决策者提供了越来越多的空间和非空间的信息,包括地图、航片、表格、遥感和数字测量信号等。决策者需要通过知识和经验来有效的处理和理解这些海量的信息。而人类的知识可分为结构化和非结构化两种知识。结构化的知识有着高度结构化的形式和结构化的求解程序,包括数学模型,统计方法,计算机算法等都属此类型的知识,它们在表现和分析方面遵循固定的框架,大多数情况下只能被专家理解,又称为程式式知识(Procedural Knowledge)。然而大量的知识都是非结构化的,象人类的体验、直觉、价值观,专家经验,本质上是定性的,不能用固定的程序进行表达,又称为描述性知识(Declarative Knowledge)。
决策者使用信息和知识,在解决结构化、非结构化和半结构化问题上的复杂程度大不相同。以设施配置为例,在某些特定约束条件下配置最少数量的设施是一个结构化问题,可以通过最优化方法进行求解;寻找最优设施配置的所有可能的位置则是一个半结构化问题,涉及多种准则评价和价值评判;为设施配置确定总体目标和总体方针政策则属非结构化问题,涉及灵活的定性问题,不能用固定的程式式知识来解决。
总之,空间决策是一个涉及多目标和多约束条件的复杂过程,通常不能简单地通过描述性知识或程式式知识进行解决,往往要求综合地使用信息,领域专家知识和有效地交流手段。空间决策中信息和知识往往是互相作用的,如图10-5所示:
图10-5:空间决策过程
信息的一侧处理数据的收集、表现、存储、检索、处理和显示,用于计算和量测,以及知识推理和更新。知识的一侧处理知识的获取、表现、存储以及推理和分析,用于处理事实、组织信息和原理。决策中知识和信息的相互作用是对传统信息技术的扩充,没有知识推理不可能做出智能决策。
地理信息系统为决策支持提供了强大的数据输入、存储、检索、显示的工具,但是在分析、模拟和推理方面的功能比较弱,本质上是一个数据丰富但理论贫乏的系统,在解决复杂空间决策问题上缺乏智能推理功能。所以,为解决复杂的空间决策问题,需要在地理信息系统的基础上开发智能决策支持系统,用于数据获取、输入、存储、分析、输出;用于知识表现和推理;用于自动学习,系统集成,人机交互。所用的新技术包括人工智能技术,知识获取、表现、推理等知识工程技术,以及集成数据库、模型、非结构化知识及智能用户界面的软件工程技术。
2.2空间决策分析的理论和方法
2.2.1效用理论
效用理论是决策分析的基础。事物的不确定性可看作是许多简单随机事件的复合。每一个简单随机事件是由两个互斥事件Z1 和Z2组成的。事件Z1发生的概率为P,事件Z2发生的概率为1—P,则随机事件记为L(Z1,P,Z2)。在简单随机事件内引进“优先”或 “偏好”的概念,并在随机事件集合的基础上建立公理体系,即假设在随机事件集合中存在下列条件:
1)相对偏好顺序;
2)偏好关系具可传递性;
3)简单随机事件间的可比性;
4)偏好关系可以量化;
5)不确定性可以量化;
6)等价随机事件可相互代换。
在这样的条件下可用一个数值来描述简单随机事件的期望效益,称之为效用。由简单随机事件的效用可确定一般不确定事件的效用。在对事件不确定性判断进行量化时,需要利用各种知识,如系统本身的特性,一些必要的统计知识以及决策者根据经验对事件不确定性的主观估算等。
2.2.2决策树
决策分析中最常用的方法之一是决策树方法,图10-6为典型的决策树。图中长方形小框表示由人选择的决策点。把需要作决策的问题过程画成示意图,由图的最左边出发,在作决策之前先作试验。例如有R个试验Lr,费用为Cr,试验结果有O1,…,Ot,…,OT等共T个。在试验Lr条件下Ot 发生的概率记为Prt(Ot)。设此时有d1,…di,…,dI等共I个备选决策方案。若选择决策di,则这时可能出现S1,…,Sj,…,SJ共J种状态。在试验Lr中出现结果Oi时选取决策di的条件下,状态Sj出现的概率记为Prti(Sj)。此时可能有L种后果x1,…,xl;,…,xL,而Prti(Sj)表示在实验Lr中出现结果为Ot时,选取决策di而出现状态Si的情况下,Sj发生后果xl的概率,其效用记为U(xl)。决策树的方法是顺着树的各个分校进行分析,并计算各种可能情况的概率大小,最后计算在这些条件下最终出现的后果的效用,将各种效用加以比较,从中选取最佳效用所对应的试验与决策作为应取的决策。
图10-6:决策树示例
2.2.3贝叶斯决策
由于决策总是在事件发生之前做出,而事件是否发生又不是确定的,因此常采用统计学中贝叶斯公式对事件发生的概率作先验估计,这就是贝叶斯方法。
由于事件的发生具有不确定性,这就使决策带有一定的经验性。人们对于风验的态度不同,对效用估计也不同。对事件发展持保守看法而不愿冒验的人,对效用估计往往偏低;倾向于冒验的人,对效用的估计往往偏高。也有人取中庸态度,对效用的估计介于两者之间。
2.3空间决策支持系统
决策支持系统(Decision Support System, DSS)是辅助决策者通过数据、模型、知识以人机交互方式进行半结构化或非结构化决策的计算机应用系统。它是在管理信息系统(Management Information System, MIS)的基础上发展起来的,在MIS的基础上增加了非结构化问题处理,模型计算和各种方法,为解决结构化、非结构化和半结构化的问题提供了更广泛的方法。它为决策者提供分析问题、建立模型、模拟决策过程和方案的环境,调用各种信息资源和分析工具,帮助决策者提高决策水平和质量。决策支持系统是辅助管理者对半结构化问题的决策过程,支持而不是代替管理者的判断,提高决策的有效性而不是效率的计算机应用系统。DSS的基本结构主要由四个部分组成,即数据部分、模型部分、推理机部分、人机交互部分,如图10-7所示。
图10-7:DSS的组成部分
与MIS对应的,GIS可以看作是用于空间决策的空间信息系统。GIS与MIS的不同之处在于其数据模型和数据结构的复杂性。目前GIS的分析功能还很弱且不灵活,它的逻辑结构和智能层次不能满足解决复杂空间决策问题的需要,特别是那些非结构化的问题。为更好地辅助空间决策,GIS需要增加对描述性知识和程式式知识的处理功能,目前GIS还不适合用于对各种知识形式的处理,不能作为空间决策支持系统(SDSS)的神经中枢,但可以作为它的一个组成部分,即GIS可以嵌入到一个SDSS中,用于空间信息处理。
空间决策支持系统与一般的决策支持系统性质相同,只是更注重空间数据和空间问题的获取和解决。通常空间决策支持系统包括以下的功能:
不同数据源的空间和非空间数据的获取、输入、存储;
复杂空间数据结构和空间关系表示方法,适于数据查询、检索、分析、显示;
灵活的集成程式式空间知识(数学模型、空间统计)和数据的处理功能;
灵活的功能修改和扩充机制;
友好的人机交互界面;
提供决策需要的多种输出;
提供非结构化空间知识的形式化表达方法;
提供基于领域专家知识的推理机制;
提供自动获取知识或自学习功能;
提供基于空间信息、描述性知识、程式式知识的智能控制机制。
上述这些功能要求超出了目前GIS的范围,需要集成人工智能、知识工程、软件工程、空间信息处理和空间决策理论等领域的最新技术。
2.4通用智能空间决策支持系统结构体系
空间决策支持系统的建立可以解决特定领域的决策问题。但是它的建立过程是一个花费很长时间的工程,而且它也只能用在特殊的领域,所以建立空间决策支持系统最经济和灵活的方式是使用软件工程和知识工程的方法开发空间决策支持系统开发环境(外壳或产生器),这样领域专家就可以使用它快速高效地建立多种领域空间决策支持系统。也就是说开发一个通用的开发工具,决策者可以用来定制、修改、调整、扩展空间决策支持系统以解决特定的空间决策问题。图10-8是一个通用空间决策支持系统的结构体系图。
图10-8:通用空间决策支持系统的结构体系图
系统的核心是一个专家系统壳(Shell),它可以单独作为专家系统开发工具,直接控制着SDSS的控制流和信息流,提供表达和存储非结构化领域知识,它还包含了推理控制、系统和用户界面和对外交流的元知识,以及非结构化空间知识的推理机。它是SDSS的大脑。为使用空间和非空间数据,专家系统壳有一个与外部数据库的接口,包括GIS,关系数据库和遥感信息系统。模型管理系统管理和处理程式式知识包括算法、统计程序和数学模型,它也有一个与专家系统壳的接口,可以通过专家系统壳的元知识进行调用。除了与数据库管理系统、模型管理系统的接口外,友好的用户界面和知识获取模块也是专家系统壳的基本组成部分。
本节重点讨论空间决策支持系统的模型管理系统,关于数据库管理系统在前面的章节已作了介绍,至于知识库和知识处理将在下节专家系统里讨论。
2.5空间决策支持系统的模型管理系统
为解决自然和人文过程中出现的各种复杂的空间问题,多年来学者们提出了大量的结构化模型,包括统计方法、数学模型、启发式程序、算法等,这些模型与描述性的知识不同,具有高度结构化的格式和固定的执行程序。这些模型对解决那些结构化的决策问题很有帮助作用,但不幸的是,它们的形式逻辑和解决方法对决策者来说通常很难或需要花很长时间才能理解,尤其是那些非技术背景的决策者更是容易混淆或不恰当有效地运用它们,从而限制了这种类型的知识的有效利用。另外,这些结构化的模型要在GIS环境下使用,还有一个与GIS数据模型兼容性的问题,模型与GIS数据库相互操作是一个基本要求。所以空间决策支持系统需要适当地挑选和组织有关的模型,与管理空间和非空间数据的数据库管理系统相对应的,要有一个模型管理系统。模型管理系统应具有下列功能:
帮助用户选择与分析有关的模型;
对多种类型的模型进行分类和维护以支持各种层次的决策过程;
能将模型子模块组合复杂的模型;
提供恰当的数据结构满足查询、分析、显示;满足与数据库的嵌入或数据交换;满足模型与描述性知识的交流;
提供用户咨询和结果解释的友好界面;
空间决策支持系统对模型高效的分类和组织问题是决策支持系统的核心功能。将模型分类并按不同层次的深度进行组织可以有效的管理和使用模型。例如可以先按决策问题进行第一级分类,再按评价条件和状态进行第二级分类,还可以继续进行更深层次的分类。下面给出一个分类示例:
1)决策问题分类
第一级分类:
环境问题
土地利用规划问题
资源分配问题
设施配置问题
网络问题
水文问题
地质问题
海岸线问题
假设关心的是网络问题,关于网络问题的各种模型组织成第二级分类,如下所示:
最短路径
最少搜索路径(Spanning tree)问题
货郎担问题
多点通讯问题(Multicast communication)
运输问题
商品流问题
对于每个选择的问题,还可以继续细分成更专的类型,如商品流问题,可以继续分成单商品和多商品流问题。要选择某个专用的模型,用户通过一系列“是或否”的问题向导,直到找到需要的解决问题的模型。
2)按技术条件分类
表10-3:决策问题的分类示例
确定性
确定性模型
不确定性模型
随机模型
不精确模型
空间
离散模型
连续模型
过程
静态模型
动态模型
时间
离散模型
连续模型
线性
线性模型
非线性模型
目标
单目标模型
多目标模型
变量
实型
整型
根据上述分类,可以构造一个决策树,将模型分类知识用一种知识表达方式进行表示,例如本例可以用产生式规则表示,每条路径对应一个规则。本例对确定性分类下共有26规则,其中一条规则描述如下:
表10-4:决策规则
———————————————————————
IF situition certain AND
space discrete AND
process static AND
time discrete AND
system linear AND
objectives multiple AND
variables real
THEN select multiple-objectives, discrete-space,
discrete-time linear programming model
———————————————————————
IF situition uncertain AND
cause random AND
space discrete AND
process dynamic AND
time discrete AND
system linear AND
objectives single AND
variables real
THEN select multiple-stage, single-objective, discrete-space,
discrete-time linear stochastic programming model
———————————————————————
空间决策支持系统除了模型选择的问题外,模型与数据库的交互也是一个重要的问题。不同的模型具有不同的数据结构和不同的模型与数据库的交互方式。模型要在GIS环境下运行,还有一个与GIS数据结构的兼容性问题。
模型与GIS有不同层次的交互方式。最低层的交互是将GIS作为数据库管理系统,以文件的方式进行交互,如果模型和GIS对文件类型是兼容的,交互只是一个简单地文件选取问题;如果文件不兼容,就会涉及文件转换的问题。较高层次的交互方式是将GIS作为显示和分析模型结果的图形显示工具。最高层次的交互是二者集成在一个完整的系统里,比较松散一点的方式是用GIS的操作命令(如宏语言)重新实现模型;更紧密的集成是二者具有支持查询、分析、显示的数据结构。由于模型的多样性,数据结构也是多样的,因此很难作到GIS数据结构与所有模型的结构兼容。所以模型与GIS的交互在空间决策支持系统里允许有多种方式。
3.专家系统
3.1专家系统的基本组成
专家系统是人工智能在信息系统中的应用,它是一个智能计算机程序系统,其内部具有大量专家水平的某个领域知识与经验,能够利用人类专家的知识和解决问题的方法来解决该领域的问题。专家系统的主要功能取决于大量的知识。设计专家系统的关键是知识表达和知识运用。专家系统与一般计算机程序最本质的区别在于:专家系统所解决的问题一般没有算法解,并且往往是要在不完全、不精确或不确定的信息基础上做出结论。一般的专家系统包括数据库,知识库,推理机,解释器及知识获取五个部分组成,它的结构如图10-9所示。
图10-9:专家系统结构图
1)知识库
知识库用于存取和管理所获取的专家知识和经验,供推理机利用,具有知识存储、检索、编辑、增删、修改和扩充功能。
2)数据库
用来存放系统推理过程中用到的控制信息,中间假设和中间结果。
3)推理机
用于利用知识进行推理,求解专门问题,具有启发推理、算法推理;正向、反向或双向推理;串行或并行推理等功能。
4)解释器
解释器用于作为专家系统与用户的“人——机”接口,其功能是向用户解释系统的行为,包括:
(4.1) 咨询理解:对用户咨询的提问进行“理解”,将用户输入的提问及有关事实、数据和条件、转换为推理机可接收的信息。
(4.2) 结论解释:向用户输出推理的结论或答案,并且根据用户需要对推理过程进行解释,给出结论的可信度估计。
5)知识获取器
知识获取是专家系统与专家的“界面”。知识库中的知识一般都是通过“人工移植”方法获得,“界面”就是知识工程师(专家系统的设计者),采用“专题面谈”,“口语记录分析”等方式获取知识,经过整理后,再输入知识库。为了提高知识工程师获得专家知识的效率,可以借助“知识获取辅助工具”来辅助专家整理知识或辅助扩充和修改数据库。近年来,开始机器学习、机器识别、半自动化等方法获取知识。
3.2专家系统的知识处理
3.2.1人工智能与专家系统
人工智能的目的是用计算机模拟人类,其中包括模拟人类的动作——机器人,模拟人类的视听能力——计算机视觉、听觉的模式识别,模拟人类语言——计算机自然语言,模拟人脑——电脑。在模拟人脑研究时,本来是想从幼儿开始,随着大脑的发育过程模拟人脑的,但是发现这样模拟难度太大了,转而研究领域专家的思维过程,因为领域专家能够阐述清楚知识与逻辑。随着专家系统工具软件的出现,许多领域展开了专家系统的研究,其中最成功的是国际象棋的专家系统。人工智能主要的目的是模拟人脑的功能,但是目前人们对人脑的思维过程并不十分清楚,因此人工智能的概念也不可能非常清楚。许多人工智能的研究只局限于形式逻辑的推导,凡是超出了形式逻辑范畴的,都被是认为无法解决的问题。现在理解的人工智能主要是指用计算机完成逻辑推理的过程。
3.2.2知识表示
知识表示就是知识的形式化,就是研究用机器表示知识的可行的、有效的、通用的原则和方法。目前常用的知识表示方法有:产生式规则、语义网络法、框架表示法、与或图法,过程表示法、特征表示法、黑板结构、Petri网络法、神经网络等。其中效果最好的是产生式规则,其它表示方法单独使用的不多,大多是以产生式规则为主体增加和扩展语义、框架和程式式知识。
产生式规则使用“若……,则……。”语句(If…,Then)。“若”可以是一个条件,也可以是多个条件;“则”也可以是一个结论,也可以是多个结论。也称为正向式推理,有以下几种情况:
1)一对一:If (1), then (a)。
2)一对多:If (1),then (a), (b),… (n)。
3)多对一:If (1), (2), …,(m); then (a)。
4)多对多:If (1), (2), …,(m); then (a),(b),…,(n)。
If…,then 语句是从已知条件,推论结果的语句,反之,从结果推出条件称为后向式推理。同样有四种情况,一对一,一对多,多对一,多对多:
1)一对一:Conclusion (a);Need(1)。
2)一对多:Conclusion (a);Need(1),(2),…,(m)。
3)多对一:Conclusion (a),(b),…,(n);Need (1)。
4)多对多:Conclusion (a),(b),…,(n);Need (1),(2),…,(m)。
由此可见,产生式规则的正向式推理与逆向式推理都是在确定性问题中的处理方法。对于不确定性的问题,产生式规则不能解决问题,需要结合其它的表示方法。
3.2.3知识推理
推理是指依据一定规则从已有的事实推出结论的过程。专家系统中的自动推理是知识推理,它是专家系统中问题求解的主要手段。
知识推理与知识表示有密切关系,根据知识表示的特点,知识推理方法可分为图搜索方法和逻辑论证方法两类。
.图搜索方法
在专家系统的知识表示中,许多基本的、常用的表达方式都具有“图”的形式,或者可以变换为相应的图的形式,而且通常可以用与或图来进行表达。例如,状态空间图、与或图、语义网格图,以及由产生式规则或框架表示方法所转换的与或图或网络图。
基于图的知识表达,问题求解的知识推理过程,就是从图中相当于初始状态的出发节点到相当于目标状态的终止节点的路线搜索过程,即搜索从初始状态有效的转移到目标所经历的最优的或最经济的线路,相应的知识推理方法即图搜索方法。例如,对于具有树状的状态空间图,称为“问题树”,基本的图搜索方法有:宽度优先搜索、深度优先搜索法等。
.逻辑论证方法
当知识表示采用谓词(Predicate)逻辑或其他形式逻辑方法时,知识推理也可以采取逻辑论证方法。在这种情况下,求解一个问题相应于证明一个定理或几个定理,问题求解的知识推理过程,相应于用数理逻辑方法进行定理证明的过程。知识推理方法即逻辑论证方法。例如,若用一组谓词逻辑表达式A描述有关的事实、情况或条件,而用另一组谓词逻辑表达式B描述问题的答案或结论,那么,只要通过逻辑演算方法论证定理A-B成立,也就相应论证了从有关事实、情况和条件出发,可以推出正确的答案或结论B。
根据问题求解的推理过程是否运用启发性知识,知识推理方法可分为启发推理和非启发推理两类。
.启发推理
在问题求解的过程中,运用与问题有关的启发性知识,即解决问题的策略、技巧,对解的特性及其规律的估计等实践经验或知识,以加快推理过程,提高搜索效率,这种推理过程称为“启发式推理”。例如,在图搜索的推理方法中,利用启发性知识改进的深度优先搜索法,如局部择优搜索法,最好优先搜索法等,只需要对部分状态空间进行搜索,可提高搜索效率。
.非启发推理
在问题求解的推理过程中,不运用启发性知识,只按照一般的逻辑法则和控制性知识,进行通用性的推理。这种方法缺乏对求解问题的针对性,需要进行全状态空间的搜索,而没有选择最优的搜索途径,大多搜索效率低。例如宽度优先搜索法,虽然是完备的算法,但其搜索效率低。
根据问题求解的推理过程中结论是否精确,知识推理方法可分为精确推理和不精确推理两类。
.精确推理 精确推理是指在专家系统中,把特定领域的知识表示成必然的因果关系、逻辑关系,推理的结论是肯定的。这种推理是精确推理。
.不精确推理 在人类知识中,有相当一类属于人们的主观判断,是不精确和含糊的。由这些知识归纳出来的推理规则也往往是不确定的,基于这种不确定的推理规则进行推理,形成结论,称为不精确推理。常用的不精确推理方法有概率论方法、可信度方法、模糊子集法和证据论方法。
根据问题求解过程中特殊和一般的关系,知识推理方法可分为演绎推理和归纳推理;根据求解推理过程中的推理的方向,知识推理方法可分为正向推理、反向推理和正反向混合推理三类。
3.3 空间分类专家系统实例——土地类型分类
空间分类是GIS和遥感信息系统最常用的功能,将空间单元归组分类是智能GIS的基本功能。传统的分类基于二值逻辑,认为区域分类界限是明显的,基本空间单元(矢量或栅格结构)属于且只属于一个空间类别。然而,事实上空间类别之间的界限通常是模糊的,是渐变的而不是突变的,所以在空间分类中引入模糊逻辑会提高分类的精度。另外空间分类也是一个基于人们对空间现象的认知和知识的心理判断过程,开发一个带有GIS的专家系统是很有必要的。
当然可以使用那些结构化的分类算法(程式式知识),但是这种方法往往是很机械,且不能有效地与用户进行关于分类的知识相互交流。专家系统的分类方法则更为灵活、智能,它不是一个算法,而是一个关于空间分类的抽象和空间数据如何分类的规则,可以在不修改任何程序的情况下在知识库里修改、删除、增加专家和非专家的判断,分类知识和规则。基于规则的专家分类系统往往具有传播知识和教育的成分。下面是一个基于遥感影象的土地类型专家分类系统实例。
数据采用4波段LANDSAT MSS影象数据,分类系统所采用的分类依据如图10-10所示:
图10-10:土地利用分类
由于分类问题是一个数据驱动的过程,采用了正向推理方式。产生式规则是从领域专家获取的,如下表所示,存入知识库。
表10-5:知识库存储的分类规则
rule r1
If(x1<8.0000,12.0000)
and (x4<5.0000,10.0000)
then pretype1 is water
Certainty is 1
rule r2
If ( x3>=8.0000,12.0000)
and (x4>=5.0000,10.0000 )
then pretype1 is land
rule r3
If ( pretype1 is water )
and (x1>20.0000,24.0000)
and (x2>13.0000,16.0000)
and (x3>5.0000,10.0000)
then type is turbid
Certainty is 1
rule r4
If ( pretype1 is water)
and ( x1<=20.0000,24.0000)
or (x2<13.0000,16.0000 )
or (x3<=5.0000,10.0000 )
then type is clear
Certainty is 1
rule r5
If ( pretype1 is land )
and (x1<17.0000,25.0000)
and (x2<13.0000,30.0000)
and (x3>27.0000,50.0000)
and (x4>30.0000,65.0000)
then type is vegetation
Certainty is 1
rule r6
If ( pretype1 is land)
and ( x1>=17.0000,25.0000)
or (x2>=13.0000,30.0000 )
or (x3<=27.0000,50.0000 )
or (x4<=30.0000,65.0000 )
then pretype2 is non-vegetation
Certainty is 1
rule r7
If ( pretype2 is non-vegetation )
and (x1>27.0000,39.0000)
and (x2<26.0000,52.0000)
and (x3>26.0000,49.0000)
and (x4>21.0000,41.0000)
then type is barren
Certainty is 1
rule r8
If ( pretype2 is non-vegetation)
and ( x1<20.0000,30.0000)
and (x2<20.0000,30.0000)
and (x3>20.0000,35.0000)
and (x4>15.0000,25.0000)
then type is urban_or_other
Certainty is 1
根据专家的经验,不能武断的使用一个波段数值作为分类的界限,为反映光谱反射的渐变性,使用了模糊逻辑方法表示推理规则。以规则r1为例,在划分水域时不是只取波段3(x3)的一个数值5和波段4(x4)中的一个数值8作为分类依据,而是用了模糊集的方法允许渐变特征。模糊集表示如图10-11。
图10-11:模糊集
由于专家对分类规则非常确定,所以确定性因子为1。若确定性水平的不同,确定性因子可在[0,1]范围内取值。
分类的结果通过地理信息系统进行显示,当分类结果精确时,系统会自动显示分类结果。当分类结果存在误差时,混合象元同时被标识和显示,同时土地类型渐变造成的模糊边界也可显示,模糊边界的宽度在土地类型混杂的地方用不同的阀值控制。
4.数据仓库与空间数据挖掘
随着卫星和遥感技术以及其它自动数据采集工具的越来越广泛的应用,日益丰富的空间和非空间数据收集和存储于大空间数据库中,海量的地理数据在一定程度上已经超过了人们能够处理的能力,从这些海量的数据中提取和发现地学知识,给当前GIS技术提出了巨大的挑战。新的需求推动着GIS从操作型信息系统向分析型信息系统过渡,数据库系统最新的数据仓库和数据库知识发现技术为GIS组织、管理海量空间和非空间数据提供了新的思路。GIS在空间数据存储、表达和管理方面的能力已得到广泛的认可,增强GIS分析功能,提高GIS解决地学实际问题的能力已得到共识。GIS吸收数据仓库的思想,将空间分析和空间数据挖掘方法紧密集成,充分利用GIS数据存储、管理空间数据的功能,使海量的地理空间数据变成无限的知识,使GIS成为智能的信息系统。
4.1数据仓库 (Data Warehouse)
近年来,人们逐渐认识到计算机系统存在两类不同的处理:操作型处理和分析型处理。操作型处理也叫事务型处理,是指对数据库联机进行的日常操作,通常是对一个或一组记录的查询和修改,主要为企业特定应用服务,对此人们关心的是响应时间、数据的安全性和完整性。分析型处理是用于管理人员的决策分析,例如决策支持系统、专家系统和多维分析等,经常要访问大量的历史数据。
两者的巨大差别使得操作型处理和分析型处理的分离成为必然,于是数据库由操作型环境发展成为操作型环境和分析型环境的新体系化环境。在此新体系环境中数据仓库处于核心地位,它是建立决策支持系统的基础。
数据仓库是指面向主题的、集成的、稳定的、随着时间变化的数据集合,用以支持管理决策。这一定义指出了数据仓库的目标是为了制定管理的决策提供支持信息。正象企业为了发展要进行业务重组一样,为了支持管理决策需要也要按决策业务科目的要求重组在线事务处理(OLTP)系统中的数据,并要按不同决策,分析内容分别组织使之方便使用。也就是说,数据仓库是一种把收集的数据转变成有意义的信息技术。数据可以来源于许多不同的数据源,包括不同的数据库系统,甚至来源于不同的操作系统。
图10-12:数据仓库体系结构
在把数据装载到数据结构重组后的数据仓库之前,先要进行数据集成处理。这一处理包括几个必不可少的操作步骤,以做到使数据完整、统一,这就确保了在使用数据仓库时其中的数据是有质量保证的。简而言之,集成就是保证数据准确、到位、没有超出应有的数值范围、没有重复等。数据仓库中的数据不像在线事务处理系统中的数据那样频繁的修改,所以它是比较稳定的(极少或根本不修改)。在一次数据分析的执行过程中使用的数据不得变更,才能保证两次在使用同一组信息进行分析时不会得出不同的答案。数据仓库一般是按周、月或隔月从在线事务处理系统周期性地更新数据。
典型的数据仓库体系结构如图10-12,数据从多个操作型数据库和外部文件中抽取,抽取出来的数据要进行清理、转换和集成,然后装入数据仓库中。装入仓库的数据形式取决于数据仓库里数据库的设计,一般的数据仓库设计方法是多维数据模型,具体表现为星形模式或雪花模式。仓库的数据要定期更新以反映源数据的变化。最后使用前端的报表、查询、分析和数据挖掘等工具来操作和使用数据仓库。在数据仓库管理方面,有一个存储元数据(关于仓库数据的数据)的中央数据库或数据字典,而监控和管理工具也是必不可少的。
4.2数据挖掘(Data Mining)
随着大量的大规模的数据库迅速不断地增长,人们对数据库的应用已不满足于仅对数据库进行查询和检索。仅用查询检索不能帮助用户从数据中提取带有结论性的有用信息。这样数据库中蕴藏的丰富知识,就得不到充分的发掘和利用,形成“数据丰富而知识贫乏”的现象。另外,从人工智能应用来看,专家系统的研究虽然取得了一定的进展。但是,知识获取仍然是专家系统研究中的瓶颈。知识工程师从领域专家处获取知识是非常复杂的个人到个人之间的交互过程,具有很强的个性,没有统一的办法。因此,有必要考虑从数据库中发现新的知识,被称为数据库知识发现(Knowledge Discovery in Databases,简称KDD),也叫数据挖掘(Data Mining)。数据库知识发现或数据挖掘的定义为从数据中提取隐含的、先前不知道的和潜在有用的知识的过程。数据挖掘技术集成了机器学习、数据库系统、数据可视化、统计和信息理论等多领域的最新技术,有着广泛的应用前景。
数据挖掘主要分为以下四个步骤:
1)数据选取
数据仓库中的数据并不都与挖掘的信息有关,第一步就是为了只提取“有用的”数据。
2)数据转换
在确定要进行挖掘的数据之后,要对这些数据进行必要的变换,使得数据可以被进一步的操作使用,通常的变换有:
将定名量转换为定序量,以便于人工神经网络运算;
对已有的属性进行数学或逻辑运算,以创建新的属性。
3)数据挖掘
在数据转换之后,就要进行数据挖掘,数据挖掘的具体技术很多,如分类、回归分析等。
4)结果解释
挖掘的信息要参照用户的决策支持目的进行分析,并且要表现给决策者。这样,结果的输出不仅包含可视化的过程,而且要经过过滤,以去掉决策者不关心的内容。
当执行完一个挖掘过程后,有时可能需要重新修改挖掘过程,还可能增加其它数据,数据挖掘过程可以通过适当的反馈反复进行,如图10-13所示。
图10-13:知识挖掘过程
数据挖掘涉及的学科领域和方法很多,有多种分类法。根据知识发现任务,可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据知识发现对象,可分为关系数据库、面向对象数据库、空间数据库、时间数据库、文本数据源、多媒体数据库、异质数据库、Web数据库;根据知识发现方法,可粗分为机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分为归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或在线事务处理方法,另外还有面向属性的归纳方法。
4.3空间数据挖掘
空间数据是与占有一定空间的对象有关的数据,空间数据库是通过空间数据类型和空间关系存储和管理空间数据。空间数据通常具有拓扑和距离信息,通过空间索引进行组织和查询。空间数据特有的性质给空间数据库的知识发现提出了挑战和机遇。空间数据库的知识发现或空间数据挖掘,可以定义为从空间数据库中提取隐含的知识、和没有直接存储的空间关系、空间模式的过程。
空间数据挖掘技术,特别是空间数据理解、空间和非空间数据关系发现、空间知识库构造、空间数据库的查询优化和数据组织,在GIS、遥感、影象数据库、机器人运动等涉及空间数据的应用系统中很有前景。
下面简要介绍目前空间数据挖掘使用的一些方法:
1)统计分析方法
目前空间数据分析最常用的方法是统计分析方法。统计分析非常适合处理数值型数据,统计分析方法多年来积累了大量的算法,可以用于对空间现象建模和分析。但空间统计分析也有很大的缺陷:首先统计分析方法关于空间分布数据的统计独立性的假设,往往不现实,因为空间邻域之间存在着相互关系;其次,统计分析不适合处理非数值型数据,如空间对象的名称和定名数据类型等。另外统计分析往往对领域专家和统计方面的知识要求较高,只适合领域专家和有统计经验的人使用,而且当数据不完整或不充分时,统计分析的结果缺乏实际意义。再就是统计分析的计算代价也是很高的。为克服统计分析方法的缺点,需要新的数据挖掘方法。
2)基于概括的方法
基于概括的方法是一种面向属性的归纳学习方法,用于空间数据挖掘,可将空间和非空间属性的关系概括成高层次的概念知识。它需要背景知识,即概念层次体系(Concept Hierarchy),常以概念树的形式给出。如图10-14所示的是一个农业土地利用的概念树。同样地,空间数据也存在类似地概念层次,如乡镇——县市——省——国家。
面向属性的归纳学习方法,通过概念树攀升而得到概括的数据,概括的数据可直接转换成规则或逻辑表达式,可用于发现普遍特征规则和区划规则。空间数据库的归纳学习可以根据非空间数据的概念层次,也可根据描述空间数据的概念层次进行。基于非空间数据的概念层次归纳,例如数值型数据可以归到一个数值范围或一个较高层次概念描述型变量,(-9℃在-10℃-0℃范围,或“寒冷”),通过低层次的数值不同的数据概括为较高层次的相同的数据,这些由不同元组的数据和它们的空间对象指针一起合并为高层次数据,表示一个新的空间属性。基于空间数据的概念层次归纳,可以通过区划划分或空间存储结构如四叉树进行定义。
图10-14:概括归纳示例
基于概括的方法一般有以非空间数据为主的概括和以空间数据为主的概括两种算法。这两种算法的第一步都是选取用户特定的查询数据。接下来,非空间数据为主的概括算法过程是:(A)概念树攀升,即将元组的属性变为高层次的属性;(B)属性删除,删除那些不可能概括的特殊属性值;(C)合并标识后的元组。归纳过程直到所有的属性概括到合适的层次为止。最后将概括后属性值相同的相邻区域合并,结果得到一幅概念层次较高的、而区域较少的图。
以空间数据为主的概括算法,第一步也是收集用户查询的数据,然后根据给定的空间数据概念层次对空间对象进行合并,概括过程直到达到需要的概念层次为止。然后对于每个概括后的空间对象进行非空间数据概括,直到得到所有区域的正确描述。
3)聚类方法
聚类分析是统计分析的一个分支,这种方法的主要优点是不需要背景知识,可以直接从数据中发现感兴趣的结构或聚类模式,类似于机器学习中的非监督学习。
聚类分析与面向属性归纳推理结合,为描述相似对象的空间行为提供了可能,或用于判定不同类别的特征。同样可分为以空间数据为主和以非空间数据为主两种方法。以空间数据为主的方法,首先通过基于采样的高效的聚类算法将与任务有关的空间对象(如点)分类,接着对非空间数据使用面向属性归纳推理方法,提取描述各类一般属性。
以非空间数据为主的方法,首先将与任务有关的空间对象概括到较高的概念层次,进行聚类分析,然后将空间对象进行合并处理。
4)空间关联规则(Spatial Association Rule)方法
关联规则的提出源于交易数据集中发现商品之间隐含的相互依赖关系。如果在超市的数据库中发现的一条规则,形式为“W(B(C%)”,规则的含义是“如果交易中出现了W模式,就有C%的可能性(可信度)出现B交易模式”。例如规则“牛奶(黄油(90%)”,表明有90%的买牛奶的顾客会同时买黄油,这就是关联规则。它同样可用于发现空间关系。
空间关联规则的形式为:
谓词中至少有一个是空间谓词;C%为关联规则的可信度。
构造空间关联规则的空间谓词有很多形式,例如拓扑关系(相交、包含、重叠等)、方位关系(左侧、西侧等)、距离关系(临近、远离等)。
关联规则通常可以分为两种:布尔型关联规则和多值关联规则。多值关联规则比较复杂,一种自然的想法是将它转换为布尔型关联规则。当全部属性的取值数量都是有限的时候,只需将每个属性值映射为一个布尔型属性即可。当属性的取值范围很宽时,则需将其分为若干区段,然后将每个区段映射为一个布尔型属性。于是,如何划分区段是实现多值关联规则到布尔型关联规则转变的关键。这里面有两个互相牵制的问题:当区段的范围太窄时,则可能使每个区段对应的属性的支持度很低,而出现“最小支持度问题”;当区段的范围太宽时,则可能使每个区段对应的属性的可信度很低,而出现“最小可信度问题”。
在一个集合S里,空间联结谓词的支持度,为满足P的对象数与S集合总数的比;集合S里关联规则P(Q的可信度为/。
关联规则的发现可以分解成以下两个子问题:
(4.1)找出数据库S中所有满足用户指定最小支持度的对象集P(一个非空子集),具有最小支持度的对象集称为频繁对象集,反之就称为非频繁对象集。
(4.2)利用频繁对象集生成所需要的关联规则。对于每一个频繁对象集P,找出P的所有非空子集Q,如果比率/≥最小可信度,就生成关联规则P(Q。
下面简要介绍一下空间关联规则的算法过程:
输入:空间数据库、挖掘查询、关联约束条件集
数据库包括三部分:包含空间对象的空间数据库、描述非空间信息的关系数据库、概念层次集;
查询也包括三部分:要描述的对象类S、与任务有关的空间对象子类C1,...Cn、有关的关系和谓语集;
三个约束条件:每个概念层次上的最小支持度、最小可信度、满足“临近”空间谓语的最大距离。
输出:有关对象的多种概念层次上的较强的空间关联规则
方法:空间关联发现的计算程序如下:
1)生成要描述的对象类的图层1
2)对于相关对象的所有子类对象Ci同时进行如下处理:
生成关联对象子类的图层2;
生成作用于对象Ci的谓词(如图层1与图层2相交,给定距离条件);
将对象Ci的谓词加入到谓词数据库中。
3)搜索谓词数据库中可信度高的空间关联规则。
空间谓词存在一个扩展的关系数据库——谓词数据库中,属性值为单值或多值集合。谓词数据库的一个记录描述对象类S中的一个对象Si与满足谓词关系的对象Cj的关系。
5.GIS空间分析与空间动态建模
目前,GIS已被广泛接受为管理、存储、查询分析有关地理空间分布的信息的成熟的工具和技术,近年来对GIS提出的越来越多的挑战是将这个本质上静态的系统变为支持模拟空间——时间过程的经济可行的工具,为科学研究和资源管理服务。目前大多数GIS软件不能支持多学科领域的动态过程计算模型,包括水文、生态等地学和生物科学,大多数GIS系统只是为模型提供输入参数和显示输出结果。集成GIS空间分析与空间动态建模困难的原因在于:
1)领域科学家、数据收集者和GIS技术人员存在着重要的概念差异,导致他们对现实世界抽象方式、如何用计算机组织和结构化数据的方式存在很大差异。
GIS记录、存储的数据可能不是模型最适合的数据格式,有时需要进行转换。
3)除非对计算机编程非常熟悉,否则编写一个空间过程的动态模型是一个困难的很花费时间的过程。
许多GIS软件的可视化方法并不支持对模型结果的交互式空间——时间表现。
5)满足许多科学家要求的、快速有效的模拟动态模型的开放系统模拟方法(如元胞自动机),在GIS实现的很少。
所谓空间动态模型是指现实世界中地球表面特定位置上的某些属性或状态因其驱动力随时间变化而发生改变的一种数学模拟。从计算的角度考虑,空间动态模型就是要计算各空间单元随其时间序列信息或驱动力的变化而产生新状态或属性值。各时刻的状态或属性可以用计算机以动画的形式进行显示,其实质仍然是图形代数和地图模型的自然延伸。但由于GIS空间分析功能的语义限制,不能直接支持空间动态建模的操作元语,所以目前很多模型都是在GIS支持下,经过扩展或修改,采取与GIS相互结合的方式实现的。
5.1 GIS与空间动态模型的结合方式
GIS与空间动态模型的结合主要有三种方式:松散结合,交互界面和镶嵌结合。松散结合主要用于模型与GIS各自开发的情形,在这种结合中,先用GIS查询,预处理空间数据,然后按模型所需的格式将其输入模型,模型计算的结果再转为GIS文件格式,进行显示和分析。松散结合的优点在于无须改变模型的代码,不足之处在于大量的数据管理和转换工作,要求模型和GIS两方面的专门知识。第二种结合方式是开发交互界面。这种结合就是开发支持模型的GIS数据库,同时开发一个界面,既可以为模型提供输入数据,又能利用模型结果进行处理和演示,所有的数据转换是通过交互界面自动进行的。此类结合的实例最多,交互界面的优点在于提供了模型与GIS平台的接口,节省了大量数据输入输出工作。不足在于编程和数据管理上的投资比较大,用户修改和重写模型的难度大。第三种方式是镶嵌结合。这类结合要么是一个简单的GIS嵌入到一个复杂的模型系统以提供结果显示和交互控制功能,要么是用GIS的函数命令重写模型。这样模型和GIS同在一个系统中,二者共用同一个数据库,不存在数据交换问题。当模型对GIS的功能要求不多时常采用前一种镶嵌方法。而用GIS函数命令重写模型的优点在于用户可以建立自己的模型,不足在于GIS的命令和函数有时不能满足建立模型的所有需要。
5.2元胞自动机简介
元胞自动机(Cellular Automata, CA)是定义在一个具有离散、有限状态的元胞组成的元胞空间上的,按照一定局部规则,在离散的时间维上演化的动力学系统。元胞自动机的基本单元是元胞(Cell),每个元胞具有一个状态,这个状态只能取有限状态集中的一个,例如“生”或“死”,或者256种颜色中的一种等等;这些元胞规则地排列在被称为“元胞空间”的空间格网上;它们各自的状态随着时间变化,根据一个局部的规则来进行更新,即一个元胞在某时刻的状态取决于且只取决于该元胞周围邻域元胞的状态;元胞空间内的元胞依照此局部规则进行同步的状态更新,整个元胞空间则表现为在离散的时间维上变化。
元胞自动机的最基本的组成包括元胞(Cell),元胞空间(Lattice),邻域(Neighbor),规则(Rule)。元胞自动机可以视为由一个元胞空间和定义在该空间的变换函数所组成。标准的元胞自动机是一个四元组:
A=(d, S, N, f)
A代表一个元胞自动机系统;d是一个正整数,表示元胞自动机的维数;S是元胞的有限的离散的状态集合;N表示一个所有邻域内元胞的组合,即包含个不同元胞状态的空间矢量,记为:
N = ( s1, s2, s3, ..., sn)
n是邻域内元胞的个数;si(Z(整数集合),i((1,2,...n);f是变化规则,为将Sn映射到S上的一个局部转换函数。所有的元胞位于d维空间上,其位置可用一个d元的整数矢量Zd来确定。
一般地,元胞自动机的基本模型具有五个主要特征:
1)它们由元胞的离散格局构成;
2)它们在离散时间步序内演化;
3)每一元胞的状态均在同一有限集中取值;
4)每一元胞的状态依同一确定的法则演化;
5)元胞状态的取值法则仅依赖于其自身及其周围邻域元胞的状态值。
元胞自动机虽然是产生于并行计算机结构的一种理论模型,但它还可用来描述具有很大自由度的离散系统,可视为偏微分方程离散化的理想形式。元胞自动机模型可用来模拟研究很多的现象,包括信息传递、计算、构造、生长、复制、竞争与进化等,同时,它为动力学系统理论中有关秩序、紊动、混沌、非对称、分形等系统整体行为与现象的研究提供了一个有效的模型工具。
元胞自动机模型具有很强的灵活性和开放性,它不是一个简单的数理方程,而更象是一种方法论。各领域专家可对模型的各个组成部分进行灵活的扩展,建立适合模拟各种专题现象的扩展模型,这是元胞自动机广泛应用于社会、经济、环境、地学、生物等领域的原因。尤其需要说明的是当元胞自动机在二维空间上时,元胞空间结构与栅格GIS数据结构高度相容,因此使用栅格GIS结合元胞自动机模型,可以用于离散时间和离散空间的框架下对复杂时空动态过程进行模拟。下面以一个林火模型的实例对GIS与元胞自动机模型的结合,模拟林火时空动态蔓延过程。
5.3元胞自动机模拟林火蔓延模型
森林火灾是一种常见的自然灾害,当森林火灾发生时,快速准确地模拟和预测火势的蔓延和发展,对于及时部署灭火力量,搬迁居民,减少人民生命财产损失,具有重大的实际意义。林火模型中最成功的是Rothermel的林火蔓延模型,模型主要考虑的因素有:
1)森林的材质:包括燃料物质载荷、燃料深度、燃料粒子密度、热容量、灭火所需湿度等。
2)燃料湿度、空气温度。
3)风速、风向。
4)地形坡度。
模型可以计算林火的蔓延速率,火灾的强度、范围和面积等。
基于该模型的框架,一些研究人员结合元胞自动机原理和GIS,建立了新的林火模型。该模型是一个二维元胞自动机模型,基本假设条件有:森林均匀分布,材质均一;地形为平原,不考虑地形影响;风向随机,即不考虑风向影响。模型的特征如下:
元胞空间:元胞空间是将实际研究区按照一定分辨率划分的离散网格,格网单元为正方形单元,与GIS栅格数据结构一致。
元胞状态:每个元胞具有四种状态,0代表无森林覆盖,1代表未燃森林,2,代表正在燃烧森林,3代表已烧过的森林。
邻域定义:每个元胞以8个相邻元胞作为其邻域元胞。
转换规则:林火蔓延规则,即在燃元胞的扩展规则。我们假定在燃元胞可以一次点燃周围邻居中的所有未燃森林,具体规则如下:
如果ni,j ( t ) = 0或 ni,j ( t ) = 3,则ni,j ( t +1 ) = ni,j ( t ) ;
如果ni,j ( t ) = 2,则ni,j ( t +1 ) = 3 ;
如果ni,j ( t ) = 1且 n‘ ( t ) = 2(n‘为邻居元胞集合中的元素),则ni,j ( t +1 ) = 2;
否则,ni,j ( t +1 ) = 1。
这是一个对现实高度简化的林火蔓延模型,蔓延表现为由火点向四周成圆形扩散,基本上反映了一个理想化林火蔓延过程。实际上这个模型是一个最基本的二维通用扩散模型,可以在此基础上,加以改进、扩展,用来模拟疾病传播、污水扩散等现象。
为了更加真实的模拟林火行为过程,对上面的理想模型进行了扩展,扩展后具体模型如下。
元胞空间:与理想模型一致,只是在应用中与数字高程模型、遥感影象等数据的分辨率相匹配。
元胞状态:元胞的状态除表示森林燃烧状态外,还扩展了森林材质、湿度、地形坡度、风速风向等变量。另外为了更精确描述燃烧的过程,燃烧状态又细分成三个子状态,其中21表示刚刚被点燃的森林,22表示火势旺盛的森林,23表示由明火转向暗火的森林(逐渐熄灭)。由于不同材质的森林在各个燃烧阶段的持续时间不同,气温和湿度也会对燃烧阶段的持续时间产生影影响,所以在森林着火之前,需要确定各个森林元胞一旦着火后,处于燃烧三个子阶段的时间(可以通过GIS再分类命令实现)RT1,RT2,RT3。其它三个状态不变,还是0代表无森林覆盖,1代表未燃森林,3代表已烧过的森林。
邻域定义:每个元胞以8个相邻元胞作为其邻域元胞。
转换规则:林火蔓延规则进行了扩展。假定只有状态为22的元胞,燃烧正旺的森林才能点燃其邻域元胞;状态为21的元胞刚被点燃,火势较小不会点燃周围元胞;状态为23的元胞则由于火势减弱,也无法点燃周围元胞。具体的转换规则如下:
如果ni,j ( t ) = 0或 ni,j ( t ) = 3,则ni,j ( t +1 ) = ni,j ( t ) ;
如果ni,j ( t ) = 21,则有
若RTi,j>RT1i,j ,则ni,j ( t +1 ) = 22 ;
否则ni,j ( t +1 ) = 21,RTi,j= RTi,j+1;
如果ni,j ( t ) = 22,则有
若RTi,j> RT1i,j +RT2i,j ,则ni,j ( t +1 ) = 23;
否则ni,j ( t +1 ) = 22,RTi,j= RTi,j+1;
如果ni,j ( t ) = 23,则有
若RTi,j>= RT1i,j +RT2i,j +RT3i,j,则ni,j ( t +1 ) = 3;
否则ni,j ( t +1 ) = 23,RTi,j= RTi,j+1;
如果ni,j ( t ) = 1且 n‘ ( t ) = 22(n‘为邻居元胞集合中的元素),
若当前元胞被点燃的可能性超过设定的概率水平后,则ni,j ( t +1 ) = 21,RTi,j= 0;
否则,ni,j ( t +1 ) = 1。
其中,计算森林元胞被邻域元胞点燃的可能性的计算方法是:
首先得到元胞状态为22的各个元胞点燃周围森林的可能性向量Pk,如图10-15所示:
图10-15:状态为22的元胞点燃周围森林的可能性向量图
然后计算当前森林元胞被点燃的可能性是它的所有相邻元胞点燃它的概率和。若超过了设定的概率水平,则可用随机数的产生方法来确定当前元胞是否被点燃。
至此,一个较为精确的林火蔓延的动态模型构建完成。这样将模型集成到GIS系统中,在空间数据库、遥感影象、数字高程模型等数据的支持下,提取合理的模型参数,对森林不同地点、不同天气条件下,一旦着火后的林火蔓延过程进行动态模拟和预测,对森林防火、火灾救险工作有很大的应用价值。
5.4元胞自动机与GIS集成应用中的局限性
1)简单性与真实性的矛盾问题
元胞自动机是对现实世界的高度抽象和概括,它能简洁直观地模拟空间复杂系统的动态演化,但同时人们不仅会怀疑现实系统是不是这样演化的,真实性是元胞自动机模型面临的最大质疑。问题在于:元胞自动机只考虑元胞之间的局部作用,而没考虑元胞空间的宏观作用,因而忽略了现实系统的宏观作用因素;元胞自动机的因素层过于单一,元胞状态的变化取决于自身和邻域元胞的状态组合,从而忽略了其它因素的影响;标准元胞自动机的转换规则是确定性的,而现实系统的行为并非是确定性的,往往表现为某种倾向和可能性。所以在实际应用中,需要在简单性和真实性之间寻找一个平衡点,避免模型过于简单,造成结果的不真实,又要防止模型过于复杂,而失去了模型本身的意义和优势。
2)空间划分问题
元胞自动机是建立在离散、规则的空间划分基础上的,但如何确定合适的空间分辨率却是元胞自动机应用的一个难题。尤其是在多种地理实体共存的系统中,不同的实体有着不同的空间尺度,如何确定一个同一的空间分辨率,对于元胞自动机建模更为困难。另外,在不同的空间分辨率下,地理系统单元所表现出的规律也有所不同,因此,如何确定适当的分辨率,并进一步制定合理的模型规则是元胞自动机建模的一个难题。
3)时间对应问题
在元胞自动机模型中,时间是一个抽象的概念,从模型中的T时刻到T+1时刻对应的时间单位不明确,而不同元胞在不同状态下持续的时间也很难确定。
4)转换规则定义问题
合理的规则是模型效果的关键,在元胞自动机模型中,规则是针对抽象空间划分单元的,反映了单元间局部的相互作用。此局部规则与传统的宏观规律,既有联系,又存在差别,而且找到一个确定性的规则的难度相当大。
5)与GIS集成的问题
GIS系统的支持是地理系统建模研究的必要条件,虽然元胞自动机模型与栅格GIS在空间数据结构上存在较大的相似性,但元胞自动机是一个时空动态模型,而目前GIS本质上是一个静态系统,支持动态模拟的功能较弱,二者的集成有一定的困难。如何将二者紧密的集成,是阻碍元胞自动机在地理系统研究中应用的一个难题。
6.空间相互作用与位置——分配模型
6.1地理位置
对于生产单位和服务企业来说,由于需求和供给两方面总是存在着空间上分布的差异性,因此,机构设施地理位置(Geographic Location)的选择和确定对于它们的经济效益和自身的发展具有至关重要的影响作用。
机构设施位置评价和优化,是通过对于一个设施或者一个设施网络的供给和需求两者之间的相互作用关系进行分析来实现其空间位置分布模式的优化。机构设施区位评价是对于现有服务设施的空间位置分布模式的评价,机构设施区位优化是对于其最佳位置的搜寻。克理斯塔勤的中心地理论则为供给区位优化模式的理论研究和经验方法的应用提供了基础框架,这个理论中的市场区域规模是由供货和服务的范围决定的,需求和供给两者之间的关系是以距离最小化和利润最大化为基础建立的。但是,实际应用中的中心地理论,无论是理论方法还是它的经验方法都需要根据具体问题进行具体分析。例如,与理论中假设的聚落世界相反,区域的人口集中和分散将会对该区域的范围大小产生影响;同样,消费者的消费行为的选择也会对一个服务中心的功能范围产生影响。因此,中心地理论虽然提供了一个描述和解释货物服务供给系统和需求行为两方面空间相互作用的主要框架体系,但它作为一个参考框架,还需要针对特殊情况进行扩充和调整。图10-16表示了中心地理论应用的概念框架。
图10-16:中心地理论应用的概念框架
中心地理论的古典模型是对包含单一目标的、且内部需求全部针对这个目标中心的具有均质性的市场功能区域进行空间分析和模拟,而中心地理论的现代模型则要针对现实世界中那些具有不确定性的、涉及多目标消费行为和复杂供给行为的市场功能区域进行空间分析和模拟。
在对于更具现实性的市场功能行为研究基础之上,人们研究出了许多能够针对现实世界的市场功能区域进行空间分析和模拟的模型,如 Reily的零售重力模型(Retail Gravitation)、 Batty的裂点方程(Breakpoint Equation)、 Tobler的价格场和作用风(Price Field and Interaction Wind)以及众多的修正式。但将重力模型及裂点方程用于分析多点中心地系统则非常艰难,由于缺乏可视性和连续性,因此,分析结果的成图也很困难。而Tobler方法是对中心城市场特性的一种半定量描述。下面,将重点介绍有关定位——配置问题解决方法中的一种空间线性优化模型。
6.2空间优化模式的定义
空间优化模式用于解决位置——分配问题。位置——分配问题,是在规划重要公共设施的位置及其附属区域时产生的(公共设施,如医院、幼儿园、游戏场所、养老院、学校、警察局、消防队、急救站、管理设施等,即属于国家预算范围内的基础设施)。
一个位置一分配问题一般可表述如下:
设有一定数量的居民集中点,这些点被称为需求点(或消费点、居民点),求一定数量的供给点(某种公共设施)以及(或)供给点的需求分配,以完成某个规划目的。
如果已设需求点,求供给点,则涉及位置或定位问题(Location)。
如果已设供给点,求分配,则涉及分配或配置问题(Allocation)。
如果同时求供给点和分配,则涉及位置一分配或定位一配置问题(Location-Allocation)。
通过需求点和供给点之间的分配,供给点的附属区域也就确定了,如图10-17所示。
图10-17:公共设施的位置及其附属区域
(图中实心圆表示需求点,方框表示供给点,
供应点附属区域边界为简单的直线,但实际中并非如此)
优化模式基本结构由一系列边界条件和一个(或几个,但少见)目标函数组成。在这些边界条件下,求目标函数的极大值或极小值。边界条件代表了规划目标所必须满足的划条件,它们代表了对于目标规划区域功能的基本评价;而优化目标函数(即求目标函数的极值)则代表了一个最大限度可能达到的规划目标。因此,在边界条件中体现出来的关目标函数的规划条件具有首要意义,与优化目标函数相应的规划目标的重要性则稍差一些引入目标函数的极大、极小化意义,在于得到一个定位一配置问题的明确答案(指在一定边界条件下,目标函数有数个可行答案的情况下)。
6.3空间优化模式的分类
按照目标规划的时间范围、问题空间类型、公共设施服务方式、路途费用承担者以及公共设施使用类型等,可以将空间优化模式进行分类,如图 11-18所示。
图10-18:空间优化模式分类
6.3.1规划时间范围
如果规划是在某个时间段(点)上解决位置一分配问题,则采用静态优化模式。如果规划时间范围包括数个时间段(点),则采用动态优化模式。动态优化模式虽然形式上易于描述,但在用于解决现实的规划问题时,由于优化目标的规模过大而难以实现,许多问题可以用静态模式加以圆满解决。
6.3.2问题空间类型
如果所研究地区所有点都可能作为供给点,这就是一个连续性的问题。但在规划问题
上,可作供给点的数目一般是有限的,因此,问题的解决可用离散模式。
规划时间范围及问题空间类型这二个维度非常重要,因为与它们相应的模式类型在形
式结构的复杂性、问题解决的可能性和模式的可操作性上差别很大。下面将重点讨论“静
态一离散空间优化模式”,该模式按照具体规划问题中所遇到的设施类型还可以再进行细分。
6.3.3公共设施服务方式
如果公共设施只限于在某个确定地点为需求者提供服务,例如学校、幼儿园、养老院、医院、派出所等,需求者必须亲自前去这些公共设施接受服务,则称这些公共设施的服务方式为“集中式”。
如果公共设施所能提供的服务必须从供给点通过某种运输手段带给需求者,例如消防队、医疗急救中心、警察局等,则称这些公共设施的服务方式为“分布式”。
6.3.4运输费用承担者
当公共设施的服务方式为“集中式”时,需求者一般直接负担自己前去这些公共设施接受服务的路途费用;当公共设施的服务方式为“分布式”时,需求者为接受服务所支付的费用一般与路途距离无关。
在“集中式”的位置——分配系统中,服务供给点的可接近程度必须从社会公正和机会均等的观点出发,而在“分布式”的位置——分配系统中工作效率问题的考虑更为重要。
6.3.5公共设施的使用类型
一些公共设施如小学、医院、政府管理机构等,它们基于相应的法律如小学九年制义务教育、户籍管理制度等以及不可避免的客观事实如看病就医等,对于需求者具有强制性使用的性质。这种类型的公共设施由于不存在着竞争意义上的对手,因此,它们将来的需求以及设施规模都是可以预测的,称这类公共设施为规定性使用类型。
另外一些公共设施如商厦、饭店、宾馆、公园、体育馆等社会基础设施,属于需求自愿使用的设施类型。这类设施的供给与需求矛盾可能会变的非常突出,因此,它们将来的需求以及设施的规模难以预测,它们的需求者经常根据运输费用的变化而发生变化。这类设施定位时,优先考虑选择居民数量增加潜力较大的地点。
6.3.6需求点的分配类型
和公共设施的使用类型一样,需求点的分配类型也可以是自愿或规定的。在“分布式”的位置一分配系统中,需求点的分配类型属于规定型,属于公共设施的由需求点组成的附属区域一般是确定的(既使需求者是出于自愿的);在“集中式”的位置一分配系统中,需求点的分配类型属于自愿型,属于公共设施的由需求点组成的附属区域一般是不确定的。
比较困难的是,在需求点自愿分配的情况下估计各个供给点的附属区域及公共设施设置的规模。如何将使用者分配至供给点,可以用生产和吸引力有限的空间作用模式大概估算出来。
6.3.7附属区域类型
需求点的规定分配与不相连的附属区域相对应,需求点的自愿分配与相连的附属区域相对应。
6.4静态——离散空间优化模式的数学表达:线性规划
有关静态——离散的定位——配置问题是在规划重要公共设施的位置及其附属区域时出现的。静态——离散的位置——配置问题须考虑很多潜在的供给点,并且位置和附属区域的确定将在长时间内处于不变的状态。
在空间优化过程中,如果目标函数和边界条件都是线性的,则采用的数学工具是线性规划*(Linear Programming)。所谓线性规划,是指在一组线性的等式和不等式的约束下,求一个线性函数的最大值或最小值的问题。
线性规划的一般形式为::
目标:
min c1x1+ c2x2+… …+ cnxn
约束条件:
a11x1+ c12x2+… …+ c1nxn≤c1
… …
am1x1+ cm2x2+… …+ cmnxn≤c1
x1, x2… …xn≥0
下面一个例子属于产销区划,就可以用线性规划解决,有A、B、C三个产地,产量分别为50、30、20,对应销地I、II、III,需要量分别为40、40、20。首先通过最短路径分析,得到如表10-6描述的运费。
表10-6:资源分配的运费表(∞表示不连通)
I
II
III
A
2
3
5
B
∞
1.5
8
C
2
4
∞
问题是:如何确定其供应关系,使得总运费最少。假定x11表示从A到I的运量,x12表示从A到II的运量,依次类推。则问题可以描述为:
Object:
min 2x11+3x12+5x13+1.5x22+8x23+2x31+4x32
Constraint:
x11+ x12+x13=50
x22+x23=30
x31+x32=20
x11+x31=40
x12+x22+x32=40
x13+x23=20
x11, x12, x13, x22, x23, x31, x32 ≥0
目前已经有许多成熟的解决线性规划的方案,如图解法、单纯形法等等。上述供销区划的答案如表10-7所示,总运费为255。
表10-7:资源分配的运量
I
II
III
A
20
10
20
B
0
30
0
C
20
0
0
基因算法(Genetic Algorithm):
基因算法是最近提出的用于解决优化问题的方法,它通过对一个集合的变量值进行优化,得到可以定量描述优劣的目标。量化描述目标合适程度的思路来自于达尔文的进化论,在进化过程中,不同代生物染色体的基因的内容和形式都在发生变化,使得生物更能够适合于生存环境。在基因算法中,是通过不同方式的组合以及修改数值以改变变量,这类似于生物的配对和变异。通过比较合适指标,测试改变变量后的计算结果,保留“有利的”组合,并进行进一步的修改。一种理想的结果是:保留下来的改变优于其它的组合和改变,通过不断的迭代过程,可以使得一个优化的结果。基因算法的成败依赖于以何种方式来模拟各种形式的染色体,并使其不断进化,以增加它在最优解中的存活几率。存活下来的染色体一般都对应于一个局部极值,而后者可以导致全局的最优解。
在一个基因算法中,要确定的内容包括:
1)基因操作,如配对和变异;
2)策略性的参数:如配对和变异发生的几率;
3)表现模式:如对基因的编码等等。
在GIS中,基因算法可以应用于空间相互作用(Spatial Interaction)建模,后者可以应用于公共设施,如商店、医院等的区位。