第五章 空间数据采集与处理
第一节 数据源种类
地理信息系统的数据源是指建立地理信息系统数据库所需要的各种类型数据的来源。地理信息系统的数据源是多种多样的,并随系统功能的不同而不同,主要包括以下各种:
地图
各种类型的地图是GIS最主要的数据源,因为地图是地理数据的传统描述形式,是具有共同参考坐标系统的点、线、面的二维平面形式的表示,内容丰富,图上实体间的空间关系直观,而且实体的类别或属性可以用各种不同的符号加以识别和表示。我国大多数的GIS系统其图形数据大部分都来自地图。但由于地图以下的特点,对其应用时须加以注意。
地图存储介质的缺陷 由于地图多为纸质,由于存放条件的不同,都存在不同程度的变形,具体应用时,须对其进行纠正。
地图现势性较差 由于传统地图更新需要的周期较长,造成现存地图的现势性不能完全满足实际的需要。
地图投影的转换 由于地图投影的存在,使得对不同地图投影的地图数据进行交流前,须先进行地图投影的转换。
遥感影象数据
遥感影象是GIS中一个极其重要的信息源。
通过遥感影象可以快速、准确地获得大面积的、综合的各种专题信息,航天遥感影象还可以取得周期性的资料,这些都为GIS提供了丰富的信息。但是因为每种遥感影象都有其自身的成像规律、变形规律,所以对其的应用要注意影象的纠正、影象的分辨率、影象的解译特征等方面的问题。
统计数据
国民经济的各种统计数据常常也是GIS的数据源。如人口数量、人口构成、国民生产总值等等。
实测数据
各种实测数据特别是一些GPS点位数据、地籍测量数据常常是GIS 的一个很准确和很现势的资料。
数字数据
目前,随着各种专题图件的制作和各种GIS系统的建立,直接获取数字图形数据和属性数据的可能性越来越大。数字数据也成为GIS信息源不可缺少的一部分。但对数字数据的采用需注意数据格式的转换和数据精度、可信度的问题。
各种文字报告和立法文件
各种文字报告和立法文件在一些管理类的GIS系统中,有很大的应用,如在城市规划管理信息系统中,各种城市管理法规及规划报告在规划管理工作中起着很大的作用。
对于一个多用途的或综合型的系统,一般都要建立一个大而灵活的数据库,以支持其非常广泛的应用范围。而对于专题型和区域型统一的系统,则数据类型与系统功能之间具有非常密切的关系。
第二节 空间数据采集
属性数据的采集
属性数据即空间实体的特征数据,一般包括名称、等级、数量、代码等多种形式,属性数据的内容有时直接记录在栅格或矢量数据文件中,有时则单独输入数据库存储为属性文件,通过关键码与图形数据相联系。
对于要输入属性库的属性数据,通过键盘则可直接键入。
对于要直接记录到栅格或矢量数据文件中的属性数据,则必须先对其进行编码,将各种属性数据变为计算机可以接受的数字或字符形式,便于GIS存储管理。
下面,主要从属性数据的编码原则、编码内容、编码方法方面作以说明。
编码原则
属性数据编码一般要基于以下三个原则:
(1)编码的系统性和科学性。编码系统在逻辑上必须满足所涉及学科的科学分类方法,以体现该类属性本身的自然系统性。另外,还要能反映出同一类型中不同的级别特点。一个编码系统能否有效运作其核心问题就在于此。
(2)编码的一致性。一致性是指对象的专业名词、术语的定义等必须严格保证一致, 对代码所定义的同一专业名词、术语必须是唯一的。
(3)编码的标准化和通用性。为满足未来有效的信息传输和交流,所制定的编码系统必须在有可能的条件下实现标准化。
我国目前正在研究编码的标准化问题,并对某些项目作了规定。如中华人民共和国行政区划代码使用国家颁布的GB—2260—80编码,其中有省(市、自治区)三位,县(区)三位。其余三位由用户自己定义,最多为十位。编码的标准化就是拟定统一的代码内容、码位长度、码位分配和码位格式为大家所采用。因此,编码的标准化为数据的通用性创造了条件。当然,编码标准化的实现将经历一个分步渐进的过程,并且只能是适度的,这是由于地理对象的复杂性和区域差异性所决定的。
(4)编码的简捷性。在满足国家标准的前提下、每一种编码应该是以最小的数据量载负最大的信息量,这样,既便于计算机存贮和处理,又具有相当的可读性。
(5)编码的可扩展性。虽然代码的码位一般要求紧凑经济、减少冗余代码,但应考虑到实际使用时往往会出现新的类型需要加入到编码系统中,因此编码的设置应留有扩展的余地,避免新对象的出现而使原编码系统失效、造成编码错乱现象。
2、编码内容
属性编码一般包括三个方面的内容:
(1)登记部分,用来标识属性数据的序号,可以是简单的连续编号,也可划分不同层次进行顺序编码;
(2)分类部分,用来标识属性的地理特征,可采用多位代码反映多种特征;
(3)控制部分,用来通过一定的查错算法,检查在编码、录入和传输中的错误,在属性数据量较大情况下具有重要意义。
3、编码方法
编码的一般方法是:
(1)列出全部制图对象清单。
(2)制定对象分类,分级原则和指标将制图对象进行分类、分级。
(3)拟定分类代码系统。
(4)设定代码及其格式。设定代码使用的字符和数字、码位长度、码位分配等。
(5)建立代码和编码对象的对照表.这是编码最终成果档案,是数据输人计算机进行编码的依据。
属性的科学分类体系无疑是GIS中属性编码的基础。目前,较为常用的编码方法有层次分类编码法与多源分类编码法两种基本类型。
层次分类编码法:
是按照分类对象的从属和层次关系为排列顺序的一种代码,它的优点是能明确表示出分类对象的类别,代码结构有严格的隶属关系。
2)多源分类编码法
又称独立分类编码法。是指对于一个特定的分类目标,根据诸多不同的分类依据分别进行编码,各位数字代码之间并没有隶属关系。
由此可见,该种编码方法一般具有较大的信息载量,有利于对于空间信息的综合分析。
在实际工作中,也往往将以上两种编码方法结合使用,以达到更理想的效果。
二、图形数据的采集
图形数据的输入实际上就是图形的数字化过程。一般有两种方法:
手扶跟踪数字化仪输入
(1)手扶跟踪数字化仪
手扶跟踪数字化仪,根据其采集数据的方式分为机械式、超声波式和全电子式三种, 其中全电子式数字化仪精度最高,应用最广。按照其数字化版面的大小可分为A0、A1、A2、A3、A4 等。
数字化仪由电磁感应板、游标和相应的电子电路组成。这种设备利用电磁感应原理:在电磁感应板的x,y方向上有许多平行的印刷线,每隔200μm一条。游标中装有一个线圈。当使用者在电磁感应板上移动游标到图件的指定位置,并将十字叉丝的交点对准数字化的点位,按动相应的按钮时,线圈中就会产生交流信号,十字叉丝的中心也便产生了一个电磁场,当游标在电磁感应板上运动时,板下的印制线上就会产生感应电流。印制板周围的多路开关等线路可以检测出最大信号的位置,即十字叉线中心所在的位置,从而得到该点的坐标值。
(2)数字化过程
把待数字化的图件固定在图形输入板上,首先用鼠标器输入图幅范围和至少四个控制点的坐标,随后即可输入图幅内各点、曲线的坐标。
通过数字化仪采集数据数据量小,数据处理的软件也比较完备,但由于数字化的速度比较慢,工作量大,自动化程度低,数字化的精度与作业员的操作有很大关系,所以,目前很多单位在大批量数字化时,已不再采用它。
扫描仪输入
扫描仪简介
扫描仪直接把图形(如地形图)和图象(如遥感影象、照片)扫描输入到计算机中,以象素信息进行存储表示的设备。按其所支持的颜色分类,可分为单色扫描仪和彩色扫描仪;按所采用的固态器件又分为电荷耦合器件(CCD)扫描仪、MOS电路扫描仪、紧贴型扫描仪等;按扫描宽度和操作方式分为大型扫描仪、台式扫描仪和手动式扫描仪。
CCD扫描仪的工作原理是:用光源照射原稿,投射光线经过一组光学镜头射到CCD器件上,再经过模/数转换器,图象数据暂存器等,最终输入到计算机。CCD感光元件阵列是逐行读取原稿的。为了使投射在原稿上的光线均匀分布,扫描仪中使用的是长条形光源。对于黑白扫描仪,用户可以选择黑白颜色所对应电压的中间值作为阈值,凡低于阈值的电压就为0(黑色),反之为1(白色)。而在灰度扫描仪中,每个象素有多个灰度层次。彩色扫描仪的工作原理与灰度扫描仪的工作原理相似,不同之处在于彩色扫描仪要提取原稿中的彩色信息。扫描仪的幅面有A0,A1,A3,A4等。扫描仪的分辨率是指在原稿的单位长度(英寸)上取样的点数,单位是dpi,常用的分辨率有300-1000 dpi之间。扫描图象的分辨率越高,所需的存储空间就越大。现在多数扫描仪都提供了可选择分辨率的功能。对于复杂图象,可选用较高的分辨率;对于较简单的图象,就选择较低的分辨率。
(2)扫描过程
扫描时,必须先进行扫描参数的设置,包括:
扫描模式的设置,(分二值、灰度、百万种彩色),对地形图的扫描一般采用二值扫描,或灰度扫描。对彩色航片或卫片采用百万种彩色扫描,对黑白航片或卫片采用灰度扫描。
扫描分辨率的设置,根据扫描要求,对地形图的扫描一般采用300dpi或更高的分辨率。
针对一些特殊的需要,还可以调整亮度、对比度、色调、GAMMA曲线等。
d、设定扫描范围。
扫描参数设置完后,即可通过扫描获得某个地区的栅格数据。
通过扫描获得的是栅格数据,数据量比较大。如一张地形图采用300dpi灰度扫描其数据量就有20兆左右。除此之外,扫描获得的数据还存在着噪声和中间色调像元的处理问题。噪声是指不属于地图内容的斑点污渍和其它模糊不清的东西形成的像元灰度值。噪音范围很广,没有简单有效的方法能加以完全消除,有的软件能去除一些小的脏点,但有些地图内容如小数点等和小的脏点很难区分。对于中间色调像元,则可以通过选择合适的阈值选用一些软件如Photoshop等来处理。
一般对获得的栅格数据还要进行一些后续处理如图象纠正、矢量化等。
扫描输入因其输入速度快、不受人为因素的影响、操作简单而越来越受到大家的欢迎,再加之计算机运算速度、存储容量的提高和矢量化软件的踊跃出现,使得扫描输入已成为图形数据输入的主要方法。
第三节 空间数据的编辑与处理
误差或错误的检查与编辑
通过矢量数字化或扫描数字化所获取的原始空间数据,都不可避免的存在着错误或误差,属性数据在建库输入时,也难免会存在错误,所以,对图形数据和属性数据进行一定的检查、编辑是很有必要的。
图形数据和属性数据的误差主要包括以下几个方面:
1、空间数据的不完整或重复:主要包括空间点、线、面数据的丢失或重复、区域中心点的遗漏、栅格数据矢量化时引起的断线等;
2、空间数据位置的不准确:主要包括空间点位的不准确、线段过长或过短、线段的断裂、相邻多边形结点的不重合等;
3、空间数据的比例尺不准确;
4、空间数据的变形;
5、空间属性和数据连接有误;
6、属性数据不完整;
为发现并有效消除误差,一般采用如下方法进行检查:
1、叠合比较法,是空间数据数字化正确与否的最佳检核方法,按与原图相同的比例尺用把数字化的内容绘在透明材料上,然后与原图叠合在一起,在透光桌上仔细的观察和比较。一般,对于空间数据的比例尺不准确和空间数据的变形马上就可以观察出来,对于空间数据的位置不完整和不准确则须用粗笔把遗漏、位置错误的地方明显地标注出来。如果数字化的范围比较大,分块数字化时,除检核一幅(块)图内的差错外还应检核已存入计算机的其它图幅的接边情况;
2、目视检查法,指在屏幕上用目视检查的方法,检查一些明显的数字化误差与错误,如图 所示,包括线段过长或过短、多边形的重叠和裂口、线段的断裂等;
3、逻辑检查法,如根据数据拓扑一致性进行检验,将弧段连成多边形,进行数字化误差的检查。有许多软件已能自动进行多边形结点的自动平差。另外,对属性数据的检查一般也最先用这种方法,检查属性数据的值是否超过其取值范围。属性数据之间或属性数据与地理实体之间是否有荒谬的组合。
对于空间数据的不完整或位置的误差,主要是利用GIS的图形编辑功能,如删除(目标、属性、坐标),修改(平移、拷贝、连接、分裂、合并、整饰),插入等进行处理。
对空间数据比例尺的不准确和变形,可以通过比例变换和纠正来处理。
二、图象纠正
此处的图象主要指通过扫描得到的地形图和遥感影象。由于如下原因,使扫描得到的地形图数据和遥感数据存在变形,必须加以纠正。
1、由于受地形图介质及存放条件等因素的影响,使地形图的实际尺寸发生变形;
2、在扫描过程中,工作人员的操作会产生一定的误差,如扫描时地形图或遥感影象没被压紧、产生斜置或扫描参数的设置等因素都会使被扫入的地形图或遥感影象产生变形,直接影响扫描质量和精度;
3、由于遥感影象本身就存在着几何变形;
4、由于所需地图图幅的投影与资料的投影不同,或需将遥感影象的中心投影或多中心投影转换为正射投影等。
5、由于扫描时,受扫描仪幅面大小的影响,有时需将一幅地形图或遥感影象分成几块扫描,这样会使地形图或遥感影象在拼接时难以保证精度。
对扫描得到的图象进行纠正,主要是建立要纠正的图象与标准的地形图或地形图的理论数值或纠正过的正射影象之间的变换关系,目前,主要的变换函数有:仿射变换、双线性变换、平方变换、双平方变换、立方变换、四阶多项式变换等,具体采用哪一种,则要根据纠正图象的变形情况、所在区域的地理特征及所选点数来决定。
以下,分别看一看地形图和遥感影象的纠正过程及具体步骤:
1、地形图的纠正
对地形图的纠正,一般采用四点纠正法或逐网格纠正法。
四点纠正法,一般是根据选定的数学变换函数,输入需纠正地形图的图幅行、列号、地形图的比例尺、图幅名称等,生成标准图廓,分别采集四个图廓控制点坐标来完成。
逐网格纠正法,是在四点纠正法不能满足精度要求的情况下采用的。这种方法和四点纠正法的不同点就在于采样点数目的不同,它是逐方里网进行的,也就是说,对每一个方里网,都要采点。
具体采点时,一般要先采源点(需纠正的地形图),后采目标点(标准图廓),先采图廓点和控制点,后采方里网点。
遥感影象的纠正
遥感影象的纠正,一般选用和遥感影象比例尺相近的地形图或正射影象图作为变换标准,选用合适的变换函数,分别在要纠正的遥感影象和标准地形图或正射影象图上采集同名地物点。
具体采点时,要先采源点(影像),后采目标点(地形图)。选点时,要注意选点的均匀分布,点不能太多。如果在选点时没有注意点位的分布或点太多,这样不但不能保证精度,反而会使影象产生变形。另外选点时,点位应选由人工建筑构成的并且不会移动的地物点,如渠或道路交叉点、桥梁等,尽量不要选河床易变动的河流交叉点,以免点的移位影响配准精度。
三、数据格式的转换
数据格式的转换一般分为两大类:不同数据介质之间的转换,即将各种不同的源材料信息如地图、照片、各种文字及表格转为计算机可以兼容的格式,主要采用数字化、扫描、键盘输入等方式,这在上一节中已经说明;第二类转换是数据结构之间的转换,而数据结构之间的转化又包括同一数据结构不同组织形式间的转换和不同数据结构间的转换。
同一数据结构不同组织形式间的转换包括不同栅格记录形式之间的转换(如四叉树和游程编码之间的转换)和不同矢量结构之间的转换(如索引式和DIME之间的转换)。这两种转换方法要视具体的转换内容根据矢量和栅格数据编码的原理和方法来进行。
不同数据结构间的转换主要包括矢量到栅格数据的转换和栅格到矢量数据的转换两种。具体的转换方法在第四章中已有详细说明。
四、地图投影转换
当系统使用的数据取自不同地图投影的图幅时,需要将一种投影的数字化数据转换为所需要投影的坐标数据。投影转换的方法可以采用:
1、正解变换: 通过建立一种投影变换为另一种投影的严密或近似的解析关系式,直接由一种投影的数字化坐标x、y变换到另一种投影的直角坐标X、Y。
2、反解变换: 即由一种投影的坐标反解出地理坐标(x、y→B、L),然后再将地理坐标代入另一种投影的坐标公式中(B、L→X、Y),从而实现由一种投影的坐标到另一种投影坐标的变换(x、y→X、Y)。
3、数值变换: 根据两种投影在变换区内的若干同名数字化点,采用插值法,或有限差分法,最小二乘法、或有限元法,或待定系数法等,从而实现由一种投影的坐标到另一种投影坐标的变换。
目前,大多数GIS软件是采用正解变换法来完成不同投影之间的转换,并直接在GIS软件中提供常见投影之间的转换。
五、图象解译
遥感影象的信息,要进入GIS,很重要的一步就是图像解译:从图像中提取有用信息的过程。
对图像进行解译,是一项涉及诸多内容的复杂过程。这些内容包括:研究地理区域的一般知识;掌握影像分析的经验和技能;对影像特征的深入理解。有时,在图象解译之前,还会对其进行图象增强处理。
图像解译过程一般是建立在对图像及其解译区域进行系统研究的基础之上,具体包括图象的成像原理、图象的成像时间、图象的解译标志、成像地区的地理特征、地图、植被、气候学以及区域内有关人类活动的各种信息。
遥感图象的解译标志很多,包括图象的色调或色彩、大小、形状、纹理、阴影、位置及地物之间的相互关系等。色调被认为是最基本的因素,因为没有色调变化,物体就不能被识别。大小、形状和纹理较复杂,需要进行个体特征的分析和解译。而阴影、类型、位置和相互关系则最为复杂,涉及特征间的相关关系。
影像分析是一个不断重复的过程,其中要对各种地物类型的信息以及信息之间的相关关系进行周密调查,收集资料、检验假说、作出解译并不断修正错误,才能最终得出正确的结果。
遥感图象的解译有目视判读和计算机自动解译两种方法,其中,自动解译又可分为监督分类和非监督分类两种。
六、图幅拼接
在相邻图幅的边缘部分,由于原图本身的数字化误差,使得同一实体的线段或弧段的坐标数据不能相互衔接,或是由于坐标系统、编码方式等不统一,需进行图幅数据边缘匹配处理。
图幅的拼接总是在相邻两图幅之间进行的。要将相邻两图幅之间的数据集中起来,就要求相同实体的线段或弧的坐标数据相互衔接,也要求同一实体的属性码相同,因此必须进行图幅数据边缘匹配处理。具体步骤如下:
1、逻辑一致性的处理
由于人工操作的失误,两个相邻图幅的空间数据库在接合处可能出现逻辑裂隙,如一个多边形在一幅图层中具有属性A,而在另一幅图层中属性为B。此时,必须使用交互编辑的方法,使两相邻图斑的属性相同,取得逻辑一致性。
识别和检索相邻图幅
将待拼接的图幅数据按图幅进行编号,编号有2位,其中十位数指示图幅的横向顺序,个位数指示纵向顺序,并记录图幅的长宽标准尺寸。因此,当进行横向图幅拼接时,总是将十位数编号相同的图幅数据收集在一起;进行纵向图幅拼接时,是将个位数编号相同的图幅数据收集在一起。其次,图幅数据的边缘匹配处理主要是针对跨越相邻图幅的线段或弧的,为了减少数据容量,提高处理速度,一般只提取图幅边界2cm范围内的数据作为匹配和处理的目标。同时要求,图幅内空间实体的坐标数据已经进行过投影转换。
3、相邻图幅边界点坐标数据的匹配
相邻图幅边界点坐标数据的匹配采用追踪拼接法。追踪拼接有四种情况,只要符合下列条件,两条线段或弧段即可匹配衔接:相邻图幅边界两条线段或弧段的左右码各自相同或相反;相邻图幅同名边界点坐标在某一允许值范围内(如小于O.5mm)。
匹配衔接时是以一条弧或线段作为处理的单元,因此,当边界点位于两个结点之间时,须分别取出相关的两个结点,然后按照结点之间线段方向一致性的原则进行数据的记录和存储。
4、相同属性多边形公共边界的删除
当图幅内图形数据完成拼接后,相邻图斑会有相同属性。此时,应将相同属性的两个或多个相邻图斑组合成一个图斑,即消除公共边界,并对共同属性进行合并。
多边形公共界线的删除,可以通过构成每一面域的线段坐标链,删去其中共同的线段,然后重新建立合并多边形的线段链表。
对于多边形的属性表,除多边形的面积和周长需重新计算外,其余属性保留其中之一图斑的属性即可。
第四节 空间数据质量及其精度分析
空间数据质量的概念
1、空间数据质量
空间位置、专题特征以及时间是表达现实世界空间变化的三个基本要素。空间数据是 有关空间位置、专题特征以及时间信息的符号记录。而数据质量则是空间数据在表达这三 个基本要素时,所能够达到的准确性、一致性、完整性,以及它们三者之间统一性的程度。
空间数据是对现实世界中空间特征和过程的抽象表达。由于现实世界的复杂性和模糊 性,以及人类认识和表达能力的局限性,这种抽象表达总是不可能完全达到真值的,而只 能在一定程度上接近真值。从这种意义上讲,数据质量发生问题是不可避免的;另一方面, 对空间数据的处理也会导致出现一定的质量问题;例如,在某些应用中,用户可能根据需 要来对数据进行一定的删减或扩充,这对数据记录本身来说也是一种误差。
因此,空间数据质量的好坏是一个相对概念,并具有一定程度的针对性。尽管如此,我们仍可以脱离开具体的应用,从空间数据存在的客观规律性出发来对空间数据的质量进行评价和控制。
2、与数据质量相关的几个概念
(1)误差(Error):误差反映了数据与真实值或者大家公认的真值之间的差异,它是一 种常用的数据准确性的表达方式。
(2)数据的准确度(Accuracy):数据的准确度被定义为结果、计算值或估计值与真实值或者大家公认的真值的接近程度。
(3)数据的精密度(Resolution):数据的精密度指数据表示的精密程度,亦即数据表示的有效位数。它表现了测量值本身的离散程度。由于精密度的实质在于它对数据准确度的影响,同时在很多情况下。它可以通过准确度而得到体现,故常把二者结合在一起称为精确度,简称精度。
(4)不确定性(Uncertainty):不确定性是关于空间过程和特征不能被准确确定的程度,是自然界各种空间现象自身固有的属性。在内容上,它是以真值为中心的一个范围,这个范围越大,数据的不确定性也就越大。
二、空间数据质量评价
1、空间数据质量标准
空间数据质量标准是生产、使用和评价空间数据的依据,数据质量是数据整体性能的 综合体现。目前,世界上已经建立了一些数据质量标准,如美国FGDC的数据质量标准等。
空间数据质量标准的建立必须考虑空间过程和现象的认知、表达、处理、再现等全过 程。空间数据质量标准要素及其内容如下:
(1)数据情况说明:要求对地理数据的来源、数据内容及其处理过程等作出准确、全面和详尽的说明。
(2)位置精度或称定位精度:为空间实体的坐标数据与实体真实位置的接近程度,常 表现为空间三维坐标数据精度。它包括数学基础精度、平面精度、高程精度、接边精度、形状再现精度(形状保真度)、像元定位精度(图像分辨率)等。平面精度和高程精度又可分 为相对精度和绝对精度。
(3)属性精度:指空间实体的属性值与其真值相符的程度。通常取决于地理数据的类 型,且常常与位置精度有关,包括要素分类与代码的正确性、要素属性值的准确性及其名 称的正确性等。
(4)时间精度:指数据的现势性。可以通过数据更新的时间和频度来表现。
(5)逻辑一致性:指地理数据关系上的可靠性,包括数据结构、数据内容(包括空间特征、专题特征和时间特征),以及拓扑性质上的内在一致性。
(6)数据完整性:指地理数据在范围、内容及结构等方面满足所有要求的完整程度,包括数据范围、空间实体类型、空间关系分类、属性特征分类等方面的完整性。
(7)表达形式的合理性:主要指数据抽象、数据表达与真实地理世界的吻合性,包括空间特征、专题特征和时间特征表达的合理性等。
2、空间数据质量的评价
空间数据质量的评价,就是用空间数据质量标准要素对数据所描述的空间、专题和时 间特征进行评价。
误差的类型(源误差、操作误差)
空问数据的质量通常用误差来衡量,而误差定义为空间数据与其真值的差别。空间数据误差的来源是多方面的,例如,GIS的原始录入数据本身包含着数据采集过程中引入的源误差。另外,在原始数据录入到空间数据库以及随后的数据分析处理和结果输出过程中,每一步都会引入新误差。根据P.A.Burrough(1986)的建议,可以将GIS数据误差的来源归纳为三类:
1、源误差
GIS数据的来源主要有,直接从现场利用GPS或全站仪采集的数字数据;现有纸质地图的数字化;航空影像和遥感数字数据或统计调查数据等。这些数据受表5—1中前两类误差来源的部分或全部影响。
表5-1 空间数据误差的来源
误差类型
误差来源
误差特征
源误差
数据年代;数据的空间覆盖范围;地图比例尺;观测密度数据的可访问性,数据格式;数据与用途的一致性;数据的采集处理费用
明显、易探测
由自然变化或原始测量引起的误差
位置误差;属性误差:质量和数量方面的误差
数据偏差:输入输出错误,观测者偏差,自然变化
不明显
难测定
GIS处理过程引起的误差
计算机字长引起的误差
拓扑分析引起的误差:逻辑错误、地图叠置操作
分类与综合引起的误差:分类方法、分类间隔、内插方法
复杂
难探测
(1) 地面测量数字数据的误差
来源于地面测量的数字数据中含有控制测量和碎部测量误差。其中控制点误差又受控制网的参考基准、网形和观测精度以及观测费用等因素的影响。碎部点误差随继承了控制点的误差外,还受自身的观测方法、观测精度和地界的人为判断,以及地物地貌的取舍等 因素的影响。当然,原始观测误差受观测仪器、观测者和外界环境三种因素影响。地面测量数据中的误差可以表现为随机误差、系统误差或粗差。一般而言,粗差采用可靠性理论探测剔除,系统误差采用实验方法校正或建立系统误差模型处理,随机误差采用随机模型, 如最小二乘法平差处理。利用误差传播律可求得点坐标的方差—协方差阵或误差椭圆(球)元素采表达点坐标数据的精度。
(2) 地图数字化数据的误差
目前GIS数据的主要来源之一是现有地图数字化。原因固有误差和数字化过程误差是 地图数字化数据误差的主要来源。原因固有误差除含有上述地面控制测量和碎部测量的全 部误差外,还含有制图误差。
① 制图误差
a 、控制点展绘误差 展绘控制点是成图的第一步。对于与立体测图仪相连的直角坐标展点仪而言,该项误差的均方根为0.17—0.32mm,这在地图精度要求不高时可不予考虑。
b、编绘误差 地形图的编绘一般用摄影测量手段把各种原始资料化为同一比例尺的过程,其中所引入的误差大约在0.30一O.33mm之间。
c、绘图误差 绘图误差是在绘图过程中产生的。误差的范围为0.06-0.18mm之间。
d、综合误差 地图综合误差的大小取决于特征的类型与复杂程度,故该项误差极难量化。象曲线这类特征,其综合误差可能很大,而直线的综合误差又近似为零。当两个或两个以上的特征无法在图上适当表示时,需要人为地在地图上将特征表示符移位,使地图清晰易渎。这种移位也会引起综合误差,其大小主要取决于特征的接近程度和成图比例尺的大小。比例尺越小,移位越大,误差也越大。
e、地图复制误差 地图复制误差的均方差为O.1一O.2mm。
f、分色板套合误差 彩色地图是由一系列金属分色板套合生成的,每一块分色板在图 上印出一种颜色。该项误差的均方差为O.17—0.30mm。
g、绘图材料的变形误差 地图一般印刷于纸质载体上,随着温度和湿度的变化,纸的尺寸也会改变。如果温度不变,湿度从0%增至25%,则纸的尺寸改变1.6%。由于纸的膨胀系数和收缩系数并不相等,因此,即使湿度又降至原来大小,图纸也不可能恢复到原来尺寸。由于纸张在印刷时温度升高,纸张长度会伸长1.5%,宽度伸长2.9%,而当纸干燥或冷却后,其长度和宽度又分别收缩0.25%和0.75%。因此,印刷冷却后,图纸在长、宽方向上的净伸长分别为1.25%和2.15%,
h、归化到同一比例尺所引起的误差 地图的比例尺是指真实的主比例尺。例如,对兰勃特正形投影而言,主比例尺只有沿着标准纬线时才是不变的,而标准纬线之内的比例尺变小,之外的比例尺变大。因此,在将地图数字化或者从地图量距时,必须利用适当的比例尺因子进行修正。
i、特征的定义 自然界的许多特征并无明确的界限。例如,海岸线的实际位置在哪里? 森林和草地间的界线如何确定?因此,特征定义会引起特征位置的某些不确定性,但并非 所有的特征都有此误差。
j、特征夸大误差 为了增强图的可读性,有时需要夸大某些特征,因为它们在图上难以按其真实情况表示。例如,分界线应是无宽线、但表示在图上时,却占有一定宽度。有时根据地图的用途,需要将某些特征夸大,以区别于其它特征。如,在道路上将道路特征夸大以示醒目。特征夸大误差取决于地图的比例尺、用途和所涉及特征的类型。同样地,并非所有的特征都具有此类误差。
由于很难知道制图过程中各种误差间的关系以及图纸尺寸的不稳定性,因此,很难准 确地评价原图固有误差。
② 数字化误差
数字化方式主要有手工数字化和扫描数字化。目前在生产实践中多采用扫描数字化,然后屏幕半自动化跟踪。线划跟踪与扫描数字化所引起的平面误差较小,只是在扫描数字化时,要素结合处出现的误差较大。
(3)遥感数据误差
遥感数据的误差累积过程可以区分为:数据获取误差、数据处理误差、数据分析误差、 数据转换误差和人工判断误差。
① 数据获取误差
遥感资料获取时,存在着多种误差。其中有些误差源是可控的,例如,几何误差或辐射误差;有些则是不可控的,如气候条件和景观的自然变化。可控的数据获取误差又包括 几何误差和遥感平台误差。
② 数据预处理误差
数据预处理包括利用地面控制进行校正,几何校正、图像增强和分类等。这些预处理 会引入各种各样的误差。例如,几何校正会引起平面位置和专题误差。位置误差取决于校 正模型的逼近和校正模型参数求解时所用控制数据中的误差。专题误差来自重新抽样。分 类本身就是一个引入显著误差的过程。潜在的分类误差源可能有遥感数据测量中的随机误 差,类型清晰度中的模糊度,混合类型分类系统,以及不同的分类系统缺少相容性。
③ 数据转换误差
在矢量—栅格数据转换过程中,会出现显著误差。引起矢量数据栅格化误差的主要原因有两个:属性概括误差;拓扑匹配错误。栅格化误差的大小与下列因素有关:转换中所用的算法,格网的尺寸,栅格表达时的定向,以及地图图形的复杂性等。
④ 人工判读误差
在数据分析和判读阶段会引入人工判读误差。在GIS中使用遥感数据时,人工判读误差会影响随后的GIS分析结果。这种误差是主观的,因此难以量化,它与判读员从遥感影像中提取信息的能力和技能有关,还与影像的尺度和所需的概括程度有关。
2、操作误差
除了GIS原始录入数据本身带有的源误差外,空间数据在GIS的模型分析和数据处理等操作中还会引入新误差。如,由计算机字长引起的误差,拓扑分析引入的误差和叠置中引入的误差等。
(1)由计算机字长引起的误差
在计算机中,数据是由一定字长的编码数字表示的。舍入误差是由计算机字长引起的 一种误差。这种误差出现在GIS的各种数值运算和模型分析过程中。由舍入误差引起的问 题很多,例如GIS空间数据库中整数编码对面积和周长计算的影响,比例尺变换和旋转变 换对拓扑关系的影响等。削弱舍入误差影响的方法主要有:增加字长并用带小数的实数表 示数据;改变数据在计算机中的表达方式;采用合适的算法等。
除了数据处理精度外,数据存储精度也与计算机字长有关。16位的计算机在存储低分辨率的栅格图像时不会出现问题,但存储高精度的控制点坐标或点位精度要求高的地理数据时,则不能胜任。减少存储误差影响的方法有:采用双精度字长存储数据,使用有效位数多的数据记录控制点坐标;使用32位整数运算法处理数据,即把坐标数据转换成以厘米或毫米为单位的整数,然后用整数存储和运算;采用嵌套法,即先把研究区域划分成若干块,并用粗略的分辨率来定义它们,每块再以有限精度建立局部原点,以此为基准确定块中各细节的坐标。这种方法可以用单精度字长记录非控制点坐标,用双精度字长记录控制点坐标,并可将它们联接起来。嵌套可以是多级嵌套。
(2)由拓扑分析引起的误差
GIS中的拓扑分析会产生大量的误差。如矢量数据栅格化引起的拓扑匹配误差,多层叠置过程中产生的无意义多边形等。这是由于GIS中进行的大多数拓扑空间操作都隐含地假设:原始数据是均匀分布的,数字化过程没有错误;拓扑网络的叠置仅仅是网络多边形边界相交和重新构成网络问题;边界线能明确定义和描绘;所有的算法都假定为完全确定的操作;对某类型或其它自然因素所确定的分类区间是最合适的。
(3)数据分类和内插引起的误差
GIS空间数据库中数据的许多不规则性是由所使用的分类方法和从点数据到面数据的内插方法引起的,即它们作为GIS中的一种操作会引入许多误差。
以上讨论了GIS空间数据库中原始录用数据本身含有的源误差和随后空间操作中引入的新误差。一般来说,源误差远大于操作误差,因此,要想控制GIS产品的质量,良好的原始录用数据是首要的。
四、GIS空间操作中误差的传播
GIS产品是利用含有源误差的空间数据,通过GIS分析操作产生的。源误差和操作误差通过GIS操作经累积后传播到GIS的产品中。考虑如下的GIS空间操作:
y=f(xl,x2,...xn)
其中xi(i=1,2…n)为描述空间数据的自变量,它带有源误差;y为描述GIS产品的因变量,f(·)为描述GIS空间操作过程的数学函数,用以计算操作误差。根据f(·)的特征,可以分成两类运算:算术运算和逻辑运算。下面讨论这两种运算关系下的误差传播。
1、算术关系下的误差传播
如果f(·)为算术关系,例如独立变量的和差关系、倍数关系或线性关系,则其中误差传播规律是众所周知的;若为相关或一般非线性函数时,其误差传播规律也在经典测量误差理论中已有详细介绍。
2、逻辑关系下的误差传播
除了上述算术关系操作外,在GIS中还存在着叠置、推理等大量逻辑运算,如布尔逻辑运算(AND 、OR,NOT)和专家系统中的不精确推理。
(1)布尔逻辑运算下的误差传播
布尔逻辑运算是GIS中的一类典型操作。如,空间集合分析就是按照逻辑运算合成的。举例来说,现有一幅土地利用现状图和一幅土壤类型图,需查询土层厚度大于50cm的麦地。在分析操作时,首先,从土地利用现状图中找出小麦地的子集Al,再从土壤类型图中获取土层厚度大于50cm的子集A2;然后求两个子集的交集A=Al A2 即为查询结果。由于子集Al和A2实际上都含有误差,如Al子集中可能也包含了其它地物,麦地只是其中心 类别。设Al的误差为5%,A2的误差为10%,则A的误差应是多少?这是不易计算的。
(2)不精确推理关系下的误差传播
GIS作为辅助决策工具常常需要进行综合分析、评判和基于知识的推理。在利用含有误差的知识时,经不精确推理所得结论的精度和可信度如何?这是推理关系下的传播定律所要解决的问题。
逻辑关系下的误差传播律正处于研究中,借用信息论、模糊数学、人工智能和专家系统的基础理论可望解决这一问题。
通过上述讨论不难理解,由于GIS还是一门比较年轻的学科,对GIS数据的质量和精度问题还不大为人们所了解,还有许多问题有待于深入研究。例如,由于用户的需求多式多样,对数据质量和精度还没有一致的意见;缺乏度量空间数据和GIS输出结果不确定性的方法;在GIS功能中没有标准方法来建立误差模型。对如何处理误差,没有成熟的规范可循,现有的GIS能够提供一个派生信息的工具,但却没能提供一个关于系统可靠性的工具,即交出的最终结果没有附上一份相应的关于其可靠性的分析报告。
五、空间数据质量的控制
数据质量控制是个复杂的过程,要控制数据质量应从数据质量产生和扩散的所有过程 和环节入手,分别用一定的方法减少误差。空间数据质量控制常见的方法有:
1、传统的手工方法 质量控制的人工方法主要是将数字化数据与数据源进行比较,图 形部分的检查包括目视方法、绘制到透明图上与原图叠加比较,属性部分的检查采用与原 属性逐个对比或其它比较方法。’
2、元数据方法 数据集的元数据中包涵了大量的有关数据质量的信息,通过它可以检查数据质量,同时元数据也记录了数据处理过程中质量的变化,通过跟踪元数据可以了解数据质量的状况和变化。
3、地理相关法 用空间数据的地理特征要素自身的相关性来分析数据的质量。例如, 从地表自然特征的空间分布着手分析,山区河流应位于微地形的最低点,因此,叠加河流和等高线两层数据时,若河流的位置不在等高线的外凸连线上,则说明两层数据中必有一层数据有质量问题,如不能确定哪层数据有问题时,可以通过将他们分别与其它质量可靠的数据层叠加来进一步分析。因此,可以建立一个有关地理特征要素相关关系的知识库,以备各空间数据层之间地理特征要素的相关分析之用。
数据质量控制应体现在数据生产和处理的各个环节。下面以地图数字化生成地图数据过程为例,说明数据质量控制的方法。数字化过程的质量控制,主要包括数据预处理、数字化设备的选用、对点精度、数字化误差和数据精度检查等项内容。
1、数据预处理工作 主要包括对原始地图、表格等的整理、誊清或清绘。对于质量不高的数据源,如散乱的文档和图面不清晰的地图,通过预处理工作不但可减少数字化误差,还可提高数字化工作的效率。对于扫描数字化的原始图形或图像,还可采用分版扫描的方法,来减少矢量化误差。
2、数字化设备的选用 主要根据手扶数字化仪、扫描仪等设备的分辨率和精度等有关参数进行挑选,这些参数应不低于设计的数据精度要求。一般要求数字化仪的分辨率达到0.025mm,精度达到O.2mm;扫描仪的分辨率则不低于0.083mm。
3、数字化对点精度(准确性) 是数字化时数据采集点与原始点重合的程度。一般要求数字化对点误差应小于O.1mm。
4、数字化限差 限差的最大值分别规定如下:采点密度(O.2mm)、接边误差(0.02mm)、接合距离(0.02mm)、悬挂距离(0.007mm)、细化距离(O.O07mm)和纹理距离(0.01mm)。
接边误差控制,通常当相邻图幅对应要素间距离小于0.3mm时,可移动其中一个要素以使两者接合;当这一距离在0.3mm与0.6mm之间时,两要素各自移动一半距离;若距离大于0.6mm,则按一般制图原则接边,并作记录。
5、数据的精度检查 主要检查输出图与原始图之间的点位误差。一般要求,对直线地物和独立地物,这一误差应小于0.2mm;对曲线地物和水系,这一误差应小于0.3mm;对边界模糊的要素应小于0.5mm。
空间数据的采集与处理工作,是建立GIS的重要环节,了解GIS数字化数据的质量与不确定性特征,最大限度地纠正所产生的数据误差,对保证GIS分析应用的有效性具有重要意义。