0(0),1(1),2(10),3(11),4(100),5(101),6(110),7(111),8(1000),9(1001)… 阿拉伯数字及其二级制表示 第五章 GIS中的数据 导读:对空间数据的处理是GIS的核心功能,GIS中的数据通常描述三部分信息:空间信息(位置,空间关系等等),非空间的属性信息,时间信息。数据按照其测量尺度,可以分为定名、定比、间隔、比率量四种类型。由于各方面的原因,GIS数据存在着质量问题,了解数据质量有利于数据的正确使用,避免出现“Garbage In, Garbage Out”的情形。数据质量可以通过元数据进行描述,简单的说,元数据是对数据的描述,在GIS应用不断发展、空间数据不断增长的情况下,元数据有助于数据的共享和有效使用。 本章讲述了上述的内容。 1.数据涵义与数据类型 1.1数据的涵义 1.1.1数据 数据是用以载荷信息的载体。它可以是记录下来的某种可以识别的物理符号,数据的具体形式多种多样,如文本、图像、声音等都可以归入数据的范畴。虽然数据是信息的载体,但并非就是信息,只有理解了数据的含义、对数据做出解释,才能得到数据中所包含的信息。在计算机化的信息系统中,数据的格式往往与具体的计算机系统有关,随着载荷它的物理设备的形式而改变。信息系统对数据进行处理(运算、排序、编码、分类、增强等)就是为了得到数据中所包含的信息。 在地理信息系统中,由系统建立者输入、机器存储的各种专题地图和统计图表是数据;系统软件中所包含的代码是计算机系统中的二进制数据;用户对地理信息系统发出的各种指令也是数据,等等。因此,地理信息系统的建立和运行,就是信息或数据按一定的方式流动的过程。 数据的处理和解释是非常重要的环节。所谓数据处理,是指对数据进行收集、筛选、排序、归并、转换、检索、计算以及分析、模拟和预测的操作,其目的就是把数据转换成便于观察、分析、传输或进一步处理的形式;把数据加工成对正确管理和决策有用的数据;把数据编辑后存储起来,以供不断使用。数据处理是为了解释,而数据解释需要人的智慧、学识和经验。 1.1.2地理数据(空间数据)的基本特征 地理数据一般具有三个基本特征:属性特征(非定位数据),表示实际现象或特征,例如变量、级别、数量特征和名称等等。空间特征(定位数据):表示现象的空间位置或现在所处的地理位置。空间特征又称为几何特征或定位特征,一般以坐标数据表示,例如笛卡尔坐标等。时间特征(时间尺度):指现象或物体随时间的变化,其变化的周期有超短期的、短期的、中期的、长期的等等(图5-1)。  图5-1:空间数据的基本特性[Jack Dangermond,1984] 1.2空间数据的类型 在地理信息系统中,按照其特征,数据可分为三种类型:空间特征数据(定位数据)、时间属性数据(尺度数据)和专题属性数据(非定位数据)。对于绝大部分地理信息系统的应用来说,时间和专题属性数据结合在一起共同作为属性特征数据,而空间特征数据和属性特征数据统称为空间数据(或地理数据)。 1.2.1空间特征数据 空间特征数据记录的是空间实体的位置、拓扑关系和几何特征,这是地理信息系统区别于其他数据库管理系统的标志。空间特征指空间物体的位置、形状和大小等几何特征,以及与相邻物体的拓扑关系。位置和拓扑特征是地理或空间信息系统所独有的,空间位置可以由不同的坐标系统来描述,如经纬度坐标、一些标准的地图投影坐标或是任意的直角坐标等。人类对空间目标的定位一般不是通过记忆其空间坐标,而是确定某一目标与其他更熟悉的目标间的空间位置关系,而这种关系往往也是拓扑关系。如一所学校位于哪个路口或哪条街道。 1.2.2专题特征数据 专题特征指的是地理实体所具有的各种性质,如地形的坡度、坡向、某地的年降雨量、土地酸缄类型、人口密度、交通流量、空气污染程度等。这类特征在其他类型的信息系统中均可存储和处理。专题属性特征通常以数字、符号、文本和图像等形式来表示。 1.2.3时间特征数据 时间属性是指地理实体的时间变化或数据采集的时间等。严格地讲,空间数据总是在某一特定时间或时段内采集得到或计算产生的。由于有些空间数据随时间变化相对较慢,因而有时被忽略;有些时候,时间可以被看成一个专题特征。 1.3空间数据的表示方法 一般地,表示地理现象的空间数据可以细分为: 类型数据:例如考古地点、道路线和土壤类型的分布等; 面域数据:例如随机多边形的中心点、行政区域界线和行政单元等; 网络数据:例如道路交点、街道和街区等; 样本数据:例如气象站、航线和野外样方的分布区等; 曲面数据:例如高程点、等高线和等值区域; 文本数据:例如地名、河流名称和区域名称; 符号数据:例如点状符号、线状符号和面状符号(晕线)等(如图5-2所示)。  图5-2:地理信息系统中各种数据以及其表现 2.数据的测量尺度 对特定现象的测量就是根据一定的标准对其赋值或打分。为了描述地理世界,对任何事物都要鉴别、分类和命名。这些都是量测的组成部分。它们所使用的参考标准或尺度是不同的。测量的尺度大致可以分成四个层次,由粗略至详细依次为:命名或类型、次序、间隔以及比例。 2.1命名(Nominal)量 定性而非定量,不能进行任何算术运算,如一个城市的名字。命名式的测量尺度也称为类型测量尺度,只对特定现象进行标识,赋予一定的数值或符号而不定量描述。例如,可以用不同数值表示不同的土地利用类型、植被类型或岩石类型,但是这些数值之间无数量关系,对命名数据的逻辑运算只有“等于”或“不等于”两种形式,而其近似均值只能使用众数。 2.2次序(Ordinal)量 线性坐标上不按值的大小,而是按顺序排列的数,例如,事故发生危险程度的级别由大到小被标为1,2,3,…,级别的序号越低,其危险性越大,但危险性到底有多大并未给予定量的表达。序数值相互之间可以比较大小,但不能进行加、减、乘、除等算术运算。 次序测量尺度是基于对现象进行排序来标识的,如可以把山峰按高度分级为极高山、高山、中山、低山和丘陵等,将坡度分为陡、中、缓等。不同次序之间的间隔大小可以不同。对次序数据的逻辑运算除了“等于”与“不等于”之外,还可以比较它们的大小,即“大于”或“小于”。 2.3间隔(Interval)量 不参照某个固定点,而是按间隔表示相对位置的数。按间隔量测的值相互之间可以比较大小,并且它们之间的差值大小是有意义的。 间隔测量尺度与比例测量尺度相似,但是间隔尺度的测量值无真的零值。例如,温度是间隔尺度的数据而不是比例数据,因为它的“0”测量值随着所使用的不同温度测量单位而不同。不能说150F的温度是75F的温度的两倍,因为这个比例在使用摄氏单位时就改变了。相反,降水量是比例数据,因为它有真的零值*。比例数据和间隔数据可用于加、减、乘、除等运算,而且可以求算术平均。 2.4比率(Ratio)量 比例测量尺度的测量值指那些有真零值而且测量单位的间隔是相等的数据,比例测量尺度与使用的测量单位无关。 与某一固定点的比值计算,支持多种算术操作,如加、减、乘、除等。有关该类型属性域的例子很多,如年降雨量、海拔高度、人口密度、发病率等。 比例数据或间隔数据可以比较容易地被转变成次序或命名数据。而命名数据则很难被转化成次序、间隔数据或比例数据。由此可见,尽管命名数据或次序数据便于使用,易于理解,但有时不够精确,不能用于较高级的算术运算。而比例数据或间隔数据比较精确,便于计算机处理,但是在较复杂的GIS应用中,往往上述几种测量尺度的数据均需用到。  图5-3:各种数据测量尺度以及其制图表现 3.地理信息系统的数据质量 地理信息系统是一个基于计算机软件、硬件和数据的集成系统,该系统主要通过空间及非空间数据的操作,实现空间检索、编辑及分析功能。在GIS的几个主要因素中,数据是一个极为重要的因素。在计算机软件、硬件环境选定之后,GIS中数据质量的优劣,决定着系统分析质量以及整个应用的成败。GIS提供的空间数据的分析方法被广泛用于各种领域,用于决策领域的数据,其质量要求应该是可知的或可预测的。 3.1数据质量的基本概念 3.1.1准确性(Accuracy) 即一个记录值(测量或观察值)与它的真实值之间的接近程度。这个概念是相当抽象的,似乎人们已经知道存在这样的事实。在实际中,测量的知识可能依赖于测量的类型和比例尺。一般而言,单个的观察或测量的准确性的估价仅仅是通过与可获得的最准确的测量或公认的分类进行比较。空间数据的准确性经常是根据所指的位置、拓扑或非空间属性来分类的。它可用误差(Error)来衡量。 3.1.2精度(Precision) 即对现象描述的详细程度。如对同样的两点,精度低的数据并不一定准确度也低。精度要求测量能以最好的准确性来记录,但是这可能误导提供了较大的精度,因为超出一个测量仪器的已知准确度的数字在效率上是冗于的。因此,如果手工操作的数字化板所返回的坐标不可能依赖于比0.1mm还要准确的一个“真正的”数值,那么就不存在任何的点,在十分之一的地方是以mm表示的。 3.1.3空间分辨率(Spatial Resolution) 分辨率是两个可测量数值之间最小的可辩识的差异。那么空间分辨率可以看作记录变化的最小距离。在一张用肉眼可读的地图上,假设一条线用来记录一个边界,分辨率通常由最小线的宽度来确定。地图上的线很少以小于0.1mm的宽度来画。在一个图形扫描仪中最细的物理分辨率从理论上讲是由设施的像元之间的分离来确定的。在一个激光打印机上这是一英寸的300分之一,而且在高质量的激光扫描仪上,这会细化十倍。如果没有放大,最细的激光扫描仪的线是看不到的,尽管这依赖于背景颜色的对照。因此,在人的视觉分辨率和设备物理分辨率之间存在着一个差异。一个相似的区别可以存在于两个最小距离之间,即当人操作者操作数字化仪时所区别的最小距离和数字化仪硬件可以不断地报告的最小距离。 3.1.4比例尺(Scale) 比例尺是地图上一个记录的距离和它所表现的“真实世界的”距离之间的一个比例。地图的比例尺将决定地图上一条线的宽度所表现的地面的距离。例如,在一个1:10000比例尺的地图上,一条0.5mm宽度的线对应着5m的地面距离。如果这是线的最小的宽度,那么就不可能表示小于5m的现象。 3.1.5误差(Error) 定义出一个所记录的测量和它的事实之间的准确性以后,很明显对于大多数目的而言,它的数值是不准确的。误差研究包括:位置误差,即点的位置的误差、线的位置的误差和多边形的位置的误差;属性误差;位置和属性误差之间的关系。 3.1.6不确定性(Uncertainty) 地理信息系统的不确定性包括空间位置的不确定性、属性不确定性、时域不确定性、逻辑上的不一致性及数据的不完整性。空间位置的不确定性指GIS中某一被描述物体与其地面上真实物体位置上的差别;属性不确定性是指某一物体在GIS中被描述的属性与其真实的属性之差别;时域不确定性是指在描述地理现象时,时间描述上的差错;逻辑上的不一致性指数据结构内部的不一致性,尤其是指拓扑逻辑上的不一致性;数据的不完整性指对于给定的目标,GIS没有尽可能完全地表达该物体。 3.2空间数据质量问题的来源 从空间数据的形式表达到空间数据的生成,从空间数据的处理变换到空间数据的应用,在这两个过程中都会有数据质量问题的发生。下面按照空间数据自身存在的规律性,从几个方面来阐述空间数据质量问题的来源。 3.2.1空间现象自身存在的不稳定性 空间数据质量问题首先来源于空间现象自身存在的不稳定性。空间现象自身存在的不稳定性包括空间特征和过程在空间、专题和时间内容上的不确定性。空间现象在空间上的不确定性指其在空间位置分布上的不确定性变化;空间现象在时间上的不确定性表现为其在发生时间段上的游移性;空间现象在属性上的不确定性表现为属性类型划分的多样性,非数值型属性值表达的不精确性。因此,空间数据存在质量问题是不可避免的。 3.2.2空间现象的表达 数据采集中的测量方法以及量测精度的选择等受到人类自身的认识和表达的影响,这对于数据的生成会出现误差。如在地图投影中,由椭球体到平面的投影转换必然产生误差;用于获取各种原始数据的各种测量仪器都有一定的设计精度,如GPS提供的地理位置数据都有用户要求的一定设计精度,因而数据误差的产生不可避免。 3.2.3空间数据处理中的误差 在空间数据处理过程中,容易产生的误差有以下几种: 投影变换:地图投影是开口的三维地球椭球面到二维场平面的拓扑变换。在不同投影形式下,地理特征的位置、面积和方向的表现会有差异。 地图数字化和扫描后的矢量化处理:数字化过程采点的位置精度、空间分辨率、属性赋值等都可能出现误差。 数据格式转换:在矢量格式和栅格格式之间的数据格式转换中,数据所表达的空间特征的位置具有差异性。 数据抽象:在数据发生比例尺变换时,对数据进行的聚类、归并、合并等操作时产生的误差,如知识性误差和数据所表达的空间特征位置的变化误差。 建立拓扑关系:拓扑过程中伴随有数据所表达的空间特征的位置坐标的变化。 与主控数据层的匹配:一个数据库中,常存储同一地区的多层数据面,为保证各数据层之间空间位置的协调性,一般建立一个主控数据层以控制其它数据层的边界和控制点。在与主控数据层匹配的过程中也会存在空间位移,导致误差。 数据叠加操作和更新:数据在进行叠加运算以及数据更新时,会产生空间位置和属性值的差异。 数据集成处理:指在来源不同、类型不同的各种数据集的相互操作过程中所产生的误差。数据集成是包括数据预处理、数据集之间的相互运算、数据表达等过程在内的复杂过程,其中位置误差、属性误差都会出现。 数据的可视化表达:数据在可视化表达过程中为适应视觉效果,需对数据的空间特征位置、注记等进行调整,由此产生数据表达上的误差。 数据处理过程中误差的传递和扩散:在数据处理的各个过程中,误差是累计和扩散的,前一过程的累计误差可能成为下一个阶段的误差起源,从而导致新的误差的产生。 3.2.4空间数据使用中的误差 在空间数据使用的过程中也会导致误差的出现,主要包括两个方面:一是对数据的解释过程,二是缺少文档。对于同一种空间数据来说,不同用户对它的内容的解释和理解可能不同,处理这类问题的方法是随空间数据提供各种相关的文档说明,如元数据。另外,缺少对某一地区不同来源的空间数据的说明,如缺少投影类型、数据定义等描述信息,这样往往导致数据用户对数据的随意性使用而使误差扩散。 表5-1:数据的主要误差来源 数据处理过程 误差来源  数据搜集 野外测量误差:仪器误差、记录误差 遥感数据误差:辐射和几何纠正误差、信息提取误差 地图数据误差:原始数据误差、坐标转换、制图综合及印刷  数据输入 数字化误差:仪器误差、操作误差 不同系统格式转换误差:栅格-矢量转换、三角网-等值线转换  数据存储 数值精度不够 空间精度不够:每个格网点太大、地图最小制图单元太大  数据处理 分类间隔不合理 多层数据叠合引起的误差传播:插值误差、多源数据综合分析误差 比例尺太小引起的误差  数据输出 输出设备不精确引起的误差 输出的媒介不稳定造成的误差  数据使用 对数据所包含的信息的误解 对数据信息使用不当  3.3常见空间数据的误差分析 GIS中的误差是指GIS中数据表示与其现实世界本身的差别。数据误差的类型可以是随机的,也可以是系统的。归纳起来,数据的误差主要有四大类,即几何误差、属性误差、时间误差和逻辑误差。在这几种误差中,属性误差和时间误差与普通信息系统中的误差概念是一致的,几何误差是地理信息系统所特有的,而几何误差、属性误差和时间误差都会造成逻辑误差,因此下面主要讨论逻辑误差和几何误差。 3.3.1误差的类型 1)逻辑误差 数据的不完整性是通过上述四类误差反映出来的。事实上检查逻辑误差,有助于发现不完整的数据和其他三类误差。对数据进行质量控制或质量保证或质量评价,一般先从数据的逻辑性检查入手。如图5-4所示,其中桥或停车场等与道路是相接的,如果数据库中只有桥或停车场,而没有与道路相连,则说明道路数据被遗漏,使数据不完整。  图5-4:各种逻辑误差 2)几何误差 由于地图是以二维平面坐标表达位置,在二维平面上的几何误差主要反映在点和线上。 (2.1)点误差 关于某点的点误差即为测量位置(x,y)与其真实位置(x0,y0)的差异。真实位置的测量方法比测量位置的要更加精确,如在野外使用高精度的GPS方法得到。点误差可通过计算坐标误差和距离的方法得到。坐标误差定义为: Δx=x-x0 Δy=y-y0 为了衡量整个数据采集区域或制图区域内的点误差,一般抽样测算(Δx,Δy)。抽样点应随机分布于数据采集区内,并具有代表性。这样抽样点越多,所测的误差分布就越接近于点误差的真实分布。 (2.2)线误差 线在地理信息系统数据库中既可表示线性现象,又可以通过连成的多边形表示面状现象。第一类是线上的点在真实世界中是可以找到的,如道路、河流、行政界线等,这类的线性特征的误差主要产生于测量和对数据的后处理;第二类是现实世界中找不到的,如按数学投影定义的经纬线、按高程绘制的等高线,或者是气候区划线和土壤类型界限等,这类线性特征的线误差及在确定线的界限时的误差,被称为解译误差。解译误差与属性误差直接相关,若没有属性误差,则可以认为那些类型界线是准确的,因而解译误差为零。 另外,线分为直线、折线、曲线与直线混合的线(图5-5)。GIS数据库中用两种方法表达曲线、折线,图5-6对这两类误差作了对照。  图5-5:各种线(直线、折线、曲线)  图5-6:折线和曲线的误差 线误差分布可以用Epsilon带模型来描述,它由沿着一条线以及两侧定宽的带构成,真实的线以某一概率落于Epsilon带内。Epsilon带是等宽的(类似于后面讲述的缓冲区,不过其意义不同),在此基础上,误差带模型被提出,与Epsilon带模型相比,它在中间最窄而在两端较宽。基于误差带模型,可以把直线与折线误差分布的特点分别看作是“骨头型”或者“车链型”的误差分布带模式(图5-7)。  图5-7:折线误差的分布 对于曲线的误差分布或许应当考虑“串肠型模式”(图5-8)。  图5-8:曲线的误差分布 3.3.2地图数据的质量问题 地图数据是现有地图经过数字化或扫描处理后生成的数据。在地图数据质量问题中,不仅含有地图固有的误差,还包括图纸变形、图形数字化等误差。 1)地图固有误差:是指用于数字化的地图本身所带有的误差,包括控制点误差、投影误差等。由于这些误差间的关系很难确定,所以很难对其综合误差作出准确评价。如果假定综合误差与各类误差间存在线性关系,即可用误差传播定律来计算综合误差。 2)材料变形产生的误差:这类误差是由于图纸的大小受湿度和温度变化的影响而产生的。温度不变的情况下,若湿度由0%增至25%,则纸的尺寸可能改变1.6%;纸的膨胀率和收缩率并不相同,即使湿度又恢复到原来的大小,图纸也不能恢复原有的尺寸,一张6英寸的图纸因湿度变化而产生的误差可能高达0.576英寸。在印刷过程中,纸张先随温度的升高而变长变宽,又由于冷却而产生收缩。 3)图象数字化误差:数字化方式主要有跟踪数字化和扫描数字化两种。跟踪数字化一般有点方式和流方式两种工作方式,前者在实际工作中使用较多,后者进行数字化所产生的误差要比前者大得多。 不同数据录入方式对数据质量的影响 跟踪数字化: 影响其数据质量的因素主要有:数字化要素对象、数字化操作人员、数字化仪和数字化操作。其中,数字化要素对象:地理要素图形本身的高度、密度和复杂程度对数字化结果的质量有着显著影响,如粗线比细线更易引起误差,复杂曲线比平直线更易引起误差,密集的要素比稀疏的要素更易引起误差等;数字化操作人员:数字化操作人员的技术与经验不同,所引入的数字化误差也会有较大的误差,这主要表现在最佳采点点位的选择、十字丝与目标重叠程度的判断能力等方面,另外,数字化操作人员的疲劳程度和数字化的速度也会影响数字化的质量;数字化仪的分辨率和精度对数字化的质量有着决定性的影响;数字化操作方式也会影响到数字化数据的质量,如曲线采点方式(流方式或点方式)和采点密度等。 扫描数字化: 扫描数字化采用高精度扫描仪将图形、图象等扫描并形成栅格数据文件,再利用扫描矢量化软件对栅格数据文件进行处理,将它转换为矢量图形数据。矢量化过程有两种方式:即交互式和全自动。影响扫描数字化数据质量的因素包括原图质量(如清晰度)、扫描精度、扫描分辨率、配准精度、校正精度等。 3.3.3遥感数据的质量问题 遥感数据的质量问题,一部分来自遥感仪器的观测过程,一部分来自遥感图象处理和解译过程。遥感观测过程本身存在着精确度和准确度的限制,这一过程产生的误差主要表现为空间分辨率、几何畸变和辐射误差,这些误差将影响遥感数据的位置和属性精度。遥感图像处理和解译过程,主要产生空间位置和属性方面的误差。这是由图像处理中的影像或图像校正和匹配以及遥感解译判读和分类引入的,其中包括混合像元的解译判读所带来的属性误差。 3.3.4测量数据的质量问题 测量数据主要指使用大地测量、GPS、城市测量、摄影测量和其他一些测量方法直接量测所得到的测量对象的空间位置信息。这部分数据质量问题,主要是空间数据的位置误差。空间数据的位置通常以坐标表示,空间数据位置的坐标与其经纬度表示之间存在着某误差因素,由于这种误差因素无法排除,一般也不作为误差考虑。测量方面的误差通常考虑的是系统误差、操作误差和偶然误差。 系统误差的发生与一个确定的系统有关,它受环境因素(如温度、湿度和气压等)、仪器结构与性能以及操作人员技能等方面的因素综合影响而产生。系统误差不能通过重复观测加以检查或消除,只能用数字模型模拟和估计。 操作误差是操作人员在使用设备、读书或记录观测值时,因粗心或操作不当而产生的。应采用各种方法检查和消除操作误差。一般地,操作误差可通过简单的几何关系或代数检查验证其一致性,或通过重复观测检查并消除操作误差。 偶然误差是一种随机性的误差,由一些不可测和不可控的因素引入。这种误差具有一定的特征,如正负误差出现频率相同、大误差少、小误差多等。偶然误差可采用随机模型进行估计和处理。 3.4空间数据质量控制 数据质量控制是个复杂的过程,要控制数据质量应从数据质量产生和扩散的所有过程和环节入手,分别用一定的方法减少误差。空间数据质量控制常见的方法有: 3.4.1传统的手工方法 质量控制的人工方法主要是将数字化数据与数据源进行比较,图形部分的检查包括目视方法、绘制到透明图上与原图叠加比较,属性部分的检查采用与原属性逐个对比或其他比较方法。 3.4.2元数据方法 数据集的元数据中包含了大量的有关数据质量的信息,通过它可以检查数据质量,同时元数据也记录了数据处理过程中质量的变化,通过跟踪元数据可以了解数据质量的状况和变化。 3.4.3地理相关法 用空间数据的地理特征要素自身的相关性来分析数据的质量。如从地表自然特征的空间分布着手分析,山区河流应位于微地形的最低点,因此,叠加河流和等高线两层数据时,如河流的位置不在等高线的外凸连线上,则说明两层数据中必有一层数据有质量问题,如不能确定哪层数据有问题时,可以通过将它们分别与其它质量可靠的数据层叠加来进一步分析。因此,可以建立一个有关地理特征要素相关关系的知识库,以备各空间数据层之间地理特征要素的相关分析之用。 4.空间数据的元数据 Metadata可以译成元数据,是描述数据的数据。在地理空间数据中,元数据是说明数据内容、质量、状况和其他有关特征的背景信息。元数据并不是一个新的概念。实际上传统的图书馆卡片、出版图书的版权说明、磁盘的标签等都是元数据。纸质地图的元数据主要表现为地图类型、地图图例,包括图名、空间参照系和图廓坐标、地图内容说明、比例尺和精度、编制出版单位和日期或更新日期、销售信息等。在这种形式下,元数据是可读的,生产者和用户之间容易交流,用户通过它可以非常容易地确定该书或地图是否能够满足其应用的需要。 随着计算机技术和GIS技术发展,特别是网络通信技术的发展,空间数据共享日益普遍。管理和访问大型数据集的复杂性正成为数据生产者和用户面临的突出问题。数据生产者需要有效的数据管理和维护办法;用户需要找到更快、更加全面和有效的方法,以便发现、访问、获取和使用现势性强、精度高、易管理和易访问的地理空间数据。在这种情况下,空间数据的内容、质量、状况等元数据信息变得更加重要,成为信息资源有效管理和应用的重要手段。地理信息元数据标准和操作工具已经成为国家空间数据基础设施*的一个重要组成部分。 在地理信息系统应用中,元数据的主要作用可以归纳为如下几个方面: 1)帮助数据生产单位有效地管理和维护空间数据、建立数据文档,并保证即使其主要工作人员离退时,也不会失去对数据情况的了解; 2)提供有关数据生产单位数据存储、数据分类、数据内容、数据质量、数据交换网络及数据销售等方面的信息,便于用户查询检索地理空间数据; 3)帮助用户了解数据,以便就数据是否能满足其需求做出正确的判断; 4)提供有关信息,以便用户处理和转换有用的数据。 可见,元数据是使数据充分发挥作用的重要条件之一,它可以用于许多方面,包括数据文档建立、数据发布、数据浏览、数据转换等。元数据对于促进数据的管理、使用和共享均有重要的作用。 4.1元数据的概念及类型 4.1.1元数据的概念 元数据是关于数据的描述性数据信息,它应尽可能多地反映数据集自身的特征规律,以便于用户对数据集的准确、高效与充分的开发与利用,不同领域的数据库,其元数据的内容会有很大差异。通过元数据可以检索、访问数据库,可以有效利用计算机的系统资源,可以对数据进行加工处理和二次开发等。 到目前为止,科学界关于元数据认识的共同点是:元数据的目的就是促进数据集的高效利用,并为计算机辅助软件工程(CASE)服务。元数据的内容包括: 1)对数据集的描述;对数据集中各数据项、数据来源、数据所有者及数据序代(数据生产历史)等的说明; 2)对数据质量的描述,如数据精度、数据的逻辑一致性、数据完整性、分辨率、元数据的比例尺等; 3)对数据处理信息的说明,如量纲的转换等; 4)对数据转换方法的描述; 5)对数据库的更新、集成等的说明。 4.1.2元数据的类型 元数据的分类研究的目的在于充分了解和更好地使用元数据。分类的原则不同,元数据的分类体系和内容将会有很大的差异。 1)根据元数据的内容分类 由于不同性质、不同领域的数据所需要的元数据内容有差异,而且为不同应用目的而建设的数据库的元数据内容会有很大的差异,所以将元数据化分为三种类型: (1.1)科研型元数据:其主要目标是帮助用户获取各种来源的数据及其相关信息,它不仅包括如数据源名称、作者、主体内容等传统的、图书管理式的元数据,还包含数据拓扑关系等。这类元数据的任务是帮助科研工作者高效获取所需数据。 (1.2)评估型元数据:主要服务于数据利用的评价,内容包括数据最初收集情况、收集数据所用的仪器、数据获取的方法和依据、数据处理过程和算法、数据质量控制、采样方法、数据精度、数据的可信度、数据潜在应用领域等。 (1.3)模型元数据:用于描述数据模型的元数据与描述数据的元数据在结构上大致相同,其内容包括模型名称、模型类型、建模过程、模型参数、边界条件、作者、引用模型描述、建模使用软件、模型输出等。 2)根据元数据描述对象分类 (1.1)数据层元数据:指描述数据集中每个数据的元数据,内容包括日期邮戳、位置戳、量纲、注释、误差标识、缩略标识、存在问题标识、数据处理过程等。 (1.2)属性元数据:是关于属性数据的元数据,内容包括为表达数据及其含义所建的数据字典、数据处理规则(协议),如采样说明、数据传输线路及代数编码等。 (1.3)实体元数据:是描述整个数据集的元数据,内容包括数据集区域采样原则、数据库的有效期、数据时间跨度等。 3)根据元数据在系统中的作用分类 (1.1)系统级别元数据:指用于实现文件系统特征或管理文件系统中数据的信息,如访问数据的时间、数据的大小、在存储级别中的当前位置、如何存储数据块以保证服务控制质量等。 (1.2)应用层元数据:指有助于用户查找、评估、访问和管理数据等与数据用户有关的信息,如文本文件内容的摘要信息、图形快照、描述与其它数据文件相关关系的信息。它往往用于高层次的数据管理,用户通过它可以快速获取合适的数据。 4)根据元数据的作用分类 (4.1)说明元数据:是为用户使用数据服务的元数据。它一般用自然语言表达,如源数据覆盖的空间范围、源数据图的投影方式及比例尺的大小、数据集说明文件等,这类元数据多为描述性信息,侧重于数据库的说明。 (4.2)控制元数据:是用于计算机操作流程控制的元数据,这类元数据由一定的关键词和特定的句法来实现。其内容包括数据存储和检索文件、检索中与目标匹配方法、目标的检索和显示、分析查询结果排列显示、根据用户要求修改数据库中原有的内部顺序、数据转换方法、空间数据和属性数据的集成、根据索引项把数据绘制成图、数据模型的建设和利用等。这类元数据主要是与数据库操作有关的方法。 空间数据元数据中所用到的概念: 空间数据(Geospatial Data):用于确定具有自然特征或者人工建筑特征的地理实体的地理位置、属性及其边界的信息; 类型(Type):在元数据标准中,数据类型指该数据能接收的值的类型; 对象(Object):对地理实体的部分或整体的数字表达; 实体类型(Entity Type):对于具有相似地理特征的地理实体集合的定义和描述; 点(Point):用于位置确定的零维地理对象; 结点(Node):拓扑连接两个或多个链或环的一维对象; 标识点(Label Point):显示地图后图表时用于特征标识的参考点; 线(Line):一维对象的一般术语; 线段(Line Segment):两个点之间的直线段; 串(String):由相互连接的一系列线段组成的没有分支线段的序列,它可与自身或与其它线相切; 弧(Arc):由数学表达式确定的点集组成的弧状曲线; 链(Link):两个结点之间的拓扑关联; 链环(Chain):非相切线段或由结点区分的弧段构成的有方向无分支序列; 环(Ring):封闭状不相切链环或弧段序列; 多边形(Ploygon):在二维平面中由封闭弧段包围的区域; 外多边形(Universe Polygon):数据覆盖区域内最外侧的多边形,其面积是其它所有多边形的面积之和; 内部区域(Interior Area):不包括其边界的区域; 格网(Grid):组成一规则或近似规则的棋盘状镶嵌表面的格网集合,或者组成一规则或近似规则的棋盘状镶嵌的点集合; 格网单元(Grid Cell):表示格网最小分为要素的二维对象; 矢量(Vector):有方向线的组合; 栅格(Raster):同一格网或数字影像的一个或多个叠加层; 像元(Pixel):二维图形要素,它是数学影像最小要素; 栅格对象(Raster Object):一个或多个影象或格网,每个影象或格网表示一个数据层,各层之间相应的格网单元或像元一致且相互套准; 图形(Graph):与预定义的限制规则一致的零维(如node)、一维(link或chain)和二维(T多边形)有拓扑相关的对象集; 数据层(Layer):集成到一起的面域分布空间数据集,它用于表示一个主体中的实体,或者有一公共属性或属性值的空间对象的联合; 层(Stratum):在有序系统中数据层、级别或梯度序列; 纬度(Latitude):在中央经线上度量,以角度单位度量离开赤道的距离; 经度(Longitude):经线面到格林尼治中央经线面的角度距离; 经圈(Meridian):穿过地球两极的地球的大圆圈; 坐标(Ordinate):在笛卡尔坐标系中沿平行于X轴和Y轴测量的坐标值; 投影(Projection):将地球球面坐标中的空间特征(集)转化到平面坐标体系时使用的数学转化方法; 投影参数(Projection Parameters):对数据集进行投影操作时用于控制投影误差、变形实际分布的参考特征; 地图(Map):空间现象的空间表征,通常以平面图形表示; 现象(Phenomenon):事实、发生的事件、状态等; 分辨率(Resolution):由涉及到或使用的测量工具或分析方法能区分开的两个独立测量或计算的值的最小差值; 质量(Quality):数据符合一定使用要求的基本或独特的性质; 详述(Explicit):由一对数或三个数分别直接描述水平位置和三维位置的方法; 介质(Media):用于记录、存储或传递数据的物理设备。 4.1.3空间数据元数据的标准 同物理、化学等学科使用的数据结构类型相比,空间数据是一种结构比较复杂的数据类型。它涉及到对于空间特征的描述,也涉及到对于属性特征及其它们之间关系的描述,所以空间数据元数据标准的建立是项复杂的工作;并且由于种种原因,某些数据组织或数据用户开发出来的空间数据元数据标准很难为地学界所广泛接受。但空间数据元数据标准的建立是空间数据标准化的前提和保证,只有建立起规范的空间数据元数据才能有效利用空间数据。目前,针对空间数据元数据,已经形成了一些区域性的或部门性的标准*。 4.2空间数据元数据的应用 4.2.1帮助用户获取数据 通过元数据,用户可对空间数据库进行浏览、检索和研究等。一个完整的地学数据库除应提供空间数据和属性数据外,还应提供丰富的引导信息,以及由纯数据得到的分析、综述和索引等。通过这些信息用户可以明白一系列问题,如“这些数据是什么数据?”,“这个数据库是否有用?”等。 4.2.2空间数据质量控制 无论是统计数据还是空间数据都存在数据精确问题,影响空间数据精度的原因主要有两个方面:一是源数据的精度;一是数据加工处理工程中精度质量的控制情况。空间数据质量控制内容包括:(1)有准确定义的数据字典,以说明数据的组成,各部分的名称,表征的内容等;(2)保证数据逻辑科学地集成,如植被数据库中不同亚类的区域组合成大类区,这要求数据按一定逻辑关系有效的组合;(3)有足够的说明数据来源、数据的加工处理工程、数据解译的信息。这些要求可通过元数据来实现,这类元数据的获取往往由地学和计算机领域的工作者来完成。数据逻辑关系在数据中的表达要由地学工作者来设计,空间数据库的编码要求一定的地学基础,数据质量的控制和提高要有数据输入、数据查错、数据处理专业背景知识的工作人员,而数据再生产要由计算机基础较好的人员来实现。所有这方面的元数据,按一定的组织结构集成到数据库中构成数据库的元数据信息系统来实现上述功能。 4.2.3在数据集成中的应用 数据集层次的元数据记录了数据格式、空间坐标体系、数据的表达形式、数据类型等信息;系统层次和应用层次的元数据则记录了数据使用软硬件环境、数据使用规范、数据标准等信息。这些信息在数据集成的一系列处理中,如数据空间匹配、属性一致化处理、数据在各平台之间的转换使用等是必要的。这些信息能够使系统有效地控制系统中的数据流。 4.3在地理信息系统中使用元数据的原因 在地理信息系统中使用元数据,有利于空间数据的管理共享,有利于实现一些特定功能,对于地理信息系统软件的开发,可以提高开发的效率和质量。 4.3.1性能上的原因 1)完整性(Completeness) 面向对象的地理信息系统和空间数据库的目标之一,是把事物的有关数据都表示为类的形式,而这些类也包括类自身,即复杂的“类的类”结构。这就要求有支持类与类之间相互印证和操作的机制,而元数据可以帮助这个机制的实现。 2)可扩展性(Extensibility) 有意地延伸一种计算机语言或者数据库特征的语义是很有用的,如把跟踪或引擎信息的生成结果添加到操作请求中,通过动态改变元数据信息可以实现这种功能。 3)特殊性(Specialization) 继承机制是靠动态连接操作请求和操作体来实现的,语言及数据库以结构化和语义信息的相关上下文(Context)方式把操作请求传递给操作体,而这些信息可以通过元数据表达。 4)安全性(Safety) 分类完好的语言和数据库都支持动态类型检测,类的信息表示为元数据,这样在系统运行时,可以被类检测者访问。 4.3.2功能上的原因 1)查错功能(Debugging) 在查错时使用元数据信息,有助于检测可运行应用系统的解释和修改状态。 2)浏览功能(Browsing) 为数据的控制类开发浏览器时,为显示数据,要求能解释数据的结构,而这些信息是以元数据来表达的。 3)程序生成(Program Generation) 如果允许访问元数据,则可以利用关于结构的信息自动生成程序,如数据库查询的优化处理和远程过程调用残体(或“桩”,stub)生成。 4.4空间数据元数据的获取与管理 4.4.1空间数据元数据的获取 空间数据元数据的获取是个较复杂的过程,相对于基础数据的形成时间,它的获取可分为三个阶段:数据收集前、数据收集中和数据收集后。对于模型元数据,这三个阶段分别是模型形成前、模型形成中和模型形成后。 第一阶段的元数据是根据要建设的数据库的内容而设计的元数据,内容包括:普通元数据、专指性元数据;第二阶段的元数据随数据的形成同步产生;第三阶段的元数据是在上述数据收集到以后,根据需要产生的,包括数据处理过程描述、数据利用情况、数据质量评估、浏览文件的形成、拓扑关系、影像数据的指标体及指标、数据集大小、数据存放路径等。 空间数据元数据的获取方法主要有五种:键盘输入、关联表、测量法、计算法和推理法。键盘输入一般工作量大且易出错;关联表方法是通过公共项(字段)从已存在的元数据或数据中获取有关的;测量法容易使用且出错较少,如用全球定位系统测量数据空间点的位置等;计算方法指由其它元数据或数据计算得到的元数据,如水平位置可由仪器设置及时间计算得到;推理方法指根据数据的特征获取元数据。在元数据获取的不同阶段,使用的方法也有差异。在第一阶段主要是键入方法和关联表方法;第二阶段主要采样测量方法;第三阶段主要方法是计算和参考方法。 4.4.2空间数据元数据的管理 空间数据元数据的理论和方法涉及到数据库和元数据两方面。由于元数据的内容、形式的差异,元数据的管理与数据涉及的领域有关,它是通过建立在不同数据领域基础上的元数据信息系统实现的。在元数据管理信息系统中,物理层存放数据与元数据,该层由一些软件通过一定的逻辑关系与逻辑层关联起来。在概念层中用描述语言及模型定义了许多概念,如实体名称、别名等。通过这些概念及其限制特征,经过与逻辑层关联可获取、更新物理层的元数据及数据。 4.5元数据存储和功能实现 元数据系统用于数据库的管理,可以避免数据的重复存储,通过元数据建立的逻辑数据索引可以高效查询检索分布式数据库中任何物理存储的数据。减少数据用户查询数据库及获取数据的时间,从而减低数据库的费用。数据库的建设和管理费用是数据库整体性能的反映,通过元数据可以实现数据库的设计和系统资源的利用方面开支的合理分配,数据库许多功能(如数据库检索、数据转换、数据分析等)的实现是靠系统资源的开发来实现的,因而这类元数据的开发和利用将大大地增强数据库的功能并降低数据库的建设费用。 伴随着人类对数字地理信息重要性认识的加深,元数据标准化这一问题便逐渐成为共享地学信息的热点,而要研究元数据体系,则首先要对元数据的理论基础有一个正确的分析。事实上元数据标准依赖于信息共享标准的理论,它与自然科学中的许多学科都有交叉,几乎涉及数理化天地生中的所有方面,并依赖于现代科技的发展。计算机是它的基础平台,网络是它的通讯基础,没有数学模型和对各学科的综合认识,也就谈不上用遥感等技术研究地球机理。因此,从宏观角度来看,地理信息标准化涉及许多领域,似乎它的理论也枚不胜举;但从微观角度来考虑,数字地理信息所研究的共享体系理论则主要包括地理信息的模型建立表示理论、空间参照系理论、质量体系理论以及计算机通讯技术等方面的理论,它们是数据共享体系的基础。当然,其它能够促使地理信息共享的理论也将成为基于数字地球的元数据体系的有力支柱。 地理信息的质量体系 (1)质量评价过程 地理空间数据的质量对数据生产者和用户来说都是一个非常重要的考虑因子,它可以使数据生产者正确描述他们的数据集符合生产规范的程度,也是用户决定数据集是否符合他们应用目的的依据。因此,探索数据质量的理论问题便成为地理空间数据标准化的重要组成部分。在元数据标准中,质量信息主要在标识信息、数据质量信息及其数据继承关系等元数据部分中出现,其所涉及的主要元素有数据集的完备性、逻辑一致性、位置精度、时间精度、专题精度等,而每一元素又有各自的子元素。由于用户需要不同层次的数据质量,有些用户需要高精度的信息,而另一些用户则有较低层次的精度便可以满足他们的需求,这样对数据集的质量标准就有不同的评价依据。但作为质量中的几何精度评价,则通过一定的计算公式和相应的精度指标,可以获得数据集的几何精度。 (2)多尺度评价依据 在质量评定过程中,一般来说,数据的精度或准确度越高越好,但在实际应用中却不能不分对象一概而论。事实上有的数据在应用中的意义很大(如大地控制点等),其本身精度也可以达到很高,因此对这些数据的精度要求也就很高;而另一些数据本身的精度不可能很高,如不同土壤类型的面积,由于它们之间的界限是模糊的,所以面积也是相对的,因此精度要求不可能很高;有的数据的精度可以达到很高,但需要花费很多的人力、物力和时间,而生产上或应用上又不一定要求很高。因此,在实际应用中应根据具体需要来评定数据的质量。地球是一个复杂的系统,不少物体具有不确定性或模糊性特征。有些物体本身就没有明确的界限,它们是逐渐过渡的,在由量变到质变过程中,难以确定其边界线;有些虽然有明确的定义,但很难操作;有些数据是动态的,甚至是瞬间的。通过上面的分析,应该在地理信息描述中辨证地分析精度问题,既要追求很高的数据精度,又要避免“冗余”精度,以避免造成精度浪费。 (3)数据的实效性与唯一性 地球系统的数据,有些具有明显的时效(时间)特征,有的则对时间的反应比较迟缓,例如土地利用图的时效性来说,随地区的差异在时间上有明显的变化;而相对来说地质图、地形图则没有明显的时效性。 在图形的时效性上,一般来说具有动态特征的数据,它们的时间有效性较短,相反则长。但从研究历史变化或发展过程来说,任何时间的数据都是有用的。所以不同时效性的数据集将根据其作用的不同来确定其重要性,而这些因素在元数据体系中都应有所反应。 另外,地球系统的数据有可派生数据和不可派生数据之分,而在数据集描述中应避免派生数据。如在气象和水文数据中,每天的降雨量是基本数据,或不可派生数据,而月平均降雨等都是派生的。因此,在元数据描述中,应只限于基础数据,而不应包括可派生数据。这样,便需要有专门的元素来描述数据集的这些特征,并需要对不同的计算公式等加以阐述。 (4)数据精度的测试与报告 对于用户和数据生产者来说,所关心的数据质量是有一定联系的。数据集生产者必须使所生产的数据集满足制图规范,而用户则根据数据集的质量信息确定该数据集是否满足他们的应用需求。因此数据集生产者提供的数据集信息应是用户所关心的信息。因此,在数据集报告中应包括相应的精度测试方法及其测试结果等内容。