第二章 空间信息基础
第一节 常规的地理空间信息描述法
地球空间模型描述
为了深入研究地理空间,有必要建立地球表面的几何模型。根据大地测量学的研究成果,地球表面几何模型可以分为四类,分述如下:
第一类是地球的自然表面,它是一个起伏不平,十分不规则的表面,包括海洋底部、高山高原在内的固体地球表面。固体地球表面的形态,是多种成分的内、外地貌营力在漫长的地质时代里综合作用的结果,非常复杂,难以用一个简洁的数学表达式描述出来,所以不适合于数字建模;它在诸如长度、面积、体积等几何测量中都面临着十分复杂的困难。
第二类是相对抽象的面,即大地水准面。地球表面的72%被流体状态的海水所覆盖,因此,可以假设当海水处于完全静止的平衡状态时,从海平面延伸到所有大陆下部,而与地球重力方向处处正交的一个连续、闭合的水准面,这就是大地水准面。以大地水准面为基准,可以方便地用水准仪完成地球自然表面上任意一点高程的测量。尽管大地水准面比起实际的固体地球表面要平滑得多,但实际上,由于海水温度的变化,盛行风的存在,可以导致海平面高达百米以上的起伏变化。
第三类是模型,就是以大地水准面为基准建立起来的地球椭球体模型。大地水准面虽然十分复杂,但从整体来看,起伏是微小的,很接近与绕自转轴旋转的椭球体。所以在测量和制图中就用旋转椭球来代替大地球体。这个旋转球体通常称地球椭球体。地球椭球体表面是一个规则的数学表面。椭球体的大小通常用两个半径——长半径a和短半径b,或由一个半径和扁率α来决定。扁率表示椭球的扁平程度。扁率α的计算公式如下:
α=(a-b)/b
a、b、α称为地球椭球体的基本元素。
对于旋转椭球体的描述,由于计算年代不同,所用方法不同,以及测定地区不同,其描述方法变化多样。美国环境系统研究所(ESRl)的ARC/INFO软件中提供了多达30种旋转椭球体模型。我国目前一般采用克拉索夫斯基椭球体作为地球表面几何模型。
实际的固体地球表面、大地水准面和椭球体模型之间的关系如图2-1所示:
第四类是数学模型,是在解决其它一些大地测量学问题时提出来的,如类地形面(Tel1uriod)、准大地水准面、静态水平衡椭球体等。
二、地理空间坐标系的建立
建立地理空间坐标系,主要的目的是确定地面点的位置。也就是求出地面点对大地水准面的关系,它包括地面点在大地水准面上的平面位置和地面点到大地水准面的高度。确定地面点的位置,最直截了当的方法就是用地理坐标(纬度、经度)来表示。
地理坐标系是以地理极(北极、南极)为极点。地理极是地轴(地球椭球体的旋转轴)与椭球面的交点,如图2-2,N为北极,S为南极。所有含有地轴的平面,均称为子午面。子午面与地球椭球体的交线,称为子午线或经线。经线是长半径为a,短半径为b的椭圆。所有垂直于地轴的平面与椭球体面的交线,称为纬线。纬线是不同半径的圆。赤道是其中半径最大的纬线。
设椭球面上有一点A(图2-2),通过A点作椭球面的垂线,称之为过A点的法线。法线与赤道面的交角,叫做A点的纬度,通常以字母ψ表示。纬度从赤道起算,在赤道上纬度为0°。过A点的子午面与通过英国格林尼治天文台的子午面所夹的二面角,叫做A点的经度,通常以字母λ表示。国际规定通过英国格林尼治天文台的予午线为本初子午线(或叫首子午线),作为计算经度的起点。
根据地理坐标系,地面上任一点的位置可由该点的纬度和经度来确定。但地理坐标是一种球面坐标,难以进行距离、方向、面积等参数的计算。为此,最好把地面上的点表示在平面上,采用平面坐标系(笛卡儿平面直角坐标)。所以,要用平面坐标表示地面上任何一点的位置,首先要把曲面展开为平面,但由于地球表面是不可展开的曲面,也就是说曲面上的各点不能直接表示在平面上,因此必须运用地图投影的方法,建立地球表面和平面上点的函数关系,使地球表面上任一个由地理坐标(ψ、λ)确定的点,在平面上必有一个与它相对应的点。
暂且不考虑地形起伏等因素,则纬度λ、经度ψ、地球旋转椭球体参量a、b与平面直角坐标x、y之间的变换关系如下:
x=acosψcosλ
y=bcosψsinλ
地图投影变换引起了地理空间要素在平面形态上的变化,包括长度变化、方向变化和面积变化。但是,平面直角坐标系(x,y)却建立了对地理空间良好的视觉感,并易于进行距离、方向、面积等空间参数的量算,以及进一步的空间数据处理和分析。
地理信息系统中的地理空间,通常就是指经过投影变换后放在笛卡儿坐标系中的地球表层特征空间,它的理论基础在于旋转椭球体和地图投影变换。
长期以来,人们主要考虑了二维地理空间的理论问题,至于三维地理信息系统中所涉及的地理空间,则是在上述笛卡儿平面直角坐标系上加上第三维z,并假设该笛卡儿平面是处处切过地球旋转椭球体的,这样z就代表了地面相对于该旋转椭球体表面的高程。当我们所研究的区域较小、地球曲率可以忽略不计时,这些假设可以提供良好的近似。
三、地图对地理空间的描述
地图是现实世界的模型,它按照一定的比例、一定的投影原则有选择地将复杂的三维现实世界的某些内容投影到二维平面媒介上,并用符号将这些内容要素表现出来。地图上各种内容要素之间的关系,是按照地图投影建立的数学规则,使地表各点和地图平面上的相应各点保持一定的函数关系,从而在地图上准确地表达地表空间各要素的关系和分布规律,反映它们之间的方向、距离和面积。
在地图学上,把地理空间的实体分为点、线、面三种要素,分别用点状、线状、面状符号来表示。具体分述如下:
点状要素
地面上真正的点状事物很少,一般都占有一定的面积,只是大小不同。这里所谓的点状要素,是指那些占面积较小,不能按比例尺表示,又要定位的事物。因此,面状事物和点状事物的界限并不严格。如居民点,在大、中比例尺地图上被表示为面状地物,在小比例尺地图上则被表示为点状地物。
对点状要素的质量和数量特征,用点状符号表示。通常以点状符号的形状和颜色表示质量特征,以符号的尺寸表示数量特征,将点状符号定位于事物所在的相应位置上。图2-3为几种点状符号举例。
线状要素
对于地面上呈线状或带状的事物如交通线、河流、境界线、构造线等,在地图上,均用线状符号来表示。当然,对于线状和面状实体的区分,也和地图的比例尺有很大的关系。如河流,在小比例尺的地图上,被表示成线状地物,而在大比例尺的地图上,则被表示成面状地物。通常用线状符号的形状和颜色表示质量的差别,用线状符号的尺寸变化(线宽的变化)表示数量特征。图2-4是几种线状符号。
面状要素
面状分布的地理事物很多,其分布状况并不一样,有连续分布的,如气温、土壤等,有不连续分布的,如森林、油田、农作物等;它们所具有的特征也不尽相同,有的是性质上的差别,如不同类型的土壤,有的是数量上的差异,如气温的高低等。因此,表示它们的方法也不相同。
对于不连续分布或连续分布的面状事物的分布范围和质量特征,一般可以用面状符号表示。符号的轮廓线表示其分布位置和范围,轮廓线内的颜色、网纹或说明符号表示其质量特征。具体方法有范围法、质底法。例如土地利用图中,描述的是一种连续分布的面状事物,在地图上通常用地类界与底色、说明符号以及注记等配合表示地表的土地利用情况(见图2-5)。
但对于连续分布的面状事物的数量特征及变化趋势,常常可以用一组线状符号—等值线表示,如等温线、等降水量线、等深线、等高线等,其中等高线是以后GIS建库中经常用到的一种数据表示方式。等值线的符号一般是细实线加数字注记。等值线的数值间隔一般是常数,这样,就可以根据等值线的疏密,判断制图对象的变化趋势或分布特征。等值线法适合于表示地面或空间呈连续分布、且逐渐变化的地理事物。
通过地图符号形状、大小、颜色的变化及地图注记对这些符号的说明、解释不仅能表示实体的空间位置、形状、质量和数量特征,而且还可以表示各实体之间的相互联系,如相邻、包含、连接等。
地图是地理实体的传统载体,具有存储、分析与显示地理信息的功能,因其直观、综合的特点,曾经有一段时期是地理实体的主要载体,但随着人们对地理信息需求量的增加及对其需求质量和速度的提高,再加之计算机技术的发展,使得用计算机管理空间信息,建立地理信息系统成为可能。
四、遥感影象对地理空间的描述
20世纪60年代以来,遥感技术在国民经济的各个方面都有了广泛的应用如检测地表资源、环境变化,或了解沙漠化、土壤侵蚀等缓慢变化,或监视森林火灾、洪水和天气迅速变化状况,或进行作物估产,其核心是为空间信息资料的获取提供方便,进而为利用空间信息的各行各业服务。
因为卫星遥感可以覆盖全球每一个角落,对任何国家和地区都不存在由于自然或社会因素所造成的信息获取的空白地区,卫星遥感资料可以及时地提供广大地区的同一时相、同一波段、同一比例尺、同一精度的空间信息,航空遥感可以快速获取小范围地区的详细资料,也就是说,遥感技术在空间信息获取的现势性方面得到了很大的提高。
遥感影象对空间信息的描述主要是通过不同的颜色和灰度来表示的。这是因为地物的结构、成分、分布等的不同,其反射光谱特性和发射光谱特性也各不相同,传感器记录的各种地物在某一波段的电磁辐射反射能量也各不相同,反映在遥感影象上,则表现为不同的颜色和灰度信息。所以说,通过遥感影象可以获取大量的空间地物的特征信息。通过如图2-6所示的遥感图象,明显地可以获得这个区域的地貌特征和断裂带的信息(用地图的方式表示如图2-7)。
还要说明的是,利用遥感影象通常可以获得多层面的信息,对遥感信息的提取一般需要具有专业知识的人员通过遥感解译才能完成。
第二节 地理信息数字化描述方法
随着信息时代的到来,仅用传统的手段(地图和遥感影象)描述地理信息已存在许多问题:①地图的生产周期太长,目前科研、生产与管理工作都要求及时得到有关地表变化的信息,这种情况下,传统的地图存储、生产已不能满足需要。②遥感影象因为存在着变形,须首先对其进行纠正,另外,遥感影象因为其成像方式的不同,不同的影象有不同的影象特征,必须解译才能变成人们所习惯的地图方式,这需要很大的工作量。
计算机软硬件技术的发展,使得利用计算机把地理信息数字化,并进一步对其进行管理、处理和利用成为可能。
对地理信息进行数字化描述,就是要使计算机能够识别地理事物的形状,为此,必须精确地指出空间模式如何处理,如何显示等。在计算机内描述空间实体有两种形式:显式描述和隐式描述。例如一条河流,在计算机中的显示表示,就是栅格中的一系列像元,如图2-8(b)所示,为使计算机认识这些像元描述的是河流而不是其它物体,这些像元都给予相同的编码值R或者用相同的颜色、符号、数字、灰度值来表示。
河流的隐式表示是由一系列定义了始点和终点的线及某种连接关系来描述,线的始点和终点坐标定义为一条表示河流及其河心洲形状的矢量(如图2-8(c))。
计算机对地理实体的显式描述也称栅格数据结构,计算机对地理实体的隐式描述也称矢量数据结构。栅格和矢量结构是计算机描述空间实体的两种最基本的方式。
在栅格数据结构中,整个地理空间被规则地分为一个个小块(通常为正方形),地理实体的位置是由占据小块的横排与竖列的位置决定,小块的位置则由其横排竖列的数码决定,每个地理实体的形态是由栅格或网格中的一组点来构成。这种数据结构和遥感图象的数据相同,因而数字遥感图象就是栅格数据结构。
在矢量数据结构中,地理实体的形状和位置是由一组坐标对所确定。矢量数据结构对地理实体的描述类似于地图对地理信息的描述,一般也把地理实体分为点、线、面三种,每种实体有不同的编码方法,具体的内容在第三章有专门的介绍。
地图和遥感影象是空间信息的常见载体,所以,下面看一看地图和遥感影象描述的空间信息用数字化的方式(栅格和矢量)如何表示:
有一个如图2-9所示的地图,图中有点状地物高程点、烟囱,线状地物铁路,面状地物居民点、林地、菜地等,用矢量和栅格数据结构的表示如图2-10所示。在矢量数据结构中,点状地物用点状地物所在位置的一对坐标表示其位置,其属性值(是高程点还是烟囱,高程点的值是多少)则用其它的数据项来表示。线状地物则用一组有序的坐标对来表示,如矢量图中铁路的表示;面状地物则用组成面状地物的边界来表示,如居民点、林地等。同样线状地物和面状地物的属性值都要用其它的数据项来表示。
用栅格结构表示地图,首先要给定每个物体的编码,如给定高程点的编码为9,烟囱的编码为7,铁路的编码为1,居民点的编码为5,林地的编码为3,菜地的编码为4,则图2-9的地图用栅格结构表示为2-10(b)。
对于如图2-6所示的遥感图象,用矢量和栅格的表示如图2-11所示。通过遥感影象提取的不同专题信息需用不同的文件分别存储和表示。
由以上两例可看出,至少有两种数字化的方法可以表示空间信息:
栅格法:由一系列x,y坐标定位的像元,每个像元独立编码,并载有属性。
矢量法:三种主要地理实体的点、线、面中,点类似于像元,但不占有面积,其余两种均由一系列内部相关联的坐标形成,一定的面或线则与一定的属性连接。
另外,遥感影象的产品除了遥感图象外,还有遥感数字图象,采用的是栅格结构的方式,它主要是把空间地物在某一波段电磁辐射反射强度用数字来记录,是一个二维的离散的光密度(或亮度)函数。相对光学图象,它在空间坐标和密度上都已离散化,空间坐标x,y仅取离散值:
x=x0+m△x
y=y0+m△y
式中,m=0,1,2, …m-1,n=0,1,2,…n-1为离散化的坐标间隔。同时f(x,y)也仅取离散值,一般取值区间为0,1,2,127或0,1,2,255等。数字图象可用一个二维矩阵表示,即:
矩阵中每个元素称为像元。
图2-12直观地表示了一幅数字图象,实际上是由每个像元的密度值排列而成的一个数字矩阵。
第三节 空间数据的类型和关系
空间数据的基本特征
要完整地描述空间实体或现象的状态,一般需要同时有空间数据和属性数据。如果要描述空间实体或的变化,则还需记录空间实体或现象在某一个时间的状态。所以,一般认为空间数据具有三个基本特征(图2-13):
1、空间特征 表示现象的空间位置或现在所处的地理位置。空间特征又称为几何特征或定位特征,一般以坐标数据表示。
2、属性特征 表示现象的特征,例如变量、分类、数量特征和名称等等。
3、时间特征 指现象或物体随时间的变化。
位置数据和属性数据相对于时间来说,常常呈相互独立的变化,即在不同的时间,空间位置不变,但是属性类型可能已经发生变化,或者相反。因此,空间数据的管理是十分复杂的。
有效的空间数据管理要求位置数据和非位置数据互相作为单独的变量存放,并分别采用不同的软件来处理这两类数据。这种数据组织方法,对于随时间而变化的数据,具有更大的灵活性。
二、空间数据的类型
由前面的内容我们知道,表示地理现象的空间数据从几何上可以抽象为点、线、面三类,对点、线、面数据,按其表示内容又可以分为七种不同的类型(如图2-14),它们表示的内容如下:
1、类型数据 例如考古地点、道路线和土壤类型的分布等;
2、面域数据 例如随机多边形的中心点,行政区域界线和行政单元等;
3、网络数量 例如道路交点、街道和街区等;
4、样本数量 例如气象站、航线和野外样方的分布区等;
5、曲面数据 例如高程点、等高线和等值区域;
6、文本数据 例如地名、河流名称和区域名称;
7、符号数据 例如点状符号、线状符号和面状符号等。
由此得出,对于点实体,它有可能是点状地物、面状地物的中心点、线状地物的交点、定位点、注记、点状符号等;对于线实体和面实体也可按照上面的七种类型得出其描述内容,这些内容是点、线、面三种实体编码的主要内容(具体编码方法见第三章)。
三、空间数据的拓扑关系
在GIS中,为了真实地反映地理实体,不仅要包括实体的位置、形状、大小和属性、还必须反映实体之间的相互关系。这些关系就是指它们之间的邻接关系,关联关系和包含关系。
拓扑关系在地图上是通过图形来识别和解释的,而在计算机中,则必须按照拓扑结构加以定义。
如图2-15所示:A,B,C,D为结点;a,b,c,d,e为线段(弧段);P0,P1,P2,P3,P4为面(多边形)。
邻接关系:空间图形中同类元素之间的拓扑关系。例如多边形之间的邻接关系,P2/P3,P1/P2,又如结点之间的邻接关系A与D,C与D等。
关联关系:空间图形中不同元素之间的拓扑关系。例如结点与弧段的关联关系A与e、a、c;多边形与弧段的关联关系P2与e、c、f。
包含关系:空间图形中同类但不同级元素之间的拓扑关系。例如多边形P1中包含有多边形P4。
如果要将结点、弧段、面相互之间所有的拓扑关系表达出来,可以组成四个关系表,即表2-1,表2-2,表2-3和表2-4。
上述关系也可以只用其中的部分表来表示,而其余关系则隐含其中,需要时再建立临时关系表。例如表2-2对于网络分析非常重要,而对于主要以面状目标的管理系统来说则可以省略。
表2-1中,弧段前的负号表示面城中含有岛。表2-3中每一弧段的左、右结点分别作为始结点和终结点。
点、线、面基本数据之间的关系,代表了空间实体之间的位置关系。分析点、线、面三种类型的数据,得出其可能存在的空间关系有以下几种:
点—点关系
点和点之间的关系主要有两点(通过某条线)是否相连,两点之间的距离是多少?如城市中某两个点之间可否有通路,距离是多少?这是在实际生活中常见的点和点之间的空间关系问题。
点—线关系
点和线的关系主要表现在点和线的关联关系上。如点是否位于线上,点和线之间的距离等等。
点—面关系
点和面的关系主要表现在空间包含关系上。如某个村子是否位于某个县内?或某个县共有多少个村子?
线—线关系
线和线是否邻接、相交是线和线关系的主要表现形式。如河流和铁路的相交,两条公路是否通过某个点邻接?
线—面关系
线和面的关系表现为线是否通过面或和面关联或包含在面之内?
面—面关系
面和面之间的关系主要表现为邻接和包含的关系。
空间数据的拓扑关系,对数据处理和空间分析具有重要的意义,因为:
(1)根据拓扑关系,不需要利用坐标或距离,可以确定一种空间实体相对于另一种空间实体的位置关系。拓扑关系能清楚地反映实体之间的逻辑结构关系,它比几何数据有更大的稳定性,不随地图投影而变化。
(2)利用拓扑关系有利于空间要素的查询,例如某条铁路通过哪些地区,某县与哪些县邻接。又如分析某河流能为哪些地区的居民提供水源,某湖泊周围的土地类型及对生物栖息环境作出评价等。
(3)可以根据拓扑关系重建地理实体。例如根据弧段构建多边形,实现道路的选取,进行最佳路径的选择等。
第四节 元数据
信息社会的发展,导致社会各行各业对详实、准确的各种数据的需求量迅速增加以及
数据库的大量出现。用户对不同类型数据的需求,要求数据库的内容、格式、说明等符合一定的规范和标准,以利于数据的交换、更新、检索、数据库集成以及数据的二次开发利用等,而这一切都离不开元数据(Metadata)。对空间数据的有效生产和利用,要求空间数据的规范化和标准化。应用于地学领域的数据库不但要提供空间和属性数据,还应该包括大量的引导信息以及由纯数据得到的推理、分析和总结等,这些都是由空间数据的元数据系统实现的。
一、元数据概念与分类
1、元数据概念
“meta”是一希腊语词根,意思是“改变”,“Metadata”一词的原意是关于数据变化的描述。到目前为止,科学界仍没有关于元数据的确切公认的定义。但一般都认为元数据就是 “关于数据的数据”。
元数据并不是一个新的概念。实际上,传统的图书馆卡片、出版图书的介绍、磁盘的标签等都是元数据。纸质地图的元数据主要表现为地图类型、地图图例、包括图名、空间参照系统和图廓坐标、地图内容说明、比例尺和精度、编制出版单位和日期或更新日期等。在这种形式下,元数据是可读的,生产者和用户之间容易交流,用户可以很容易地确定地图是否能够满足其应用需要。
当地图转换为数字形式后,数据的管理和应用均产生一些新的问题,例如:数据生产者需要管理和维护好海量数据,提高效率,且不受工作人员变动的影响;用户缺乏查询可用数据的方便快捷的途径,缺少可用数据的技术文件信息(如数据的来源、生产日期);当数据格式对于应用而言可直接使用时,不知道如何理解和转换数据。
元数据可以用来辅助地理空间数据,帮助数据生产者和用户解决这些问题。元数据的主要作用可以归纳为如下几个方面:
(1)帮助数据生产单位有效地管理和维护空间数据,建立数据文档,并保证即使其主要工作人员退休或调离时,也不会失去对数据情况的了解;
(2)提供有关数据生产单位数据存储、数据分类、数据内容、数据质量、数据交换网络(clearing house)及数据销售等方面的信息,便于用户查询检索地理空间数据;
(3)提供通过网络对数据进行查询检索的方法或途径,以及与数据交换和传输有关的辅助信息;
(4)帮助用户了解数据,以便就数据是否能满足其需求作出正确的判断;
(5)提供有关信息,以便用户处理和转换有用的数据。
由此也可以得出元数据的根本目的是促进数据集的高效利用,另—个目的是为计算机辅助软件工程(CASE)服务。
元数据的内容主要包括对数据集的描述;对数据集中各数据项、数据来源、数据所有者及数据生产历史等的说明;对数据质量的描述,如数据精度、数据的逻辑一致性、数据完整性、分辨率、源数据的比例尺等;对数据处理信息的说明,如量纲的转换等;数据转换方法的描述;对数据库的更新、集成方法等的说明。
元数据的性质:元数据是关于数据的描述性数据信息,它应尽可能多地反映数据集自身的特征规律,以便于用户对数据集的准确、高效与充分的开发与利用。不同领域的数据库,其元数据的内容会有很大差异。
2、元数据的常用形式和类型
元数据也是一种数据,在形式上与其他数据没有区别,它可以以数据存在的任何一种形式存在。
元数据的传统形式是填写了数据源和数据生产工艺过程的文件卷宗,也可以是用户手 册。用户手册提供的简洁的元数据容易阅读,并且可以联机查询。
更主要的形式是与元数据内容标准相一致的数字形式。数字形式的元数据可以用多种方法建立、存储和使用:
最基本的方法是文本文件。文本文件易于传输给用户,而不论用户使用什么硬件和软件。
元数据的另一种形式是用超文本链接标示语言(Hyper text Markup language,HTML)编写的超文本文件。用户可以利用Netscape Navigator,Internet Explorer或Mosaic查阅元数据。
用通用标示语言(Standard for General Markup language,SGML)建立元数据。SGML提供一种有效的方法连接元数据元素。这种方法便于建立元数据索引和在空间数据交换网络上查询元数据,并且提供一种在元数据用户间交换元数据、元数据库和元数据工具的方法。
对元数据分类可以了解和更好地使用元数据。分类的原则不同,元数据的分类体系和内容将会有很大的差异。下面列出了几种不同的分类体系。
(1)根据元数据的内容分类
造成元数据内容差异的主要原因有两个:其一,不同性质、不同领域的数据所需要的元数据内容有差异;其二,为不同应用目的而建设的数据库,其元数据内容会有很大的差异。根据这两个原因,可将元数据化分为三种类型:
1)科研型元数据 其主要目标是帮助用户获取各种来源的数据及其相关信息,它不仅包括诸如数据源名称、作者、主体内容等传统的、图书管理式的元数据,还包括数据拓扑关系等。这类元数据的任务是帮助科研工作者高效获取所需数据。
2)评估型元数据 主要服务于数据利用的评价,内容包括数据最初收集情况、收集数据所用的仪器、数据获取的方法和依据、数据处理过程和算法、数据质量控制、采样方法、数据精度、数据的可信度、数据潜在应用领域等。
3)模型元数据 用于描述数据模型的元数据与描述数据的元数据在结构上大致相同,其内容包括:模型名称、模型类型、建模过程、模型参数、边界条件、作者、引用模型描述、建模使用软件、模型输出等。
(2)根据元数据描述对象分类
根据元数据描述对象分类,可将元数据划分为三种类型:
1)数据层元数据 指描述数据集中每个数据的元数据,内容包括:日期邮戳(指最近更新日期)、位置戳(指示实体的物理地址)、量纲、注释(如关于某项的说明见附录)、误差标识(可通过计算机消除)、缩略标识、存在问题标识(如数据缺失原因)、数据处理过程等。
2)属性元数据 是关于属性数据的元数据,内容包括为表达数据及其含义所建的数据字典、数据处理规则(协议),如采样说明、数据传输线路及代数编码等。
3)实体元数据 是描述整个数据集的元数据,内容包括:数据集区域采样原则、数据库有效期、数据时间跨度等。
(3)根据元数据在系统中的作用分类
根据元数据在系统中所起的作用,可以将元数据分为两种:
1)系统级别(System—level)元数据 指用于实现文件系统特征或管理文件系统中数 据的信息,例如访问数据的时间、数据的大小、在存储级别中的当前位置、如何存储数据块以保证服务控制质量等。
2)应用层(Application—level)元数据 指有助于用户查找、评估、访问和管理数据等与数据用户有关的信息,如:文本文件内容的摘要信息、图形快照、描述与其它数据文件相关关系的信息。它往往用于高层次的数据管理,用户通过它可以快速获取合适的数据。
(4)根据元数据的作用分类
根据元数据的作用可以把元数据分为两种类型:
1)说明元数据 是专为用户使用数据服务的元数据,它一般用自然语言表达,如源数据覆盖的空间范围、源数据图的投影方式及比例尺的大小、数据集说明文件等,这类元数据多为描述性信息,侧重于数据库的说明。
2)控制元数据 是用于计算机操作流程控制的元数据,这类元数据由一定的关键词和特定的句法来实现。其内容包括:数据存贮和检索文件、检索中与目标匹配方法、目标的检索和显示、分析查询及查询结果排列显示、根据用户要求修改数据库中原有的内部顺序、数据转换方法、空间数据和属性数据的集成、根据索引项把数据绘制成图、数据模型的建设和利用等。这类元数据主要是与数据库操作有关的方法描述。
二、空间数据元数据的概念和标准
1、空间数据元数据的概念
空间数据(Geospatial data)用于确定具有自然特征或者人工建筑特征的地理实体的地理位置、属性及其边界的信息;空间数据元数据指对于这些空间数据的描述或说明,主要包括以下方面:
·类型(Type) 在元数据标准中,数据类型指该数据能接收的值的类型;
·对象(Object) 对地理实体的部分或整体的数字表达;
·实体类型(Entity type) 对于具有相似地理特征的地理实体集合的定义和描述;
·点(Point) 用于位置确定的0维地理对象;
·结点(Node) 拓扑连接两个或多个链或环的一维对象;
·标识点(Label point) 显示地图或图表时用于特征标识的参考点;
·线(Line) 一维对象的一般术语;
·线段(Line segment) 两个点之间的直线段;
·线(String) 由相互连接的一系列线段组成的没有分支线段的序列,线可以自身或与其它线相切;
·弧(Arc) 由数学表达式确定的点集组成的弧状曲线;
·链(Link) 两个结点之间的拓扑关联;
·链环(Chain) 非相切线段或由结点区分的弧段构成的有方向无分支序列;
·环(Ring) 封闭状不相切链环或弧段序列;
·多边形(Polygon) 在二维平面中由封闭弧段包围的区域;
·外多边形(Universe Polygon) 数据覆盖区域内最外则的多边形,其面积是其它所有多边形的面积之和;
·内部区域(Interior area) 不包括其边界的区域;
·格网(Grid) 组成一规则或近似规则的棋盘状镶嵌表面的格网集合,或者组成一规则或近似规则的棋盘状镶嵌表面的点集合;
·格网单元(Grid cell) 表示格网最小可分要素的二维对象
·矢量(Vector) 有方向线的组合;
·栅格(Raster) 同一格网或数字影像的一个或多个叠加层;
·像元(Pixel) 二维图形要素,它是数字影象最小要素;
·栅格对象(Raster object) 一个或多个影象或格网,每一个影象或格网表示一个数据层,各层之间相应的格网单元或像元一致且相互套准;
·图形(Graph) 与预定义的限制规则一致的0维(如Node点)、一维(Link或Chain)和二维(T多边形)有拓扑相关的对象集;
·数据层(Layer) 集成到一起的面域分布空间数据集,它用于表示一个主体中的实体,或者有一公共属性或属性值的空间对象的联合(Association);
·层(Stratum) 在有序系统中数据层、级别或梯度序列;
·纬度(Latitude) 在中央经线上度量,以角度单位度量离开赤道的距离;
·经度(Longitude) 经线面到格林尼治中央经线面的角度距离;
·中央经线(Meridian) 穿过地球两极的地球的大圆圈;
·坐标(Ordinate) 在笛卡儿坐标系中沿平行于X轴和y轴测量的坐标值;
·投影(Projection) 将地球球面坐标中的空间特征(集)转化到平面坐标体系时使用的数学转化方法。
·投影参数(Projection Parameters) 对数据集进行投影操作时用于控制投影误差、变形实际分布的参考特征。
·地图(Map) 空间现象的空间表征,通常以平面图形表示;
·现象(Phenomenon) 事实、发生的事件、状态等;
·分辨率(Resolution) 由涉及到或使用的测量工具或分析方法能区分开的两个独立测量或计算的值的最小差异;
·质量(Quality) 数据符合一定使用要求的基本或独特的性质;
·详述(Explicit) 由一对数或三个数分别直接描述水平位置和三维位置的方法;
·介质(Media) 用于记录、存贮或传递数据的物理设备;
·其它。
2、空间数据元数据的标准
同物理、化学等学科使用的数据结构类型相比,空间数据是一种结构比较复杂的数据类型。它既涉及到对于空间特征的描述,也涉及到对于属性特征以及它们之间关系的描述;所以空间数据元数据标准的建立是项复杂的工作;并且由于种种原因,某些数据组织或数据用户开发出来的空间数据元数据标准很难为地学界所广泛接受。但空间数据元数据标准的建立是空间数据标准化的前提和保证,只有建立起规范的空间数据元数据才能有效利用空间数据。目前,空间数据元数据已形成了一些区域性或部门性的标准。表2-5列出了有关空间数据元数据的几个现有主要标准。
美国联邦空间数据委员会(Federal Geographical Data Committee, FGDC)的空间数据元数据内容标准的影响较大,该标准用于确定地学空间数据集的元数据内容。该标准于1992年7月开始起草,于1994年7月8日,FGDC正式确认该标准。该标准将地学领域中应用的空间数据元数据分为7个部分,它们是:数据标识信息、数据质量信息、空间数据组织信息、空间参照系统信息、地理实体及属性信息、数据传播及共享信息和元数据参考信息。
表2-5 空间元数据的几个现有标准
元数据标准名称
建立标准的组织
CSDGM地球空间数据元数据内容标准
FGDC,美国联邦空间数据委员会
GDDD数据集描述方法
MEGRIN,欧洲地图事务组织
CGSB空间数据集描述
CSC,加拿大标准委员会
CEN地学信息一数据描述一元数据
CEN/TC287
DIF目录交换格式
NASA
ISO地理信息
ISO/TC211
三、空间数据元数据的获取与管理
空间数据的地理特征(包括空间特征和属性特征)要求对数据的各种操作,从数据获取、数据处理、数据存储、数据分析、数据更新等方面应有一套面向地理对象的方法,相应的空间数据元数据的内容及相关的操作也就具有了不同于其它种类数据元数据的特点。
1、空间数据元数据的获取
空间数据元数据的获取是个较复杂的过程,相对于基础数据(Primary Data)的形成时 间,它的获取可分为三个阶段:数据收集前、数据收集中和数据收集后。对于模型元数据,这三个阶段分别是模型形成前、模型形成中和模型形成后。第一阶段的元数据是根据要建设的数据库的内容而设计的元数据,内容包括:①普通元数据,如:数据类型、数据覆盖范围、使用仪器描述、数据变量表达、数据收集方法等;②专指性元数据,即针对要收集的特定数据(如中国1950—1980年30年间的逐旬降水数据)的元数据,内容包括数据采样方法、数据覆盖的区域范围、数据表达的内容、数据时间、数据时间间隔、空间上数据的高度(或深度)、使用的仪器、数据潜在利用等。第二阶段的元数据随数据的形成同步产生,例如,在测量海洋要素数据时,测点的水平和垂直位置、深度、温度、盐度、流速、海流流向、表面风速、仪器设置等是同时得到的。第三阶段的元数据是在上述数据收集到以后,根据需要产生的,它们包括:数据处理过程描述、数据的利用情况、数据质量评估、浏览文件的形成、拓扑关系、影像数据的指示体及指标、数据集大小、数据存放路径等。
空间数据元数据的获取方法主要有五种:键盘输入、关联表、测量法、计算法和推理法。键盘输入一般工作量大且易出错,如有可能应尽量避免,但对某些元数据而言(如数据变量表达的内容)只能由键盘输入。关联表方法是通过公共项(字段)从已存在的元数据或数据中获取有关的元数据,例如,通过区域的名称从数据库中得到区域的空间位置坐标等,测量方法容易使用且出错较少,如用全球定位系统(GPS)测量数据空间点的位置等。 计算法指由其它元数据或数据计算得到的元数据,例如,水平位置可由仪器设置及时间计算得到,区域的面积可由多边形拓扑关系计算出来,该方法一般用于获取数量较大的元数据。推理方法指根据数据的特征获取元数据。
在元数据获取的不同阶段,使用的方法也有差异。在第一阶段主要是键入方法和关联表方法;第二阶段主要采样测量方法;第三阶段主要方法是计算和参考方法。
2、空间数据元数据的管理
空间数据元数据管理的理论和方法涉及到数据库和元数据两方面。由于元数据的内容、形式的差异,元数据的管理与数据涉及的领域有关,它是通过建立在不同数据领域基础上的元数据信息系统实现的。
另外,全球信息源字典采用两步实体关系模型(Two—stages—Entity—Relationship—Model)来管理元数据。
四、空间数据元数据的应用
1、为什么在地理信息系统中使用元数据
在地理信息系统中使用元数据的原因如下:
完整性(Completeness)
面向对象的地理信息系统和空间数据库的目标之一,是把事物的有关数据都表示为类的形式,而这些类也包括类自身,即复杂的“类的类”结构。这就要求有支持类与类之间相互印证和操作的机制,而元数据可以帮助这个机制的实现。
可扩展性(Extensibility)
有意地延伸一种计算机语言或者数据库特征的语义是 很有用途的,如把跟踪或引擎信息的生成结果添加到操作请求中,通过动态改变元数据信 息可以实现这种功能。
特殊化(Specialization)
继承机制是靠动态连接操作请求和操作体来实现的,语言及数据库以结构化和语义信息的关联文件(Context)方式把操作请求传递给操作体,而这些信息可以通过元数据表达。
安全性(Safety)
分类完好的语言和数据库都支持动态类型检测,类的信息表示为元数据,这样在系统运行时,可以被类检测者访问。
(5)查错功能(Debugging)
在查错时使用元数据信息,有助于检测可运行应用系统的解释和修改状态。
浏览功能(Browsing)
为数据的控制类开发浏览器时,为显示数据,要求能解译数据的结构,而这些信息是以元数据来表达的。
程序生成(Program generation)
如果允许访问元数据,则可以利用关于结构的信息自动生成程序。如,数据库查询的优化处理和远程过程调用残体(Stub)生成。
2、空间数据元数据的应用
(1)帮助用户获取数据
通过元数据,用户可对空间数据库进行浏览、检索和研究等。一个完整的地学数据库除应提供空间数据和属性数据外,还应提供丰富的引导信息,以及由纯数据得到的分析、综述和索引等。通过这些信息用户可以明白诸如:“这些数据是什么数据?”,“这个数据库对我有用吗?”,“这是我需要的数据吗?”,“怎样得到这些数据?”等一系列问题。
(2)空间数据质量控制
不论是统计数据还是空间数据都存在数据精度问题,影响空间数据精度的原因主要有 两个方面:一是源数据的精度,一是数据加工处理工程中精度质量的控制情况。空间数据质量控制内容包括:①有准确定义的数据字典,以说明数据的组成,各部分的名称,表征的内容等;②保证数据逻辑科学地集成,如植被数据库中不同亚类的区域组合成大类区,这要求数据按一定逻辑关系有效的组合;③有足够的说明数据来源、数据的加工处理工程、数据释译的信息。
这些要求可通过元数据来实现,这类元数据的获取往往由地学和计算机领域的工作者 来完成。数据逻辑关系在数据中的表达要由地学工作者来设计,空间数据库的编码要求要有一定的地学基础,数据质量的控制和提高要有数据输入、数据查错、数据处理专业背景知识的工作人员,而数据再生产要由计算机基础较好的人员来实现。所有这方面的元数据,按一定的组织结构集成到数据库中构成数据库的元数据信息系统来实现上述功能。
(3)在数据集成中的应用
数据集层次的元数据记录了数据格式、空间坐标体系、数据的表达形式、数据类型等信息;系统层次和应用层次的元数据则记录了数据使用软硬件环境、数据使用规范、数据标准等信息。这些信息在数据集成的一系列处理中,如数据空间匹配、属性一致化处理、数据在各平台之间的转换使用等是必需的。这些信息能够使系统有效地控制系统中的数据流。
(4)数据存贮和功能实现
元数据系统用于数据库的管理,可以避免数据的重复存贮,通过元数据建立的逻辑数据索引可以高效查询检索分布式数据库中任何物理存贮的数据。减少用户查寻数据库及获取数据的时间,从而降低数据库的费用。数据库的建设和管理费用是数据库整体性能的反映,通过元数据可以实现数据库设计和系统资源利用方面开支的合理分配,数据库许多功能(如数据库检索、数据转换、数据分析等)的实现是靠系统资源的开发来实现的,因而这类元数据的开发和利用将大大增强数据库的功能并降低数据库的建设费用。