第六讲 地理信息系统数据库设计
与管理
程承旗
北京大学遥感与地理信息系统研究所
GIS数据库
? 一般来说数据库的集合存放有下面几个要求:
? 1) 最小冗余度原则;数据尽可能不重复 。
? 2) 应用程序对数据资源的共享原则:以最优
的方式服务于一个或多个应用程序 。
? 3) 数据独立性原则:数据的存放尽可能地独
立于使用它的应用程序 。
? 统一管理原则:能够用一个软件统一管理这些
数据。
分享式数据库
? 分享式数据库的优点可以从以下几个方
面来概括:
? 1) 灵活性增强 。
? 2) 用户应用程序的共同开发 。
? 3) 维护的分享 。
? 4) 减少数据的冗余度 。
GIS数据库设计的概念
GIS数据库设计过程
? 第一步 需求分析
? 第二步 原型概念化设计
? 第三步 GIS数据库的详细设计
? 第四步 自动化方案制定
? 第五步 试点项目实施
? 第六步 数据库总体实施
用户需求分析
? GIS数据库开发应该主要了解下面的内容:
? 1) 明白即将开发的 GIS所支持的各种功
能;
? 2) 了解系统要求的数据内容和行为;
? 3) 了解数据之间的关系和优先次序;这
些信息有利于制定数据库的开发实施计
划 。
? 4) 了解数据库和 GIS的整体要求和蓝图 。
现状调查
1)在访谈以前将各种问题以表格、问卷或其他书面形式
写出来。
2) 避免不必要的细节, 着重了解预定的内容 。
3) 整个访谈应由 GIS专业技术人员掌握, 控制进度, 保
持良好的访谈气氛 。
4) 尽可能在对方工作的地方进行, 以便对方可以随时提
供必要的资料和过程 。
5) 让对方告知轻重次序, 以便于在实施过程中决定执行
次序 。
6) 注意负面意见, 但不要急于作答 。
7) 对于自己不熟悉的领域可以使用录音机, 录相, 照相
等 。
需要了解的内容
? 通常可以分成机构的模式, 日常操作,
数据, 专业人员, 软件和硬件这六大类 。
调查内容的组织的分析
( 1)现有机构的组织结构图;
? 1) 现有机构的功能示意图;
? 2) 现有机构的人员组织及功能示意图;
? 3) 现有数据内容及来源清单;
? 4) 现有数据及其功能参照表;
? 5) 现有软硬设备关系图 。
? 除了以上 6种内容以外, 还应当包括下面三种;
? 6) 人员培训计划;
? 7) GIS的输出产品;
? 8) 实施的进度计划 。
分析结果报告
? 分析结果报告通常要包括以下几个部分:
? 1) 机构运作的逻辑数据流程图;
? 2) 对于整个数据流程的每步过程, 数据
的输入是如何转换成数据的输出;
? 3) 各主要处理均应当以任务的形式出现;
? 4) 各主要处理的步骤应简单明地注明 。
( 2)建立 GIS系统获得的各种产品
? 各类 GIS产品通常可以包括地图, 报表,
文件, 应用软件包, 屏幕查询或是更新
的数据库等 。
( 3)硬件资源表
? 包括:硬件名称、操作系统、主要功能、
所属部门、运行状况等。
( 4)软件资源表
? 包括:软件名称, 所属单位, 操作平台,
主要功能, 参与的应用, 运行状况等 。
( 5)专业人员清单
? 主要包括:人员名称, 所属部门职务,
主要职责范围, 技术优势, 经验层次,
目前工资等 。
( 6)数据功能参照表
I,Input O,Output
( 7)数据来源清单
? 数据功能参照表
( 8)部门功能清单
概念化设计
? 1) 数据库的宏观地理定义:主要指对数据库比例尺,
地图投影和坐标系统的定义 。
? 2) 数据库的地理特征设计;对于各种地理特征有关的
属性数据中以什么几何形式表达进行设计 。
? 3) 数据库表格及其关系的设计表达:对与地理特征有
关的属性数据在数据库中表达方式的设计 。
? 4) 数据库总体设计的评定;根据数据库的应用目的和
数据内容及使用方式来评价前面三步的设计结果, 进
行统筹的考量 。
? 5) 数据库概念模型的起草;将 GIS数据库的概念设计
起草成正式的文件, 作为后面详细设计时参考 。
数据库的宏观地理定义
? 宏观地理定义通常包括以下三个内容:比例尺, 地图
投影和坐标系统 。
? 1) 比例尺
? 比例尺是指地图和地表上长度的对应关系, 它是地图
或数据精度和详细程度的标志 。
? 2) 地图投影和地理坐标系统
? 设计数据库时可以有以下几种选择
? 1) 将所有数据放入一个带 。
? 2) 将各带分别存放 。
? 3) 选择不同的地图投影 。
? 4) 选择使用地理坐标系统 。
地图投影选择的几个原则:
? 1) 任何地图投影均有变形 。
? 2) 等形投影保持小区域内不变, 但任何一种
投影不能保证大范围内的不变 。
? 3) 等面积投影保持同比例的情况下面积不变 。
? 4) 等距离投影保持某种距离上下不变, 但任
何一种投影均不可能保持一幅地图上任何两点
的距离均是不变的 。
? 等方向投影保持地图上的方位角与真实方位角
相同。
投影和坐标系统选择的一般原则:
? 1) 在经常需要投影变换而且覆盖面积较大的
情况下, 应该使用地理坐标系统 。
? 2) 笛卡儿坐标系统对于小面积和一个固定的
坐标系最为适合 。
? 3) 根据研究区的形状来选择变形最小的投影 。
? 4) 如果有地区标准的话, 应该使用地区标准 。
? 5) 如果研究区的面积很重要时, 可以考虑使
用一种等面积的投影进行面积计算, 而数据在
存储时可以使用另外一种投影 。
数据库数据模型的确定
1)数据库数据的组织
? GIS中数据组织结构的分析主要包括:
? ① 数据分层;
? ② 数据在各层次上表达的形式及其格式;
? ③ 数据属性信息的内容 。
数据分层的考虑因素
? ① 具有同样的特性, 即数据有相同的属性信息 。
? ② 比例尺的一致性 。
? ③ 该层数据会有同样的使用目的和方式 。
? ④ 不同部门的数据通常应该放入不同的层, 便于维护 。
? ⑤ 数据库中需要不同级别安全处理的数据 。
? ⑥ 数据库中的各类数据的更新可能使用各种不同的数
据源, 在分层中, 使用不同数据源更新的数据也应分
层进行存储, 以便于更新 。
? ⑦ 即使是同一类型的数据, 有时其属性特征也不相同,
所以也应该分层存储 。
2)空间数据库属性表与属性关系设计
?
? 步骤,① 设计相互关联的表格; ② 对数
据表进行规范化; ③ 定义主关键项和外
部关键项; ④ 使用实体关系模型来定义
关系; ⑤ 关系表的再规范化 。
(1)设计相互关联的表格
? ● 唯一性:在每个表中, 每个记录的关
键项均必须是唯一的;
? ● 不变性:不含有其他方面的信息;
? ● 纯粹性:不含有其他方面的信息;
? ● 不重复性:不会被重复使用, 即某一
个值被删除后, 不会再被使用;
? ● 可获得性:需要时便可以拿来到此信
息 。
(2)空间数据的均衡化
? 将数据库中各关系表进行分解,使其变
成更简单、更稳定的一套关系表的过程
叫数据库的均衡化。
(3)使用实体 — 关系模型来帮助关
系表的规范化
? ① 首先要识别实体 。
? ② 决定实体间的关系 。
? ③ 决定各实体的关键项 。
? ④ 将其汇成连通的图表 。
(4)逻辑数据图
(5)概念化设计的书面报告
? 文件内容应该将所有的数据内容加以详细的概
述 。
? 对数据库的数据模型和内容加以描述, 即分层
和表格关系 。
? 在能够使用图表的情况下尽量使用图表 。
? 很多详细的内容可以放入附录之中, 以保持文
本主体的清晰 。
? 假若时间允许,可以提供一个原型以更清楚地
表示整个设计的概念。
GIS数据库的详细设计
? 主要包括五个方面的内容:
? ● 数据源的选择;
? ● 各种数据集的评价;
? ● 各数据集的设计;
? ● 数据字典的产生;
? ● 数据库具体存储和管理结构的设计 。
数据源的选择
? 来源,① 地图; ② 航空象片; ③ GPS接收的数
据; ④ 卫星象片; ⑥ 现有的各种电子数据文件;
⑥ 照片; ⑦ 各种记录性文件等 。
? 1) 国家各机构生产和维护的数据
? 2) 省级政府生产和维护的数据
? 3) 各级地方政府生产和维护的数据
? 4) 商业团体的数据
? 5) 非赢利性机构生产的数据
各种数据的评价
1)数据一般状况评价
? ① 数据的目前状态:包括数据是否已有电子版, 工是否有机构正
在生产数据电子版 。
? ② 数据是否是一种标准形式:主要指该类数据是否在各政府机构
式或商业团体生产的数据的标准化之列 。
? ③ 数据是否可以直接 GIS使用:常常某些数据需要经过一定的处
理以后才能与数据库中定义的数据相符合 。
? ④ 数据的原始性;有些数据是由其他更原始的数据推导, 综合而
来 。
? ⑤ 数据的可替代性:常常对一种所需要的数据来说, 会有多种来
源, 有些容易获得, 有些则较难在决定使用哪一种时, 应该将各
种可能来源的数据均加以收集并仔细比较, 再做定论 。
? ⑥数据与其他数据一致性:覆盖的地区是否一致比例尺是否相同,
数据的地理控制点是否符合数据库的要求,在整个地区是否一致,
投影是否与要求符合等
已存在的电子版数据的评价原则
? 1) 数据格式:数据格式是一个很重要的因素, 如果不与数据库设
计的要求相吻合, 势必要进行数据转换 。
? 2) 拓扑关系,GIS数据要求数据的特征之间保持应有的拓扑关系 。
? 3) 数据分辩率:对于栅格数据, 数据的分辩率是指象元的大小 。
? 4) 数据覆盖面及一致性:该数据是否能够覆盖整个的工作地区 。
? 5) 数据的可获得性:包括数据存储的媒介, 适用的计算机平台和
是否可以购买及免费提供 。
? 6) 样本数据:在数据评判过程, 如果能够有机会获得该数据的样
本将会对数据的感性认识大大地提高 。
? 7) 自动化过程实施的考虑:通常现有的数字化数据并不完全符合
某一数据库设计的要求, 可能需要做不同程度的加工才能入库 。
? 8) 数据的元数据信息是否完全:元数据是不关数的重要信息, 它
的顾在与否及质量直接影响到该数据的价值 。
2、数据空间特征的评价
? 1) 空间特征的表达方式 。
? 2) 空间特征的连续性和闭合性 。
? 3) 表示规则的比较 。
? 4) 空间数据地理控制信息的比较 。
? 5) 空间地理数据的系列性 。
? 6) 分类方法的比较和评价 。
? 7) 地理参考系统的一致性 。
3、数据属性特征的评价
? 1) 属性的存在性 。
? 2) 属性数据与空间位置的匹配 。
? 3) 属性数据的编码系统 。
? 4) 属性数据的现适性 。
空间数据层的设计
? 1) 属性数据类型的设计
? 2) 编码标准的设计
数据字典
? 1) 数据字典的内容
? 2) 数据文件的命名方法
? 3) 数据字典的元数据内容 。
数据字典
? 1) 数据字典的内容
? ① 数据库的总体组织结构;
? ② 数据库总体设计的框架;
? ③ 数据层的详细内容定义及结构;
? ④ 数据命名的定义;
? ⑤ 元数据内容等 。
数据字典中各数据层的详细内容
定义及结构:
? ● 标题类信息:名称, 类型, 数据质量;
? ● 各层的有关文件, 表, 各表的项及各项的定
义, 有效值范围等;
? ● 地理参考方面要求满足的情况;
? ● 其它有便于说明和理解的文字或图表等;
? ● 各层空间及属性的质量控制规范;
? ● 各层编号系统与其它各标准编号系统的关系;
? ● 各层数据的使用与各应用类型的关系等 。
数据流图
? 1,数据源点和数据终点
? 2,加工 ( 数据处理 /变换 )
? 3,数据流
? 4,文件 ( 数据存储 )
具体步骤如下:
? 1) 确定系统边界, 画出顶层数据流图 。
? 2) 自项向下, 对每个加工进行内部分解, 画出分层数
据流图 。
? 3) 对数据流图进行复查求精 。
? 在分层数据流图求精过程中应该注意以下问题:
? ① 检查流入, 流出加工的数据流的连续性 。
? ② 控制单张数据流图的复杂性
? ③ 父图与子图的数据平衡
? ④ 终止加工分解的条件
? ⑤ 局部文件
? ⑥ 分解层次的均匀性问题
数据词典
?
1,数据流条目
? 数据流名称 [别名列表 ]
? 数据流组成
? [来源 ][去向 ]
? [处理特点 ( 使用频率, 数据量等 ) ]
? [其他注释 ( 格式, 位置等 ) ]
? 〈 数据流名称 〉 =数据项 [〈 逻辑操作符 〉 数据项 ]
? 例 1:学生成绩单 =课程编码 +课程名 +[任课教师 1指导教师 ]+{ 学
号 +姓名 +成绩 ( +备注 )}
? 在描述数据流组成时, 常用符号有,=,+,[1],{ }, ( )
? = 表示, 定义为 ( 等价于 ),
? + 表示, 与,
? [1] 括号内用, 1”分割的各项目选择出现一项
? ( ) 括号内部分可以不出现
? { } 括号内部部分重复出现
2.数据项条目
? 例 数据流, 仓储事务, 中的数据项
,零件, 可以定义为
? 数据项 零件
? 零件 =零件号 +零件名称 +规格 +( 备注 )
? 数据项 零件号
? 零件号 =Pxxxxxxx
? 说明:零件号由字母 P开头的 8个字符组
成, 后 7个字符可以是字母或者数字
3,文件条目
? 文件名 [别名 ]
? 记录定义
? [文件组织 ]
? [存储介质描述 ]
? 文件, 学生成绩库, 定义如下:
? 文件 学生成绩库
? 学生成绩 =学号 +姓名 +{ 课程代码 +成绩 +[必修 1限选
1任选 ]
? 学号:由 8位数字组成
? 姓名,2~4个汉字
? 课程代码:字母 C开关的 8位字任串
? 成绩,1~3位十进制整数
? 课程类别,1位标识符, 定义为,B—— 必修 X—— 限
选 R—— 任选
? 文件组织:以学号为关键字递增排列
4) 加工说明
? 结构化语言描述
? 判定树描述
? 判定表描述
存储管理结构的设计
?
1)数据的精度考虑
? ① 一个数据库的精度不会因为采用自动
化的数据采集过程而使其增高 。
? ② 经数字化过的地理数据特征, 其精度
不会高于其原始地图 。
? ③数据库总体精度是最低精度部分的数
据的精度
2)美国国家地图精度标准介绍
?
3) RDBMS对属性信息存储软
件的选择
? ① 单独对属性信息的存储, 可以使整个
数据库的独立性提高, 属性数据库可以
单独地进行使用, 维护和管理 。
? ② 可以充分利用 DBMS系统的各种高级
功能 。
? ③ 属性数据库部分可以与其它 GIS软件的
空间数据部分相结合使用, 不受开发时
软件的限制 。
4)空间数据库的管理
? ① 数据使用权限的设置
? ② 数据库更新过程中的质量控制和安
全性考虑
? ③ 数据库的恢复能力
? ④ 合理管理单元的设定
? ⑤ 数据库系统的网络考虑
实施规划
? 建立数据自动化处理方法;
? 2) 实施质量控制的原则标准 。
? 3) 将整个实施规划与整个地理信息系统
的实现相结合起来 。
自动化过程
? 在数据库实施过程中需要实现的自动化
过程可能是以下几种:
? ● 数据原始资料的采集:例如 GPS数据
的采集和摄影测量数据的采集 。
? ● 数据的数字化过程:图形数据的数字
化和属性数据的输入等 。
? ● 数据的转换过程:现存的数据格式转
换成数据库所需要的格式和定义 。
数据采集设计
?
1、直接的数据采集方法
? 1) GPS方法
? 2) 摄影测量方法
? 考虑以下几点:
? ● 控制点:如果该地区没有很好的大地控制点, 则必须要先将一
种控制点网络建立后再行使用 。
? ● 比例尺:摄影测量的比例尺与造价关系很大, 在确定使用何种
比例尺时, 应根据数据库精度的要求, 既不可使用太大比例尺,
而使造价增高, 也不应使用过小比例尺而失去应有的数据精度 。
? ● 提取的特征:办提取数据库中所需要的特征 。
? ● 数字正射影象数据:如果时间和费用允许的话, 尽量产生数字
正射影象数据 。
? ● 多边形数据的提取:目前商用较广泛的与摄影测量方法有关的
软件大多还是 CAD类型的软件 。
? 3) 测量数据
2、空间数据的数字化过程
? 1) 矢量数据的手扶跟踪或数字化方式
? 2) 扫描数字化方式
? 3) 属性数据的自动化处理
3、属性数据的数字化通常有四
种方法
? 1) 键入法;
? 2) 使用光学的字符识别技术;
? 3) 在数字化或矢量化的过程中赋值;
? 4) 人工编辑 。
数据库的质量控制
?
1)空间数据质量控制
? a) 空间位置的几何精度;
? b) 空间地理特征的完整性, 是否所有的内容
均数字化;
? c) 空间特征表达的完整性;
? d) 空间数据的拓扑关系;
? e) 空间数据的地理参考系统是否正确, 是否
满足整个数据库使用的最低要求;
? 空间数据所使用的大地控制点的正确与否;
2)属性数据质量控制
? a) 属性表的定义是否符合数据库的设计;
? b) 主关键项的定义和唯一性怎样;
? c) 各项的值是否在有效范围以内;
? d) 各属性表的外部关键项是否正确;
? e) 关系表之间的关系表达得是否正确;
? f) 各数据项的完整性 。
3) 常用的质量控制方法
开发进度的监控
? 1) 进度表法
? 2) 区域图表法
试点项目
? 1) 测试数据库设计的合理性;
? 2) 测式自动化部分是否有效;
? 3) 测试产品的合格性
试点项目实施的主要过程:
? 1) 定义试点项目的范围
? 2) 决定人员及速度安排
? 3) 试点项目的展示和验收
? 4) 根据试点项目的结果对数据库设计和
实施计划进行修改
? 5) 正式数据库实施的开始