第 9章 网络数据管理 1
9.6 Web数据管理
9.6.1 XML
9.6.2 Web数据存储
9.6.3 Web数据查询
9.6.4 Web信息集成
9.6.5 Web Services
第 9章 网络数据管理 2
9.6.1 XML
Web数据管理 是指在 Web环境下,对复杂信息的有效组
织与集成,方便而准确的信息查询与发布。
从 技术 上讲,Web数据管理融合了 WWW技术、数据库
技术、信息检索技术、移动计算技术、多媒体技术以及数据
挖掘技术。
可扩展标记语言 ( XML,Extensible Markup Language)
是标准通用标记语言( SGML,Standard Generalized
Markup Language)的子集,也是一种元语言。
第 9章 网络数据管理 3
9.6.1 XML
1,XML的组成
XML技术主要包括 三大模块结构组件,
? 文档类型定义( DTD,Document Type Definition)或
XML模式( XML Schema)
? 可扩展样式语言( XSL,Extensible Stylesheet Language)
? 可扩展链接语言( XLL,Extensible Link Language)
还存在一些与 XML有关的重要 技术规范,
? 文档对象模型( DOM,Document Object Model)
? XML简单应用程序接口( SAX,Simple API for XML)等。
第 9章 网络数据管理 4
9.6.1 XML
? 文档类型定义
DTD是一种用来定义有效文件结构的语言,它作为基本
XML文件的语法,是 XML语言的一部分。 DTD可以定义元素
的嵌套规则以及数据的基本类型。
DTD一般包括标记声明或参数实体引用,有时还包括外
部实体的 ID。标记声明可以是元素类型声明、属性表声明、
实体声明或符号声明。
? XML Schema
XML Schema为一类文档建立了一个模式,规范了文档
中的标签和文本可能的组合形式。它不仅包括了 DTD能实现
的所有功能,而且它本身就是规范的 XML文档。
第 9章 网络数据管理 5
9.6.1 XML
? 可扩展样式语言
XSL本身便是 XML的应用,共分为两部分:第一部分
XSL转换工具( XSLT,XSL Transformation),负责将 XML
文档转换为可浏览或可输出的格式;第二部分 XSL格式对象
( XSL-FO,XSL-Formatted Object),提供大量的格式化命
令,可用来配合印刷或屏幕显示,精确地设定外观样式。
? XLink
XML还存在引用和链接到其它的资源和文档的机制,这
制就是 XLink。
XLink可以实现使用 HTML的基于 URL超文本链接和定位
可获得的任何功能。除此之外,它还支持多方位的链接。在
XLink中,任何 XML元素都可以成为链接元素。
第 9章 网络数据管理 6
9.6.1 XML
? DOM
DOM是基于树结构的程序访问以及维护 HTML和 XML文
档的应用程序接口。它定义了表示和处理文档的接口和对象、
这些接口和对象的语义,以及它们之间的关系。
? SAX
SAX是一个 XML的 Java应用程序接口标准,Java应用程
序可以使用支持 SAX的 XML解析器来接受解析事件。使用
SAX比使用 DOM要节省很多内存开销,但 DOM提供了更丰富
的程序接口。
第 9章 网络数据管理 7
9.6.1 XML
2,XML的特点
? 开放性
? 可扩展性
? 交互性好
? 语义性强
? 简单通用
? 半结构化
第 9章 网络数据管理 8
9.6.1 XML
3,XML的应用
XML的应用主要体现在以下四个方面:
? 网络用户在两个或更多异质数据库之间进行通信的应
用。
? 需要把大部分处理从 Web服务器转到客户端的应用。
? 需要客户端将同样的数据以不同的浏览形式提供给不
同的用户应用。
? 需要智能 Web代理根据个人用户的需要增减信息内容
的应用。
第 9章 网络数据管理 9
9.6.1 XML
建立一个 XML应用通常需要遵循以下主要步骤:
? 选择或编写一个 DTD或 Schema。
? 生成 XML文档。
? 解析 XML文档。
? 显示 XML文档。
举例讲解
第 9章 网络数据管理 10
9.6.2 Web数据存储
目前,Web数据的存储方法主要有以下几种:
? 使用基于文件系统的存储管理技术
? 使用基于层次数据库的存储管理技术
? 建立一个具有特定目的的存储半结构化数据的数据
库系统
? 使用基于关系数据库的存储管理技术
? 使用基于面向对象数据库的存储管理技术
第 9章 网络数据管理 11
9.6.3 Web数据查询
1,Web查询技术
目前 Web上的查询主要基于搜索引擎的关键词索引技术,
但是,由于用户给出的查询关键词很难与所查文档精确匹配,
检索效果不理想。因此,出现了一些新技术来从各方面改善
信息查询的性能,主要包括:
? 基于链接的相关度排序
? 基于概念的检索技术
? 基于相关度的反馈
? 检索结果的联机聚类
第 9章 网络数据管理 12
9.6.3 Web数据查询
2,Web查询语言
( 1) Web查询语言分类
? 基于 HTML的查询语言
? 第 1代 Web查询语言
? 第 2代 Web查询语言
? 基于 XML的查询语言
? 单文档查询语言
? 图形化查询语言
? 多文档查询语言
第 9章 网络数据管理 13
9.6.3 Web数据查询
( 2) Web查询语言的 评价因素
Web查询语言的目的是从 Web文档中抽取信息,并对
抽取出的信息进行重构,因此它需要从如下几个方面加以
考虑:
? 数据模型
? 表达能力
? 语义与合成
第 9章 网络数据管理 14
1,Web信息集成系统
Web信息集成系统的 目标 是支持对 Web 上多个数据源
的查询。
Web信息集成系统主要包括:
? 采用 数据仓库技术 的信息集成系统
将从多个数据源中抽取出的数据装入数据仓库中,
用户查询直接映射到数据仓库上。
? 采用 中介技术 的信息集成系统
其核心是中介模式,数据集成系统通过中介模式
将各数据源的数据集成起来,而局部数据源通过包装
器对数据进行转换使之符合中介模式。用户的查询基
于中介模式。
9.6.4 Web信息集成
第 9章 网络数据管理 15
2,Web信息集成系统的特性
在 Web信息集成系统的设计与实现过程中,主要考虑以
下特性:
? 查询特性
? 结果表示
? 结构特性
? 可扩展性
9.6.4 Web信息集成
第 9章 网络数据管理 16
9.6.5 Web Services
1,Web Services概述
Web Services是通过 Web调用的应用逻辑或功能,具有
自包含、自描述以及模块化的特点,可以通过 Web发布、查
找和调用。
Web Services具有以下 特点,
? 普遍性
? 可集成性
? 互操作性
? 行业支持
第 9章 网络数据管理 17
9.6.5 Web Services
2,Web Services原理
Web Services使用面向服务的结构。
它包含三个 实体,
? 服务提供者
? 服务请求者
? 服务代理
以及三个 基本操作,
? 发布
? 查找
? 捆绑
第 9章 网络数据管理 18
9.6.5 Web Services
Web Services的 工作原理 见图 9.3:
图 9.3 Web Services的发布、查找和捆绑
Web Services在发布服务时使用通用描述、查找和集成
协议( UDDI),查找服务时使用 UDDI 和 Web Services 描
述语言( WSDL),捆绑服务时使用 WSDL和简单对象访问
协议( SOAP)。
第 9章 网络数据管理 19
9.6.5 Web Services
3,Web Services协议体系
? 简单对象访问协议
SOAP是在分布式环境下的信息交换协议,用于在 Web
上传输、交换 XML数据。 SOAP包含封装,RPC约定和编码
规则三个部分。
封装 说明了消息格式,谁处理消息,消息是可选的还是
强制的; RPC约定 负责远程过程调用和响应; 编码规则 定义
了传输数据的类型。
第 9章 网络数据管理 20
9.6.5 Web Services
? Web Services描述语言
WSDL描述了分布式环境下自动执行的应用程序通信中
所涉及的细节。 WSDL的 基本思想 是将网络服务定义为能够
进行消息交换的通信端点的集合,进而对这些服务在通信中
所涉及的细节进行结构化的描述。
? 通用描述、查找和集成协议
UDDI规范定义了一个发布和查找 Web Services信息的方
法。该规范 提供 了一套注册和定位 Web服务的方法,定义了
一个商业注册中心,以便企业能够描述和注册它们的 Web服
务,还能发现其它企业提供的 Web服务并与之集成。