第 13章 SQL Server 的数据仓库设计与使用
13,1 SQL Server 数据仓库开发工具及应用
13,2 SQL Server 数据仓库的创建
13,3 SQL Server 数据仓库访问与操纵
13,4 SQL Server 中的数据提取与加载
13.5 SQL Server 中的数据挖掘工具与应用
13.1 SQL Server 数据仓库开发工具及应用
13.1.1 数据仓库的基本概念
数据仓库是面向主题的,综合的,以时间为变量的,非易变性的数据集合,用来支持管理决策
13.1.2 数据仓库架构
返回目录
13.1.3 SQL Server数据仓库开发工具
SQL Server有许多应用于数据仓库的工具,为数据仓库的设计,创建,分析和应用提供了完整的解决方案 。
1,关系数据库
2,数据转换服务
3,复制
4,分析服务 ( Analysis Services)
分析服务提供联机分析处理 (OLAP) 技术,用以组织大量的数据仓库数据供客户端工具进行快速分析,并提供先进的数据挖掘技术以分析和发现数据仓库数据内的信息 。
5,English Query
English Query 通过用英语进行查询,提供对数据仓库数据的访问 。
6,元数据服务 ( Meta Data Services)
在 SQL Server的多种不同工具中,有许多可将中央知识库的元数据存储在 msdb 系统数据库中。 SQL Server 元数据服务提供用于查看这些元数据的浏览器,并提供用于开发自定义元数据应用程序的应用程序接口。对于每个分析服务器,有一个称作,Analysis Services 知识库,的知识库,以便为分析服务器的对象(多维数据集、维度等)
存储元数据。 返回目录
13.2 SQL Server 数据仓库的创建
进行数据仓库的创建前,首先要根据用户的需求和业务流程对目标数据仓库进行设计 。
13.2.1 数据仓库的设计
Ralph Kimball根据数据仓库设计的一般规律,提出了数据仓库设计的九个步骤:
第一步:选择主题的内容
第二步:确定如何表达事实表
第三步:识别并确认维度
第四步:选择事实
第五步:在事实表中存储事先计算的公式
第六步:修饰维度表
第七步:选择数据库的持续时间
第八步:跟踪变化缓慢的维度
第九步:决定查询优先级别和查询方式
下面根据 Ralph Kimball的思想,阐述数据仓库设计的基本要点。
返回目录
13.2.2 创建数据仓库
一旦完成了数据仓库设计后,就可以在分析服务器上建立一个数据库,该数据库充当着定义了想要创建的数据仓库的对象的逻辑存储空间 。 在 SQL Server上创建数据仓库,主要包括下列重要步骤:
1.建立数据库和数据源,
2.创建维,
3.创建多维数据集,
4.创建虚拟多维数据集 。
返回目录
13.3 SQL Server 数据仓库访问与操纵
13.3.1 多维数据集浏览器
Analysis Manager 提供多维数据集浏览器,使用这个工具可以查看多维数据集中的数据,使您能方便,快捷地访问多维数据集数据 。 多维数据集浏览器使您得以快速地以平面二维网格格式浏览多维数据 。
13.3.2远程连接访问多维数据集
使用该工具使远程客户通过 OFFICE2000的 EXCEL或 ACCESS访问服务器中的多维数据集。在使用之前要求 OFFICE加装 Microsoft
Query工具。
13.3.3 ENGLISH QUERY
English Query以英语作为自然语言用于访问由 SQL Server 分析服务创建的数据仓库数据库或多维数据集中的数据。 English Query
是与 SQL Server集成的工具,需要独立安装。
13.3.4 其它
1,SQL 查询
2,钻取 (drill through)
3,自定义应用程序 返回目录
13.4 SQL Server 中的数据提取与加载
13.4.1数据提取转换层 ( ETL)
数据提取转换层 ( Extraction Transformation Layer,ETL) 是从数据源中提取数据并将其转换到仓库服务器中的过程,主要包括数据提取,转换和加载三部分的内容 。
13.4.2数据提取转换层的应用工具
数据转换服务 ( DTS) 是数据提取转换层工作流的最重要的工具,
它主要包括下列一些重要的应用:
1,作为提取数据源的重要工具
2,作为数据转换的重要工具
3,作为数据加载的重要工具
数据提取转换层的应用工具除了数据转换服务 (DTS)工具外,还有 SQL Server提供的其它工具,例如复制,Transact-SQL和 bcp
实用工具等 。
返回目录
13.5 SQL Server 中的数据挖掘工具与应用
13.5.1 数据挖掘的基本概念
数据挖掘是帮助终端用户从大量数据中提取有用信息的过程 。 数据挖掘的数据源主要是数据仓库和关系数据库 。 数据挖掘是一门交叉学科涉及数据库,人工智能,数理统计等多学科知识 。
数据挖掘常用的分析方法有:决策树,分类分析,聚类分析,神经网络,遗传算法,规则推导,关联分析和时间序列分析等多种方法 。 SQL Server的分析服务提供了建立在数据仓库基础上的数据挖掘应用的接口和常用的数据挖掘技术工具 。
13.5.2 SQL Server的数据挖掘模型
数据挖掘模型是一个虚拟结构,它表示关系或多维数据的分组和预测分析 。
若要确定数据挖掘模型中每个特性的相对重要性,该模型需经历称为挖掘模型培训的过程 。
作为数据挖掘进程的中心,数据挖掘模型算法决定如何分析数据挖掘模型的事例 。
目前,在 SQL Server的分析服务中提供了两类数据挖掘模型,即
Microsoft决策树模型和 Microsoft聚集模型 。 返回目录
13.5.3 决策树分析
决策树算法是基于分类概念的算法构造树,此树将基于培训集中的剩余列预测列值。因此,树中的每个节点代表一列的特定事例。
13.5.4 聚类分析
聚类是按特定的标准将数据归类成组。聚类算法是一种期望方法,它使用迭代完善技术将相似的记录分组到附近区域。
返回目录