1
第六章 数据管理与知识发现
6.1 数据库基础
6.2 数据库与 Web集成的方法
6.3 数据仓库与联机分析处理
6.4 知识发现
2
6.1 数据库基础
? 随着网络技术的发展和 Internet的广泛应
用,数据的任意流动已成为可能,同时
大有泛滥成灾之势,需要强有力的数据
管理技术,因此数据管理技术已经成为
网络信息发展的核心部分,是实现电子
商务的基本技术。
3
6.1 数据库基础
6.1.1 数据管理的基本概念
6.1.2 从文件系统到数据库
6.1.3 数据库管理系统的主要功能
6.1.4 电子商务与数据库发展
4
6.1.1 数据管理的基本概念
? 数据,指对事物、事件、活动、交易等的
基本描述;可被记录、分类和存储,形式
上可以是数字、文字、图形、声音和图象。
? 信息,对接受者有意义和价值的数据,通
过解释可以从中获得结果和提示。
? 知识,对当前问题的体验、经验积累、领
悟和专门见解。
数据是信息的载体,信息是数据的语义解
释,知识需表达成数据进行处理和传播。
5
6.1.1 数据管理的基本概念(续 1)
? 数据管理,指数据的收集、整理、组织、存
储、维护、检索和传送等操作。
? 数据库,指统一管理的相关数据。
? 数据库管理系统,指管理和控制数据库访问
的软件系统。提供数据库的建立、查询、更
新和各种数据控制。可分为层次型、网状型、
关系型、面向对象型。
6
6.1.1 数据管理的基本概念(续 2)
? 数据模型,指描述一类数据、数据之间的关
系,及其对数据的约束的一组完整的概念。
可分为两类:
( 1)独立于计算机的数据模型,不涉及信息
在计算机系统中的表示,只用来描述某个特
定组织所关心的信息结构,如 ER模型;
( 2)直接面向数据库的逻辑结构的数据模型:
涉及计算机系统和数据库管理系统,如层次、
网状、关系、面向对象等模型。
7
6.1.2 从文件系统到数据库
? 文件系统(以超市为例)
销售员
采购员
数据输入
销售文件数据显示 文件处理
数据显示
数据显示
文件
处理 库存文件
销售员
采购员
8
文件系统的方法有以下缺陷:
( 1)数据的分离,造成很难访问到所有的数据;
( 2)数据的冗余,数据在多个文件中重复存放;
( 3)数据与程序的依赖,难以改变文件数据结构;
( 4)文件格式的不一致,文件结构依赖应用程序;
( 5)数据查询方式呆板,通过编写应用程序访问
数据;
9
应用程序和数据库的对应关系
? 数据库
售货员
采购员
售货员
采购员
DBMS
数据输入
查询输入
数据输入
查询输入
DB
10
6.1.3 数据库管理系统的功能
1.数据库的定义功能( DDL)
2.数据库的操纵功能( DML)
3,数据库的保护和控制功能
? 安全性控制
? 完整性控制
? 并发控制
? 恢复控制
? 用户可访问的数据字典
4.数据库的维护功能:初始数据载入、转
换、转储、数据库改组及性能监视分析。
11
6.1.4 电子商务与数据库发展
? 现在数据库技术应用的主流仍是关系型
数据库。
? 电子商务环境对数据库技术又提出了新
的挑战和要求。
12
从管理的内容看
? 电子商务环境的信息种类繁多,格式多
样,包括了文本、图形、图像、声音、
动画等大量多媒体数据,不再只局限于
原来的字符和数据。
? 现在一些数据库厂商正在试图使他们的
产品能够管理包括 Web上的非结构化数
据在内的所有信息。比如 Oracle公司的
Oracle8I就宣称是 Internet数据库,
13
从数据模型看
? 对于多媒体数据、空间数据的管理,采
用对象关系模型。在关系模型的基础上,
引入了对象标识、复杂数据类型、方法、
封装、继承等面向对象概念。
? 以最新的 SQL3标准为例:加入了很多面
向对象特征,
14
从性能方面看
? 电子商务应用是一个 7× 24小时,用户来
自全球各地,业务的扩展和变化很快,
? 因此它要求系统具有高度可靠性,要求
系统的响应速度足够快,系统要有强大的
伸缩性。
? Oracle, DB2,SQL Server等都可以平
衡服务器节点之间的查询负载。
15
6.2 数据库与 Web集成的方法
6.2.1 Web-DBMS体系结构
6.2.2 通过 CGI实现 Web和 DBMS集成
6.2.3 微软的全面数据访问策略
6.2.4 Java与数据库的连接
16
6.2.1 Web-DBMS体系结构
一般的数据库应用包括四部分内容:
? 数据库
? 事务逻辑
? 应用逻辑
? 用户界面
17
传统的客户 /服务器是两层结构
第一层 任务:
客户端 用户界面
主要的商业逻辑和数据处理逻辑
第二层 任务:
数据库服务器 服务端的验证
数据库访问
18
三层结构
第一层 任务:
客户端 用户界面
第二层 任务:
应用服务器 商业逻辑
数据处理逻辑
第三层 任务:
数据库服务器 数据端的验证
数据库访问
Web Browser作
为“瘦”客户
Web Server作为
应用服务器
数据库通过
Web Server访问
19
三层结构可以扩展成多层结构
Web Browser
Web server
Application Server
Database Server
20
6.2.2 通过 CGI实现 Web和 DBMS集成
CGI定义了 CGI程序与 Web Server传递信息的方式,
即将 Web和 DBMS连接的问题转换成 CGI脚本程序
与 DBMS相连的问题。
HTTP over HTTP over
a TCP/IP network a TCP/IP network
DatabaseHTMLDocumentHTMLDocument
Other
data
Sources
Internet
Web Server
Gateway
Web Client
21
6.2.3 微软的全面数据访问策略
? 开放数据库互连( ODBC) 标准
– ODBC技术提供了基于 SQL语言访问异构
SQL数据库的公共界面,使各应用程序能
使用相同的 API访问数据库。
22
开放数据库互连( ODBC)
数据库
Application
Driver Manager
Driver Driver Driver
数据源 数据源 数据源 数据源
23
DAO和 RDO
–数据访问对象( DAO),主要用于访问
Access的底层数据库 —— JET数据库引擎,
将 Access和 Visual C++捆绑在一起;
–远程数据对象( RDO),可使用微软的
Visual FoxPro和 SQL Server等其它数据库
24
OLE DB
–一组数据对象,统称为 OLE DB( 数据
库的对象链接与嵌入)
–OLE DB能访问任何数据源,包括关系
型和非关系型数据。
–OLE DB是一个基于 C++ API的面向对象
说明
? 面向 OLE的应用按对象的方式共享和操
纵数据库。
25
Active Data Objects( ADO)
– ADO是对 ASP( Active Server Pages) 的编
程扩展,用于数据库连接。
– ADO支持以下关键特征:
? 独立创建的对象;
? 支持存储过程;
? 不同的游标类型;
? 批修改;
? 限制返回行的数目;
? 从存储过程或批注句中返回多, 记录集, 。
26
微软的全面数据访问策略
Application
DAO
RDO
ODBC
ADO
OLE DB
SQL Data
SQL Server Oracle
Jet FoxPro Other
o
非 SQL Data
Mail Video File
Other
oText
Graphics
传统数据
27
6.2.4 Java与数据库的连接
? JDBC,从 Java访问 DBMS,与 OBBC类似,它
定义了数据访问的 API,支持基本的 SQL功能,
并可访问各种关系型 DBMS产品。
? JDBC driver访问数据库的四类选择:
( 1)用纯 Java JDBC driver直接连接数据库;
( 2)用 纯 Java JDBC driver,借助于 DBMS中间
件 连接数据库;
( 3)用部分 Java JDBC driver,把 JDBC调用转
换成对 DBMS的客户端 API的调用,再由它访
问 DBMS服务器;
( 4)用 Sun公司的 JDBC-ODBC桥,借助于
ODBC driver访问数据库。
28
JDBC
DBMS 服务器 DBMS 服务器 DBMS 服务器 DBMS 服务器
Java applet/
application
JDBC API
JDBC Driver
Manager
纯 Java
JDBC driver
纯 Java
JDBC driver
部分 Java
JDBC driver
JDBC-ODBC
桥 driver
ODBC
DBMS
客户端函数库
DBMS
客户端函数库
DBMS
中间件
29
JSQL
? 由 Oracle,IBM等公司提出。
? 在 Java中静态地嵌入 SQL语句
? JSQL包括一组扩充的子句,使得 Java能
把 SQL构造用于语句和表达式;
? JSQL翻译器将 JSQL字句转换成标准的
Java代码,通过调用层界面访问数据库。
30
JRB
? 由 O2 Technology提出 Java Relational
Binding( JRB);
? 它是连接 Java和关系型 DBMS的中间件
产品;
? 提供 Java对象的持久化方法。
? 通过载入程序( Import Program) 对一
组 Java类创建必要的数据库结构,也为
每个载入类创建方法。程序员用它来开
发应用。
31
6.3 数据仓库与联机分析处理
? 信息技术的广泛应用和电子商务的开展
? 商业竞争的日趋激烈,企业必须重视信息
的策略性价值 ( 支持企业决策分析 )
? 所面对的问题不是简单地处理数据而是
如何使用数据
? 数据库无法达到这一要求 ( 数据库用于
日常数据处理 )
32
6.3.1 数据仓库
– 数据仓库的最终目标是把企业范围内的所
有数据集成在一个大仓库中, 让用户能运
行查询, 产生报告, 执行分析 。
–, 数据仓库之父, Bill Inmon给的定义:
数据仓库就是一个用以更好地支持企业或
组织的决策分析处理的, 面向主题的, 集
成的, 不可更新的, 随时间不断变化的数
据集合 。
33
数据仓库的特征
? 面向主题的,主题是一个在较高层次将数据归类
的标准, 每个主题基本对应一个宏观的分析领域;
? 集成的,允许数据来自于跨组织和部门等不同数
据源;集成的数据必须是一致的, 用户看来是统
一的数据视图;
? 不可更新的,指一旦某个数据进入数据仓库后,
一般情况下将被长期保留 ( 反映历史数据内容 ) ;
? 随时间不断变化,库中的信息系统地记录了企业
从过去某一点到目前的各阶段的信息 。
34
联机事物处理 OLTP系统和数据仓库的比较
OL T P
系统 数据仓库系统
保持当前数据 保持历史数据
存储细节数据 存储细节、轻度综合、高度综合的数据
数据是动态的 数据大体上是静态的
重复处理 即时的、非结构的、启发式的处理
大量事务 少量事务
可预测的使用模式 不可预测的使用模式
事务驱动 分析驱动
面向应用 面向主题
支持日常决策 支持战略决策
服务于大量操作型用户 服务于少数管理用户
35
数据仓库的体系结构
操作型数据源 1 报告查询、应用开发和 EIS 工具
操作型数据源 2 OLAP 工具
n 数据挖掘工具
仓库管理器
元数据 高度综合数据
轻度综合数据
细节数据










操作型数据源 n
36
6.3.2 联机分析处理
? 与数据仓库的比较
? 术语, OLAP”是 E.F.Codd于 93年提出来
? 联机分析处理 ( OLAP) 是对大量多维
数据的动态综合, 分析和归纳 。
? OLAP中的一个主要操作是, 多维分
析, 。, 多维分析, 是建立在多维视图
的基础上 。
37
多维视图
地 北京
理多维数据视图
位 上海 99
置 98 年
广州 97 份
彩电 洗衣机 电冰箱
产 品 类 型
98
97
38
多维分析
对以多维形式组织起来的数据, 采取
切片, 切块, 旋转等各种分析动作, 以
求剖析数据, 使最终用户能从多个角度,
多侧面地观察数据库中的数据 。
39
OLAP体系结构
数据集成、转换
数据过滤
? ? ? ? ? ?
用户图形接口
超级立方体 元数据
数据库 数据仓库
40
6.3.3 典型的数据仓库解决方案
? IBM数据仓库解决方案
? ORACLE数据仓库解决方案
? SAS数据仓库解决方案
? …,..
41
IBM数据仓库解决方案
建立数据仓库包括以下阶段:
? 数据抽取阶段:完成对各种数据源的访问
? 数据转换阶段:完成对数据的清洗, 汇总, 整合
? 数据分布阶段:完成对结果数据存储的分配
通常此三阶段紧密结合在一个产品中体现 。
? 数据仓库的存储:由 DB2家族完成
? 数据的呈现:由不同产品完成不同的分析要求
? 管理和维护数据仓库中的数据:
交给 Visual Warehouse
42
IBM数据仓库解决方案
数据仓库按主题
划分的商务领域
描述性数据 { ·元素·映象·商
务视图 }
操作性数据
外部数据
管理
转换工具
商务视图
商用信息
43
IBM数据仓库解决方案
? 前三个阶段 ( 抽取, 转换, 分布 ),
Visual Warehouse,Data Joiner、
Date Propagator
? 数据仓库的存储由 DB2家族产品来完成
44
IBM数据仓库解决方案
? 数据的呈现:
– Approach可进行查询和统计分析
– IntelligentDecisionServer支持多维分

– IntelligentMiner用于数据挖掘
? 用户查找和理解数据仓库中的数据:
DataGuide
45
ORACLE数据仓库解决方案
ORACLE 数据仓库解决方案是 OracleOLAP 产品。其示意图如下:
OLAP 应用程序
OLAP 工具
OLAP Server
数据源
Oracle
Sales
Analyzer
Oracle
Financial
Analyzer
Oracle
Financial
Controller
第三方
前端工

Oracle
Express
Objects
Oracle
Express
Analyzer
Oracle
Express Web
Agent
Oracle
Discoverer
Oracle Express Server
其他传统的和外
部数据库
关系型数据库
管理系统
46
ORACLE数据仓库解决方案
? Oracle Express Server是一个先进的计算
引擎和数据高速缓存 。
? Oracle 的 OLAP工具主要包括 Oracle
Express Objects,Oracle Express
Analyzer和 Oracle Discoverer。
47
ORACLE数据仓库解决方案
? Oracle Express Web Agent 将 Oracle
Express技术的分析能力和 Web浏览器的
简单性相结合 。
? Oracle Financial Analyzer,Oracle
Financial Controller 和 Oracle Sales
Analyzer是 Oracle针对财务和销售而预制
的 OLAP应用 。
48
6.4 知识发现
? 从现成的已积累的数据中 发掘出未知的
规律和知识, 是人工智能和数据库技术
相结合的产物 。
? 在它的处理过程中, 数据挖掘 ( DM) 处
于核心地位, 因此在实际中, 知识发现
常常被称为数据挖掘, 而并不区分它们 。
49
6.4.1 数据挖掘的概念
? 数据挖掘 ( Data Mining,DM) 是 一种
决策支持过程, 从大量数据库中发现并
提取隐藏在内的合理的, 有效的信息 。
? 帮助企业管理人员 寻找规律, 发现被忽
略的要素, 预测趋势, 进行决策 。
50
数据挖掘的典型应用
? 零售业,识别顾客的购买模式, 在顾客的统计特
征中发现关联, 预测促销活动的反应, 市场分析;
? 银行,侦察欺诈性信用卡使用模式, 识别忠诚的
顾客, 预测要改变信用卡关系的顾客;
? 保险,理赔分析, 预测哪些顾客会买新的险种;
? 医疗,识别出针对不同病例的成功疗法, 通过考
察病人的行为特征预测病人的看病周期 。
51
数据挖掘的一般过程
( 1) 数据准备:建立在数据仓库的基础上
( 2) 数据分析与挖掘:利用神经网络, 基
于规则的系统, 基于实例的推理, 机器
学习, 统计方法等;
( 3) 结果表达与评价:利用可视化工具;
( 4) 结果利用:对结果解释并采取相应的
措施 。
52
数据挖掘工具
– IBM的 Intelligent Miner
– SAS Institute Inc.的 SAS System
– Integral Solutions Ltd的 Clementine
– DataMind Corp的 DataCrusher
– Information discovery Inc,的 Data
Mining Suite
– Right Information Systems的 thought。
53
数据挖掘工具的一般特征
? 数据准备的设施
? 数据挖掘操作(或算法选择)
? 产品的伸缩性和良好的性能
? 结果可视化的设施
54
6.4.2 OLAM( On-Line Analytical
Mining或 OLAP Mining)
? OLAP和 DM技术结合 AOLAM允许在数
据挖掘过程中的用户参与 。
? OLAM用 DM去寻找规律, 启发分析人
员, 再用 OLAP验证此规律 。
55
6.4.3 数据处理的智能代理
? Internet中数据处理的障碍:
– 人们无法清晰地表达对信息的需求
–, 信息过载,
56
6.4.3 数据处理的智能代理
? 智能代理是人工智能技术和信息技术结
合的产物, 指一种先进的人工智能程序,
善于, 面对, 复杂的环境, 能够观察和
模仿人类, 帮助人们获取所需信息, 减
轻人们负担 。
57
6.4.3 数据处理的智能代理
? 在电子商务领域可以有以下应用:
– 对于企业来说, 自动地根据需要进行
信息的监测, 跟踪, 收集和管理 。
– 对于客户来说, 进行性能, 价格的比
较, 帮助客户查找所需的商品 。
– 对于个人来说, 可用智能代理进行 E-
mail和电子新闻的过滤, 整理工作 。
58
6.4.4 E-biz智能代理实例 ---买必得
59
60
61
62
63
64
65