崔明义
( mycui369@126.com)
计算机应用技术 2007级研究生
1,数据仓库
2.联机分析处理( OLAP)
3.知识发现和数据挖掘数据仓库和数据挖掘第 11章
数据仓库的定义
– Inmon的经典定义:数据仓库是面向主题的、集成的、非易变的、随时间变化的数据集合,用以支持经营管理中的决策制定过程
数据仓库的特征
– 主题和面向主题
– 数据是集成的
– 数据是非易变的
– 数据随时间变化
1.1 数据仓库的定义、特征和结构
1 数据仓库
从数据库到数据仓库
– 数据库用于事务处理,也叫操作型处理,是指对数据库联机进行日常操作
– 数据仓库用于决策支持,也叫分析型处理
– 传统的数据库支持联机事务处理 (Online Transaction
Processing,OLTP)
– 数据仓库支持联机分析处理( Online Analysis
Processing,OLAP)
1.1 数据仓库的定义、特征和结构
1 数据仓库
操作型数据和分析型数据的区别
1.1 数据仓库的定义、特征和结构
1 数据仓库事务型处理数据 分析型处理数据细节的 综合的,或提炼的在存取瞬间是准确的 代表过去的数据可更新 不可更新,只读的操作需求事先可知道 操作需求事先不知生命周期符合 SDLC 完全不同的生命周期对性能要求高 对性能要求宽松一个时刻操作一个单元 一个时刻操作一组数据事务驱动 分析驱动面向应用 面向分析一次操作数据量小 一次操作数据量大支持日常操作 支持管理需求
1.1 数据仓库的定义、特征和结构
1 数据仓库高度综合数据轻度综合数据早期细节数据备注," "
" "
数据仓库工具层多维分析工具数据挖掘工具前端应用工具最终用户
,表示关系型数据
,表示多维数据数据仓库的一般概念结构元数据当前细节数据数据仓库层数据库其他数据输入清洗回流重新格式化
OLAP
DSS/ EIS
数据挖掘
元数据的定义
– 通常被定义为“关于数据的数据”
– CIESIN的定义:元数据是关于数据和信息资源的描述信息。它们描述、指示或者补充与之相关的信息的内容
– USGS的定义:元数据描述数据的内容、质量、条件和其他特征,元数据帮助人们定位数据和理解数据
– IEEE提出了的一个比较系统的定义:元数据是关于信息实体的语义、结构、存储、管理和使用的信息,
以及实体之间的关系、导出 /派生的信息和历史记录等
1.2 数据仓库的元数据
1 数据仓库
数据仓库中元数据的分类
– 从操作型环境相数据仓库环境转换而建立的元数据,
包括数据字典信息、主题信息、外部和非结构化数据信息及其在数据仓库中的转换规则等
– 为管理数据仓库中的数据而建立的元数据,一方面,
要划分不同的粒度层次,选择分割策略,建立索引。
另一方面,数据仓库中包含着较长时期内的数据,
不同时期不同的需求使得其数据从“形式”到“内容”都可能不同。
– 用来与多维模型 /前端工具之间建立映射的元数据,
也称为 DSS元数据,包括数据的抽取历史、抽取粒度和广义索引等信息。
1.2 数据仓库的元数据
1 数据仓库
数据仓库中元数据的内容
– 数据仓库的主题描述:主题名,主题的公共码键,有关描述信息等。
– 外部数据和非结构化数据的描述:外部数据源名,存储地点,
存储内容简述。
– 记录系统定义:主题名,属性名,数据源系统,源表名,源属性名。
– 逻辑模型的定义:如关系名,属性 1,属性 2,属性 3,…,属性 n
– 数据进入数据仓库的转换规则
– 数据的抽取历史
– 粒度的定义
– 数据分割的定义
– 广义索引:广义索引名,属性 1,属性 2,…,属性 n
– 有关存储路径和结构的描述
1.2 数据仓库的元数据
1 数据仓库
基本概念
– 变量:也称度量,是指数据的实际含义,即描述数据“是什么”,如销售量等
– 维:是人们观察数据的特定角度。通常时间都是一个维,还有地理位置。
– 维层次:维存在细节程度不同的多个描述方面,这些描述方面称作维层次。
– 维成员:维的取值称为该维的一个维成员。
– 多维数组:可表示为(维 1,维 2,…,维 n,变量)
– 数据单元:多维数组的取值称为数据单元
– 多维数据库:以多维方式来组织和显示数据,多维数据库可理解为一个“超立方”块结构
1.3 数据仓库的数据模型
1 数据仓库
标准的电子数据表格是一个二维矩阵
1.3 数据仓库的数据模型
1 数据仓库
(地 区)
(产 品)
P123
P124
P125
P126
。
。
。
REG1 REG2 REG3 。。。
二维矩阵
数据仓库至少包含三个维,上图中加上时间维
1.3 数据仓库的数据模型
1 数据仓库
(地 区)(产品) P123
P124
P125
P126
。
。
。
REG1 REG2
REG3 。。。
数据立方体
QTR1
QTR2
QTR3
QTR4
(财经季度)
数据立方体的旋转
1.3 数据仓库的数据模型
1 数据仓库
(财经季度)(地 区) REG1
REG2
REG3
REG4
。
。
。
QTR1 QTR2
QTR3 QTR4
数据立方体的旋转
P1231
P124
P125
P126
(产品)
向上钻取
1.3 数据仓库的数据模型
1 数据仓库
(地 区)
(产品类别) 产品 1XX
。
。
。
向上钻取操作产品 2XX
产品 3XX
产品 4XX
向下钻取
1.3 数据仓库的数据模型
1 数据仓库地 区 1
P123 样式
A
地 区 2
子地区 1 子地区 3子地区 2 子地区 1
B
C
P124 样式
A
B
C
P125 样式
A
B
C
星型模式,由多个维表和一个事实表组成
1.3 数据仓库的数据模型
1 数据仓库维表
PRODUCT
Prod,No.
Prod,Name.
Prod,Descr.
Prod,Style
Prod,Line
事实表
BUSINESS RESULTS
PRODUCT
QUARTER
REGION
维表
FISCAL QUARTER
QTR
YEAR
BEG DATE
END DATE
REGION
SUBREGION
维表
SALES REVENUE
雪花模 式
1.3 数据仓库的数据模型
1 数据仓库维表
PNAME PRODUCT
Prod,No.
。 Prod,Name
Prod,Descr.
Prod,Style
。 Prod,Line No.
事实表
BUSINESS RESULTS
。 PRODUCT
QUARTER。
REGION 。
维表
FISCAL QUARTER FQ DATES
QTR
YEAR
BEG DATE。
SALES REVENUE
REGION
SUBREGION
Prod,Name.
Prod,Descr.
Prod,Line No.
Prod,Line Name
BEG DATE
END DATE
LINE
事实星座
1.3 数据仓库的数据模型
1 数据仓库事实表 1
BUSINESS RESULTS
PRODUCT 。
QUARTER
REGION
REVENUE
维表
PRODUCT
Prod,No.
Prod,Name.
Prod,Descr.
Prod,Style
Prod,Line
事实表 2
BUSINESS FORECAST
。 PRODUCT
FUTURE QTR
REGION
PROJECTED—
— REVENUE
数据仓库的设计步骤
1.4 数据仓库的设计
1 数据仓库
1.界定系统边界
2.确定主题域逻辑模型设计
4.关系模式定义
3.记录系统定义
1.粒度层次划分
2.数据分割策略物理模型设计
1.确定存储结构
2.确定索引结构
3.确定存放位置
4.确定存储分配技术准备工作
1.技术评估
2.技术环境准备概念模型设计 分析主题域,针 对每一个选定的当前实施的主题域
1.
设计接口
2.
数据装入数据仓库生成数据仓库运行与维护
概念模型设计
– 界定系统边界
要做的决策类型有哪些?
决策者感兴趣的是什么问题
这些问题需要什么样的信息?
要得到这些信息需要包含原有数据库系统的哪些部分的数据
– 确定主要的主题域及其内容
主题域的公共码键
主题域之间的联系
充分代表主题的属性组
– 概念模型设计的成果
决策主题的 ER图
1.4 数据仓库的设计
1 数据仓库商品、供应商和顾客之间的联系
1.4 数据仓库的设计
1 数据仓库供应商顾客商品商品 号供应商号顾客号供应商固有信息 顾客固有信息商品固有信息商品库存信息供应商品信息商品采购信息商品销售信息顾客购物信息日期 日期日期供应商主题顾客主题商品主题注:
技术准备工作
– 技术评估
管理大数据量数据的能力
进行灵活数据存取的能力
根据数据模型重组数据的能力
透明的数据发送和接收能力
周期性的成批装载数据的能力
可设定完成时间的作业管理能力
– 技术环境准备
直接存取设备
网络和操作系统
进出数据仓库的界面(主要是数据查询和分析工具)
管理数据仓库的软件
1.4 数据仓库的设计
1 数据仓库
逻辑模型设计
– 分析主题域,确定当前要装载的主题
– 确定粒度层次划分
– 确定数据分割策略
– 关系模式定义
– 记录系统定义
– 逻辑模型设计的成果是:对每个当前要装载的主题的逻辑实现进行定义,并将相关内容记录在数据仓库的元数据中,将主题数据的关系模式转换为多维表的模式
1.4 数据仓库的设计
1 数据仓库
物理模型设计
– 确定主题数据的存储结构
– 确定索引策略
– 确定数据存放位置
– 确定存储分配
数据仓库的生成
– 接口编程
– 获取与集成数据仓库中的数据,数据装入
数据仓库中的数据从多样的、异种的数据源中抽取
为了保证有效性,输入数据仓库之前数据必须经过清洗
数据必须转换为多维模型
数据必须装载到数据仓库
1.4 数据仓库的设计
1 数据仓库
数据仓库的使用和维护
– 建立 DSS应用,即使用数据仓库
– 理解需求,调整和完善系统,维护数据仓库
– 分布式数据库考虑的问题,比如复制、划分、通信和一致性的考虑,也是分布式数据仓库所考虑的相关问题
1.4 数据仓库的设计
1 数据仓库
OLAP的起源
– 1993年,E.F.Codd认为 OLTP已不能满足终端用户对数据库查询分析的需要,进而提出了 OLAP概念,即多维数据库和多维分析的概念。
OLAP定义 1
– OLAP (Online Analytical Processing)是针对特定问题的联机数据访问和分析。通过对信息 (维数据 )的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。
OLAP定义 2
– OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。 (OLAP委员会的定义 )
OLAP的目标
– 是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此 OLAP也可以说是多维数据分析工具的集合。
2.1 OLAP的定义
2 联机分析处理联机分析处理2
OLAP的数据组织2.2
ROLAP定义
– ROLAP表示基于关系数据库的 OLAP实现 ( Relational
OLAP) 。
– 以关系数据库为核心,以关系型结构进行多维数据的表示和存储 。
– ROLAP将多维数据库的多维结构划分为两类表,
一类是事实表,用来存储数据和维关键字 。
另一类是维表,即对每个维至少使用一个表来存放维的层次,成员类别等维的描述信息 。
维表和事实表通过主关键字和外关键字联系在一起,形成了,星型模式,。 对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为,雪花模式,。
星座模型和雪暴模型:有多个事实表的星型模型和雪花模型
MOLAP定义
– MOLAP 表示基于多维数据组织的 OLAP 实现
( Multidimensional OLAP) 。
– 以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据 。
– 多维数据在存储中将形成,立方块 ( Cube),的结构,
在 MOLAP中对,立方块,的,旋转,,,切块,,
,切片,是产生多维数据报表的主要技术 。
联机分析处理2
OLAP的数据组织2.2
两者之间的对比关系
2.2 OLAP的数据组织
2 联机分析处理数据仓库数据集市维数据变化速度快读写应用超大型数据库行级计算数据仓库的多维视图维交叉计算可变维固定维
ROLAPMOLAP
2.3 OLAP的衡量标准和多维数据分析功能
2 联机分析处理
OLAP的衡量标准
– 准则 1 OLAP模型必须提供多维概念模型
– 准则 2 透明性准则
– 准则 3 存取能力准则
– 准则 4 稳定的报表性能
– 准则 5 客户 /服务器体系结构
– 准则 6 维的等同性准则
– 准则 7 动态稀疏矩阵处理准则
– 准则 8 多用户支持能力准则
– 准则 9 非受限的跨维操作
– 准则 10直观的数据处理
– 准则 11灵活的报表生成
– 准则 12非受限的维与维的层次
2.3 OLAP的衡量标准和多维数据分析功能
2 联机分析处理
OLAP的多维分析功能
– 切片和切块
– 钻取
– 旋转
切片 (Slice)
– 定义 1,在多维数组的某一维上选定一个取值,则多维数组就从 n
维降为 n-1维,我们称多维数组的子集
( 维度 1,维度 2,…,维成员 Vi,…,维度 n,度量 )
为多维数组在维度 i上的切片 ( Vi表示维度 i的维成员 )
– 定义 1中,一次切片一定使原来维数减 1,因此所得切片结果并不一定是二维的,平面,,切片结果维数取决于原来的多维数组的维数 。 这个定义不够通俗,还有另外一个定义
– 定义 2,选定多维数组中两个维:维 i和维 j,在这两个维上取一区间或者任意的维成员,而将其他维都分别取定一个维成员的动作,
称为多维数组在维 i和维 j上的一个切片 。
– 如在“城市、产品、时间”三维立方体中进行切块和切片,可得到各城市( 如上海、广州 )、各产品( 如电视机、电冰箱 )的销售情况。
2.3 OLAP的衡量标准和多维数据分析功能
2 联机分析处理
切块 (Dice)
– 定义 1,将多维数组的某一维上的取值设定为一个区间 ( 如时间维的 1999-2004年 ) 的维成员的动作,称为切块 。 显然,当这一区间只取一个维成员时,即得到一个切片 。
– 定义 2,选定多维数组中三个维:维 i,维 j和维 k,在这三个维上取一区间或者任意的维成员,而将其他维都分别取定一个维成员的动作,称为多维数组在维 i,维 j和维 k上的一个切块 。
– 如在“城市、产品、时间”三维立方体中进行切块和切片,可得到各城市( 如上海、广州 )、各产品( 如电视机、电冰箱 )的销售情况。
2.3 OLAP的衡量标准和多维数据分析功能
2 联机分析处理
2.3 OLAP的衡量标准和多维数据分析功能
2 联机分析处理时间城市产品电视机电冰箱 广州上海
2003 2004
电视机电冰箱广州上海三维数据切片
钻取 (Drill)
– 维度是有级别 ( 层次 ) 的,如时间维可能由年,月,日构成 。
– 维度的层次反映了数据的综合程度 。 层次高,代表数据综合程度高,细节数据少,数据量也少;层次低,代表数据综合度低,细节数据多,数据量大 。
– 钻取包括 向下钻取 ( Drill-down) /下卷 ( Roll-down),向上探取 ( Drill-up) /上卷 ( Roll-up)
– 向下钻取 是从汇总数据深入到细节数据进行观察
– 向上探取 是在某一维上降低层次的数据概括到高层次的汇总数据 。
– 钻取的深度与维所划分的层次相对应 。
2.3 OLAP的衡量标准和多维数据分析功能
2 联机分析处理
2.3 OLAP的衡量标准和多维数据分析功能
2 联机分析处理按时间维向下钻取按时间维向上钻取
60
旋转 (Rotate)
– 旋转是改变维度的位置关系,通过转转可以得到不同视角的数据 。
– 旋转可能交换行和列,也可能是在维度层次之间进行交换 。
时间维产品维行列交换产品维时间维
( a)
时间维产品维地区维时间维地区维产品维旋转以改变页面显示
( b)
2.3 OLAP的衡量标准和多维数据分析功能
2 联机分析处理
2.4 OLAP的多层结构
2 联机分析处理
逻辑结构
– 建立在三层客户 /服务器结构之上基层 DB1
基层 DB2
:
基层 DBn
数据仓库细节数据数据仓库综合数据
OLAP服务器前端软件第三层:企业服务器共享数据存储与基层运行系统的连接第二层:应用服务器共享局部数据共享应用逻辑第一层:客户机最终用户功能,数据显示个人数据存储,个人应用逻辑
2.4 OLAP的多层结构
2 联机分析处理
物理结构
– 多维数据存储和关系数据存储
Data―胖,客户机与
OLAP数据站点数据仓库 带 OLAP服务器和多维数据存储的,胖,客户机
―瘦,客户机带多维数据存储的
OLAP服务和数据站点数据仓库数据存储
DataData
2.4 OLAP的多层结构
2 联机分析处理
物理结构
– 第二种情况的变通方式
Data
―瘦,客户带多维数据存储的数据站点数据仓库
Data
OLAP服务器
知识发现的概念
– Knowledge Discovery in Database,KDD
– 是 20世纪 80年代开始的
– 被认为是从数据中发现有用知识的整个过程
数据挖掘的概念
– Data Mining,DM
– 1995年第一届知识发现和数据挖掘国际会议上提出来的
– 数据挖掘是知识发现的核心工作,主要研究发现知识的各种方法和技术
3.1 知识发现和数据挖掘的概念
3 知识发现和数据挖掘
KDD过程
3.1 知识发现和数据挖掘的概念
3 知识发现和数据挖掘目标数据数据预处理数据转换数据模式知识选择 预处理 转换 数据挖掘 模式评价数据准备 数据挖掘 结果评价
KDD过程
– 数据准备
数据选取
数据预处理
数据转换
– 数据挖掘
确定数据挖掘任务和目的
决定使用什么样的挖掘算法
– 结果的解释和评估
数据挖掘阶段发现出来的模式,可能存在冗余或无关的模式,需要将其剔除
或者模式不满足用户要求,需要回到前面的阶段重新选取数据
3.1 知识发现和数据挖掘的概念
3 知识发现和数据挖掘
举例说明 -零售商事务数据库
– 客户数据包括消费者姓名、邮政编码、电话号码、
购买日期、商品代码、价格、数量和总计
– 从这个数据库可以通过 KDD发现很多知识
– 关联规则:消费者购买视频设备时,可能也会购买另外一个小电器
– 序列模式:消费者购买了照相机,三个月后可能又买了摄影用品,六个月之内又买了一个配件等
– 分类树:对消费者群体可以按照光顾频率、付款方式、消费总额等进行分类
3.2 数据挖掘技术概述
3 知识发现和数据挖掘
数据挖掘的目标
– 预测:指出数据的某些属性在未来表现如何
– 识别:用来识别一件商品、一个事件或一项活动的存在
– 分类:可以划分数据,以使不同的类可以根据参数的结合来识别
– 优化:最优化有限资源的使用,如时间、空间、金钱或物质等
3.2 数据挖掘技术概述
3 知识发现和数据挖掘
数据挖掘中知识发现的类型
– 关联规则:这些规则把一个项目集合的出现与另一个变量集合的值范围相关联
– 类层次:目标是从现存事件或事务的集合中建立一个类层次
– 序列模式:找到动作或事务的序列
– 时间序列中的模式:相似性可以在时间序列的位置中被发现
– 归类和分割:给定的事件或项的集合可以被划分成相似的元素集合
3.2 数据挖掘技术概述
3 知识发现和数据挖掘
关联规则的概念
– 市场购物篮的例子,有以下事务:
事务 id 时间 购买的商品
101 6:35 牛奶、面包、饼干、果汁
792 7:38 牛奶、果汁
1130 8:05 牛奶、鸡蛋
1735 8:40 面包、饼干、咖啡
3.3 关联规则
3 知识发现和数据挖掘
关联规则的概念
– 一个 关联规则 的形式如,X => Y,其中 X={x1,
x2,…,xn},Y={y1,y2,…,ym}是商品项的集合,对于所有的 i与所有的 j,xi与 yj是不同的商品。
– 这个关联表明了如果一个顾客购买了 X,那么他或她也有可能会购买 Y
– 一般来说,任何关联规则都有形如 LHS(左手边)
=> RHS(右手边),这里 LHS和 RHS是商品项的集合。集合 LHS∪ RHS称为 项集 ( itemset),即顾客购买的商品项的集合。
3.3 关联规则
3 知识发现和数据挖掘
关联规则的概念
– 规则 LHS => RHS的 支持度 ( support)与项集相关,
它表示数据库中特定项集的出现频率。也就是说,
支持度是包含项集 LHS∪ RHS中所有项的事务的百分比。如果支持度低,说明没有足够的证据证明
LHS∪ RHS中的项目一起出现,因为这个组合只是所有事务的一小部分。
– 可信度 ( confidence)与规则中表现的含义相关。规则 LHS=> RHS的可信度计算方法是 support
( LHS∪ RHS) /support( LHS),即( LHS∪ RHS)
的支持度 /( LHS)的支持度。可以把它看作是:一名顾客购买 LHS的商品后又购买 RHS的商品的可能性。
3.3 关联规则
3 知识发现和数据挖掘
关联规则的概念
– 挖掘关联规则的目标是产生所有可能的规则,这些规则满足用户指定的可信度与支持度的最小阈值。
可以分成以下两个小问题:
1.生成支持度超过阈值的所有的项集。这些项目的集合称为大项集( large itemsets)。注意这里的大是指支持度大。
2.对于每个大项集,所有达到最小可信度的规则可以按照如下方法产生:对每一个大项集 X和 Y,YX,令 Z= X- Y;
如果 support( X)( X的支持度) / support( Y)( Y的支持度) ﹥ 最小支持度,则规则 Z =>Y(也就是 X- Y =>Y)
是一个有效规则。
3.3 关联规则
3 知识发现和数据挖掘
层次中的关联规则
– 示例
3.3 关联规则
3 知识发现和数据挖掘
(饮料)
(含二氧化碳的)
(可乐) (无色饮料) (混合饮料)
(不含二氧化碳的)
(瓶装果汁) (瓶装水) (冰镇白酒)
(甜点)
(冰淇淋) (烘烤食品) (酸奶)
(雀巢 ) (蒙牛) (卡夫)
(苹果汁) (桔汁) (其他) (普通) (纯净)
层次中的关联规则
– 上页图中给出了超市商品的分类。图中展示了两个层次,饮料与甜点。
– 整个组可能不会产生形如饮料 => 甜点,或者,甜点 => 饮料这样的关联。
– 然而蒙牛牌酸奶 => 瓶装水,或者,雀巢牌冰淇淋
=> 冰镇白酒,之类的关联可能会满足可信度与支持度,成为人们感兴趣的有效关联规则。
3.3 关联规则
3 知识发现和数据挖掘
负向关联
– 发现负向关联( negative association)的问题比发现正向关联( positive assosiation)更加困难。
– 负向关联的形式如,60%购买薯条的顾客不买瓶装水(这里,60%是指负向关联规则的可信度)。
– 为了获得有意义的负向关联规则,必须利用项集的先验知识。一种方法是使用层次结构。假设我们使用下图所示的软饮料与薯条的层次。
3.3 关联规则
3 知识发现和数据挖掘软饮料
JOKE WAKEUP TOPSY
薯条
DAYS NIGHTOS PARTY’OS
负向关联
– 在 51页图中所示的酸奶与瓶装水的分组中,假设在各自的种类中,蒙牛与卡夫之间的比为 80:20,普通和纯净之间的比为 60:40。 就可能给出这样一种情况:
在包含酸奶与瓶装水的交易中,蒙牛与普通一起出现的概率为 48%。 如果发现这个支持度只有 20%,
说明在蒙牛与普通之间有明显的不相关性,这也是一种有意义的发现 。
– 以项的概括层次(也就是上页图中中给出的饮料和甜品的层次)存在的正向关联(如酸奶和瓶装水分组之间)和项的分布(比如相关组之间的商标名称)
的形式给定领域知识,发现负向关联的问题是很重要的。
3.3 关联规则
3 知识发现和数据挖掘
序列模式的发现
时间序列中模式的发现
分类规则的发现
回归
神经网络
遗传算法
聚类和分割
3.4 其他数据挖掘问题
3 知识发现和数据挖掘
市场营销
金融
生产
卫生保健
3.5 数据挖掘的应用
3 知识发现和数据挖掘
3.6 商业数据挖掘工具
3 知识发现和数据挖掘
Microsoft
7.0,OLAP
Win NTOLAP分析,关联,
分类,聚类算法
DBMinerDBMiner
Technology
Inc.
ODBC,
ODMG-
compliant
UNIX综合的,可混合不同类型的数据挖掘算法
Data
Surveyor
Data
Distilleries
ODBCWin NT,MVS,
UNIX
统计分析的优化算法
QueryObjectCrossZ
ODBCWin NT神经网络,机器学习
Business
Miner
Business Objects
ODBCWin NT决策树,统计学Knowledge
Seeker
Angoss
Microsoft
Access
Win NT,UNIX决策树,案例推理
KateAcknosoft
暸 接口 *暸 平台暸 技术暸 产品公司
Oracle,
Sybase,
Informix
UNIX( Irix)决策树,关联规则
MineSetPurple Insight
ODBC,Oracle,
AS/400
UNIX
( Solaris
),Win
NT,
Macintosh
决策树,关联规则,
暸 神经网络,回归,聚类
Enterprise
Miner
SAS
ODBCWin NT关联规则Management
Discovery
Tool( MDT)
NCR
ODBC,Oracle,
DB2
Win NT,OS/2符号知识获取,
暸 进化规划
PolyanalystMegaputer
Intelligence
IBM,DB2UNIX( AIX)分类,关联规则,
暸 预测模型
Intelligent
Miner
IBM
3.6 商业数据挖掘工具
3 知识发现和数据挖掘总 结
数据仓库
联机分析处理( OLAP)
知识发现和数据挖掘
( mycui369@126.com)
计算机应用技术 2007级研究生
1,数据仓库
2.联机分析处理( OLAP)
3.知识发现和数据挖掘数据仓库和数据挖掘第 11章
数据仓库的定义
– Inmon的经典定义:数据仓库是面向主题的、集成的、非易变的、随时间变化的数据集合,用以支持经营管理中的决策制定过程
数据仓库的特征
– 主题和面向主题
– 数据是集成的
– 数据是非易变的
– 数据随时间变化
1.1 数据仓库的定义、特征和结构
1 数据仓库
从数据库到数据仓库
– 数据库用于事务处理,也叫操作型处理,是指对数据库联机进行日常操作
– 数据仓库用于决策支持,也叫分析型处理
– 传统的数据库支持联机事务处理 (Online Transaction
Processing,OLTP)
– 数据仓库支持联机分析处理( Online Analysis
Processing,OLAP)
1.1 数据仓库的定义、特征和结构
1 数据仓库
操作型数据和分析型数据的区别
1.1 数据仓库的定义、特征和结构
1 数据仓库事务型处理数据 分析型处理数据细节的 综合的,或提炼的在存取瞬间是准确的 代表过去的数据可更新 不可更新,只读的操作需求事先可知道 操作需求事先不知生命周期符合 SDLC 完全不同的生命周期对性能要求高 对性能要求宽松一个时刻操作一个单元 一个时刻操作一组数据事务驱动 分析驱动面向应用 面向分析一次操作数据量小 一次操作数据量大支持日常操作 支持管理需求
1.1 数据仓库的定义、特征和结构
1 数据仓库高度综合数据轻度综合数据早期细节数据备注," "
" "
数据仓库工具层多维分析工具数据挖掘工具前端应用工具最终用户
,表示关系型数据
,表示多维数据数据仓库的一般概念结构元数据当前细节数据数据仓库层数据库其他数据输入清洗回流重新格式化
OLAP
DSS/ EIS
数据挖掘
元数据的定义
– 通常被定义为“关于数据的数据”
– CIESIN的定义:元数据是关于数据和信息资源的描述信息。它们描述、指示或者补充与之相关的信息的内容
– USGS的定义:元数据描述数据的内容、质量、条件和其他特征,元数据帮助人们定位数据和理解数据
– IEEE提出了的一个比较系统的定义:元数据是关于信息实体的语义、结构、存储、管理和使用的信息,
以及实体之间的关系、导出 /派生的信息和历史记录等
1.2 数据仓库的元数据
1 数据仓库
数据仓库中元数据的分类
– 从操作型环境相数据仓库环境转换而建立的元数据,
包括数据字典信息、主题信息、外部和非结构化数据信息及其在数据仓库中的转换规则等
– 为管理数据仓库中的数据而建立的元数据,一方面,
要划分不同的粒度层次,选择分割策略,建立索引。
另一方面,数据仓库中包含着较长时期内的数据,
不同时期不同的需求使得其数据从“形式”到“内容”都可能不同。
– 用来与多维模型 /前端工具之间建立映射的元数据,
也称为 DSS元数据,包括数据的抽取历史、抽取粒度和广义索引等信息。
1.2 数据仓库的元数据
1 数据仓库
数据仓库中元数据的内容
– 数据仓库的主题描述:主题名,主题的公共码键,有关描述信息等。
– 外部数据和非结构化数据的描述:外部数据源名,存储地点,
存储内容简述。
– 记录系统定义:主题名,属性名,数据源系统,源表名,源属性名。
– 逻辑模型的定义:如关系名,属性 1,属性 2,属性 3,…,属性 n
– 数据进入数据仓库的转换规则
– 数据的抽取历史
– 粒度的定义
– 数据分割的定义
– 广义索引:广义索引名,属性 1,属性 2,…,属性 n
– 有关存储路径和结构的描述
1.2 数据仓库的元数据
1 数据仓库
基本概念
– 变量:也称度量,是指数据的实际含义,即描述数据“是什么”,如销售量等
– 维:是人们观察数据的特定角度。通常时间都是一个维,还有地理位置。
– 维层次:维存在细节程度不同的多个描述方面,这些描述方面称作维层次。
– 维成员:维的取值称为该维的一个维成员。
– 多维数组:可表示为(维 1,维 2,…,维 n,变量)
– 数据单元:多维数组的取值称为数据单元
– 多维数据库:以多维方式来组织和显示数据,多维数据库可理解为一个“超立方”块结构
1.3 数据仓库的数据模型
1 数据仓库
标准的电子数据表格是一个二维矩阵
1.3 数据仓库的数据模型
1 数据仓库
(地 区)
(产 品)
P123
P124
P125
P126
。
。
。
REG1 REG2 REG3 。。。
二维矩阵
数据仓库至少包含三个维,上图中加上时间维
1.3 数据仓库的数据模型
1 数据仓库
(地 区)(产品) P123
P124
P125
P126
。
。
。
REG1 REG2
REG3 。。。
数据立方体
QTR1
QTR2
QTR3
QTR4
(财经季度)
数据立方体的旋转
1.3 数据仓库的数据模型
1 数据仓库
(财经季度)(地 区) REG1
REG2
REG3
REG4
。
。
。
QTR1 QTR2
QTR3 QTR4
数据立方体的旋转
P1231
P124
P125
P126
(产品)
向上钻取
1.3 数据仓库的数据模型
1 数据仓库
(地 区)
(产品类别) 产品 1XX
。
。
。
向上钻取操作产品 2XX
产品 3XX
产品 4XX
向下钻取
1.3 数据仓库的数据模型
1 数据仓库地 区 1
P123 样式
A
地 区 2
子地区 1 子地区 3子地区 2 子地区 1
B
C
P124 样式
A
B
C
P125 样式
A
B
C
星型模式,由多个维表和一个事实表组成
1.3 数据仓库的数据模型
1 数据仓库维表
PRODUCT
Prod,No.
Prod,Name.
Prod,Descr.
Prod,Style
Prod,Line
事实表
BUSINESS RESULTS
PRODUCT
QUARTER
REGION
维表
FISCAL QUARTER
QTR
YEAR
BEG DATE
END DATE
REGION
SUBREGION
维表
SALES REVENUE
雪花模 式
1.3 数据仓库的数据模型
1 数据仓库维表
PNAME PRODUCT
Prod,No.
。 Prod,Name
Prod,Descr.
Prod,Style
。 Prod,Line No.
事实表
BUSINESS RESULTS
。 PRODUCT
QUARTER。
REGION 。
维表
FISCAL QUARTER FQ DATES
QTR
YEAR
BEG DATE。
SALES REVENUE
REGION
SUBREGION
Prod,Name.
Prod,Descr.
Prod,Line No.
Prod,Line Name
BEG DATE
END DATE
LINE
事实星座
1.3 数据仓库的数据模型
1 数据仓库事实表 1
BUSINESS RESULTS
PRODUCT 。
QUARTER
REGION
REVENUE
维表
PRODUCT
Prod,No.
Prod,Name.
Prod,Descr.
Prod,Style
Prod,Line
事实表 2
BUSINESS FORECAST
。 PRODUCT
FUTURE QTR
REGION
PROJECTED—
— REVENUE
数据仓库的设计步骤
1.4 数据仓库的设计
1 数据仓库
1.界定系统边界
2.确定主题域逻辑模型设计
4.关系模式定义
3.记录系统定义
1.粒度层次划分
2.数据分割策略物理模型设计
1.确定存储结构
2.确定索引结构
3.确定存放位置
4.确定存储分配技术准备工作
1.技术评估
2.技术环境准备概念模型设计 分析主题域,针 对每一个选定的当前实施的主题域
1.
设计接口
2.
数据装入数据仓库生成数据仓库运行与维护
概念模型设计
– 界定系统边界
要做的决策类型有哪些?
决策者感兴趣的是什么问题
这些问题需要什么样的信息?
要得到这些信息需要包含原有数据库系统的哪些部分的数据
– 确定主要的主题域及其内容
主题域的公共码键
主题域之间的联系
充分代表主题的属性组
– 概念模型设计的成果
决策主题的 ER图
1.4 数据仓库的设计
1 数据仓库商品、供应商和顾客之间的联系
1.4 数据仓库的设计
1 数据仓库供应商顾客商品商品 号供应商号顾客号供应商固有信息 顾客固有信息商品固有信息商品库存信息供应商品信息商品采购信息商品销售信息顾客购物信息日期 日期日期供应商主题顾客主题商品主题注:
技术准备工作
– 技术评估
管理大数据量数据的能力
进行灵活数据存取的能力
根据数据模型重组数据的能力
透明的数据发送和接收能力
周期性的成批装载数据的能力
可设定完成时间的作业管理能力
– 技术环境准备
直接存取设备
网络和操作系统
进出数据仓库的界面(主要是数据查询和分析工具)
管理数据仓库的软件
1.4 数据仓库的设计
1 数据仓库
逻辑模型设计
– 分析主题域,确定当前要装载的主题
– 确定粒度层次划分
– 确定数据分割策略
– 关系模式定义
– 记录系统定义
– 逻辑模型设计的成果是:对每个当前要装载的主题的逻辑实现进行定义,并将相关内容记录在数据仓库的元数据中,将主题数据的关系模式转换为多维表的模式
1.4 数据仓库的设计
1 数据仓库
物理模型设计
– 确定主题数据的存储结构
– 确定索引策略
– 确定数据存放位置
– 确定存储分配
数据仓库的生成
– 接口编程
– 获取与集成数据仓库中的数据,数据装入
数据仓库中的数据从多样的、异种的数据源中抽取
为了保证有效性,输入数据仓库之前数据必须经过清洗
数据必须转换为多维模型
数据必须装载到数据仓库
1.4 数据仓库的设计
1 数据仓库
数据仓库的使用和维护
– 建立 DSS应用,即使用数据仓库
– 理解需求,调整和完善系统,维护数据仓库
– 分布式数据库考虑的问题,比如复制、划分、通信和一致性的考虑,也是分布式数据仓库所考虑的相关问题
1.4 数据仓库的设计
1 数据仓库
OLAP的起源
– 1993年,E.F.Codd认为 OLTP已不能满足终端用户对数据库查询分析的需要,进而提出了 OLAP概念,即多维数据库和多维分析的概念。
OLAP定义 1
– OLAP (Online Analytical Processing)是针对特定问题的联机数据访问和分析。通过对信息 (维数据 )的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。
OLAP定义 2
– OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。 (OLAP委员会的定义 )
OLAP的目标
– 是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此 OLAP也可以说是多维数据分析工具的集合。
2.1 OLAP的定义
2 联机分析处理联机分析处理2
OLAP的数据组织2.2
ROLAP定义
– ROLAP表示基于关系数据库的 OLAP实现 ( Relational
OLAP) 。
– 以关系数据库为核心,以关系型结构进行多维数据的表示和存储 。
– ROLAP将多维数据库的多维结构划分为两类表,
一类是事实表,用来存储数据和维关键字 。
另一类是维表,即对每个维至少使用一个表来存放维的层次,成员类别等维的描述信息 。
维表和事实表通过主关键字和外关键字联系在一起,形成了,星型模式,。 对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为,雪花模式,。
星座模型和雪暴模型:有多个事实表的星型模型和雪花模型
MOLAP定义
– MOLAP 表示基于多维数据组织的 OLAP 实现
( Multidimensional OLAP) 。
– 以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据 。
– 多维数据在存储中将形成,立方块 ( Cube),的结构,
在 MOLAP中对,立方块,的,旋转,,,切块,,
,切片,是产生多维数据报表的主要技术 。
联机分析处理2
OLAP的数据组织2.2
两者之间的对比关系
2.2 OLAP的数据组织
2 联机分析处理数据仓库数据集市维数据变化速度快读写应用超大型数据库行级计算数据仓库的多维视图维交叉计算可变维固定维
ROLAPMOLAP
2.3 OLAP的衡量标准和多维数据分析功能
2 联机分析处理
OLAP的衡量标准
– 准则 1 OLAP模型必须提供多维概念模型
– 准则 2 透明性准则
– 准则 3 存取能力准则
– 准则 4 稳定的报表性能
– 准则 5 客户 /服务器体系结构
– 准则 6 维的等同性准则
– 准则 7 动态稀疏矩阵处理准则
– 准则 8 多用户支持能力准则
– 准则 9 非受限的跨维操作
– 准则 10直观的数据处理
– 准则 11灵活的报表生成
– 准则 12非受限的维与维的层次
2.3 OLAP的衡量标准和多维数据分析功能
2 联机分析处理
OLAP的多维分析功能
– 切片和切块
– 钻取
– 旋转
切片 (Slice)
– 定义 1,在多维数组的某一维上选定一个取值,则多维数组就从 n
维降为 n-1维,我们称多维数组的子集
( 维度 1,维度 2,…,维成员 Vi,…,维度 n,度量 )
为多维数组在维度 i上的切片 ( Vi表示维度 i的维成员 )
– 定义 1中,一次切片一定使原来维数减 1,因此所得切片结果并不一定是二维的,平面,,切片结果维数取决于原来的多维数组的维数 。 这个定义不够通俗,还有另外一个定义
– 定义 2,选定多维数组中两个维:维 i和维 j,在这两个维上取一区间或者任意的维成员,而将其他维都分别取定一个维成员的动作,
称为多维数组在维 i和维 j上的一个切片 。
– 如在“城市、产品、时间”三维立方体中进行切块和切片,可得到各城市( 如上海、广州 )、各产品( 如电视机、电冰箱 )的销售情况。
2.3 OLAP的衡量标准和多维数据分析功能
2 联机分析处理
切块 (Dice)
– 定义 1,将多维数组的某一维上的取值设定为一个区间 ( 如时间维的 1999-2004年 ) 的维成员的动作,称为切块 。 显然,当这一区间只取一个维成员时,即得到一个切片 。
– 定义 2,选定多维数组中三个维:维 i,维 j和维 k,在这三个维上取一区间或者任意的维成员,而将其他维都分别取定一个维成员的动作,称为多维数组在维 i,维 j和维 k上的一个切块 。
– 如在“城市、产品、时间”三维立方体中进行切块和切片,可得到各城市( 如上海、广州 )、各产品( 如电视机、电冰箱 )的销售情况。
2.3 OLAP的衡量标准和多维数据分析功能
2 联机分析处理
2.3 OLAP的衡量标准和多维数据分析功能
2 联机分析处理时间城市产品电视机电冰箱 广州上海
2003 2004
电视机电冰箱广州上海三维数据切片
钻取 (Drill)
– 维度是有级别 ( 层次 ) 的,如时间维可能由年,月,日构成 。
– 维度的层次反映了数据的综合程度 。 层次高,代表数据综合程度高,细节数据少,数据量也少;层次低,代表数据综合度低,细节数据多,数据量大 。
– 钻取包括 向下钻取 ( Drill-down) /下卷 ( Roll-down),向上探取 ( Drill-up) /上卷 ( Roll-up)
– 向下钻取 是从汇总数据深入到细节数据进行观察
– 向上探取 是在某一维上降低层次的数据概括到高层次的汇总数据 。
– 钻取的深度与维所划分的层次相对应 。
2.3 OLAP的衡量标准和多维数据分析功能
2 联机分析处理
2.3 OLAP的衡量标准和多维数据分析功能
2 联机分析处理按时间维向下钻取按时间维向上钻取
60
旋转 (Rotate)
– 旋转是改变维度的位置关系,通过转转可以得到不同视角的数据 。
– 旋转可能交换行和列,也可能是在维度层次之间进行交换 。
时间维产品维行列交换产品维时间维
( a)
时间维产品维地区维时间维地区维产品维旋转以改变页面显示
( b)
2.3 OLAP的衡量标准和多维数据分析功能
2 联机分析处理
2.4 OLAP的多层结构
2 联机分析处理
逻辑结构
– 建立在三层客户 /服务器结构之上基层 DB1
基层 DB2
:
基层 DBn
数据仓库细节数据数据仓库综合数据
OLAP服务器前端软件第三层:企业服务器共享数据存储与基层运行系统的连接第二层:应用服务器共享局部数据共享应用逻辑第一层:客户机最终用户功能,数据显示个人数据存储,个人应用逻辑
2.4 OLAP的多层结构
2 联机分析处理
物理结构
– 多维数据存储和关系数据存储
Data―胖,客户机与
OLAP数据站点数据仓库 带 OLAP服务器和多维数据存储的,胖,客户机
―瘦,客户机带多维数据存储的
OLAP服务和数据站点数据仓库数据存储
DataData
2.4 OLAP的多层结构
2 联机分析处理
物理结构
– 第二种情况的变通方式
Data
―瘦,客户带多维数据存储的数据站点数据仓库
Data
OLAP服务器
知识发现的概念
– Knowledge Discovery in Database,KDD
– 是 20世纪 80年代开始的
– 被认为是从数据中发现有用知识的整个过程
数据挖掘的概念
– Data Mining,DM
– 1995年第一届知识发现和数据挖掘国际会议上提出来的
– 数据挖掘是知识发现的核心工作,主要研究发现知识的各种方法和技术
3.1 知识发现和数据挖掘的概念
3 知识发现和数据挖掘
KDD过程
3.1 知识发现和数据挖掘的概念
3 知识发现和数据挖掘目标数据数据预处理数据转换数据模式知识选择 预处理 转换 数据挖掘 模式评价数据准备 数据挖掘 结果评价
KDD过程
– 数据准备
数据选取
数据预处理
数据转换
– 数据挖掘
确定数据挖掘任务和目的
决定使用什么样的挖掘算法
– 结果的解释和评估
数据挖掘阶段发现出来的模式,可能存在冗余或无关的模式,需要将其剔除
或者模式不满足用户要求,需要回到前面的阶段重新选取数据
3.1 知识发现和数据挖掘的概念
3 知识发现和数据挖掘
举例说明 -零售商事务数据库
– 客户数据包括消费者姓名、邮政编码、电话号码、
购买日期、商品代码、价格、数量和总计
– 从这个数据库可以通过 KDD发现很多知识
– 关联规则:消费者购买视频设备时,可能也会购买另外一个小电器
– 序列模式:消费者购买了照相机,三个月后可能又买了摄影用品,六个月之内又买了一个配件等
– 分类树:对消费者群体可以按照光顾频率、付款方式、消费总额等进行分类
3.2 数据挖掘技术概述
3 知识发现和数据挖掘
数据挖掘的目标
– 预测:指出数据的某些属性在未来表现如何
– 识别:用来识别一件商品、一个事件或一项活动的存在
– 分类:可以划分数据,以使不同的类可以根据参数的结合来识别
– 优化:最优化有限资源的使用,如时间、空间、金钱或物质等
3.2 数据挖掘技术概述
3 知识发现和数据挖掘
数据挖掘中知识发现的类型
– 关联规则:这些规则把一个项目集合的出现与另一个变量集合的值范围相关联
– 类层次:目标是从现存事件或事务的集合中建立一个类层次
– 序列模式:找到动作或事务的序列
– 时间序列中的模式:相似性可以在时间序列的位置中被发现
– 归类和分割:给定的事件或项的集合可以被划分成相似的元素集合
3.2 数据挖掘技术概述
3 知识发现和数据挖掘
关联规则的概念
– 市场购物篮的例子,有以下事务:
事务 id 时间 购买的商品
101 6:35 牛奶、面包、饼干、果汁
792 7:38 牛奶、果汁
1130 8:05 牛奶、鸡蛋
1735 8:40 面包、饼干、咖啡
3.3 关联规则
3 知识发现和数据挖掘
关联规则的概念
– 一个 关联规则 的形式如,X => Y,其中 X={x1,
x2,…,xn},Y={y1,y2,…,ym}是商品项的集合,对于所有的 i与所有的 j,xi与 yj是不同的商品。
– 这个关联表明了如果一个顾客购买了 X,那么他或她也有可能会购买 Y
– 一般来说,任何关联规则都有形如 LHS(左手边)
=> RHS(右手边),这里 LHS和 RHS是商品项的集合。集合 LHS∪ RHS称为 项集 ( itemset),即顾客购买的商品项的集合。
3.3 关联规则
3 知识发现和数据挖掘
关联规则的概念
– 规则 LHS => RHS的 支持度 ( support)与项集相关,
它表示数据库中特定项集的出现频率。也就是说,
支持度是包含项集 LHS∪ RHS中所有项的事务的百分比。如果支持度低,说明没有足够的证据证明
LHS∪ RHS中的项目一起出现,因为这个组合只是所有事务的一小部分。
– 可信度 ( confidence)与规则中表现的含义相关。规则 LHS=> RHS的可信度计算方法是 support
( LHS∪ RHS) /support( LHS),即( LHS∪ RHS)
的支持度 /( LHS)的支持度。可以把它看作是:一名顾客购买 LHS的商品后又购买 RHS的商品的可能性。
3.3 关联规则
3 知识发现和数据挖掘
关联规则的概念
– 挖掘关联规则的目标是产生所有可能的规则,这些规则满足用户指定的可信度与支持度的最小阈值。
可以分成以下两个小问题:
1.生成支持度超过阈值的所有的项集。这些项目的集合称为大项集( large itemsets)。注意这里的大是指支持度大。
2.对于每个大项集,所有达到最小可信度的规则可以按照如下方法产生:对每一个大项集 X和 Y,YX,令 Z= X- Y;
如果 support( X)( X的支持度) / support( Y)( Y的支持度) ﹥ 最小支持度,则规则 Z =>Y(也就是 X- Y =>Y)
是一个有效规则。
3.3 关联规则
3 知识发现和数据挖掘
层次中的关联规则
– 示例
3.3 关联规则
3 知识发现和数据挖掘
(饮料)
(含二氧化碳的)
(可乐) (无色饮料) (混合饮料)
(不含二氧化碳的)
(瓶装果汁) (瓶装水) (冰镇白酒)
(甜点)
(冰淇淋) (烘烤食品) (酸奶)
(雀巢 ) (蒙牛) (卡夫)
(苹果汁) (桔汁) (其他) (普通) (纯净)
层次中的关联规则
– 上页图中给出了超市商品的分类。图中展示了两个层次,饮料与甜点。
– 整个组可能不会产生形如饮料 => 甜点,或者,甜点 => 饮料这样的关联。
– 然而蒙牛牌酸奶 => 瓶装水,或者,雀巢牌冰淇淋
=> 冰镇白酒,之类的关联可能会满足可信度与支持度,成为人们感兴趣的有效关联规则。
3.3 关联规则
3 知识发现和数据挖掘
负向关联
– 发现负向关联( negative association)的问题比发现正向关联( positive assosiation)更加困难。
– 负向关联的形式如,60%购买薯条的顾客不买瓶装水(这里,60%是指负向关联规则的可信度)。
– 为了获得有意义的负向关联规则,必须利用项集的先验知识。一种方法是使用层次结构。假设我们使用下图所示的软饮料与薯条的层次。
3.3 关联规则
3 知识发现和数据挖掘软饮料
JOKE WAKEUP TOPSY
薯条
DAYS NIGHTOS PARTY’OS
负向关联
– 在 51页图中所示的酸奶与瓶装水的分组中,假设在各自的种类中,蒙牛与卡夫之间的比为 80:20,普通和纯净之间的比为 60:40。 就可能给出这样一种情况:
在包含酸奶与瓶装水的交易中,蒙牛与普通一起出现的概率为 48%。 如果发现这个支持度只有 20%,
说明在蒙牛与普通之间有明显的不相关性,这也是一种有意义的发现 。
– 以项的概括层次(也就是上页图中中给出的饮料和甜品的层次)存在的正向关联(如酸奶和瓶装水分组之间)和项的分布(比如相关组之间的商标名称)
的形式给定领域知识,发现负向关联的问题是很重要的。
3.3 关联规则
3 知识发现和数据挖掘
序列模式的发现
时间序列中模式的发现
分类规则的发现
回归
神经网络
遗传算法
聚类和分割
3.4 其他数据挖掘问题
3 知识发现和数据挖掘
市场营销
金融
生产
卫生保健
3.5 数据挖掘的应用
3 知识发现和数据挖掘
3.6 商业数据挖掘工具
3 知识发现和数据挖掘
Microsoft
7.0,OLAP
Win NTOLAP分析,关联,
分类,聚类算法
DBMinerDBMiner
Technology
Inc.
ODBC,
ODMG-
compliant
UNIX综合的,可混合不同类型的数据挖掘算法
Data
Surveyor
Data
Distilleries
ODBCWin NT,MVS,
UNIX
统计分析的优化算法
QueryObjectCrossZ
ODBCWin NT神经网络,机器学习
Business
Miner
Business Objects
ODBCWin NT决策树,统计学Knowledge
Seeker
Angoss
Microsoft
Access
Win NT,UNIX决策树,案例推理
KateAcknosoft
暸 接口 *暸 平台暸 技术暸 产品公司
Oracle,
Sybase,
Informix
UNIX( Irix)决策树,关联规则
MineSetPurple Insight
ODBC,Oracle,
AS/400
UNIX
( Solaris
),Win
NT,
Macintosh
决策树,关联规则,
暸 神经网络,回归,聚类
Enterprise
Miner
SAS
ODBCWin NT关联规则Management
Discovery
Tool( MDT)
NCR
ODBC,Oracle,
DB2
Win NT,OS/2符号知识获取,
暸 进化规划
PolyanalystMegaputer
Intelligence
IBM,DB2UNIX( AIX)分类,关联规则,
暸 预测模型
Intelligent
Miner
IBM
3.6 商业数据挖掘工具
3 知识发现和数据挖掘总 结
数据仓库
联机分析处理( OLAP)
知识发现和数据挖掘