2009-8-20 史忠植 高级人工智能 1
第九章 知识发现和数据挖掘数据挖掘工具 MSMiner
史忠植中科院计算所
2009-8-20 史忠植 高级人工智能 2
主要内容
研究背景
MSMiner体系结构
元数据
数据仓库平台
数据采掘集成工具
2009-8-20 史忠植 高级人工智能 3
典型的知识发现系统 (3)
SAS公司的 SAS Enterprise Miner
IBM公司的 Intelligent Miner
Solution公司的 Clementine
DataEngine
DBMiner
中科院计算技术研究所的 MSMiner
2009-8-20 史忠植 高级人工智能 4
知识发现工具 SAS(1)
SAS公司的 SAS Enterprise Miner是一种通用的数据挖掘工具。通过收集分析各种统计资料和客户购买模式,SAS Enterprise Miner可以帮助您发现业务的趋势,解释已知的事实,预测未来的结果,并识别出完成任务所需的关键因素,以实现增加收入、降低成本。
2009-8-20 史忠植 高级人工智能 5
知识发现工具 SAS(2)
SAS Enterprise Miner提供 "抽样 -探索 -转换 -建模 -评估 "(SEMMA)的处理流程。数据挖掘算法有:
·聚类分析,SOM/KOHONEN神经网络分类算法
·关联模式 /序列模式分析
·多元回归模型
·决策树模型 (C45,CHAID,CART)
·神经网络模型 (MLP,RBF)
·SAS/STAT,SAS/ETS等模块提供的统计分析模型和时间序列分析模型也可嵌入其中。
2009-8-20 史忠植 高级人工智能 6
知识发现工具 Intelligent Miner
IBM公司的 Intelligent Miner具有典型数据集自动生成、关联发现、序列规律发现、
概念性分类和可视化显示等功能。它可以自动实现数据选择、数据转换、数据发掘和结果显示。若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为止。
2009-8-20 史忠植 高级人工智能 7
知识发现工具 Clementine
Solution公司的 Clementine 提供了一个可视化的快速建立模型的环境。它由数据获取( Data
Access),探查( Investigate),整理
( Manipulation),建模( Modeling) 和报告
( Reporting) 等部分组成。都使用一些有效、易用的按钮表示,用户只需用鼠标将这些组件连接起来建立一个数据流,可视化的界面使得数据挖掘更加直观交互,从而可以将用户的商业知识在每一步中更好的利用。
2009-8-20 史忠植 高级人工智能 8
数据挖掘工具,公用系统
MLC++
Matlab
Brute
2009-8-20 史忠植 高级人工智能 9
知识发现工具 MSMiner
中科院计算技术研究所智能信息处理开放实验室开发的 MSMiner是一种多策略知识发现平台,能够提供快捷有效的数据挖掘解决方案,提供多种知识发现方法。
MSMiner具有下列特点:
·提出了一种面向对象的元数据结构,
·设计实现了一种简单但有效的数据仓库平台
·提出了一种面向对象的数据挖掘任务模型
·设计了一种可扩展算法库
2009-8-20 史忠植 高级人工智能 10
数据仓库,特征
面向主题
集成性
稳定性
随时间变化
2009-8-20 史忠植 高级人工智能 11
数据仓库,OLAP
MOLAP
ROLAP
2009-8-20 史忠植 高级人工智能 12
数据挖掘和数据仓库的结合
数据仓库为数据挖掘提供经良好处理的数据源
数据挖掘为数据仓库提供深层数据分析手段
2009-8-20 史忠植 高级人工智能 13
MSMiner体系结构设计目标:
提供快捷有效的数据挖掘解决方案。
设计要求:
开放性
可扩展性
效率
易用性
2009-8-20 史忠植 高级人工智能 14
MSMiner体系结构
MSMiner体系结构示意图客户端 服务器端元数据模块执行数据采掘任务编辑数据采掘任务数据采掘集成工具数据抽取和集成主题组织
OLAP 可视化数据仓库管理器数据仓库
OL
EDB
for
OD
BC
2009-8-20 史忠植 高级人工智能 15
元数据的内容
关于外部数据源的
关于内部数据的(包括数据库、表、字段的信息)
关于数据仓库的(包括事实表、维表、立方以及其它的中间表)
关于用户信息的
数据采掘算法 (包括算法的参数信息)
关于采掘任务的(包括采掘步骤、每个步骤的所用的参数)
2009-8-20 史忠植 高级人工智能 16
元数据,元数据库
2009-8-20 史忠植 高级人工智能 17
元数据,元数据对象模型设计思路
一致性
完备性
易维护性
2009-8-20 史忠植 高级人工智能 18
元数据是
层次的
嵌套的
封装的
互相联系的
—— 采用面向对象的方法
60多个类元数据的结构
2009-8-20 史忠植 高级人工智能 19
数据仓库平台,结构
MSMiner数据仓库结构示意图外部数据数据仓库元数据数据抽取、清洗、聚集、转换主题 2主题 1 主题 n
OLAP及可视化工具数据采掘集成工具
...
2009-8-20 史忠植 高级人工智能 20
数据仓库平台,数据抽取和集成
数据的简单抽取和集成
数据的复杂处理
面向数据挖掘的数据预处理
2009-8-20 史忠植 高级人工智能 21
数据抽取和集成,MSETL
MSETL系统作为本实验室数据处理软件系列的一个重要组成部分,主要完成从业务数据源到分析数据源的转换功能。具体包括从异质业务数据源中抽取需要的数据,对这些数据进行多种预处理,把经过处理后的数据装载入指定数据仓库 /数据库
2009-8-20 史忠植 高级人工智能 22
数据抽取和集成,MSETL
用户界面
( ETL转换函数和 ETL任务)逻辑处理元数据管理数据库服务器
2009-8-20 史忠植 高级人工智能 23
数据抽取和集成,MSETL
支持多种数据源和目的数据库
良好的可扩充性
高效率的调度执行功能
增量更新功能
2009-8-20 史忠植 高级人工智能 24
数据抽取和集成,MSETL
2009-8-20 史忠植 高级人工智能 25
数据抽取和集成,MSETL
2009-8-20 史忠植 高级人工智能 26
数据仓库平台,数据仓库建模产品号产品名称产品目录产品表订单号订货日期订货表客户号客户名称客户地址客户表产品号客户号订单号时间标识地区名称产品数量总价事实表时间标识月季度年时间表地区名称省别地区表星型模型
2009-8-20 史忠植 高级人工智能 27
OLAP
MOLAP,ROLAP,HOLAP
OLAP 的操作
Slice
Dice
Roll up
Drill down
Pivot
OLAP方案对小规模数据,ActiveX OCX
对大规模数据,前台工具 + MS OLAP Server
2009-8-20 史忠植 高级人工智能 28
数据立方
2009-8-20 史忠植 高级人工智能 29
OLAP
MOLAP,ROLAP,HOLAP
OLAP 的操作
Slice
Dice
Roll up
Drill down
Pivot
OLAP方案对小规模数据,ActiveX OCX
对大规模数据,前台工具 + MS OLAP Server
2009-8-20 史忠植 高级人工智能 30
数据立方
2009-8-20 史忠植 高级人工智能 31
数据仓库平台,OLAP的实现
2009-8-20 史忠植 高级人工智能 32
元数据的内容
关于外部数据源的
关于内部数据的(包括数据库、表、字段的信息)
关于数据仓库的(包括事实表、维表、立方以及其它的中间表)
关于用户信息的
关于算法(包括算法的参数信息)
关于采掘任务的(包括采掘步骤、每个步骤的所用的参数)
2009-8-20 史忠植 高级人工智能 33
数据挖掘集成工具,结构数据挖掘集成工具结构示意图数据仓库平台任务编辑 任务规划和执行 算法库算法管理元数据任务模型库、算法描述
2009-8-20 史忠植 高级人工智能 34
数据挖掘集成工具,数据挖掘任务模型
Step1 Step2
Step4
Step3
Step5
DMTask = (V,R)
V = {x | x ∈ StepObjects}
R = {<x,y> | P(x,y) ∧ x,y∈ V}
2009-8-20 史忠植 高级人工智能 35
数据挖掘集成工具,数据挖掘任务模型步骤对象 BNF语法定义:
<StepObject>,:= <Attribute_List>;<Method_List>
<Attribute_List>,:=
[<Attribute>|<Attribute>;<Attribute_List>]
<Attribute>,:= <Name>,<Value>
<Method_List>,:= [<Method>|<Method>;<Method_List>]
<Method>,:= <Name>,<Script>
<Name>,:= [<char>|<string>]
<Value>,:= [<char>|<string>|<integer>|<float>]
<Script>,:= <DML_Sentence>*
2009-8-20 史忠植 高级人工智能 36
数据挖掘集成工具,编辑任务模型
任务向导
2009-8-20 史忠植 高级人工智能 37
数据挖掘集成工具,编辑任务模型
任务编辑图板
2009-8-20 史忠植 高级人工智能 38
数据挖掘集成工具,处理任务模型人机界面主控模块规划器 解释器缓存 函数库 黑板任务模型库数据采掘任务处理引擎的结构
2009-8-20 史忠植 高级人工智能 39
数据挖掘集成工具,处理任务模型任务规划和解释执行
S1
S3
S2 S4
S5
S1 - S2 - S3 - S4 - S5
2009-8-20 史忠植 高级人工智能 40
数据挖掘集成工具,DML语言
DML函数
人机交互和控制台输入 /输出
数值计算
字符串处理
图形,图表展示
文件操作
数据库访问
网络通讯
对象访问
消息处理和流程控制
黑板操作
外部功能调用
其它辅助功能
2009-8-20 史忠植 高级人工智能 41
数据挖掘集成工具:内嵌
决策树
SOM神经网络
粗糙集
关联规则
2009-8-20 史忠植 高级人工智能 42
决策树
2009-8-20 史忠植 高级人工智能 43
知识约简
知识约简 —— 在保持知识库的分类或决策能力不变的条件下,删除其中不相关或不重要知识
冗余知识 ——
资源的浪费;干扰人们作出正确而简洁的决策
Rough Set—— 把那些无法确认的个体都归属于边界线区域,而这种边界线区域被定义为上近似集和下近似集之差集 ( Z.Pawlak )
知识约简是粗糙集的核心内容之一
2009-8-20 史忠植 高级人工智能 44
Rough Set约简
2009-8-20 史忠植 高级人工智能 45
数据挖掘集成工具:外联
BP神经网络
统计分析
模糊聚类
超曲面分类
SVM
贝叶斯网络
基于范例推理 (CBR)
隐马尔科夫模型 (HMM)
2009-8-20 史忠植 高级人工智能 46
BP用于预测
2009-8-20 史忠植 高级人工智能 47
统计工具
线性回归模型
—— 一元线性回归、多元线性回归、逐步回归
非线性回归模型 —— 二次曲线、三次曲线、指数曲线、
幂指数曲线、生产函数等模型
确定型时间序列模型 —— 指数平滑法、趋势移动平均法(水平趋势、线性趋势和二次曲线趋势)、成长曲线模型( Compertz曲线,Logistic曲线和修正指数曲线 ),季节指数法
随机型时间序列模型(自回归-移动平均模型 ARMA)
相关分析
2009-8-20 史忠植 高级人工智能 48
自回归动平均 ( ARMA)
2009-8-20 史忠植 高级人工智能 49
模糊聚类
基于传递闭包的模糊聚类
—— 计算模糊相似矩阵的传递闭包,
从而获得传递闭包法的模糊聚类
基于摄动的模糊聚类
—— 参数系?
相似矩阵的最优模糊等价阵及其等价标准型?获得失真最小的模糊聚类
2009-8-20 史忠植 高级人工智能 50
数据挖掘集成工具,可扩展算法库
算法注册
2009-8-20 史忠植 高级人工智能 51
MSMiner的应用,计算机选案决策树选案执行选案选案结果分析定义样本模板训练样本数据选案规则样本数据表数据汇总表税务稽查计算机选案系统功能结构
2009-8-20 史忠植 高级人工智能 52
MSMiner的应用,计算机选案挖掘结果:
2009-8-20 史忠植 高级人工智能 53
进一步的工作
与用户合作开发应用实例
进一步完善工作流
完善和丰富数据挖掘算法库
算法评测功能。
2009-8-20 史忠植 高级人工智能 54
谢 谢
THANK
YOU