数 据 挖 掘
主讲教师:王灿
E-mail,wcan@zju.edu.cn
教科书和参考书
? 教科书
? 数据挖掘:概念与技术,Jiawei Han
和 Micheline Kamber 著,机械工业出
版社 (2001)
? 参考书
? 数据挖掘原理,David Hand,Heikki
Mannila和 Padhraic Smyth著,机械工
业出版社 (2003)
中文版 英文影
印版
数据挖掘的发展动力
---需要是发明之母
? 数据爆炸问题
? 自动数据收集工具和成熟的数据库技术使得大量的
数据被收集,存储在数据库、数据仓库或其他信息
库中以待分析。
? 我们拥有丰富的数据,但却缺乏有用的信息
? 解决方法:数据仓库技术和数据挖掘技术
? 数据仓库 (Data Warehouse)和在线分析处理 (OLAP)
? 数据挖掘:在大量的数据中挖掘感兴趣的知识(规
则,规律,模式,约束)
数据库技术的演化 (1)
? 1960s和以前,
? 文件系统
? 1970s,
? 层次数据库和网状数据库
? 1980s早期,
? 关系数据模型,关系数据库管理系统 (RDBMS)的实
现
数据库技术的演化 (2)
? 1980s晚期,
? 各种高级数据库系统 (扩展的关系数据库,面向对象数据库等
等,)
? 面向应用的数据库系统 (空间数据库,时序数据库,多媒体
数据库等等)
? 1990s,
? 数据挖掘,数据仓库,多媒体数据库和网络数据库
? 2000s
? 流数据管理和挖掘
? 基于各种应用的数据挖掘
? XML数据库和整合的信息系统
什么是数据挖掘?
? 数据挖掘 (从数据中发现知识 )
? 从 大量的数据 中挖掘哪些令人感兴趣的、有用的、隐含的、
先前未知的和可能有用的模式或知识
? 挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用
词)
? 数据挖掘的替换词
? 数据库中的知识挖掘( KDD)
? 知识提炼,
? 数据 /模式分析
? 数据考古
? 数据捕捞、信息收获等等。
数据挖掘, 数据库中的知识挖掘 (KDD)
? 数据挖掘 ——知识挖掘
的核心
数据清理
数据集成
数据库
数据仓库
任务相关数据
选择
数据挖掘
模式评估
KDD的步骤
? 从 KDD对数据挖掘的定义中可以看到当前研究
领域对数据挖掘的狭义和广义认识
1,数据清理, (这个可能要占全过程 60%的工作量 )
2,数据集成
3,数据选择
4,数据变换
5,数据挖掘(选择适当的算法来找到感兴趣的模式)
6,模式评估
7,知识表示
典型数据挖掘系统的体系结构
数据仓库
数据清洗 过滤
数据库
数据库或数据仓库服务器
数据挖掘引擎
模式评估
图形用户界面
知识库
数据集成
并非所有的东西都是数据挖掘
? 基于数据仓库的 OLAP系统
? OLAP系统专注于数据的汇总,而数据挖掘系统可以对数据
进行多种复杂的处理。
? 机器学习系统,数据统计分析系统
? 这些系统所处理的数据容量往往很有限。
? 信息系统
? 专注于数据的查询处理。
? 相比于上述系统,数据挖掘系统关注更广的范围,是
一个多学科的融合
在何种数据上进行数据挖掘
? 关系数据库
? 数据仓库
? 事务数据库
? 高级数据库系统和信息库
? 空间数据库
? 时间数据库和时间序列数据库
? 流数据
? 多媒体数据库
? 面向对象数据库和对象 -关系数据库
? 异种数据库和历史 (legacy)数据库
? 文本数据库和万维网 (WWW)
空间数据库
? 空间数据库是指在关系型数据库( DBMS)内部对地
理信息进行物理存储。空间数据库中存储的海量数据
包括对象的空间拓扑特征、非空间属性特征以及对象
在时间上的状态变化。
? 常见的空间数据库数据类型
? 地理信息系统 (GIS)
? 遥感图像数据
? 医学图像数据
? 数据挖掘技术的应用:通过空间分类和空间趋势分析,
引入机器学习算法,对有用模式进行智能检索
时间数据库和时序数据库
? 时间数据库和时序数据库都存放与时间有关的
数据。时间数据库通常存放包含时间相关属性
的数据。时序数据库存放随时间变化的值序列。
? 对时间数据库和时序数据库的数据挖掘,可以
通过研究事物发生发展的过程,有助于揭示事
物发展的本质规律,可以发现数据对象的演变
特征或对象变化趋势。
流数据
? 与传统的数据库技术中的静态数据不同,流数据是连
续的、有序的、变化的、快速的、大量的数据输入的
数据。
? 主要应用场合
? 网络监控
? 网页点击流
? 股票市场
? 流媒体 … 等等
? 与传统数据库技术相比,流数据在存储、查询、访问、
实时性的要求等方面都有很大区别。
多媒体数据库
? 多媒体数据库实现用计算机管理庞大复杂的多
媒体数据,主要包括包括图形 (graphics)、图
象 (image)、声音 (audio)、视频 (video)等等,
现代数据库技术一般将这些多媒体数据以二进
制大对象的形式进行存储。
? 对于多媒体数据库的数据挖掘,需要将存储和
检索技术相结合。目前的主要方法包括构造多
媒体数据立方体、多媒体数据库的多特征提取
和基于相似性的模式匹配。
面向对象数据库和对象 -关系数据库
? 面向对象数据库是面向对象技术和数据库技术结合的
产物,该技术对数据以对象的形式进行存储,并在这
个基础上实现了传统数据库的功能,包括持久性、并
发控制、可恢复性、一致性和查询数据库的能力等。
? 对象-关系数据库基于对象-关系模型构造,该模型
通过处理复杂对象的丰富数据类型和对象定位等功能,
扩充关系模型。
? 面向对象数据库和对象-关系数据库中的数据挖掘会
涉及一些新的技术,比如处理复杂对象结构、复杂数
据类型、类和子类层次结构、构造继承以及方法和过
程等等。
异构数据库和历史 (legacy)数据库
? 历史数据库是一系列的异构数据库系统的集合,包括
不同种类的数据库系统,像关系数据库、网络数据库、
文件系统等等。
? 有效利用历史数据库的关键在于实现不同数据库之间
的数据信息资源、硬件设备资源和人力资源的合并和
共享。
? 对于异构数据库系统,实现数据共享应当达到两点:
一是实现数据库转换;二是实现数据的透明访问。
? WEB SERVICE技术的出现有利于历史数据库数据的重新利
用。
文本数据库和万维网 (WWW)
? 文本数据库存储的是对对象的文字性描述。
? 文本数据库的分类
? 无结构类型(大部分的文本资料和网页)
? 半结构类型( XML数据)
? 结构类型(图书馆数据)
? 万维网 (WWW)可以被看成最大的文本数据库
? 数据挖掘内容
? 内容检索
? WEB访问模式检索
数据挖掘应用 ——市场分析和管理 (1)
? 数据从那里来?
? 信用卡交易,会员卡,商家的优惠卷,消费者投诉电
话,公众生活方式研究
? 目标市场
? 构建一系列的“客户群模型”,这些顾客具有相同
特征, 兴趣爱好,收入水平,消费习惯,等等
? 确定顾客的购买模式
? 交叉市场分析
? 货物销售之间的相互联系和相关性,以及基于这种
联系上的预测
数据挖掘应用 ——市场分析和管理 (2)
? 顾客分析
? 哪类顾客购买那种商品 (聚类分析或分类预测 )
? 客户需求分析
? 确定适合不同顾客的最佳商品
? 预测何种因素能够吸引新顾客
? 提供概要信息
? 多维度的综合报告
? 统计概要信息 (数据的集中趋势和变化 )
数据挖掘应用 ——公司分析和风险管理
? 财务计划
? 现金流转分析和预测
? 交叉区域分析和时间序列分析(财务资金比率,趋
势分析等等)
? 资源计划
? 总结和比较资源和花费
? 竞争
? 对竞争者和市场趋势的监控
? 将顾客按等级分组和基于等级的定价过程
? 将定价策略应用于竞争更激烈的市场中
数据挖掘应用 ——欺诈行为检测和异常模式
的发现
? 方法, 对欺骗行为进行聚类和建模,并进行孤立点分析
? 应用, 卫生保健、零售业、信用卡服务、电信等
? 汽车保险, 相撞事件的分析
? 洗钱, 发现可疑的货币交易行为
? 医疗保险
? 职业病人,医生以及相关数据分析
? 不必要的或相关的测试
? 电信, 电话呼叫欺骗行为
? 电话呼叫模型, 呼叫目的地,持续时间,日或周呼叫次数, 分析该模型
发现与期待标准的偏差
? 零售产业
? 分析师估计有 38%的零售额下降是由于雇员的不诚实行为造成的
? 反恐怖主义
数据挖掘的主要功能
——可以挖掘哪些模式?
? 一般功能
? 描述性的数据挖掘
? 预测性的数据挖掘
? 通常,用户并不知道在数据中能挖掘出什么东西,对
此我们会在数据挖掘中应用一些常用的数据挖掘功能,挖掘出一些常用的模式,包括,
? 概念 /类描述, 特性化和区分
? 关联分析
? 分类和预测
? 聚类分析
? 孤立点分析
? 趋势和演变分析
概念 /类描述, 特性化和区分
? 概念描述:为数据的特征化和比较产生描述(当所
描述的概念所指的是一类对象时,也称为类描述)
? 特征化:提供给定数据集的简洁汇总。
? 例:对 AllElectronic公司的“大客户”(年消费额 $1000以上)
的特征化描述,40- 50岁,有固定职业,信誉良好,等等
? 区分:提供两个或多个数据集的比较描述。
? 例,
S t at u s Bi r t h _ co u n t r y A g e _ r an g e G p a Co u n t
G r ad u at e Ca n a d a 2 5 - 3 0 G o o d 90
U n d e r g r ad u a t e Ca n a d a 2 5 - 3 0 G o o d 2 1 0
关联分析
? 关联规则挖掘,
? 从事务数据库,关系数据库和其他信息存储中的大量数据的
项集之间发现有趣的、频繁出现的模式、关联和相关性。
? 广泛的用于购物篮或事务数据分析。
? 例,
%]70%,20[ s u p
)"",(
)"48.,,42",( )"39.,,30",(
??
?
?
c o n fi d e n c ep o r t
c o m p u te rXb u y s
kkXin c o m eXa g e
分类和预测
? 根据训练数据集和类标号属性,构建模型来分类现有数据,并用
来分类新数据(分类),用来预测类型标志未知的对象类(预
测)。
? 比如:按气候将国家分类,按汽油消耗定额将汽车分类
? 导出模型的表示, 判定树、分类规则、神经网络
? 可以用来预报某些未知的或丢失的数字值
? 例,
? IF age =,<=30” AND student =,no” THEN buys_computer =,no”
? IF age =,<=30” AND student =,yes” THEN buys_computer =,yes”
? IF age =,31…40” THEN buys_computer =,yes”
? IF age =,>40” AND credit_rating =,excellent” THEN
buys_computer =,yes”
? IF age =,>40” AND credit_rating =,fair” THEN buys_computer =,no”
聚类分析
? 聚类分析,
? 将物理或抽象对象的集合分组成为由类似的对象组
成的多个类的过程。
? 最大化类内的相似性和最小化类间的相似性
? 例:对 WEB日志的数据进行聚类,以发现相
同的用户访问模式
孤立点分析
? 孤立点分析
? 孤立点,一些与数据的一般行为或模型不一致的孤立数据
? 通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中
却可以通过对罕见事件进行孤立点分析而得到结论。
? 应用
? 信用卡欺诈检测
? 移动电话欺诈检测
? 客户划分
? 医疗分析(异常)
趋势和演变分析
? 描述行为随时间变化的对象的发展规律或趋势
(时序数据库)
? 趋势和偏差, 回归分析
? 序列模式匹配:周期性分析
? 基于类似性的分析
所有模式都是有趣的吗?
? 数据挖掘可能产生数以千计的模式或规则,但并不是
所有的模式或规则都是令人感兴趣的。
? 模式兴趣度的度量
? 一个模式是有趣的,如果 (1) 它易于被人理解 ;( 2)在某种
程度上,对于新的或测试数据是有效的;( 3)具有潜在效
用;( 4)新颖的;( 5)符合用户确信的某种假设
? 模式兴趣度的客观和主观度量
? 客观度量, 基于所发现模式的结构和关于它们的统计,比如,
支持度、置信度等等
? 主观度量, 基于用户对数据的判断。比如:出乎意料的、新
颖的、可行动的等等
5-6
王 灿
数据挖掘
sjwj@dlc.zju.edu.cn
0703004
能够产生所有有趣模式并且仅产生有
趣模式吗?
? 找出所有有趣的模式, 数据挖掘算法的完全性问题
? 数据挖掘系统能够产生所有有趣的模式吗?
? 试探搜索 vs.穷举搜索
? 关联 vs,分类 vs,聚类
? 只搜索有趣的模式, 数据挖掘算法的最优化问题
? 数据挖掘系统可以仅仅发现有趣的模式吗?
? 方法
? 首先生成所有模式然后过滤那些无趣的,
? 仅仅生成有趣的模式 —挖掘查询优化
数据挖掘,多个学科的融合
数据挖掘
数据库系统 统计学
其他学科 算法
机器学习 可视化
数据挖掘系统的分类 (1)
? 数据挖掘的多学科融合的特性,决定了数据挖
掘的研究将产生种类繁多的数据挖掘系统。
? 根据所挖掘的数据库分类
? 关系数据库,事务数据库,流式数据,面向对象数
据库,对象关系数据库,数据仓库,空间数据库,
时序数据库,文本数据库,多媒体数据库,异构数
据库,历史数据库,WWW
数据挖掘系统的分类 (2)
? 根据挖掘的知识类型
? 特征分析,区分,关联分析,分类聚类,孤立点分析 /演变分析,偏
差分析等等,
? 多种方法的集成和多层机挖掘
? 根据挖掘所用的技术
? 面向数据库的挖掘、数据仓库, OLAP、机器学习、统计学、
可视化等等,
? 根据挖掘所用的应用
? 金融,电信,银行,欺诈分析,DNA分析,股票市场,Web挖掘等等,
数据挖掘的主要问题 (1)
? 数据挖掘是多个学科融合,但本课程所关注的
是,海量数据的挖掘的效率和可扩展性
? 本课程中所要涵盖的主要数据挖掘问题包括,
? 挖掘方法问题和用户交互问题
? 在数据库中挖掘不同类型的知识
? 在不同抽象层上的交互式知识挖掘
? 背景知识的合并
? 数据挖掘查询语言和特定的数据挖掘
? 数据挖掘结果的表示和可视化
? 处理噪声何不完全数据
? 模式评估, 兴趣度问题
数据挖掘的主要问题 (2)
? 性能问题
? 数据挖掘算法的效率和可扩展性 (scalability)
? (什么是可扩展性?)
? 并行,分布式和增量挖掘算法
? (数据的分块挖掘)
? 其他和多样化的数据库类型相关的问题
? 关系型和复杂数据类型的处理
? 为特定的数据类型构建特定的数据挖掘系统
? 从异构数据库中挖掘
? WEB数据挖掘
主讲教师:王灿
E-mail,wcan@zju.edu.cn
教科书和参考书
? 教科书
? 数据挖掘:概念与技术,Jiawei Han
和 Micheline Kamber 著,机械工业出
版社 (2001)
? 参考书
? 数据挖掘原理,David Hand,Heikki
Mannila和 Padhraic Smyth著,机械工
业出版社 (2003)
中文版 英文影
印版
数据挖掘的发展动力
---需要是发明之母
? 数据爆炸问题
? 自动数据收集工具和成熟的数据库技术使得大量的
数据被收集,存储在数据库、数据仓库或其他信息
库中以待分析。
? 我们拥有丰富的数据,但却缺乏有用的信息
? 解决方法:数据仓库技术和数据挖掘技术
? 数据仓库 (Data Warehouse)和在线分析处理 (OLAP)
? 数据挖掘:在大量的数据中挖掘感兴趣的知识(规
则,规律,模式,约束)
数据库技术的演化 (1)
? 1960s和以前,
? 文件系统
? 1970s,
? 层次数据库和网状数据库
? 1980s早期,
? 关系数据模型,关系数据库管理系统 (RDBMS)的实
现
数据库技术的演化 (2)
? 1980s晚期,
? 各种高级数据库系统 (扩展的关系数据库,面向对象数据库等
等,)
? 面向应用的数据库系统 (空间数据库,时序数据库,多媒体
数据库等等)
? 1990s,
? 数据挖掘,数据仓库,多媒体数据库和网络数据库
? 2000s
? 流数据管理和挖掘
? 基于各种应用的数据挖掘
? XML数据库和整合的信息系统
什么是数据挖掘?
? 数据挖掘 (从数据中发现知识 )
? 从 大量的数据 中挖掘哪些令人感兴趣的、有用的、隐含的、
先前未知的和可能有用的模式或知识
? 挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用
词)
? 数据挖掘的替换词
? 数据库中的知识挖掘( KDD)
? 知识提炼,
? 数据 /模式分析
? 数据考古
? 数据捕捞、信息收获等等。
数据挖掘, 数据库中的知识挖掘 (KDD)
? 数据挖掘 ——知识挖掘
的核心
数据清理
数据集成
数据库
数据仓库
任务相关数据
选择
数据挖掘
模式评估
KDD的步骤
? 从 KDD对数据挖掘的定义中可以看到当前研究
领域对数据挖掘的狭义和广义认识
1,数据清理, (这个可能要占全过程 60%的工作量 )
2,数据集成
3,数据选择
4,数据变换
5,数据挖掘(选择适当的算法来找到感兴趣的模式)
6,模式评估
7,知识表示
典型数据挖掘系统的体系结构
数据仓库
数据清洗 过滤
数据库
数据库或数据仓库服务器
数据挖掘引擎
模式评估
图形用户界面
知识库
数据集成
并非所有的东西都是数据挖掘
? 基于数据仓库的 OLAP系统
? OLAP系统专注于数据的汇总,而数据挖掘系统可以对数据
进行多种复杂的处理。
? 机器学习系统,数据统计分析系统
? 这些系统所处理的数据容量往往很有限。
? 信息系统
? 专注于数据的查询处理。
? 相比于上述系统,数据挖掘系统关注更广的范围,是
一个多学科的融合
在何种数据上进行数据挖掘
? 关系数据库
? 数据仓库
? 事务数据库
? 高级数据库系统和信息库
? 空间数据库
? 时间数据库和时间序列数据库
? 流数据
? 多媒体数据库
? 面向对象数据库和对象 -关系数据库
? 异种数据库和历史 (legacy)数据库
? 文本数据库和万维网 (WWW)
空间数据库
? 空间数据库是指在关系型数据库( DBMS)内部对地
理信息进行物理存储。空间数据库中存储的海量数据
包括对象的空间拓扑特征、非空间属性特征以及对象
在时间上的状态变化。
? 常见的空间数据库数据类型
? 地理信息系统 (GIS)
? 遥感图像数据
? 医学图像数据
? 数据挖掘技术的应用:通过空间分类和空间趋势分析,
引入机器学习算法,对有用模式进行智能检索
时间数据库和时序数据库
? 时间数据库和时序数据库都存放与时间有关的
数据。时间数据库通常存放包含时间相关属性
的数据。时序数据库存放随时间变化的值序列。
? 对时间数据库和时序数据库的数据挖掘,可以
通过研究事物发生发展的过程,有助于揭示事
物发展的本质规律,可以发现数据对象的演变
特征或对象变化趋势。
流数据
? 与传统的数据库技术中的静态数据不同,流数据是连
续的、有序的、变化的、快速的、大量的数据输入的
数据。
? 主要应用场合
? 网络监控
? 网页点击流
? 股票市场
? 流媒体 … 等等
? 与传统数据库技术相比,流数据在存储、查询、访问、
实时性的要求等方面都有很大区别。
多媒体数据库
? 多媒体数据库实现用计算机管理庞大复杂的多
媒体数据,主要包括包括图形 (graphics)、图
象 (image)、声音 (audio)、视频 (video)等等,
现代数据库技术一般将这些多媒体数据以二进
制大对象的形式进行存储。
? 对于多媒体数据库的数据挖掘,需要将存储和
检索技术相结合。目前的主要方法包括构造多
媒体数据立方体、多媒体数据库的多特征提取
和基于相似性的模式匹配。
面向对象数据库和对象 -关系数据库
? 面向对象数据库是面向对象技术和数据库技术结合的
产物,该技术对数据以对象的形式进行存储,并在这
个基础上实现了传统数据库的功能,包括持久性、并
发控制、可恢复性、一致性和查询数据库的能力等。
? 对象-关系数据库基于对象-关系模型构造,该模型
通过处理复杂对象的丰富数据类型和对象定位等功能,
扩充关系模型。
? 面向对象数据库和对象-关系数据库中的数据挖掘会
涉及一些新的技术,比如处理复杂对象结构、复杂数
据类型、类和子类层次结构、构造继承以及方法和过
程等等。
异构数据库和历史 (legacy)数据库
? 历史数据库是一系列的异构数据库系统的集合,包括
不同种类的数据库系统,像关系数据库、网络数据库、
文件系统等等。
? 有效利用历史数据库的关键在于实现不同数据库之间
的数据信息资源、硬件设备资源和人力资源的合并和
共享。
? 对于异构数据库系统,实现数据共享应当达到两点:
一是实现数据库转换;二是实现数据的透明访问。
? WEB SERVICE技术的出现有利于历史数据库数据的重新利
用。
文本数据库和万维网 (WWW)
? 文本数据库存储的是对对象的文字性描述。
? 文本数据库的分类
? 无结构类型(大部分的文本资料和网页)
? 半结构类型( XML数据)
? 结构类型(图书馆数据)
? 万维网 (WWW)可以被看成最大的文本数据库
? 数据挖掘内容
? 内容检索
? WEB访问模式检索
数据挖掘应用 ——市场分析和管理 (1)
? 数据从那里来?
? 信用卡交易,会员卡,商家的优惠卷,消费者投诉电
话,公众生活方式研究
? 目标市场
? 构建一系列的“客户群模型”,这些顾客具有相同
特征, 兴趣爱好,收入水平,消费习惯,等等
? 确定顾客的购买模式
? 交叉市场分析
? 货物销售之间的相互联系和相关性,以及基于这种
联系上的预测
数据挖掘应用 ——市场分析和管理 (2)
? 顾客分析
? 哪类顾客购买那种商品 (聚类分析或分类预测 )
? 客户需求分析
? 确定适合不同顾客的最佳商品
? 预测何种因素能够吸引新顾客
? 提供概要信息
? 多维度的综合报告
? 统计概要信息 (数据的集中趋势和变化 )
数据挖掘应用 ——公司分析和风险管理
? 财务计划
? 现金流转分析和预测
? 交叉区域分析和时间序列分析(财务资金比率,趋
势分析等等)
? 资源计划
? 总结和比较资源和花费
? 竞争
? 对竞争者和市场趋势的监控
? 将顾客按等级分组和基于等级的定价过程
? 将定价策略应用于竞争更激烈的市场中
数据挖掘应用 ——欺诈行为检测和异常模式
的发现
? 方法, 对欺骗行为进行聚类和建模,并进行孤立点分析
? 应用, 卫生保健、零售业、信用卡服务、电信等
? 汽车保险, 相撞事件的分析
? 洗钱, 发现可疑的货币交易行为
? 医疗保险
? 职业病人,医生以及相关数据分析
? 不必要的或相关的测试
? 电信, 电话呼叫欺骗行为
? 电话呼叫模型, 呼叫目的地,持续时间,日或周呼叫次数, 分析该模型
发现与期待标准的偏差
? 零售产业
? 分析师估计有 38%的零售额下降是由于雇员的不诚实行为造成的
? 反恐怖主义
数据挖掘的主要功能
——可以挖掘哪些模式?
? 一般功能
? 描述性的数据挖掘
? 预测性的数据挖掘
? 通常,用户并不知道在数据中能挖掘出什么东西,对
此我们会在数据挖掘中应用一些常用的数据挖掘功能,挖掘出一些常用的模式,包括,
? 概念 /类描述, 特性化和区分
? 关联分析
? 分类和预测
? 聚类分析
? 孤立点分析
? 趋势和演变分析
概念 /类描述, 特性化和区分
? 概念描述:为数据的特征化和比较产生描述(当所
描述的概念所指的是一类对象时,也称为类描述)
? 特征化:提供给定数据集的简洁汇总。
? 例:对 AllElectronic公司的“大客户”(年消费额 $1000以上)
的特征化描述,40- 50岁,有固定职业,信誉良好,等等
? 区分:提供两个或多个数据集的比较描述。
? 例,
S t at u s Bi r t h _ co u n t r y A g e _ r an g e G p a Co u n t
G r ad u at e Ca n a d a 2 5 - 3 0 G o o d 90
U n d e r g r ad u a t e Ca n a d a 2 5 - 3 0 G o o d 2 1 0
关联分析
? 关联规则挖掘,
? 从事务数据库,关系数据库和其他信息存储中的大量数据的
项集之间发现有趣的、频繁出现的模式、关联和相关性。
? 广泛的用于购物篮或事务数据分析。
? 例,
%]70%,20[ s u p
)"",(
)"48.,,42",( )"39.,,30",(
??
?
?
c o n fi d e n c ep o r t
c o m p u te rXb u y s
kkXin c o m eXa g e
分类和预测
? 根据训练数据集和类标号属性,构建模型来分类现有数据,并用
来分类新数据(分类),用来预测类型标志未知的对象类(预
测)。
? 比如:按气候将国家分类,按汽油消耗定额将汽车分类
? 导出模型的表示, 判定树、分类规则、神经网络
? 可以用来预报某些未知的或丢失的数字值
? 例,
? IF age =,<=30” AND student =,no” THEN buys_computer =,no”
? IF age =,<=30” AND student =,yes” THEN buys_computer =,yes”
? IF age =,31…40” THEN buys_computer =,yes”
? IF age =,>40” AND credit_rating =,excellent” THEN
buys_computer =,yes”
? IF age =,>40” AND credit_rating =,fair” THEN buys_computer =,no”
聚类分析
? 聚类分析,
? 将物理或抽象对象的集合分组成为由类似的对象组
成的多个类的过程。
? 最大化类内的相似性和最小化类间的相似性
? 例:对 WEB日志的数据进行聚类,以发现相
同的用户访问模式
孤立点分析
? 孤立点分析
? 孤立点,一些与数据的一般行为或模型不一致的孤立数据
? 通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中
却可以通过对罕见事件进行孤立点分析而得到结论。
? 应用
? 信用卡欺诈检测
? 移动电话欺诈检测
? 客户划分
? 医疗分析(异常)
趋势和演变分析
? 描述行为随时间变化的对象的发展规律或趋势
(时序数据库)
? 趋势和偏差, 回归分析
? 序列模式匹配:周期性分析
? 基于类似性的分析
所有模式都是有趣的吗?
? 数据挖掘可能产生数以千计的模式或规则,但并不是
所有的模式或规则都是令人感兴趣的。
? 模式兴趣度的度量
? 一个模式是有趣的,如果 (1) 它易于被人理解 ;( 2)在某种
程度上,对于新的或测试数据是有效的;( 3)具有潜在效
用;( 4)新颖的;( 5)符合用户确信的某种假设
? 模式兴趣度的客观和主观度量
? 客观度量, 基于所发现模式的结构和关于它们的统计,比如,
支持度、置信度等等
? 主观度量, 基于用户对数据的判断。比如:出乎意料的、新
颖的、可行动的等等
5-6
王 灿
数据挖掘
sjwj@dlc.zju.edu.cn
0703004
能够产生所有有趣模式并且仅产生有
趣模式吗?
? 找出所有有趣的模式, 数据挖掘算法的完全性问题
? 数据挖掘系统能够产生所有有趣的模式吗?
? 试探搜索 vs.穷举搜索
? 关联 vs,分类 vs,聚类
? 只搜索有趣的模式, 数据挖掘算法的最优化问题
? 数据挖掘系统可以仅仅发现有趣的模式吗?
? 方法
? 首先生成所有模式然后过滤那些无趣的,
? 仅仅生成有趣的模式 —挖掘查询优化
数据挖掘,多个学科的融合
数据挖掘
数据库系统 统计学
其他学科 算法
机器学习 可视化
数据挖掘系统的分类 (1)
? 数据挖掘的多学科融合的特性,决定了数据挖
掘的研究将产生种类繁多的数据挖掘系统。
? 根据所挖掘的数据库分类
? 关系数据库,事务数据库,流式数据,面向对象数
据库,对象关系数据库,数据仓库,空间数据库,
时序数据库,文本数据库,多媒体数据库,异构数
据库,历史数据库,WWW
数据挖掘系统的分类 (2)
? 根据挖掘的知识类型
? 特征分析,区分,关联分析,分类聚类,孤立点分析 /演变分析,偏
差分析等等,
? 多种方法的集成和多层机挖掘
? 根据挖掘所用的技术
? 面向数据库的挖掘、数据仓库, OLAP、机器学习、统计学、
可视化等等,
? 根据挖掘所用的应用
? 金融,电信,银行,欺诈分析,DNA分析,股票市场,Web挖掘等等,
数据挖掘的主要问题 (1)
? 数据挖掘是多个学科融合,但本课程所关注的
是,海量数据的挖掘的效率和可扩展性
? 本课程中所要涵盖的主要数据挖掘问题包括,
? 挖掘方法问题和用户交互问题
? 在数据库中挖掘不同类型的知识
? 在不同抽象层上的交互式知识挖掘
? 背景知识的合并
? 数据挖掘查询语言和特定的数据挖掘
? 数据挖掘结果的表示和可视化
? 处理噪声何不完全数据
? 模式评估, 兴趣度问题
数据挖掘的主要问题 (2)
? 性能问题
? 数据挖掘算法的效率和可扩展性 (scalability)
? (什么是可扩展性?)
? 并行,分布式和增量挖掘算法
? (数据的分块挖掘)
? 其他和多样化的数据库类型相关的问题
? 关系型和复杂数据类型的处理
? 为特定的数据类型构建特定的数据挖掘系统
? 从异构数据库中挖掘
? WEB数据挖掘