浙江大学：数据挖掘：1、序论

分类：计算机格式：ppt 日期：2007年03月15日

数据挖掘
主讲教师：王灿
E-mail,wcan@zju.edu.cn
教科书和参考书
? 教科书
? 数据挖掘：概念与技术,Jiawei Han
和 Micheline Kamber 著，机械工业出
版社 (2001)
? 参考书
? 数据挖掘原理,David Hand,Heikki
Mannila和 Padhraic Smyth著，机械工
业出版社 (2003)
中文版英文影
印版
数据挖掘的发展动力
---需要是发明之母
? 数据爆炸问题
? 自动数据收集工具和成熟的数据库技术使得大量的
数据被收集，存储在数据库、数据仓库或其他信息
库中以待分析。
? 我们拥有丰富的数据，但却缺乏有用的信息
? 解决方法：数据仓库技术和数据挖掘技术
? 数据仓库 (Data Warehouse)和在线分析处理 (OLAP)
? 数据挖掘：在大量的数据中挖掘感兴趣的知识（规
则，规律，模式，约束）
数据库技术的演化 (1)
? 1960s和以前,
? 文件系统
? 1970s,
? 层次数据库和网状数据库
? 1980s早期,
? 关系数据模型,关系数据库管理系统 (RDBMS)的实
现
数据库技术的演化 (2)
? 1980s晚期,
? 各种高级数据库系统 (扩展的关系数据库,面向对象数据库等
等,)
? 面向应用的数据库系统 (空间数据库，时序数据库，多媒体
数据库等等）
? 1990s,
? 数据挖掘,数据仓库,多媒体数据库和网络数据库
? 2000s
? 流数据管理和挖掘
? 基于各种应用的数据挖掘
? XML数据库和整合的信息系统
什么是数据挖掘？
? 数据挖掘 (从数据中发现知识 )
? 从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、
先前未知的和可能有用的模式或知识
? 挖掘的不仅仅是数据（所以“数据挖掘”并非一个精确的用
词）
? 数据挖掘的替换词
? 数据库中的知识挖掘（ KDD）
? 知识提炼,
? 数据 /模式分析
? 数据考古
? 数据捕捞、信息收获等等。
数据挖掘, 数据库中的知识挖掘 (KDD)
? 数据挖掘 ——知识挖掘
的核心
数据清理
数据集成
数据库
数据仓库
任务相关数据
选择
数据挖掘
模式评估
KDD的步骤
? 从 KDD对数据挖掘的定义中可以看到当前研究
领域对数据挖掘的狭义和广义认识
1,数据清理, (这个可能要占全过程 60％的工作量 )
2,数据集成
3,数据选择
4,数据变换
5,数据挖掘（选择适当的算法来找到感兴趣的模式）
6,模式评估
7,知识表示
典型数据挖掘系统的体系结构
数据仓库
数据清洗过滤
数据库
数据库或数据仓库服务器
数据挖掘引擎
模式评估
图形用户界面
知识库
数据集成
并非所有的东西都是数据挖掘
? 基于数据仓库的 OLAP系统
? OLAP系统专注于数据的汇总，而数据挖掘系统可以对数据
进行多种复杂的处理。
? 机器学习系统，数据统计分析系统
? 这些系统所处理的数据容量往往很有限。
? 信息系统
? 专注于数据的查询处理。
? 相比于上述系统，数据挖掘系统关注更广的范围，是
一个多学科的融合
在何种数据上进行数据挖掘
? 关系数据库
? 数据仓库
? 事务数据库
? 高级数据库系统和信息库
? 空间数据库
? 时间数据库和时间序列数据库
? 流数据
? 多媒体数据库
? 面向对象数据库和对象 -关系数据库
? 异种数据库和历史 (legacy)数据库
? 文本数据库和万维网 (WWW)
空间数据库
? 空间数据库是指在关系型数据库（ DBMS）内部对地
理信息进行物理存储。空间数据库中存储的海量数据
包括对象的空间拓扑特征、非空间属性特征以及对象
在时间上的状态变化。
? 常见的空间数据库数据类型
? 地理信息系统 (GIS)
? 遥感图像数据
? 医学图像数据
? 数据挖掘技术的应用：通过空间分类和空间趋势分析，
引入机器学习算法，对有用模式进行智能检索
时间数据库和时序数据库
? 时间数据库和时序数据库都存放与时间有关的
数据。时间数据库通常存放包含时间相关属性
的数据。时序数据库存放随时间变化的值序列。
? 对时间数据库和时序数据库的数据挖掘,可以
通过研究事物发生发展的过程，有助于揭示事
物发展的本质规律，可以发现数据对象的演变
特征或对象变化趋势。
流数据
? 与传统的数据库技术中的静态数据不同，流数据是连
续的、有序的、变化的、快速的、大量的数据输入的
数据。
? 主要应用场合
? 网络监控
? 网页点击流
? 股票市场
? 流媒体 … 等等
? 与传统数据库技术相比，流数据在存储、查询、访问、
实时性的要求等方面都有很大区别。
多媒体数据库
? 多媒体数据库实现用计算机管理庞大复杂的多
媒体数据，主要包括包括图形 (graphics)、图
象 (image)、声音 (audio)、视频 (video)等等，
现代数据库技术一般将这些多媒体数据以二进
制大对象的形式进行存储。
? 对于多媒体数据库的数据挖掘，需要将存储和
检索技术相结合。目前的主要方法包括构造多
媒体数据立方体、多媒体数据库的多特征提取
和基于相似性的模式匹配。
面向对象数据库和对象 -关系数据库
? 面向对象数据库是面向对象技术和数据库技术结合的
产物，该技术对数据以对象的形式进行存储，并在这
个基础上实现了传统数据库的功能，包括持久性、并
发控制、可恢复性、一致性和查询数据库的能力等。
? 对象－关系数据库基于对象－关系模型构造，该模型
通过处理复杂对象的丰富数据类型和对象定位等功能，
扩充关系模型。
? 面向对象数据库和对象－关系数据库中的数据挖掘会
涉及一些新的技术，比如处理复杂对象结构、复杂数
据类型、类和子类层次结构、构造继承以及方法和过
程等等。
异构数据库和历史 (legacy)数据库
? 历史数据库是一系列的异构数据库系统的集合，包括
不同种类的数据库系统，像关系数据库、网络数据库、
文件系统等等。
? 有效利用历史数据库的关键在于实现不同数据库之间
的数据信息资源、硬件设备资源和人力资源的合并和
共享。
? 对于异构数据库系统，实现数据共享应当达到两点：
一是实现数据库转换；二是实现数据的透明访问。
? WEB SERVICE技术的出现有利于历史数据库数据的重新利
用。
文本数据库和万维网 (WWW)
? 文本数据库存储的是对对象的文字性描述。
? 文本数据库的分类
? 无结构类型（大部分的文本资料和网页）
? 半结构类型（ XML数据）
? 结构类型（图书馆数据）
? 万维网 (WWW)可以被看成最大的文本数据库
? 数据挖掘内容
? 内容检索
? WEB访问模式检索
数据挖掘应用 ——市场分析和管理 (1)
? 数据从那里来?
? 信用卡交易,会员卡,商家的优惠卷,消费者投诉电
话,公众生活方式研究
? 目标市场
? 构建一系列的“客户群模型”，这些顾客具有相同
特征, 兴趣爱好,收入水平,消费习惯,等等
? 确定顾客的购买模式
? 交叉市场分析
? 货物销售之间的相互联系和相关性，以及基于这种
联系上的预测
数据挖掘应用 ——市场分析和管理 (2)
? 顾客分析
? 哪类顾客购买那种商品 (聚类分析或分类预测 )
? 客户需求分析
? 确定适合不同顾客的最佳商品
? 预测何种因素能够吸引新顾客
? 提供概要信息
? 多维度的综合报告
? 统计概要信息 (数据的集中趋势和变化 )
数据挖掘应用 ——公司分析和风险管理
? 财务计划
? 现金流转分析和预测
? 交叉区域分析和时间序列分析（财务资金比率，趋
势分析等等）
? 资源计划
? 总结和比较资源和花费
? 竞争
? 对竞争者和市场趋势的监控
? 将顾客按等级分组和基于等级的定价过程
? 将定价策略应用于竞争更激烈的市场中
数据挖掘应用 ——欺诈行为检测和异常模式
的发现
? 方法, 对欺骗行为进行聚类和建模，并进行孤立点分析
? 应用, 卫生保健、零售业、信用卡服务、电信等
? 汽车保险, 相撞事件的分析
? 洗钱, 发现可疑的货币交易行为
? 医疗保险
? 职业病人,医生以及相关数据分析
? 不必要的或相关的测试
? 电信, 电话呼叫欺骗行为
? 电话呼叫模型, 呼叫目的地，持续时间，日或周呼叫次数, 分析该模型
发现与期待标准的偏差
? 零售产业
? 分析师估计有 38％的零售额下降是由于雇员的不诚实行为造成的
? 反恐怖主义
数据挖掘的主要功能
——可以挖掘哪些模式？
? 一般功能
? 描述性的数据挖掘
? 预测性的数据挖掘
? 通常，用户并不知道在数据中能挖掘出什么东西，对
此我们会在数据挖掘中应用一些常用的数据挖掘功能,挖掘出一些常用的模式，包括,
? 概念 /类描述, 特性化和区分
? 关联分析
? 分类和预测
? 聚类分析
? 孤立点分析
? 趋势和演变分析
概念 /类描述, 特性化和区分
? 概念描述：为数据的特征化和比较产生描述（当所
描述的概念所指的是一类对象时，也称为类描述）
? 特征化：提供给定数据集的简洁汇总。
? 例：对 AllElectronic公司的“大客户”（年消费额 $1000以上）
的特征化描述,40－ 50岁，有固定职业，信誉良好，等等
? 区分：提供两个或多个数据集的比较描述。
? 例,
S t at u s Bi r t h _ co u n t r y A g e _ r an g e G p a Co u n t
G r ad u at e Ca n a d a 2 5 - 3 0 G o o d 90
U n d e r g r ad u a t e Ca n a d a 2 5 - 3 0 G o o d 2 1 0
关联分析
? 关联规则挖掘,
? 从事务数据库，关系数据库和其他信息存储中的大量数据的
项集之间发现有趣的、频繁出现的模式、关联和相关性。
? 广泛的用于购物篮或事务数据分析。
? 例,
%]70%,20[ s u p
)"",(
)"48.,,42",( )"39.,,30",(
??
?
?
c o n fi d e n c ep o r t
c o m p u te rXb u y s
kkXin c o m eXa g e
分类和预测
? 根据训练数据集和类标号属性，构建模型来分类现有数据，并用
来分类新数据（分类），用来预测类型标志未知的对象类（预
测）。
? 比如：按气候将国家分类，按汽油消耗定额将汽车分类
? 导出模型的表示, 判定树、分类规则、神经网络
? 可以用来预报某些未知的或丢失的数字值
? 例,
? IF age =,<=30” AND student =,no” THEN buys_computer =,no”
? IF age =,<=30” AND student =,yes” THEN buys_computer =,yes”
? IF age =,31…40” THEN buys_computer =,yes”
? IF age =,>40” AND credit_rating =,excellent” THEN
buys_computer =,yes”
? IF age =,>40” AND credit_rating =,fair” THEN buys_computer =,no”
聚类分析
? 聚类分析,
? 将物理或抽象对象的集合分组成为由类似的对象组
成的多个类的过程。
? 最大化类内的相似性和最小化类间的相似性
? 例：对 WEB日志的数据进行聚类，以发现相
同的用户访问模式
孤立点分析
? 孤立点分析
? 孤立点,一些与数据的一般行为或模型不一致的孤立数据
? 通常孤立点被作为“噪音”或异常被丢弃，但在欺骗检测中
却可以通过对罕见事件进行孤立点分析而得到结论。
? 应用
? 信用卡欺诈检测
? 移动电话欺诈检测
? 客户划分
? 医疗分析（异常）
趋势和演变分析
? 描述行为随时间变化的对象的发展规律或趋势
（时序数据库）
? 趋势和偏差, 回归分析
? 序列模式匹配：周期性分析
? 基于类似性的分析
所有模式都是有趣的吗？
? 数据挖掘可能产生数以千计的模式或规则，但并不是
所有的模式或规则都是令人感兴趣的。
? 模式兴趣度的度量
? 一个模式是有趣的，如果 (1) 它易于被人理解；（ 2）在某种
程度上，对于新的或测试数据是有效的；（ 3）具有潜在效
用；（ 4）新颖的；（ 5）符合用户确信的某种假设
? 模式兴趣度的客观和主观度量
? 客观度量, 基于所发现模式的结构和关于它们的统计,比如,
支持度、置信度等等
? 主观度量, 基于用户对数据的判断。比如：出乎意料的、新
颖的、可行动的等等
5-6
王灿
数据挖掘
sjwj@dlc.zju.edu.cn
0703004
能够产生所有有趣模式并且仅产生有
趣模式吗？
? 找出所有有趣的模式, 数据挖掘算法的完全性问题
? 数据挖掘系统能够产生所有有趣的模式吗?
? 试探搜索 vs.穷举搜索
? 关联 vs,分类 vs,聚类
? 只搜索有趣的模式, 数据挖掘算法的最优化问题
? 数据挖掘系统可以仅仅发现有趣的模式吗？
? 方法
? 首先生成所有模式然后过滤那些无趣的,
? 仅仅生成有趣的模式 —挖掘查询优化
数据挖掘,多个学科的融合
数据挖掘
数据库系统统计学
其他学科算法
机器学习可视化
数据挖掘系统的分类 (1)
? 数据挖掘的多学科融合的特性，决定了数据挖
掘的研究将产生种类繁多的数据挖掘系统。
? 根据所挖掘的数据库分类
? 关系数据库，事务数据库，流式数据，面向对象数
据库，对象关系数据库，数据仓库，空间数据库，
时序数据库，文本数据库，多媒体数据库，异构数
据库，历史数据库,WWW
数据挖掘系统的分类 (2)
? 根据挖掘的知识类型
? 特征分析,区分,关联分析,分类聚类,孤立点分析 /演变分析,偏
差分析等等,
? 多种方法的集成和多层机挖掘
? 根据挖掘所用的技术
? 面向数据库的挖掘、数据仓库, OLAP、机器学习、统计学、
可视化等等,
? 根据挖掘所用的应用
? 金融,电信,银行,欺诈分析,DNA分析,股票市场,Web挖掘等等,
数据挖掘的主要问题 (1)
? 数据挖掘是多个学科融合，但本课程所关注的
是,海量数据的挖掘的效率和可扩展性
? 本课程中所要涵盖的主要数据挖掘问题包括,
? 挖掘方法问题和用户交互问题
? 在数据库中挖掘不同类型的知识
? 在不同抽象层上的交互式知识挖掘
? 背景知识的合并
? 数据挖掘查询语言和特定的数据挖掘
? 数据挖掘结果的表示和可视化
? 处理噪声何不完全数据
? 模式评估, 兴趣度问题
数据挖掘的主要问题 (2)
? 性能问题
? 数据挖掘算法的效率和可扩展性 (scalability)
? （什么是可扩展性？）
? 并行，分布式和增量挖掘算法
? （数据的分块挖掘）
? 其他和多样化的数据库类型相关的问题
? 关系型和复杂数据类型的处理
? 为特定的数据类型构建特定的数据挖掘系统
? 从异构数据库中挖掘
? WEB数据挖掘

课件简介

课件名称：	浙江大学：数据挖掘
课件分类：	计算机
课件类型：	电子教案
文件大小：	4.47MB
下载次数：	10
评论次数：	6
用户评分：	9

显示更多>>

用户列表

更多用户>>

关于我们|帮助中心|意见反馈|联系我们