浙江大学：数据挖掘：5、概念描述：特征化与比较

分类：计算机格式：ppt 日期：2007年03月15日

概念描述：特征化与比较
两种不同类别的数据挖掘
? 从数据分析的角度看，数据挖掘可以分为描述
性挖掘和预测性挖掘
? 描述性挖掘：以简洁概要的方式描述数据，并提供
数据的有趣的一般性质。
? 预测性数据挖掘：通过分析数据建立一个或一组模
型，并试图预测新数据集的行为。
什么是概念描述？
? 概念描述是一种最简单的描述性挖掘
? 当所描述的概念所指的是一类对象时，也称为类描
述
? 概念指的是一类数据的集合
? e.g,研究生，大客户
? 概念描述是指为数据的特征化和比较产生描述
? 特征化：提供给定数据集的简洁汇总。
? 区分：提供两个或多个数据集的比较描述。
概念描述 VS,OLAP
? 概念描述和数据仓库的联机分析处理（ OLAP）都跟
数据概化密切相关，即以简洁的形式在更一般的抽象
层描述数据，允许数据在抽象层概化，便于考察数据
的一般行为。
? 两者的主要区别,
? 概念描述
? 可以处理复杂数据类型的属性及其聚集
? 一个更加自动化的过程
? OLAP
? 实际使用的 OLAP系统中，维和度量的数据类型都非常有限
（非数值型的维和数值型的数据），表现为一种简单的数据分
析模型
? 一个由用户控制的过程
数据概化
? 数据概化
? 数据库中的数据和对象通常包含原始概念层的细节信息，数
据概化就是将数据库中的跟任务相关的数据集从较低的概念
层抽象到较高的概念层的过程。
? 主要方法,
? 数据立方体（ OLAP使用的方法）
? 面向属性的归纳方法
1
2
3
4
5 概念层
数据概化：数据立方体方法
? 执行计算并将结果存储在数据立方体中
? 优点,
? 数据概化的一种有效实现
? 可以计算各种不同的度量值
? 比如,count(),sum(),average(),max()
? 概化和特征分析通过一系列的数据立方体操作完成，比如上卷、下钻等
? 缺点
? 只能处理非数值类型的维和简单聚集数值类型的度量值（大部分现有商业系统中，只能为非数值类型的维产生概念分层）
? 缺乏智能分析，不能自动确定分析中该使用哪些维，应该概
化到哪个层次
面向属性的归纳
? 一种面向关系数据查询的、基于汇总的在线数据分析
技术。
? 受数据类型和度量类型的约束比较少
? 面向属性归纳的基本思想,
? 使用关系数据库查询收集任务相关的数据
? 通过考察任务相关数据中每个属性的不同值的个数进行概化，
方法是属性删除或者是属性概化
? 通过合并相等的，概化的广义元组，并累计他们对应的计数
值进行聚集操作
? 通过与用户交互，将广义关系以图表或规则等形式，提交给
用户
面向属性的归纳的基本步骤
? 数据聚焦，获得初始工作关系
? 进行面向属性的归纳
? 基本操作是数据概化，对有大量不同值的属性,进
行进一步概化
? 属性删除
? 属性概化
? 属性概化控制：控制概化过程，确定有多少不同的
值才算是有大量不同值的属性
? 属性概化临界值控制
? 概化关系临界值控制
数据聚焦（ 1）
? 目的是获得跟任务相关的数据集，包括属性或维，在
DMQL中他们由 in relevance to子句表示。
? 示例,
? DMQL,描述 Big-University数据库中研究生的一般特征
use Big_University_DB
mine characteristics as,Science_Students”
in relevance to name,gender,major,birth_place,
birth_date,residence,phone#,gpa
from student
where status in,graduate”
数据聚焦（ 2）
? 将数据挖掘查询转换为关系查询
Select name,gender,major,birth_place,
birth_date,residence,phone#,gpa
from student
where status in {“Msc”,“MBA”,“PhD” }
? 数据聚焦时的困难
? 用户在指定相关的数据集方面存在困难，遗漏在描
述中可能起作用的属性
? 用户可能引进太多的属性
数据概化
? 数据概化的两种常用方法：属性删除和属性概
化
? 属性删除的适用规则：对初始工作关系中具有大量
不同值的属性，符合以下情况，应使用属性删除,
? 在此属性上没有概化操作符（比如该属性没有定义相关的
概念分层）
? 该属性的较高层概念用其他属性表示
? 属性概化的使用规则：如果初始工作关系中的某个
属性具有大量不同值，且该属性上存在概化操作符，
则使用该概化操作符对该属性进行数据概化操作
11-12
王灿
数据挖掘
sjwj@dlc.zju.edu.cn
0703004
属性概化控制
? 确定什么是“具有大量的不同值”，控制将属性概化
到多高的抽象层。
? 属性概化控制的两种常用方法,
? 属性概化临界值控制
? 对所有属性设置一个概化临界值或者是对每个属性都设置一个临界值（一般为 2到 8）
? 概化关系临界值控制
? 为概化关系设置一个临界值，确定概化关系中，不同元组的个数的最大值。（通常为 10到 30，应该允许在实际应用中进行调
整）
? 两种技术的顺序使用：使用属性概化临界值控制来概化每个属性，然后使用关系临界值控制进一步压缩概化的关系。
? 相等元组的合并、累计计数和其他聚集值
面向属性的归纳 —— 示例
? 挖掘 Big-University数据库中研究生的一般特征
? name：删除属性
? gender：保留该属性，不概化
? major：根据概念分层向上攀升 {文，理，工 …}
? birth_place：根据概念分层 location向上攀升
? birth_date：概化为 age，再概化为 age_range
? residence：根据概念分层 location向上攀升
? phone#：删除属性
? gpa：根据 GPA的分级作为概念分层
面向属性的归纳 —— 示例
N a m e Gender M a jo r Bi rth-P l a ce Bi rth _ d a te R es i de nce P ho ne # GP A
J i m
Wo o dm a n
M C S V a nco u v e r,B C,
C a na d a
8 -1 2 - 7 6 3 5 1 1 M a i n St.,
R i chm o nd
6 8 7 - 4 5 9 8 3,6 7
Sco tt
La ch a nce
M C S M o ntre a l,Qu e,
C a na d a
2 8 - 7 - 7 5 3 4 5 1 s t A v e.,
R i chm o nd
2 5 3 - 9 1 0 6 3,7 0
La ur a Le e
…
F
…
P hy s i cs
…
S e att le,WA,US A
…
2 5 - 8 - 7 0
…
125 Au stin Ave,,
Bu r n ab y
…
4 2 0 - 5 2 3 2
…
3,8 3
…
Re m oved Re tain e d S c i,E n g,
Bu s
C o untr y A g e ran g e C i ty R em o v ed Ex c l,
V G,..
G en d e r Maj o r Birt h _ re g i o n A g e_ r an g e Res i d e n ce G PA C o u n t
M Scie n ce C an ad a 2 0 - 25 Ric h m o n d V ery - g o o d 1 6
F Scie n ce F o rei g n 2 5 - 30 Bur n a b y E x cel l e n t 2 2
… … … … … … …
主概化关系
初始工作
关系
面向属性的归纳算法
? 输入
? 1,DB; 2,数据挖掘查询 DMQuery; 3,属性列表 ; 4,属性的概念分层 ;
属性的概化临界值；
? 输出
? 主概化关系 P
? 算法描述,
1,W get_task_relevant_data(DMQuery,DB)
2,prepare_for_generalization(W)
1,扫描 W，收集每个属性 a的不同值
2,对每个属性 a，根据临界值确定是否删除，如果不删除，则计算其最小
期望层次 L，并确定映射对 (v,v`)
3,P generalization(W)
? 通过使用 v`代替 W中每个 v，累计计数并计算所有聚集值，导出 P
1,每个概化元组的插入或累积计数
2,用数组表示 P
导出概化的表示 (1)
? 概化关系
? 一部分或者所有属性得到概化的关系，包含计数或其他
度量值的聚集
? 交叉表
? 二维交叉表使用每行显示一个属性，使用每列显示另外
一个属性将结果集映射到表中
? 可视化技巧,
? 条形图、饼图、曲线和数据立方体浏览工具（用单元的大小代
表计数，用单元亮度代表另外的度量）
导出概化的表示 (2)
? 量化规则
? 使用 t_weight表示主概化关系中每个元组的典型性
? 量化特征规则
? 将概化的结果映射到相应的量化特征规则中，比如,
? ?? ni ia qc o u n tqc o u n tw e ig h tt 1 )(/)(_
]:[ )(...]:[ )()(_a r g,mmll wtXc o n d i t i o nwtXc o n d i t i o nXc l a s settX ????
%]45:[ )" "
)((,..%]25:[ )"" )(("" )(,
tA m e r i c a nN o r t h
Xlo c a ti o ntA s iaXlo c a ti o nc o m p u t e rXit e mX
?
?????
量化特征规则中每个条件的析取成为目标类的一个必要条件；亦即，
如果 X在目标类中，则 X满足 conditioni的概率是 wi
特征化过程中的困难
? 特征化过程中的两大困难
? 复杂数据类型的处理
? 缺乏一种自动概化的过程，用户必须告诉系统
? 哪些属性或维应该包括在类特征化中
? 每个维应该概化到多高的程度
为什么进行属性相关分析？
? 数据仓库和 OLAP系统中的多维数据分析缺乏
一个自动概化过程,这使得这个过程中需要有
很多用户干预
? 用户必须告诉系统哪些维或属性应当包含在类分析
中 (难 )
? 属性太少，则造成挖掘的描述结果不正确
? 属性太多，浪费计算、淹没知识
? 告诉系统每个维应当概化到多高的层次（易）
? 直接通过概化的临界值，说明给定维应当达到的概化程度
? 对概化层次不满意，则可以指定需要上卷或下钻的维
解析特征化：属性相关分析
? 属性相关分析
? 通过识别不相关或者是弱相关的属性，将它们排除
在概念描述过程之外，从而确定哪些属性应当包含
在类特征化和类比较中。
? 解析特征化
? 包含属性相关分析的类特征化
? 解析比较
? 包含属性相关分析的类比较
属性相关分析（ 1）
? 通过属性相关性分析，滤掉统计上不相关或弱
相关的属性，保留对手头数据挖掘任务最相关
的属性。
? 对于给定的属性，一个属性或维被认为是高度
相关的，如果该属性或维的值可能用于区分该
类和其他类。
? 比如：区分昂贵汽车和便宜汽车（可选择的属性：
颜色，型号，品牌,..）
属性相关分析（ 2）
? 在同一个维内，对于区分一个类与其他类不同
层的概念可能有很不同的能力
? 比如,birth_date维,day,month与 salary无关，而
year（或将其进一步概化为 birth_decade）则与
salary有关
? 类特征化中的比较类
? 除特征化的数据集外，数据库中可比较的数据集都
作为对比类
? 比如：研究生特征化的例子，对比类为不是研究生的学生
的集合（ e.g.本科生）（可选择的属性：性别、籍贯、专
业、平均成绩、年龄段）
属性相关分析的方法
? 属性相关分析的基本思想是计算某种度量，用
于量化属性与给定类或概念的相关性。
? 可采用的度量包括：信息增益,Gini索引、不确定
性和相关系数。（涉及机器学习、统计、模糊和粗
糙集理论等方面的相关知识）
? 比如：信息增益通过计算一个样本分类的期望信息
和属性的熵来获得一个属性的信息增益,判定该属
性与当前的特征化任务的相关性。
信息增益 (1)
? S是一个训练样本的集合，该样本中每个集合
的类编号已知。每个样本为一个元组。有个属
性用来判定某个训练样本的类编号（类似于学
生记录中的 status属性）
? 假设 S中有 m个类，总共 s个训练样本，每个类
ci有 Si个样本 (i＝ 1,2,3...m)，那么任意一个样
本属于类 Ci的概率是 si / s，那么用来分类一个
给定样本的期望信息是,
s
s
s
ssssI im
i
i
m 2
1
21 lo g),...,,( ?
?
??
信息增益 (2)
? 一个有 v个值的属性 A{a1,a2,...,av}可以将 S分成 v个子
集 {S1,S2,...,Sv}，其中 Sj包含 S中属性 A上的值为 aj的样
本。假设 Sj包含类 Ci的 sij个样本。根据 A的这种划分的
期望信息称为 A的熵
? A上该划分的获得的信息增益定义为,
? 具有高信息增益的属性，是给定集合中具有高区分度的属性。所以可以通过计算 S中样本的每个属性的信
息增益，来得到一个属性的相关性的排序。
),.,,,(...)( 1
1
1
mjj
v
j
mjj ssI
s
ssAE ?
?
???
)(),...,,()( 21 AEsssIAG a i n m ??
概念描述的属性相关分析步骤 (1)
? 数据收集
? 通过查询处理，收集目标类和对比类数据
? 使用保守的 AOI进行预相关分析
? 识别属性和维的集合，它们是所选择的相关性分析度量的应
用对象
? 因为不同的概念层对某个类描述的相关性可能很不同，因此在
这个过程中同时要包含概念分层
? 对有大量不同值的属性进行删除或概化
? 在这一级进行概化时，临界值要相应比较高，以便在后续步
骤的分析中包含更多属性（保守的）
? 产生候选关系
概念描述的属性相关分析步骤 (2)
? 使用选定的相关分析度量删除不相关和弱相关
的属性
? 使用选定的相关分析度量（ e.g.信息增益），评估
候选关系中的每个属性
? 根据所计算的相关性对属性进行排序
? 低于临界值的不相关和弱相关的属性被删除
? 产生初始目标类工作关系（或初始对比类工作关系）
? 使用 AOI产生概念描述
? 使用一组不太保守的属性概化临界值进行 AOI
解析特征化 —— 示例 (1)
? 任务,使用解析特征化挖掘 Big－ University的研
究生的一般特征描述
? 给定
? 属性 name,gender,major,birth_place,birth_date,
phone#和 gpa
? Ui = 属性分析阀值
? Ti = 属性概化阀值
? R = 属性相关阀值
解析特征化 —— 示例 (2)
? 1,数据收集
? 目标类：研究生
? 对比类：本科生
? 2,使用保守的阀值 Ui和 Ti进行 AOI
? 属性删除
? name和 phone#
? 属性概化
? 概化 major,birth_place,birth_date 和 gpa
? 进行累积计数
? 候选关系, gender,major,birth_country,age_range 和 gpa
ge n d e r maj o r b ir t h _c oun t r y age _r a n ge gpa c oun t
M S c i e n c e C a n a d a 2 0 - 2 5 V e r y _ g o o d 16
F S c i e n c e F o r e i g n 2 5 - 3 0 Ex c e l l e n t 22
M En g i n e e r i n g F o r e i g n 2 5 - 3 0 Ex c e l l e n t 18
F S c i e n c e F o r e i g n 2 5 - 3 0 Ex c e l l e n t 25
M S c i e n c e C a n a d a 2 0 - 2 5 Ex c e l l e n t 21
F En g i n e e r i n g C a n a d a 2 0 - 2 5 Ex c e l l e n t 18
目标类候选关系：研究生 (?=120)
ge n d e r m aj o r b irt h _c ou n t r y age_r a n ge gp a c ou n t
M S c i e n c e F o r e i g n <2 0 V e r y _ g o o d 18
F B u s i n e ss C a n a d a <2 0 F a i r 20
M B u s i n e ss C a n a d a <2 0 F a i r 22
F S c i e n c e C a n a d a 2 0 - 2 5 F a i r 24
M En g i n e e r i n g F o r e i g n 2 0 - 2 5 V e r y _ g o o d 22
F En g i n e e r i n g C a n a d a <2 0 Ex c e l l e n t 24
对比类候选关系：本科生 (?=130) (可以在类比较时使用）
解析特征化 —— 示例 (3)
? 3,相关性分析
? 计算给定的样本分类所需要的期望信息
? 计算每个属性的熵, e.g,major
99880250130250130250120250120130120 2221,l o gl o g),I()s,I ( s ?????
F o r m a jo r=, S ci e n ce”, S
11
=8 4 S
21
=4 2 I ( s
11
,s
21
) =0, 9 1 8 3
F o r m a jo r=, En g in eer in g,, S
12
=3 6 S
22
=4 6 I ( s
12
,s
22
) =0, 9 8 9 2
F o r m a jo r=, Bus in ess,, S
13
=0 S
23
=4 2 I ( s
13
,s
23
) =0
Number of grad
students in,Science” Number of undergrad students in,Science”
解析特征化 —— 示例 (4)
? 如果样本根据 major划分，则计算给定的样本进行分
类所需的期望信息,
? 计算该属性的信息增益,
? 所有属性的信息增益
7 8 7 302 5 0422 5 0822 5 01 2 6 231322122111,)s,s(I)s,s(I)s,s(IE ( m a jo r ) ????
2 1 1 5021,E ( m a j o r ))s,I(s)Ga i n ( m a j o r ???
G a i n ( g e n d e r ) = 0, 0 0 0 3
G a i n ( b i r t h _ c o u n t r y ) = 0, 0 4 0 7
G a i n ( maj o r ) = 0, 2 1 1 5
G a i n ( g p a ) = 0, 4 4 9 0
G a i n ( a g e _ r a n g e ) = 0, 5 9 7 1
解析特征化 —— 示例 (5)
? 4,导出初始工作关系
? R = 0.1 （临界值）
? 从候选关系中去处不相关 /弱相关的属性 => 去处 gender,
birth_country
? 因为类描述任务是类特征化，所以这里去处候选对比类关系
? 5,在 W0 上用进行不保守的 AOI
m a jor a g e_ ra ng e g pa co unt
Scien ce 20 - 25 Ver y _ g o o d 16
Scien ce 25 - 30 Excellen t 47
Scien ce 20 - 25 Excellen t 21
Eng in eering 20 - 25 Excellen t 18
Eng in eering 25 - 30 Excellen t 18
初始目标类工作关系 W0,研究生
解析特征化 —— 示例 (6)
挖掘类比较：区分不同的类
? 类比较挖掘的目标是得到将目标类与对比类相区分的
描述。
? 目标类和对比类间必须具有可比性，即两者间要有相似的属
性或维。
? 本科生 VS,研究生； student VS,address
? 很多应用于概念描述的技巧可以应用于类比较，比如
属性概化。
? 属性概化必须在所有比较类上同步进行，将属性概化到同一
抽象层后进行比较。
? City VS country
类比较的过程
? 数据收集
? 通过查询处理收集数据库中相关的数据，并将其划分为一个目标类
和一个或多个对比类
? 维相关分析
? 使用属性相关分析方法，使我们的任务中仅包含强相关的维
? 同步概化
? 同步的在目标类和对比类上进行概化，得到主目标类关系 /方体和
主对比类关系 /方体
? 导出比较的表示
? 用可视化技术表达类比较描述，通常会包含“对比”度量，反映目
标类与对比类间的比较 (e.g count%)
类比较的有效实施
? 目标类和对比类的同步概化，以在相同抽象级
别上进行类比较
? 使用数据立方体技术有效的实施类比较
? 引入一个标志位（数据立方体的一个新维）来表示
目标类或对比类
? 目标类和对比类除了这个新维外，其他部分在数据
立方体中的表示是相同的
? 通过上卷和下钻来同步概化或具体化
类比较挖掘 —— 示例（ 1）
? 任务
? 比较 Big-University本科生和研究生的一般特征
? 任务的 DMQL描述
use Big_University_DB
mine comparison as,grad_vs_undergrad_students”
in relevance to name,gender,major,birth_place,birth_date,residence,phone#,gpa
for,graduate_students”
where status in,graduate”
versus,undergraduate_students”
where status in,undergraduate”
analyze count%
from student
类比较挖掘 —— 示例（ 2）
? 进行类比较挖掘的输入,
? 给定的属性,name,gender,major,birth_place,
birth_date,residence,phone# and gpa
? 在属性 ai上定义的概念分层 Gen(ai)
? 在属性 ai上定义的属性分析临界值 Ui
? 在属性 ai上定义的属性概化临界值 Ti
? 属性相关性临界值 R
类比较挖掘 —— 示例（ 3）
? 任务的处理过程
? 数据收集
? DMQL查询转化为关系查询，得到初始目标类工作关
系和初始对比类工作关系
? 可以看成使构造数据立方体的过程
? 引入一个新维 status来标志目标类和对比类（ graduate,
undergraduate）
? 其他属性形成剩余的维
? 在两个数据类上进行维相关分析
? 根据 Ui与 R，删除不相关或者使弱相关的维,name,
gender,major,phone#
类比较挖掘 —— 示例（ 4）
? 同步概化
? 在目标类和对比类上同步的进行概化，将相关的维概
化到由属性概化临界值 Ti决定的同样的层次，形成主
目标类关系 /方体和主对比类关系 /方体
? 导出比较的表示
? 用表、图或规则等形式表达类比较描述的挖掘结果
? 用户应该能够在主目标类关系 /方体和主对比类关系 /
方体进行进一步的 OLAP操作
类比较挖掘 —— 示例（ 5）
B i r t h _ c o un t r y A g e _ r a ng e Gpa C o un t %
C a n a d a 2 0 - 2 5 G o o d 5, 5 3 %
C a n a d a 2 5 - 3 0 G o o d 2, 3 2 %
C a n a d a O v e r _ 3 0 V e r y _ g o o d 5, 8 6 %
… … … …
O t h e r O v e r _ 3 0 E x c e l l e n t 4, 6 8 %
目标类的主概化关系, 研究生
Bi rt h _ c o u n t r y A g e _ r a n g e G p a C o u n t %
Ca n a d a 1 5 - 2 0 F ai r 5, 5 3 %
Ca n a d a 1 5 - 2 0 G o o d 4, 5 3 %
… … … …
Ca n a d a 2 5 - 3 0 G o o d 5, 0 2 %
… … … …
O t h e r O v e r _ 3 0 Ex ce l l e n t 0, 6 8 %
对比类的主概化关系, 本科生
类比较描述的表示
? 用可视化的方式将类比较描述呈现给用户，有
助于用户对挖掘结果的理解。
? 概化关系
? 交叉图
? 柱状图
? 饼图
? 曲线
? 量化规则
类比较描述的量化区分规则表示（ 1）
? 类比较描述中的目标类和对比类的区分特性也可以
用量化规则来表示，即量化区分规则
? 量化区分规则使用 d-weight作为兴趣度度量（特征化使用
什么作为兴趣度度量？）
? qa－概化元组
? Cj－目标类
? qa的 d-weight是初始目标类工作关系中被 qa覆盖的元组数与
初始目标类和对比类工作关系中被 qa覆盖的总元组数的比
?
?
?
???
m
i
ia
ja
)Cc o u n t ( q
)Cc o u n t ( qw e i g h td
1
类比较描述的量化区分规则表示（ 2）
? 目标类中较高的 d-weight表明概化元组所代表的概念
主要来自于目标类
? 较低的 d-weight值则表明该概念主要来自于对比类
S t at u s Bi r t h _ co u n t r y A g e _ r an g e G p a Co u n t
G r ad u at e Ca n a d a 2 5 - 3 0 G o o d 90
U n d e r g r ad u a t e Ca n a d a 2 5 - 3 0 G o o d 2 1 0
对给定的 status=“Graduate”,Birth_coutry=“Canada”,
Age_range=“25-30”,Gpa=“Good” 概化元组，其 d-
weight=90/(90+210)=30% (什么意思？ )
类比较描述的量化区分规则表示（ 3）
? 使用类比较描述的量化区分规则表示可以更好的描述
上述的情况，其形式为,
? 比如，刚才的挖掘结果可以使用量化区分规则表达如
下,
? 请注意该区分规则表达的是充分条件，即 X满足条件，
则 X为研究生的概率为 30% (特征化量化规则表达的
是什么条件？ )
],[ )()(_a r g,w e i g h tddXc o n d i t i o nXc l a s settX ???
%]30:["")("3025")(_"")(_
)(_,
dg o o dXgpaXr a n g eageC a n a d aXc o u n t r yb i r t h
Xs t u d e n tg r a d u a t eX
??????
??
类描述：特征化和比较的表示
? 类特征化和类比较是形成类描述的两个方面，我们可以通过综合
类特征化规则和类区分规则来形成类描述规则。
? 量化特征化规则
? 必要条件
? 量化区分规则
? 充分条件
? 量化描述规则
? 充要条件
t _ w e i g h t ]:[tX)c o n d i t i o n (s s ( X )t a r g e t _ c l aX,??
d _ w e i g h t ]:[dX)c o n d i t i o n (s s ( X)t a r g e t _ c l aX,??
]w:d,w:[t...]w:d,w:[t nn111 ????
??
( X )c o n d it io n( X )c o n d it io n
s s ( X )ta r g e t_ c l aX,
n
量化描述规则 —— 示例 (1)
L o cat io n /i t em TV Co m p u t er B o t h _i t em s
C ou n t t - wt d - wt C ou n t t - wt d - wt C ou n t t - wt d - wt
E u ro p e 80 25% 40% 240 75% 30% 320 100% 32%
N_Am 120 17, 65 % 60% 560 82, 35 % 70% 680 100% 68%
B o t h _
re gi o n s
200 20% 100% 800 80% 100% 1000 100% 100%
? 一个给定类的概化元组的 t-weight表明给定类中该元组的典
型性（ e.g.欧洲的销售 (类 )中，电视机 (元组 )占多少百分
比?）
? 一个元组的 d-weight表明，给定类的元组和对比类的元组
相比，有多大区别（ e.g.欧洲 (类 )的电视机 (元组 )销售和北
美的电视机销售比如何？）
量化描述规则 —— 示例 (2)
? 对于上述交叉表，可以直接用量化描述规则来表示
? 表明对 99年 AllElectronics公司的 TV和计算机销售，如果一商
品在欧洲售出，则其为 TV的概率为 25％ … 该公司 40％的 TV
在欧洲售出 …
3 0 % ]:d7 5 %,:[t)c o m p u t e r ""( i t e m ( X )4 0 % ]:d2 5 %,:[t)T V ""( i t e m ( X )
E u r o p e ( X )X,
???
??
在大型数据库中挖掘描述统计度量
? 对于数据挖掘任务，用户经常关心的数据特征包括数
据的中心趋势和离散特征，这些度量帮我们更好的理
解数据的分布
? 中心趋势的度量包括,mean,median,mode 和 midrange
? 数据离散度量包括,quartiles,outliers,variance 和其他度量
? 从数据挖掘的角度看，我们关心的是在大数据量的情
况下，如何有效的计算上述度量
? 关系数据库中，系统提供了以下聚集函数,count(),
sum(),avg(),max(),min()
? 在大型数据库中挖掘用户感兴趣的描述统计计量涉及到如何
利用关系数据库现有的函数来计算上述两类用户感兴趣的度
量值
度量中心趋势
? 算术平均值
? 加权算术平均
? 中位值：使用一个近似的计算来度量
? 如果值的个数 n是奇数，则中位数 (median)是有序集合的中间值，否
则它是中间两个数的平均值
? 用插值法 (interpolation)来近似计算
? 模 (mode)
? 表示数据集中出现频率最高的值
? 单模态、双模态、三模态、多模态和没有模的情况
? 单模态近似值计算的经验公式,
? 中列数：最大值和最小值的平均
?
?
? n
i
ixnx
1
1
?
?
?
??
n
i
i
n
i
ii
w
xw
x
1
1
cf lfnLm e d i a n
m e d i a n
))(2/(1 ????
)(3 m e d i a nm e a nm o d em e a n ????
度量数据的离散度（ 1）
? 最常用度量：五数概括（基于四分位数）、中间四分
位数区间和标准差
? 四分位数、孤立点和盒图
? 百分位数 (percentile)：第 k个百分位数是具有如下性质的值 x：
数据项的 k%在 x上或低于 x
? 四分位数,Q1 (25th percentile),Q3 (75th percentile)
? 中间四分位数区间 (IQR),IQR = Q3 – Q1
? 对倾斜分布的描述，除了 IQR还常需两个四分位数 Q1和 Q3，
以及中位数 M，一个识别孤立点的常用规则是：挑出落在至
少高于第三个四分位数或低于第一个四分位数 1.5× IQR处
的值
度量数据的离散度（ 2）
? 五数概括, min,Q1,M,Q3,max
? 盒图：数据分布的一种直观表示
? 方差和标准差
? 方差 s2,n个观测之 x1,x2...xn的方差是
? 标准差 s是方差 s2的平方根
? s是关于平均值的离散的度量，因此仅当选平均值做中心度量时使
用
? 所有观测值相同则 s＝ 0，否则 s>0
? 方差和标准差都是代数度量
? ??
? ??
??????
n
i
n
i
ii
n
i
i xnxnxxns
1 1
22
1
22 ])(1[
1
1)(
1
1
盒图 —— 示例
? 盒图：数据分布的一种直观
表示，在盒图中,
? 端点在四分位数上，使得盒
图的长度是 IQR
? 中位数 M用盒内的线标记
? 胡须延伸到最大最小观测值
? 该盒图为在给定时间段在
AllElectronics的 4个分店销
售的商品单价的盒图
? 分店 1
? 中位数 $80
? Q1,$60
? Q3,$100
基本统计类描述的图形显示 —— 直方图
? 常用的显示数据汇总和分布的方法,
? 直方图、分位数图,q-q图、散布图和局部回归曲线
? 直方图
? 一种单变量图形方法
? 由一组矩形组成，这些矩形反映类在给定数据中出现的技术或频率
分位数图
? 显示所有的数据，允许用户评估总的情况和不寻常情
况的出现
? 绘出了分位数信息
? 设 xi是递增排序的数据，则每个 xi都有相对应的 fi，指出大约
有 100 fi ％的数据小于等于 xi
分位数－分位数图（ q-q图）
? 对着另一个单变量的分位数，绘制一个单变量分布的
分位数
? 允许用户观察是不是有从一个分布到另外一个分布的
迁移
散布图
? 确定两个量化的变量之间看上去是否有联系、模式或
者趋势
? 散布图中的每个值都被视作代数坐标对，作为一个点
画在平面上
? 易于观察双变量数据在平面上的分布
Loess曲线
? Loess曲线为散布图添加一条平滑的曲线，以便更好
的观察两个变量间的依赖模式
? Loess (local regression)意指“局部回归”，为了拟
合 Loess曲线，需要两个参数：平滑参数 α,被回归
拟合的多项式的阶 λ
概念描述：面向数据库的方法与机器
学习的方法比较
? 面向数据库的方法：面向大型数据库的概念描述的概化方法
? 使用基于数据立方体的方法
? 面向属性的归纳的方法
? 机器学习：使用示例学习的范例，在概念集或
标定训练样本集上进行，通过检验这些集合在
学习中导出关于描述类的假定
面向数据库的方法与机器学习的方法的差异 (1)
? 所用的基本原理不同，关于概念描述的基本假
定也不同
? 在示例学习的范例中，分析样本划分为两个集合：
正样本和负样本，正样本用于概化，负样本用于特
化，最后的概念描述会覆盖所有正样本而不覆盖任
何负样本
? 在面向数据库的方法中，只存在正样本，因此大部
分面向数据库的方法都是基于概化的（使用该方法
时，下钻操作用于回溯到前一状态的概化过程）
面向数据库的方法与机器学习的方法的差异 (2)
? 训练样本集大小上的差异
? 机器学习训练样本集小，容易找到覆盖所有正样本而不覆盖
任何负样本的描述
? 面向数据库的方法通常面对大量数据，因此概念描述的目标
是尽量的涵盖正面数据（概率分布）
? 所使用的概化方法不同
? 机器学习方法是逐个元组的进行概化
? 面向数据库的方法是逐个属性（或维）的进行概化，从而使
得数据挖掘的过程能够与面向集合的数据库操作集成

课件简介

课件名称：	浙江大学：数据挖掘
课件分类：	计算机
课件类型：	电子教案
文件大小：	4.47MB
下载次数：	10
评论次数：	6
用户评分：	9

显示更多>>

用户列表

更多用户>>

关于我们|帮助中心|意见反馈|联系我们