概念描述:特征化与比较
两种不同类别的数据挖掘
? 从数据分析的角度看,数据挖掘可以分为描述
性挖掘和预测性挖掘
? 描述性挖掘:以简洁概要的方式描述数据,并提供
数据的有趣的一般性质。
? 预测性数据挖掘:通过分析数据建立一个或一组模
型,并试图预测新数据集的行为。
什么是概念描述?
? 概念描述是一种最简单的描述性挖掘
? 当所描述的概念所指的是一类对象时,也称为 类描
述
? 概念指的是一类数据的集合
? e.g,研究生,大客户
? 概念描述是指为数据的特征化和比较产生描述
? 特征化:提供给定数据集的简洁汇总。
? 区分:提供两个或多个数据集的比较描述。
概念描述 VS,OLAP
? 概念描述和数据仓库的联机分析处理( OLAP)都跟
数据概化密切相关,即以简洁的形式在更一般的抽象
层描述数据,允许数据在抽象层概化,便于考察数据
的一般行为。
? 两者的主要区别,
? 概念描述
? 可以处理复杂数据类型的属性及其聚集
? 一个更加自动化的过程
? OLAP
? 实际使用的 OLAP系统中,维和度量的数据类型都非常有限
(非数值型的维和数值型的数据),表现为一种简单的数据分
析模型
? 一个由用户控制的过程
数据概化
? 数据概化
? 数据库中的数据和对象通常包含原始概念层的细节信息,数
据概化就是将数据库中的跟任务相关的数据集从较低的概念
层抽象到较高的概念层的过程。
? 主要方法,
? 数据立方体( OLAP使用的方法)
? 面向属性的归纳方法
1
2
3
4
5 概念层
数据概化:数据立方体方法
? 执行计算并将结果存储在数据立方体中
? 优点,
? 数据概化的一种有效实现
? 可以计算各种不同的度量值
? 比如,count(),sum(),average(),max()
? 概化和特征分析通过一系列的数据立方体操作完成,比如上卷、下钻等
? 缺点
? 只能处理非数值类型的维和简单聚集数值类型的度量值(大部分现有商业系统中,只能为非数值类型的维产生概念分层)
? 缺乏智能分析,不能自动确定分析中该使用哪些维,应该概
化到哪个层次
面向属性的归纳
? 一种面向 关系数据 查询的、基于 汇总 的 在线 数据分析
技术。
? 受数据类型和度量类型的约束比较少
? 面向属性归纳的基本思想,
? 使用关系数据库查询收集任务相关的数据
? 通过考察任务相关数据中每个属性的不同值的个数进行概化,
方法是属性删除或者是属性概化
? 通过合并相等的,概化的广义元组,并累计他们对应的计数
值进行聚集操作
? 通过与用户交互,将广义关系以图表或规则等形式,提交给
用户
面向属性的归纳的基本步骤
? 数据聚焦,获得初始工作关系
? 进行面向属性的归纳
? 基本操作是数据概化,对有 大量不同值的属性,进
行进一步概化
? 属性删除
? 属性概化
? 属性概化控制:控制概化过程,确定有多少不同的
值才算是有 大量不同值的属性
? 属性概化临界值控制
? 概化关系临界值控制
数据聚焦 ( 1)
? 目的是获得跟任务相关的数据集,包括属性或维,在
DMQL中他们由 in relevance to子句表示。
? 示例,
? DMQL,描述 Big-University数据库中 研究生 的一般特征
use Big_University_DB
mine characteristics as,Science_Students”
in relevance to name,gender,major,birth_place,
birth_date,residence,phone#,gpa
from student
where status in,graduate”
数据聚焦 ( 2)
? 将数据挖掘查询转换为关系查询
Select name,gender,major,birth_place,
birth_date,residence,phone#,gpa
from student
where status in {“Msc”,“MBA”,“PhD” }
? 数据聚焦时的困难
? 用户在指定相关的数据集方面存在困难,遗漏在描
述中可能起作用的属性
? 用户可能引进太多的属性
数据概化
? 数据概化的两种常用方法:属性删除和属性概
化
? 属性删除的适用规则:对初始工作关系中具有大量
不同值的属性,符合以下情况,应使用属性删除,
? 在此属性上没有概化操作符(比如该属性没有定义相关的
概念分层)
? 该属性的较高层概念用其他属性表示
? 属性概化的使用规则:如果初始工作关系中的某个
属性具有大量不同值,且该属性上存在概化操作符,
则使用该概化操作符对该属性进行数据概化操作
11-12
王 灿
数据挖掘
sjwj@dlc.zju.edu.cn
0703004
属性概化控制
? 确定什么是“具有大量的不同值”,控制将属性概化
到多高的抽象层。
? 属性概化控制的两种常用方法,
? 属性概化临界值控制
? 对所有属性设置一个概化临界值或者是对每个属性都设置一个 临界值(一般为 2到 8)
? 概化关系临界值控制
? 为概化关系设置一个临界值,确定概化关系中,不同元组的个 数的最大值。(通常为 10到 30,应该允许在实际应用中进行调
整)
? 两种技术的顺序使用:使用属性概化临界值控制来概化每个属性,然后使用关系临界值控制进一步压缩概化的关系。
? 相等元组的合并、累计计数和其他聚集值
面向属性的归纳 —— 示例
? 挖掘 Big-University数据库中研究生的一般特征
? name:删除属性
? gender:保留该属性,不概化
? major:根据概念分层向上攀升 {文,理,工 …}
? birth_place:根据概念分层 location向上攀升
? birth_date:概化为 age,再概化为 age_range
? residence:根据概念分层 location向上攀升
? phone#:删除属性
? gpa:根据 GPA的分级作为概念分层
面向属性的归纳 —— 示例
N a m e Gender M a jo r Bi rth-P l a ce Bi rth _ d a te R es i de nce P ho ne # GP A
J i m
Wo o dm a n
M C S V a nco u v e r,B C,
C a na d a
8 -1 2 - 7 6 3 5 1 1 M a i n St.,
R i chm o nd
6 8 7 - 4 5 9 8 3,6 7
Sco tt
La ch a nce
M C S M o ntre a l,Qu e,
C a na d a
2 8 - 7 - 7 5 3 4 5 1 s t A v e.,
R i chm o nd
2 5 3 - 9 1 0 6 3,7 0
La ur a Le e
…
F
…
P hy s i cs
…
S e att le,WA,US A
…
2 5 - 8 - 7 0
…
125 Au stin Ave,,
Bu r n ab y
…
4 2 0 - 5 2 3 2
…
3,8 3
…
Re m oved Re tain e d S c i,E n g,
Bu s
C o untr y A g e ran g e C i ty R em o v ed Ex c l,
V G,..
G en d e r Maj o r Birt h _ re g i o n A g e_ r an g e Res i d e n ce G PA C o u n t
M Scie n ce C an ad a 2 0 - 25 Ric h m o n d V ery - g o o d 1 6
F Scie n ce F o rei g n 2 5 - 30 Bur n a b y E x cel l e n t 2 2
… … … … … … …
主概化关系
初始工作
关系
面向属性的归纳算法
? 输入
? 1,DB; 2,数据挖掘查询 DMQuery; 3,属性列表 ; 4,属性的概念分层 ;
属性的概化临界值;
? 输出
? 主概化关系 P
? 算法描述,
1,W get_task_relevant_data(DMQuery,DB)
2,prepare_for_generalization(W)
1,扫描 W,收集每个属性 a的不同值
2,对每个属性 a,根据临界值确定是否删除,如果不删除,则计算其最小
期望层次 L,并确定映射对 (v,v`)
3,P generalization(W)
? 通过使用 v`代替 W中每个 v,累计计数并计算所有聚集值,导出 P
1,每个概化元组的插入或累积计数
2,用数组表示 P
导出概化的表示 (1)
? 概化关系
? 一部分或者所有属性得到概化的关系,包含计数或其他
度量值的聚集
? 交叉表
? 二维交叉表使用每行显示一个属性,使用每列显示另外
一个属性将结果集映射到表中
? 可视化技巧,
? 条形图、饼图、曲线和数据立方体浏览工具(用单元的大小代
表计数,用单元亮度代表另外的度量)
导出概化的表示 (2)
? 量化规则
? 使用 t_weight表示主概化关系中每个元组的典型性
? 量化特征规则
? 将概化的结果映射到相应的量化特征规则中,比如,
? ?? ni ia qc o u n tqc o u n tw e ig h tt 1 )(/)(_
]:[ )(...]:[ )()(_a r g,mmll wtXc o n d i t i o nwtXc o n d i t i o nXc l a s settX ????
%]45:[ )" "
)((,..%]25:[ )"" )(("" )(,
tA m e r i c a nN o r t h
Xlo c a ti o ntA s iaXlo c a ti o nc o m p u t e rXit e mX
?
?????
量化特征规则中每个条件的析取成为目标类的一个必要条件;亦即,
如果 X在目标类中,则 X满足 conditioni的概率是 wi
特征化过程中的困难
? 特征化过程中的两大困难
? 复杂数据类型的处理
? 缺乏一种自动概化的过程,用户必须告诉系统
? 哪些属性或维应该包括在类特征化中
? 每个维应该概化到多高的程度
为什么进行属性相关分析?
? 数据仓库和 OLAP系统中的多维数据分析缺乏
一个 自动概化过程,这使得这个过程中需要有
很多用户干预
? 用户必须告诉系统哪些维或属性应当包含在类分析
中 (难 )
? 属性太少,则造成挖掘的描述结果不正确
? 属性太多,浪费计算、淹没知识
? 告诉系统每个维应当概化到多高的层次 (易)
? 直接通过概化的临界值,说明给定维应当达到的概化程度
? 对概化层次不满意,则可以指定需要上卷或下钻的维
解析特征化:属性相关分析
? 属性相关分析
? 通过识别不相关或者是弱相关的属性,将它们排除
在概念描述过程之外,从而确定哪些属性应当包含
在类特征化和类比较中。
? 解析特征化
? 包含属性相关分析的类特征化
? 解析比较
? 包含属性相关分析的类比较
属性相关分析( 1)
? 通过属性相关性分析,滤掉统计上不相关或弱
相关的属性,保留对手头数据挖掘任务最相关
的属性。
? 对于给定的属性,一个属性或维被认为是高度
相关的,如果该属性或维的值可能用于区分该
类和其他类。
? 比如:区分昂贵汽车和便宜汽车(可选择的属性:
颜色,型号,品牌,..)
属性相关分析( 2)
? 在同一个维内,对于区分一个类与其他类不同
层的概念可能有很不同的能力
? 比如,birth_date维,day,month与 salary无关,而
year(或将其进一步概化为 birth_decade)则与
salary有关
? 类特征化中的比较类
? 除特征化的数据集外,数据库中可比较的数据集都
作为对比类
? 比如:研究生特征化的例子,对比类为不是研究生的学生
的集合( e.g.本科生)(可选择的属性:性别、籍贯、专
业、平均成绩、年龄段)
属性相关分析的方法
? 属性相关分析的基本思想是计算某种度量,用
于量化属性与给定类或概念的相关性。
? 可采用的度量包括:信息增益,Gini索引、不确定
性和相关系数。(涉及机器学习、统计、模糊和粗
糙集理论等方面的相关知识)
? 比如:信息增益通过计算一个样本分类的 期望信息
和 属性的熵 来获得一个 属性的信息增益,判定该属
性与当前的特征化任务的相关性。
信息增益 (1)
? S是一个 训练样本 的集合,该样本中每个集合
的 类编号 已知。每个样本为一个 元组 。有个属
性用来判定某个训练样本的类编号(类似于学
生记录中的 status属性)
? 假设 S中有 m个类,总共 s个训练样本,每个类
ci有 Si个样本 (i= 1,2,3...m),那么任意一个样
本属于类 Ci的概率是 si / s,那么用来分类一个
给定样本的 期望信息 是,
s
s
s
ssssI im
i
i
m 2
1
21 lo g),...,,( ?
?
??
信息增益 (2)
? 一个有 v个值的属性 A{a1,a2,...,av}可以将 S分成 v个子
集 {S1,S2,...,Sv},其中 Sj包含 S中属性 A上的值为 aj的样
本。假设 Sj包含类 Ci的 sij个样本。根据 A的这种划分的
期望信息称为 A的 熵
? A上该划分的获得的信息增益定义为,
? 具有高信息增益的属性,是给定集合中具有高区分度的属性。所以可以通过计算 S中样本的每个属性的信
息增益,来得到一个属性的相关性的排序。
),.,,,(...)( 1
1
1
mjj
v
j
mjj ssI
s
ssAE ?
?
???
)(),...,,()( 21 AEsssIAG a i n m ??
概念描述的属性相关分析步骤 (1)
? 数据收集
? 通过查询处理,收集目标类和对比类数据
? 使用保守的 AOI进行预相关分析
? 识别属性和维的集合,它们是所选择的相关性分析度量的应
用对象
? 因为不同的概念层对某个类描述的相关性可能很不同,因此在
这个过程中同时要包含概念分层
? 对有大量不同值的属性进行删除或概化
? 在这一级进行概化时,临界值要相应比较高,以便在后续步
骤的分析中包含更多属性(保守的)
? 产生候选关系
概念描述的属性相关分析步骤 (2)
? 使用选定的相关分析度量删除不相关和弱相关
的属性
? 使用选定的相关分析度量( e.g.信息增益),评估
候选关系中的每个属性
? 根据所计算的相关性对属性进行排序
? 低于临界值的不相关和弱相关的属性被删除
? 产生初始目标类工作关系(或初始对比类工作关系)
? 使用 AOI产生概念描述
? 使用一组不太保守的属性概化临界值进行 AOI
解析特征化 —— 示例 (1)
? 任务,使用解析特征化挖掘 Big- University的研
究生的一般特征描述
? 给定
? 属性 name,gender,major,birth_place,birth_date,
phone#和 gpa
? Ui = 属性分析阀值
? Ti = 属性概化阀值
? R = 属性相关阀值
解析特征化 —— 示例 (2)
? 1,数据收集
? 目标类:研究生
? 对比类:本科生
? 2,使用保守的阀值 Ui和 Ti进行 AOI
? 属性删除
? name和 phone#
? 属性概化
? 概化 major,birth_place,birth_date 和 gpa
? 进行累积计数
? 候选关系, gender,major,birth_country,age_range 和 gpa
ge n d e r maj o r b ir t h _c oun t r y age _r a n ge gpa c oun t
M S c i e n c e C a n a d a 2 0 - 2 5 V e r y _ g o o d 16
F S c i e n c e F o r e i g n 2 5 - 3 0 Ex c e l l e n t 22
M En g i n e e r i n g F o r e i g n 2 5 - 3 0 Ex c e l l e n t 18
F S c i e n c e F o r e i g n 2 5 - 3 0 Ex c e l l e n t 25
M S c i e n c e C a n a d a 2 0 - 2 5 Ex c e l l e n t 21
F En g i n e e r i n g C a n a d a 2 0 - 2 5 Ex c e l l e n t 18
目标类候选关系:研究生 (?=120)
ge n d e r m aj o r b irt h _c ou n t r y age_r a n ge gp a c ou n t
M S c i e n c e F o r e i g n <2 0 V e r y _ g o o d 18
F B u s i n e ss C a n a d a <2 0 F a i r 20
M B u s i n e ss C a n a d a <2 0 F a i r 22
F S c i e n c e C a n a d a 2 0 - 2 5 F a i r 24
M En g i n e e r i n g F o r e i g n 2 0 - 2 5 V e r y _ g o o d 22
F En g i n e e r i n g C a n a d a <2 0 Ex c e l l e n t 24
对比类候选关系:本科生 (?=130) (可以在类比较时使用)
解析特征化 —— 示例 (3)
? 3,相关性分析
? 计算给定的样本分类所需要的期望信息
? 计算每个属性的熵, e.g,major
99880250130250130250120250120130120 2221,l o gl o g),I()s,I ( s ?????
F o r m a jo r=, S ci e n ce”, S
11
=8 4 S
21
=4 2 I ( s
11
,s
21
) =0, 9 1 8 3
F o r m a jo r=, En g in eer in g,, S
12
=3 6 S
22
=4 6 I ( s
12
,s
22
) =0, 9 8 9 2
F o r m a jo r=, Bus in ess,, S
13
=0 S
23
=4 2 I ( s
13
,s
23
) =0
Number of grad
students in,Science” Number of undergrad students in,Science”
解析特征化 —— 示例 (4)
? 如果样本根据 major划分,则计算给定的样本进行分
类所需的期望信息,
? 计算该属性的信息增益,
? 所有属性的信息增益
7 8 7 302 5 0422 5 0822 5 01 2 6 231322122111,)s,s(I)s,s(I)s,s(IE ( m a jo r ) ????
2 1 1 5021,E ( m a j o r ))s,I(s)Ga i n ( m a j o r ???
G a i n ( g e n d e r ) = 0, 0 0 0 3
G a i n ( b i r t h _ c o u n t r y ) = 0, 0 4 0 7
G a i n ( maj o r ) = 0, 2 1 1 5
G a i n ( g p a ) = 0, 4 4 9 0
G a i n ( a g e _ r a n g e ) = 0, 5 9 7 1
解析特征化 —— 示例 (5)
? 4,导出初始工作关系
? R = 0.1 (临界值)
? 从候选关系中去处不相关 /弱相关的属性 => 去处 gender,
birth_country
? 因为类描述任务是类特征化,所以这里去处候选对比类关系
? 5,在 W0 上用进行不保守的 AOI
m a jor a g e_ ra ng e g pa co unt
Scien ce 20 - 25 Ver y _ g o o d 16
Scien ce 25 - 30 Excellen t 47
Scien ce 20 - 25 Excellen t 21
Eng in eering 20 - 25 Excellen t 18
Eng in eering 25 - 30 Excellen t 18
初始目标类工作关系 W0,研究生
解析特征化 —— 示例 (6)
挖掘类比较:区分不同的类
? 类比较挖掘的目标是得到将目标类与对比类相区分的
描述。
? 目标类和对比类间必须具有可比性,即两者间要有相似的属
性或维。
? 本科生 VS,研究生 ; student VS,address
? 很多应用于概念描述的技巧可以应用于类比较,比如
属性概化。
? 属性概化必须在所有比较类上同步进行,将属性概化到同一
抽象层后进行比较。
? City VS country
类比较的过程
? 数据收集
? 通过查询处理收集数据库中相关的数据,并将其划分为一个目标类
和一个或多个对比类
? 维相关分析
? 使用属性相关分析方法,使我们的任务中仅包含强相关的维
? 同步概化
? 同步的在目标类和对比类上进行概化,得到 主目标类 关系 /方体 和
主对比类 关系 /方体
? 导出比较的表示
? 用可视化技术表达类比较描述,通常会包含“对比”度量,反映目
标类与对比类间的比较 (e.g count%)
类比较的有效实施
? 目标类和对比类的同步概化,以在相同抽象级
别上进行类比较
? 使用数据立方体技术有效的实施类比较
? 引入一个标志位(数据立方体的一个新维)来表示
目标类或对比类
? 目标类和对比类除了这个新维外,其他部分在数据
立方体中的表示是相同的
? 通过上卷和下钻来同步概化或具体化
类比较挖掘 —— 示例( 1)
? 任务
? 比较 Big-University本科生和研究生的一般特征
? 任务的 DMQL描述
use Big_University_DB
mine comparison as,grad_vs_undergrad_students”
in relevance to name,gender,major,birth_place,birth_date,residence,phone#,gpa
for,graduate_students”
where status in,graduate”
versus,undergraduate_students”
where status in,undergraduate”
analyze count%
from student
类比较挖掘 —— 示例( 2)
? 进行类比较挖掘的输入,
? 给定的属性,name,gender,major,birth_place,
birth_date,residence,phone# and gpa
? 在属性 ai上定义的概念分层 Gen(ai)
? 在属性 ai上定义的属性分析临界值 Ui
? 在属性 ai上定义的属性概化临界值 Ti
? 属性相关性临界值 R
类比较挖掘 —— 示例( 3)
? 任务的处理过程
? 数据收集
? DMQL查询转化为关系查询,得到 初始目标类工作关
系 和 初始对比类工作关系
? 可以看成使构造数据立方体的过程
? 引入一个新维 status来标志目标类和对比类( graduate,
undergraduate)
? 其他属性形成剩余的维
? 在两个数据类上进行维相关分析
? 根据 Ui与 R,删除不相关或者使弱相关的维,name,
gender,major,phone#
类比较挖掘 —— 示例( 4)
? 同步概化
? 在目标类和对比类上同步的进行概化,将相关的维概
化到由属性概化临界值 Ti决定的同样的层次,形成 主
目标类 关系 /方体 和 主对比类 关系 /方体
? 导出比较的表示
? 用表、图或规则等形式表达类比较描述的挖掘结果
? 用户应该能够在 主目标类 关系 /方体 和 主对比类 关系 /
方体 进行进一步的 OLAP操作
类比较挖掘 —— 示例( 5)
B i r t h _ c o un t r y A g e _ r a ng e Gpa C o un t %
C a n a d a 2 0 - 2 5 G o o d 5, 5 3 %
C a n a d a 2 5 - 3 0 G o o d 2, 3 2 %
C a n a d a O v e r _ 3 0 V e r y _ g o o d 5, 8 6 %
… … … …
O t h e r O v e r _ 3 0 E x c e l l e n t 4, 6 8 %
目标类的主概化关系, 研究生
Bi rt h _ c o u n t r y A g e _ r a n g e G p a C o u n t %
Ca n a d a 1 5 - 2 0 F ai r 5, 5 3 %
Ca n a d a 1 5 - 2 0 G o o d 4, 5 3 %
… … … …
Ca n a d a 2 5 - 3 0 G o o d 5, 0 2 %
… … … …
O t h e r O v e r _ 3 0 Ex ce l l e n t 0, 6 8 %
对比类的主概化关系, 本科生
类比较描述的表示
? 用可视化的方式将类比较描述呈现给用户,有
助于用户对挖掘结果的理解。
? 概化关系
? 交叉图
? 柱状图
? 饼图
? 曲线
? 量化规则
类比较描述的量化区分规则表示( 1)
? 类比较描述中的目标类和对比类的区分特性也可以
用量化规则来表示,即量化区分规则
? 量化区分规则使用 d-weight作为兴趣度度量 (特征化使用
什么作为兴趣度度量?)
? qa-概化元组
? Cj-目标类
? qa的 d-weight是初始目标类工作关系中被 qa覆盖的元组数 与
初始目标类和对比类工作关系中被 qa覆盖的总元组数的比
?
?
?
???
m
i
ia
ja
)Cc o u n t ( q
)Cc o u n t ( qw e i g h td
1
类比较描述的量化区分规则表示( 2)
? 目标类中较高的 d-weight表明概化元组所代表的概念
主要来自于目标类
? 较低的 d-weight值则表明该概念主要来自于对比类
S t at u s Bi r t h _ co u n t r y A g e _ r an g e G p a Co u n t
G r ad u at e Ca n a d a 2 5 - 3 0 G o o d 90
U n d e r g r ad u a t e Ca n a d a 2 5 - 3 0 G o o d 2 1 0
对给定的 status=“Graduate”,Birth_coutry=“Canada”,
Age_range=“25-30”,Gpa=“Good” 概化元组,其 d-
weight=90/(90+210)=30% (什么意思? )
类比较描述的量化区分规则表示( 3)
? 使用类比较描述的量化区分规则表示可以更好的描述
上述的情况,其形式为,
? 比如,刚才的挖掘结果可以使用量化区分规则表达如
下,
? 请注意该区分规则表达的是充分条件,即 X满足条件,
则 X为研究生的概率为 30% (特征化量化规则表达的
是什么条件? )
],[ )()(_a r g,w e i g h tddXc o n d i t i o nXc l a s settX ???
%]30:["")("3025")(_"")(_
)(_,
dg o o dXgpaXr a n g eageC a n a d aXc o u n t r yb i r t h
Xs t u d e n tg r a d u a t eX
??????
??
类描述:特征化和比较的表示
? 类特征化和类比较是形成类描述的两个方面,我们可以通过综合
类特征化规则和类区分规则来形成类描述规则。
? 量化特征化规则
? 必要条件
? 量化区分规则
? 充分条件
? 量化描述规则
? 充要条件
t _ w e i g h t ]:[tX)c o n d i t i o n (s s ( X )t a r g e t _ c l aX,??
d _ w e i g h t ]:[dX)c o n d i t i o n (s s ( X)t a r g e t _ c l aX,??
]w:d,w:[t...]w:d,w:[t nn111 ????
??
( X )c o n d it io n( X )c o n d it io n
s s ( X )ta r g e t_ c l aX,
n
量化描述规则 —— 示例 (1)
L o cat io n /i t em TV Co m p u t er B o t h _i t em s
C ou n t t - wt d - wt C ou n t t - wt d - wt C ou n t t - wt d - wt
E u ro p e 80 25% 40% 240 75% 30% 320 100% 32%
N_Am 120 17, 65 % 60% 560 82, 35 % 70% 680 100% 68%
B o t h _
re gi o n s
200 20% 100% 800 80% 100% 1000 100% 100%
? 一个给定类的概化元组的 t-weight表明给定类中该元组的典
型性( e.g.欧洲的销售 (类 )中,电视机 (元组 )占多少百分
比?)
? 一个元组的 d-weight表明,给定类的元组和对比类的元组
相比,有多大区别( e.g.欧洲 (类 )的电视机 (元组 )销售和北
美的电视机销售比如何?)
量化描述规则 —— 示例 (2)
? 对于上述交叉表,可以直接用量化描述规则来表示
? 表明对 99年 AllElectronics公司的 TV和计算机销售,如果一商
品在欧洲售出,则其为 TV的概率为 25% … 该公司 40%的 TV
在欧洲售出 …
3 0 % ]:d7 5 %,:[t)c o m p u t e r ""( i t e m ( X )4 0 % ]:d2 5 %,:[t)T V ""( i t e m ( X )
E u r o p e ( X )X,
???
??
在大型数据库中挖掘描述统计度量
? 对于数据挖掘任务,用户经常关心的数据特征包括数
据的中心趋势和离散特征,这些度量帮我们更好的理
解数据的分布
? 中心趋势的度量包括,mean,median,mode 和 midrange
? 数据离散度量包括,quartiles,outliers,variance 和其他度量
? 从数据挖掘的角度看,我们关心的是在大数据量的情
况下,如何有效的计算上述度量
? 关系数据库中,系统提供了以下聚集函数,count(),
sum(),avg(),max(),min()
? 在大型数据库中挖掘用户感兴趣的描述统计计量涉及到如何
利用关系数据库现有的函数来计算上述两类用户感兴趣的度
量值
度量中心趋势
? 算术平均值
? 加权算术平均
? 中位值:使用一个近似的计算来度量
? 如果值的个数 n是奇数,则中位数 (median)是有序集合的中间值,否
则它是中间两个数的平均值
? 用插值法 (interpolation)来近似计算
? 模 (mode)
? 表示数据集中出现频率最高的值
? 单模态、双模态、三模态、多模态和没有模的情况
? 单模态近似值计算的经验公式,
? 中列数:最大值和最小值的平均
?
?
? n
i
ixnx
1
1
?
?
?
??
n
i
i
n
i
ii
w
xw
x
1
1
cf lfnLm e d i a n
m e d i a n
))(2/(1 ????
)(3 m e d i a nm e a nm o d em e a n ????
度量数据的离散度 ( 1)
? 最常用度量:五数概括(基于四分位数)、中间四分
位数区间和标准差
? 四分位数、孤立点和盒图
? 百分位数 (percentile):第 k个百分位数是具有如下性质的值 x:
数据项的 k%在 x上或低于 x
? 四分位数,Q1 (25th percentile),Q3 (75th percentile)
? 中间四分位数区间 (IQR),IQR = Q3 – Q1
? 对倾斜分布的描述,除了 IQR还常需两个四分位数 Q1和 Q3,
以及中位数 M,一个识别孤立点的常用规则是:挑出落在至
少高于第三个四分位数或低于第一个四分位数 1.5× IQR处
的值
度量数据的离散度 ( 2)
? 五数概括, min,Q1,M,Q3,max
? 盒图:数据分布的一种直观表示
? 方差和标准差
? 方差 s2,n个观测之 x1,x2...xn的方差是
? 标准差 s是方差 s2的平方根
? s是关于平均值的离散的度量,因此仅当选平均值做中心度量时使
用
? 所有观测值相同则 s= 0,否则 s>0
? 方差和标准差都是代数度量
? ??
? ??
??????
n
i
n
i
ii
n
i
i xnxnxxns
1 1
22
1
22 ])(1[
1
1)(
1
1
盒图 —— 示例
? 盒图:数据分布的一种直观
表示,在盒图中,
? 端点在四分位数上,使得盒
图的长度是 IQR
? 中位数 M用盒内的线标记
? 胡须延伸到最大最小观测值
? 该盒图为在给定时间段在
AllElectronics的 4个分店销
售的商品单价的盒图
? 分店 1
? 中位数 $80
? Q1,$60
? Q3,$100
基本统计类描述的图形显示 —— 直方图
? 常用的显示数据汇总和分布的方法,
? 直方图、分位数图,q-q图、散布图和局部回归曲线
? 直方图
? 一种单变量图形方法
? 由一组矩形组成,这些矩形反映类在给定数据中出现的技术或频率
分位数图
? 显示所有的数据,允许用户评估总的情况和不寻常情
况的出现
? 绘出了分位数信息
? 设 xi是递增排序的数据,则每个 xi都有相对应的 fi,指出大约
有 100 fi % 的数据小于等于 xi
分位数-分位数图( q-q图)
? 对着另一个单变量的分位数,绘制一个单变量分布的
分位数
? 允许用户观察是不是有从一个分布到另外一个分布的
迁移
散布图
? 确定两个量化的变量之间看上去是否有联系、模式或
者趋势
? 散布图中的每个值都被视作代数坐标对,作为一个点
画在平面上
? 易于观察双变量数据在平面上的分布
Loess曲线
? Loess曲线为散布图添加一条平滑的曲线,以便更好
的观察两个变量间的依赖模式
? Loess (local regression)意指“局部回归”,为了拟
合 Loess曲线,需要两个参数:平滑参数 α,被回归
拟合的多项式的阶 λ
概念描述:面向数据库的方法与机器
学习的方法比较
? 面向数据库的方法:面向大型数据库的概念描述的概化方法
? 使用基于数据立方体的方法
? 面向属性的归纳的方法
? 机器学习:使用示例学习的范例,在概念集或
标定训练样本集上进行,通过检验这些集合在
学习中导出关于描述类的假定
面向数据库的方法与机器学习的方法的差异 (1)
? 所用的基本原理不同,关于概念描述的基本假
定也不同
? 在示例学习的范例中,分析样本划分为两个集合:
正样本和负样本,正样本用于概化,负样本用于特
化,最后的概念描述会覆盖所有正样本而不覆盖任
何负样本
? 在面向数据库的方法中,只存在正样本,因此大部
分面向数据库的方法都是基于概化的(使用该方法
时,下钻操作用于回溯到前一状态的概化过程)
面向数据库的方法与机器学习的方法的差异 (2)
? 训练样本集大小上的差异
? 机器学习训练样本集小,容易找到覆盖所有正样本而不覆盖
任何负样本的描述
? 面向数据库的方法通常面对大量数据,因此概念描述的目标
是尽量的涵盖正面数据(概率分布)
? 所使用的概化方法不同
? 机器学习方法是逐个元组的进行概化
? 面向数据库的方法是逐个属性(或维)的进行概化,从而使
得数据挖掘的过程能够与面向集合的数据库操作集成
两种不同类别的数据挖掘
? 从数据分析的角度看,数据挖掘可以分为描述
性挖掘和预测性挖掘
? 描述性挖掘:以简洁概要的方式描述数据,并提供
数据的有趣的一般性质。
? 预测性数据挖掘:通过分析数据建立一个或一组模
型,并试图预测新数据集的行为。
什么是概念描述?
? 概念描述是一种最简单的描述性挖掘
? 当所描述的概念所指的是一类对象时,也称为 类描
述
? 概念指的是一类数据的集合
? e.g,研究生,大客户
? 概念描述是指为数据的特征化和比较产生描述
? 特征化:提供给定数据集的简洁汇总。
? 区分:提供两个或多个数据集的比较描述。
概念描述 VS,OLAP
? 概念描述和数据仓库的联机分析处理( OLAP)都跟
数据概化密切相关,即以简洁的形式在更一般的抽象
层描述数据,允许数据在抽象层概化,便于考察数据
的一般行为。
? 两者的主要区别,
? 概念描述
? 可以处理复杂数据类型的属性及其聚集
? 一个更加自动化的过程
? OLAP
? 实际使用的 OLAP系统中,维和度量的数据类型都非常有限
(非数值型的维和数值型的数据),表现为一种简单的数据分
析模型
? 一个由用户控制的过程
数据概化
? 数据概化
? 数据库中的数据和对象通常包含原始概念层的细节信息,数
据概化就是将数据库中的跟任务相关的数据集从较低的概念
层抽象到较高的概念层的过程。
? 主要方法,
? 数据立方体( OLAP使用的方法)
? 面向属性的归纳方法
1
2
3
4
5 概念层
数据概化:数据立方体方法
? 执行计算并将结果存储在数据立方体中
? 优点,
? 数据概化的一种有效实现
? 可以计算各种不同的度量值
? 比如,count(),sum(),average(),max()
? 概化和特征分析通过一系列的数据立方体操作完成,比如上卷、下钻等
? 缺点
? 只能处理非数值类型的维和简单聚集数值类型的度量值(大部分现有商业系统中,只能为非数值类型的维产生概念分层)
? 缺乏智能分析,不能自动确定分析中该使用哪些维,应该概
化到哪个层次
面向属性的归纳
? 一种面向 关系数据 查询的、基于 汇总 的 在线 数据分析
技术。
? 受数据类型和度量类型的约束比较少
? 面向属性归纳的基本思想,
? 使用关系数据库查询收集任务相关的数据
? 通过考察任务相关数据中每个属性的不同值的个数进行概化,
方法是属性删除或者是属性概化
? 通过合并相等的,概化的广义元组,并累计他们对应的计数
值进行聚集操作
? 通过与用户交互,将广义关系以图表或规则等形式,提交给
用户
面向属性的归纳的基本步骤
? 数据聚焦,获得初始工作关系
? 进行面向属性的归纳
? 基本操作是数据概化,对有 大量不同值的属性,进
行进一步概化
? 属性删除
? 属性概化
? 属性概化控制:控制概化过程,确定有多少不同的
值才算是有 大量不同值的属性
? 属性概化临界值控制
? 概化关系临界值控制
数据聚焦 ( 1)
? 目的是获得跟任务相关的数据集,包括属性或维,在
DMQL中他们由 in relevance to子句表示。
? 示例,
? DMQL,描述 Big-University数据库中 研究生 的一般特征
use Big_University_DB
mine characteristics as,Science_Students”
in relevance to name,gender,major,birth_place,
birth_date,residence,phone#,gpa
from student
where status in,graduate”
数据聚焦 ( 2)
? 将数据挖掘查询转换为关系查询
Select name,gender,major,birth_place,
birth_date,residence,phone#,gpa
from student
where status in {“Msc”,“MBA”,“PhD” }
? 数据聚焦时的困难
? 用户在指定相关的数据集方面存在困难,遗漏在描
述中可能起作用的属性
? 用户可能引进太多的属性
数据概化
? 数据概化的两种常用方法:属性删除和属性概
化
? 属性删除的适用规则:对初始工作关系中具有大量
不同值的属性,符合以下情况,应使用属性删除,
? 在此属性上没有概化操作符(比如该属性没有定义相关的
概念分层)
? 该属性的较高层概念用其他属性表示
? 属性概化的使用规则:如果初始工作关系中的某个
属性具有大量不同值,且该属性上存在概化操作符,
则使用该概化操作符对该属性进行数据概化操作
11-12
王 灿
数据挖掘
sjwj@dlc.zju.edu.cn
0703004
属性概化控制
? 确定什么是“具有大量的不同值”,控制将属性概化
到多高的抽象层。
? 属性概化控制的两种常用方法,
? 属性概化临界值控制
? 对所有属性设置一个概化临界值或者是对每个属性都设置一个 临界值(一般为 2到 8)
? 概化关系临界值控制
? 为概化关系设置一个临界值,确定概化关系中,不同元组的个 数的最大值。(通常为 10到 30,应该允许在实际应用中进行调
整)
? 两种技术的顺序使用:使用属性概化临界值控制来概化每个属性,然后使用关系临界值控制进一步压缩概化的关系。
? 相等元组的合并、累计计数和其他聚集值
面向属性的归纳 —— 示例
? 挖掘 Big-University数据库中研究生的一般特征
? name:删除属性
? gender:保留该属性,不概化
? major:根据概念分层向上攀升 {文,理,工 …}
? birth_place:根据概念分层 location向上攀升
? birth_date:概化为 age,再概化为 age_range
? residence:根据概念分层 location向上攀升
? phone#:删除属性
? gpa:根据 GPA的分级作为概念分层
面向属性的归纳 —— 示例
N a m e Gender M a jo r Bi rth-P l a ce Bi rth _ d a te R es i de nce P ho ne # GP A
J i m
Wo o dm a n
M C S V a nco u v e r,B C,
C a na d a
8 -1 2 - 7 6 3 5 1 1 M a i n St.,
R i chm o nd
6 8 7 - 4 5 9 8 3,6 7
Sco tt
La ch a nce
M C S M o ntre a l,Qu e,
C a na d a
2 8 - 7 - 7 5 3 4 5 1 s t A v e.,
R i chm o nd
2 5 3 - 9 1 0 6 3,7 0
La ur a Le e
…
F
…
P hy s i cs
…
S e att le,WA,US A
…
2 5 - 8 - 7 0
…
125 Au stin Ave,,
Bu r n ab y
…
4 2 0 - 5 2 3 2
…
3,8 3
…
Re m oved Re tain e d S c i,E n g,
Bu s
C o untr y A g e ran g e C i ty R em o v ed Ex c l,
V G,..
G en d e r Maj o r Birt h _ re g i o n A g e_ r an g e Res i d e n ce G PA C o u n t
M Scie n ce C an ad a 2 0 - 25 Ric h m o n d V ery - g o o d 1 6
F Scie n ce F o rei g n 2 5 - 30 Bur n a b y E x cel l e n t 2 2
… … … … … … …
主概化关系
初始工作
关系
面向属性的归纳算法
? 输入
? 1,DB; 2,数据挖掘查询 DMQuery; 3,属性列表 ; 4,属性的概念分层 ;
属性的概化临界值;
? 输出
? 主概化关系 P
? 算法描述,
1,W get_task_relevant_data(DMQuery,DB)
2,prepare_for_generalization(W)
1,扫描 W,收集每个属性 a的不同值
2,对每个属性 a,根据临界值确定是否删除,如果不删除,则计算其最小
期望层次 L,并确定映射对 (v,v`)
3,P generalization(W)
? 通过使用 v`代替 W中每个 v,累计计数并计算所有聚集值,导出 P
1,每个概化元组的插入或累积计数
2,用数组表示 P
导出概化的表示 (1)
? 概化关系
? 一部分或者所有属性得到概化的关系,包含计数或其他
度量值的聚集
? 交叉表
? 二维交叉表使用每行显示一个属性,使用每列显示另外
一个属性将结果集映射到表中
? 可视化技巧,
? 条形图、饼图、曲线和数据立方体浏览工具(用单元的大小代
表计数,用单元亮度代表另外的度量)
导出概化的表示 (2)
? 量化规则
? 使用 t_weight表示主概化关系中每个元组的典型性
? 量化特征规则
? 将概化的结果映射到相应的量化特征规则中,比如,
? ?? ni ia qc o u n tqc o u n tw e ig h tt 1 )(/)(_
]:[ )(...]:[ )()(_a r g,mmll wtXc o n d i t i o nwtXc o n d i t i o nXc l a s settX ????
%]45:[ )" "
)((,..%]25:[ )"" )(("" )(,
tA m e r i c a nN o r t h
Xlo c a ti o ntA s iaXlo c a ti o nc o m p u t e rXit e mX
?
?????
量化特征规则中每个条件的析取成为目标类的一个必要条件;亦即,
如果 X在目标类中,则 X满足 conditioni的概率是 wi
特征化过程中的困难
? 特征化过程中的两大困难
? 复杂数据类型的处理
? 缺乏一种自动概化的过程,用户必须告诉系统
? 哪些属性或维应该包括在类特征化中
? 每个维应该概化到多高的程度
为什么进行属性相关分析?
? 数据仓库和 OLAP系统中的多维数据分析缺乏
一个 自动概化过程,这使得这个过程中需要有
很多用户干预
? 用户必须告诉系统哪些维或属性应当包含在类分析
中 (难 )
? 属性太少,则造成挖掘的描述结果不正确
? 属性太多,浪费计算、淹没知识
? 告诉系统每个维应当概化到多高的层次 (易)
? 直接通过概化的临界值,说明给定维应当达到的概化程度
? 对概化层次不满意,则可以指定需要上卷或下钻的维
解析特征化:属性相关分析
? 属性相关分析
? 通过识别不相关或者是弱相关的属性,将它们排除
在概念描述过程之外,从而确定哪些属性应当包含
在类特征化和类比较中。
? 解析特征化
? 包含属性相关分析的类特征化
? 解析比较
? 包含属性相关分析的类比较
属性相关分析( 1)
? 通过属性相关性分析,滤掉统计上不相关或弱
相关的属性,保留对手头数据挖掘任务最相关
的属性。
? 对于给定的属性,一个属性或维被认为是高度
相关的,如果该属性或维的值可能用于区分该
类和其他类。
? 比如:区分昂贵汽车和便宜汽车(可选择的属性:
颜色,型号,品牌,..)
属性相关分析( 2)
? 在同一个维内,对于区分一个类与其他类不同
层的概念可能有很不同的能力
? 比如,birth_date维,day,month与 salary无关,而
year(或将其进一步概化为 birth_decade)则与
salary有关
? 类特征化中的比较类
? 除特征化的数据集外,数据库中可比较的数据集都
作为对比类
? 比如:研究生特征化的例子,对比类为不是研究生的学生
的集合( e.g.本科生)(可选择的属性:性别、籍贯、专
业、平均成绩、年龄段)
属性相关分析的方法
? 属性相关分析的基本思想是计算某种度量,用
于量化属性与给定类或概念的相关性。
? 可采用的度量包括:信息增益,Gini索引、不确定
性和相关系数。(涉及机器学习、统计、模糊和粗
糙集理论等方面的相关知识)
? 比如:信息增益通过计算一个样本分类的 期望信息
和 属性的熵 来获得一个 属性的信息增益,判定该属
性与当前的特征化任务的相关性。
信息增益 (1)
? S是一个 训练样本 的集合,该样本中每个集合
的 类编号 已知。每个样本为一个 元组 。有个属
性用来判定某个训练样本的类编号(类似于学
生记录中的 status属性)
? 假设 S中有 m个类,总共 s个训练样本,每个类
ci有 Si个样本 (i= 1,2,3...m),那么任意一个样
本属于类 Ci的概率是 si / s,那么用来分类一个
给定样本的 期望信息 是,
s
s
s
ssssI im
i
i
m 2
1
21 lo g),...,,( ?
?
??
信息增益 (2)
? 一个有 v个值的属性 A{a1,a2,...,av}可以将 S分成 v个子
集 {S1,S2,...,Sv},其中 Sj包含 S中属性 A上的值为 aj的样
本。假设 Sj包含类 Ci的 sij个样本。根据 A的这种划分的
期望信息称为 A的 熵
? A上该划分的获得的信息增益定义为,
? 具有高信息增益的属性,是给定集合中具有高区分度的属性。所以可以通过计算 S中样本的每个属性的信
息增益,来得到一个属性的相关性的排序。
),.,,,(...)( 1
1
1
mjj
v
j
mjj ssI
s
ssAE ?
?
???
)(),...,,()( 21 AEsssIAG a i n m ??
概念描述的属性相关分析步骤 (1)
? 数据收集
? 通过查询处理,收集目标类和对比类数据
? 使用保守的 AOI进行预相关分析
? 识别属性和维的集合,它们是所选择的相关性分析度量的应
用对象
? 因为不同的概念层对某个类描述的相关性可能很不同,因此在
这个过程中同时要包含概念分层
? 对有大量不同值的属性进行删除或概化
? 在这一级进行概化时,临界值要相应比较高,以便在后续步
骤的分析中包含更多属性(保守的)
? 产生候选关系
概念描述的属性相关分析步骤 (2)
? 使用选定的相关分析度量删除不相关和弱相关
的属性
? 使用选定的相关分析度量( e.g.信息增益),评估
候选关系中的每个属性
? 根据所计算的相关性对属性进行排序
? 低于临界值的不相关和弱相关的属性被删除
? 产生初始目标类工作关系(或初始对比类工作关系)
? 使用 AOI产生概念描述
? 使用一组不太保守的属性概化临界值进行 AOI
解析特征化 —— 示例 (1)
? 任务,使用解析特征化挖掘 Big- University的研
究生的一般特征描述
? 给定
? 属性 name,gender,major,birth_place,birth_date,
phone#和 gpa
? Ui = 属性分析阀值
? Ti = 属性概化阀值
? R = 属性相关阀值
解析特征化 —— 示例 (2)
? 1,数据收集
? 目标类:研究生
? 对比类:本科生
? 2,使用保守的阀值 Ui和 Ti进行 AOI
? 属性删除
? name和 phone#
? 属性概化
? 概化 major,birth_place,birth_date 和 gpa
? 进行累积计数
? 候选关系, gender,major,birth_country,age_range 和 gpa
ge n d e r maj o r b ir t h _c oun t r y age _r a n ge gpa c oun t
M S c i e n c e C a n a d a 2 0 - 2 5 V e r y _ g o o d 16
F S c i e n c e F o r e i g n 2 5 - 3 0 Ex c e l l e n t 22
M En g i n e e r i n g F o r e i g n 2 5 - 3 0 Ex c e l l e n t 18
F S c i e n c e F o r e i g n 2 5 - 3 0 Ex c e l l e n t 25
M S c i e n c e C a n a d a 2 0 - 2 5 Ex c e l l e n t 21
F En g i n e e r i n g C a n a d a 2 0 - 2 5 Ex c e l l e n t 18
目标类候选关系:研究生 (?=120)
ge n d e r m aj o r b irt h _c ou n t r y age_r a n ge gp a c ou n t
M S c i e n c e F o r e i g n <2 0 V e r y _ g o o d 18
F B u s i n e ss C a n a d a <2 0 F a i r 20
M B u s i n e ss C a n a d a <2 0 F a i r 22
F S c i e n c e C a n a d a 2 0 - 2 5 F a i r 24
M En g i n e e r i n g F o r e i g n 2 0 - 2 5 V e r y _ g o o d 22
F En g i n e e r i n g C a n a d a <2 0 Ex c e l l e n t 24
对比类候选关系:本科生 (?=130) (可以在类比较时使用)
解析特征化 —— 示例 (3)
? 3,相关性分析
? 计算给定的样本分类所需要的期望信息
? 计算每个属性的熵, e.g,major
99880250130250130250120250120130120 2221,l o gl o g),I()s,I ( s ?????
F o r m a jo r=, S ci e n ce”, S
11
=8 4 S
21
=4 2 I ( s
11
,s
21
) =0, 9 1 8 3
F o r m a jo r=, En g in eer in g,, S
12
=3 6 S
22
=4 6 I ( s
12
,s
22
) =0, 9 8 9 2
F o r m a jo r=, Bus in ess,, S
13
=0 S
23
=4 2 I ( s
13
,s
23
) =0
Number of grad
students in,Science” Number of undergrad students in,Science”
解析特征化 —— 示例 (4)
? 如果样本根据 major划分,则计算给定的样本进行分
类所需的期望信息,
? 计算该属性的信息增益,
? 所有属性的信息增益
7 8 7 302 5 0422 5 0822 5 01 2 6 231322122111,)s,s(I)s,s(I)s,s(IE ( m a jo r ) ????
2 1 1 5021,E ( m a j o r ))s,I(s)Ga i n ( m a j o r ???
G a i n ( g e n d e r ) = 0, 0 0 0 3
G a i n ( b i r t h _ c o u n t r y ) = 0, 0 4 0 7
G a i n ( maj o r ) = 0, 2 1 1 5
G a i n ( g p a ) = 0, 4 4 9 0
G a i n ( a g e _ r a n g e ) = 0, 5 9 7 1
解析特征化 —— 示例 (5)
? 4,导出初始工作关系
? R = 0.1 (临界值)
? 从候选关系中去处不相关 /弱相关的属性 => 去处 gender,
birth_country
? 因为类描述任务是类特征化,所以这里去处候选对比类关系
? 5,在 W0 上用进行不保守的 AOI
m a jor a g e_ ra ng e g pa co unt
Scien ce 20 - 25 Ver y _ g o o d 16
Scien ce 25 - 30 Excellen t 47
Scien ce 20 - 25 Excellen t 21
Eng in eering 20 - 25 Excellen t 18
Eng in eering 25 - 30 Excellen t 18
初始目标类工作关系 W0,研究生
解析特征化 —— 示例 (6)
挖掘类比较:区分不同的类
? 类比较挖掘的目标是得到将目标类与对比类相区分的
描述。
? 目标类和对比类间必须具有可比性,即两者间要有相似的属
性或维。
? 本科生 VS,研究生 ; student VS,address
? 很多应用于概念描述的技巧可以应用于类比较,比如
属性概化。
? 属性概化必须在所有比较类上同步进行,将属性概化到同一
抽象层后进行比较。
? City VS country
类比较的过程
? 数据收集
? 通过查询处理收集数据库中相关的数据,并将其划分为一个目标类
和一个或多个对比类
? 维相关分析
? 使用属性相关分析方法,使我们的任务中仅包含强相关的维
? 同步概化
? 同步的在目标类和对比类上进行概化,得到 主目标类 关系 /方体 和
主对比类 关系 /方体
? 导出比较的表示
? 用可视化技术表达类比较描述,通常会包含“对比”度量,反映目
标类与对比类间的比较 (e.g count%)
类比较的有效实施
? 目标类和对比类的同步概化,以在相同抽象级
别上进行类比较
? 使用数据立方体技术有效的实施类比较
? 引入一个标志位(数据立方体的一个新维)来表示
目标类或对比类
? 目标类和对比类除了这个新维外,其他部分在数据
立方体中的表示是相同的
? 通过上卷和下钻来同步概化或具体化
类比较挖掘 —— 示例( 1)
? 任务
? 比较 Big-University本科生和研究生的一般特征
? 任务的 DMQL描述
use Big_University_DB
mine comparison as,grad_vs_undergrad_students”
in relevance to name,gender,major,birth_place,birth_date,residence,phone#,gpa
for,graduate_students”
where status in,graduate”
versus,undergraduate_students”
where status in,undergraduate”
analyze count%
from student
类比较挖掘 —— 示例( 2)
? 进行类比较挖掘的输入,
? 给定的属性,name,gender,major,birth_place,
birth_date,residence,phone# and gpa
? 在属性 ai上定义的概念分层 Gen(ai)
? 在属性 ai上定义的属性分析临界值 Ui
? 在属性 ai上定义的属性概化临界值 Ti
? 属性相关性临界值 R
类比较挖掘 —— 示例( 3)
? 任务的处理过程
? 数据收集
? DMQL查询转化为关系查询,得到 初始目标类工作关
系 和 初始对比类工作关系
? 可以看成使构造数据立方体的过程
? 引入一个新维 status来标志目标类和对比类( graduate,
undergraduate)
? 其他属性形成剩余的维
? 在两个数据类上进行维相关分析
? 根据 Ui与 R,删除不相关或者使弱相关的维,name,
gender,major,phone#
类比较挖掘 —— 示例( 4)
? 同步概化
? 在目标类和对比类上同步的进行概化,将相关的维概
化到由属性概化临界值 Ti决定的同样的层次,形成 主
目标类 关系 /方体 和 主对比类 关系 /方体
? 导出比较的表示
? 用表、图或规则等形式表达类比较描述的挖掘结果
? 用户应该能够在 主目标类 关系 /方体 和 主对比类 关系 /
方体 进行进一步的 OLAP操作
类比较挖掘 —— 示例( 5)
B i r t h _ c o un t r y A g e _ r a ng e Gpa C o un t %
C a n a d a 2 0 - 2 5 G o o d 5, 5 3 %
C a n a d a 2 5 - 3 0 G o o d 2, 3 2 %
C a n a d a O v e r _ 3 0 V e r y _ g o o d 5, 8 6 %
… … … …
O t h e r O v e r _ 3 0 E x c e l l e n t 4, 6 8 %
目标类的主概化关系, 研究生
Bi rt h _ c o u n t r y A g e _ r a n g e G p a C o u n t %
Ca n a d a 1 5 - 2 0 F ai r 5, 5 3 %
Ca n a d a 1 5 - 2 0 G o o d 4, 5 3 %
… … … …
Ca n a d a 2 5 - 3 0 G o o d 5, 0 2 %
… … … …
O t h e r O v e r _ 3 0 Ex ce l l e n t 0, 6 8 %
对比类的主概化关系, 本科生
类比较描述的表示
? 用可视化的方式将类比较描述呈现给用户,有
助于用户对挖掘结果的理解。
? 概化关系
? 交叉图
? 柱状图
? 饼图
? 曲线
? 量化规则
类比较描述的量化区分规则表示( 1)
? 类比较描述中的目标类和对比类的区分特性也可以
用量化规则来表示,即量化区分规则
? 量化区分规则使用 d-weight作为兴趣度度量 (特征化使用
什么作为兴趣度度量?)
? qa-概化元组
? Cj-目标类
? qa的 d-weight是初始目标类工作关系中被 qa覆盖的元组数 与
初始目标类和对比类工作关系中被 qa覆盖的总元组数的比
?
?
?
???
m
i
ia
ja
)Cc o u n t ( q
)Cc o u n t ( qw e i g h td
1
类比较描述的量化区分规则表示( 2)
? 目标类中较高的 d-weight表明概化元组所代表的概念
主要来自于目标类
? 较低的 d-weight值则表明该概念主要来自于对比类
S t at u s Bi r t h _ co u n t r y A g e _ r an g e G p a Co u n t
G r ad u at e Ca n a d a 2 5 - 3 0 G o o d 90
U n d e r g r ad u a t e Ca n a d a 2 5 - 3 0 G o o d 2 1 0
对给定的 status=“Graduate”,Birth_coutry=“Canada”,
Age_range=“25-30”,Gpa=“Good” 概化元组,其 d-
weight=90/(90+210)=30% (什么意思? )
类比较描述的量化区分规则表示( 3)
? 使用类比较描述的量化区分规则表示可以更好的描述
上述的情况,其形式为,
? 比如,刚才的挖掘结果可以使用量化区分规则表达如
下,
? 请注意该区分规则表达的是充分条件,即 X满足条件,
则 X为研究生的概率为 30% (特征化量化规则表达的
是什么条件? )
],[ )()(_a r g,w e i g h tddXc o n d i t i o nXc l a s settX ???
%]30:["")("3025")(_"")(_
)(_,
dg o o dXgpaXr a n g eageC a n a d aXc o u n t r yb i r t h
Xs t u d e n tg r a d u a t eX
??????
??
类描述:特征化和比较的表示
? 类特征化和类比较是形成类描述的两个方面,我们可以通过综合
类特征化规则和类区分规则来形成类描述规则。
? 量化特征化规则
? 必要条件
? 量化区分规则
? 充分条件
? 量化描述规则
? 充要条件
t _ w e i g h t ]:[tX)c o n d i t i o n (s s ( X )t a r g e t _ c l aX,??
d _ w e i g h t ]:[dX)c o n d i t i o n (s s ( X)t a r g e t _ c l aX,??
]w:d,w:[t...]w:d,w:[t nn111 ????
??
( X )c o n d it io n( X )c o n d it io n
s s ( X )ta r g e t_ c l aX,
n
量化描述规则 —— 示例 (1)
L o cat io n /i t em TV Co m p u t er B o t h _i t em s
C ou n t t - wt d - wt C ou n t t - wt d - wt C ou n t t - wt d - wt
E u ro p e 80 25% 40% 240 75% 30% 320 100% 32%
N_Am 120 17, 65 % 60% 560 82, 35 % 70% 680 100% 68%
B o t h _
re gi o n s
200 20% 100% 800 80% 100% 1000 100% 100%
? 一个给定类的概化元组的 t-weight表明给定类中该元组的典
型性( e.g.欧洲的销售 (类 )中,电视机 (元组 )占多少百分
比?)
? 一个元组的 d-weight表明,给定类的元组和对比类的元组
相比,有多大区别( e.g.欧洲 (类 )的电视机 (元组 )销售和北
美的电视机销售比如何?)
量化描述规则 —— 示例 (2)
? 对于上述交叉表,可以直接用量化描述规则来表示
? 表明对 99年 AllElectronics公司的 TV和计算机销售,如果一商
品在欧洲售出,则其为 TV的概率为 25% … 该公司 40%的 TV
在欧洲售出 …
3 0 % ]:d7 5 %,:[t)c o m p u t e r ""( i t e m ( X )4 0 % ]:d2 5 %,:[t)T V ""( i t e m ( X )
E u r o p e ( X )X,
???
??
在大型数据库中挖掘描述统计度量
? 对于数据挖掘任务,用户经常关心的数据特征包括数
据的中心趋势和离散特征,这些度量帮我们更好的理
解数据的分布
? 中心趋势的度量包括,mean,median,mode 和 midrange
? 数据离散度量包括,quartiles,outliers,variance 和其他度量
? 从数据挖掘的角度看,我们关心的是在大数据量的情
况下,如何有效的计算上述度量
? 关系数据库中,系统提供了以下聚集函数,count(),
sum(),avg(),max(),min()
? 在大型数据库中挖掘用户感兴趣的描述统计计量涉及到如何
利用关系数据库现有的函数来计算上述两类用户感兴趣的度
量值
度量中心趋势
? 算术平均值
? 加权算术平均
? 中位值:使用一个近似的计算来度量
? 如果值的个数 n是奇数,则中位数 (median)是有序集合的中间值,否
则它是中间两个数的平均值
? 用插值法 (interpolation)来近似计算
? 模 (mode)
? 表示数据集中出现频率最高的值
? 单模态、双模态、三模态、多模态和没有模的情况
? 单模态近似值计算的经验公式,
? 中列数:最大值和最小值的平均
?
?
? n
i
ixnx
1
1
?
?
?
??
n
i
i
n
i
ii
w
xw
x
1
1
cf lfnLm e d i a n
m e d i a n
))(2/(1 ????
)(3 m e d i a nm e a nm o d em e a n ????
度量数据的离散度 ( 1)
? 最常用度量:五数概括(基于四分位数)、中间四分
位数区间和标准差
? 四分位数、孤立点和盒图
? 百分位数 (percentile):第 k个百分位数是具有如下性质的值 x:
数据项的 k%在 x上或低于 x
? 四分位数,Q1 (25th percentile),Q3 (75th percentile)
? 中间四分位数区间 (IQR),IQR = Q3 – Q1
? 对倾斜分布的描述,除了 IQR还常需两个四分位数 Q1和 Q3,
以及中位数 M,一个识别孤立点的常用规则是:挑出落在至
少高于第三个四分位数或低于第一个四分位数 1.5× IQR处
的值
度量数据的离散度 ( 2)
? 五数概括, min,Q1,M,Q3,max
? 盒图:数据分布的一种直观表示
? 方差和标准差
? 方差 s2,n个观测之 x1,x2...xn的方差是
? 标准差 s是方差 s2的平方根
? s是关于平均值的离散的度量,因此仅当选平均值做中心度量时使
用
? 所有观测值相同则 s= 0,否则 s>0
? 方差和标准差都是代数度量
? ??
? ??
??????
n
i
n
i
ii
n
i
i xnxnxxns
1 1
22
1
22 ])(1[
1
1)(
1
1
盒图 —— 示例
? 盒图:数据分布的一种直观
表示,在盒图中,
? 端点在四分位数上,使得盒
图的长度是 IQR
? 中位数 M用盒内的线标记
? 胡须延伸到最大最小观测值
? 该盒图为在给定时间段在
AllElectronics的 4个分店销
售的商品单价的盒图
? 分店 1
? 中位数 $80
? Q1,$60
? Q3,$100
基本统计类描述的图形显示 —— 直方图
? 常用的显示数据汇总和分布的方法,
? 直方图、分位数图,q-q图、散布图和局部回归曲线
? 直方图
? 一种单变量图形方法
? 由一组矩形组成,这些矩形反映类在给定数据中出现的技术或频率
分位数图
? 显示所有的数据,允许用户评估总的情况和不寻常情
况的出现
? 绘出了分位数信息
? 设 xi是递增排序的数据,则每个 xi都有相对应的 fi,指出大约
有 100 fi % 的数据小于等于 xi
分位数-分位数图( q-q图)
? 对着另一个单变量的分位数,绘制一个单变量分布的
分位数
? 允许用户观察是不是有从一个分布到另外一个分布的
迁移
散布图
? 确定两个量化的变量之间看上去是否有联系、模式或
者趋势
? 散布图中的每个值都被视作代数坐标对,作为一个点
画在平面上
? 易于观察双变量数据在平面上的分布
Loess曲线
? Loess曲线为散布图添加一条平滑的曲线,以便更好
的观察两个变量间的依赖模式
? Loess (local regression)意指“局部回归”,为了拟
合 Loess曲线,需要两个参数:平滑参数 α,被回归
拟合的多项式的阶 λ
概念描述:面向数据库的方法与机器
学习的方法比较
? 面向数据库的方法:面向大型数据库的概念描述的概化方法
? 使用基于数据立方体的方法
? 面向属性的归纳的方法
? 机器学习:使用示例学习的范例,在概念集或
标定训练样本集上进行,通过检验这些集合在
学习中导出关于描述类的假定
面向数据库的方法与机器学习的方法的差异 (1)
? 所用的基本原理不同,关于概念描述的基本假
定也不同
? 在示例学习的范例中,分析样本划分为两个集合:
正样本和负样本,正样本用于概化,负样本用于特
化,最后的概念描述会覆盖所有正样本而不覆盖任
何负样本
? 在面向数据库的方法中,只存在正样本,因此大部
分面向数据库的方法都是基于概化的(使用该方法
时,下钻操作用于回溯到前一状态的概化过程)
面向数据库的方法与机器学习的方法的差异 (2)
? 训练样本集大小上的差异
? 机器学习训练样本集小,容易找到覆盖所有正样本而不覆盖
任何负样本的描述
? 面向数据库的方法通常面对大量数据,因此概念描述的目标
是尽量的涵盖正面数据(概率分布)
? 所使用的概化方法不同
? 机器学习方法是逐个元组的进行概化
? 面向数据库的方法是逐个属性(或维)的进行概化,从而使
得数据挖掘的过程能够与面向集合的数据库操作集成