第三章 数据归约
本章目标
明确基于特征、案例维归约与技术归约的区
别。
解释数据挖掘过程的预处理阶段中进行数据
归约的优点
应用相应的统计方法,理解特征选择和特征
构成的基本原则。
理解特征等级主成分分析方法。
区别基于增量和平均样本的案例中的技术。
对数据描述, 特征的挑选, 归约或转换可能
是决定挖掘方案质量的最重要的问题 。 除了
影响到数据挖掘算法的属性, 它也能决定问
题量否可解, 或所得到的挖掘模型有多强大 。
为什么要数据归约,
1.一旦特征数量达到数百, 而只有上百条样
本用于分析时, 对挖掘是相对不够的 。
2.由高维度引起的数据超负, 使一些挖掘算
法不适用 。
3.1 大型数据集的维度
预处理数据集的三个主要维度,列(特
征),行(案例或样本)和特征的值。它
们以平面文件的形式出现。
数据归约过程3个基本操作,删除列、删
除行、减少列中值的数量(平整特征)。
例如:用分箱方法减少值的数量,用特征
合并代替原来特征(身体素质指标代替人
的身高和体重特征)
数据归约的约定是不要降低结果的质量 。
在数据归约操作时的目标过程,
1.计算时间,较简单的数据,也即经过数据归
约后的结果,可减少挖掘所消耗的时间 。
2.预测/描述精度,多数挖掘模型的主要度量
标准,它估量了数据归纳和慨括为模型的好
坏。
3.数据挖掘模型的描述,简单的描述通常来自
数据归约,意味着模型能得到更好的理解。
理想的情况是维归约后既能减少时间,又能
同时提高精度和简化描述。
数据归约算法的特征,
1.可测性:已归约的数据集可精确确定近似结果的质
量。
2.可识别性:挖掘前能执行归约算法时能确定近似结
果的质量。
3.单调性:算法是可迭代的,结果的质量是时间和输
入数据质量的一个非递减的函数。
4.一致性:结果的质量与时间和输入数据质量有关。
5.收益递增:方案在迭代早期可获得大的改进,但随
时间递减。
6.中断性:算法可在任何时刻停止并给出答案。
7.优先权:算法可以暂停并以最小的开销新开始。
3.2 特征归约
在进行数据归约时不但要处理干扰数
据和污染数据,而且要处理不相关、
相关、冗余数据。为了提高效率,通
常单独处理相关特征,只选择与挖掘
应用相关的数据,以达到用最小的测
量和处理量获得最好的性能。特征归
约的目标,
更少的数据,以便挖掘算法能更快的学
习。
更高的挖掘处理精度,以便更好地从数
据中归纳出模型。
简单的挖掘处理结果,以便理解和使用
起来更加容易。
更少的特征,以便在下一次数据收集中,
通过去除冗余或不相关特征做到节俭。
特征归约的目标与任务,
1.特征选择- 基于应用领域的知识和挖掘
的目标,选择初始数据集中特征的一个子
集。
2.特征构成- 有一些数据的转换对挖掘方
法的结果有惊人影响,因此特征构成是一
个比特殊的挖掘技术更有决定性因素。特
征构成依赖于应用的知识,交叉学科知识
的应用有利于数据准备的改进 。
特征选择方法,
1.特征排列算法,特征等级列表是根据特有的评
估测量标准进行排序的。测量标准基于可用数据
的精度、一致性、信息内容、样本之间的距离和
特征之间的最终统计相关性。它仅指出特征间的
相关性,不提供子集 。
2.最小子集算法,返回一个最小特征子集,子集
中的特征之间没有等级区别。子集中的特征与挖
掘过程相关,其余的则是不相关的 。
在特征选择过程中需要建立特征评估方案来确定
等级排列或特征子集选择,这一点很重要。
例如,若一个数据集有3个特征 {A1,A2,A3},
特征出现或不出现取值 0,1,共有 23个归约的
特征子集,
{0,0,0},{0,0,1},{0,1,0},{0,1,1},{1,0,0},{1,0,1},
{1,1,0},{1,1,1}
特征选择的任务是搜索空间中的每一种状态
都指定可能特征的一个子集。此问题 n=3,
空间较小,但大多数挖掘应用,n>20,搜
索起点和搜索策略相当重要,常常用试探
搜索代替穷举搜索。
特征子集选择的两种方法
1.自底向上方法:从空集开始,然后从初始
特征集选择最相关的特征来写入此集。这
种方法采用一种基于一些试探式的特征评
估标准。
2.自顶向下方法:从原始特征的的完整集合
开始,然后根据所选的试探式评估尺度一
个一个挑选出不相关的特征,并将其去除。
一种可行的特征选择技术是基于均值和方
差的比较。它适用于特征的分布是未知的
情况,实际情况也不知道特征的分布,如
果假设分布是正态,利用统计学可获得好
的结果。这种技术仅是一种试探式的、不
严密的数学建模工具。
如果一个特征描述了不同种类的实体,用
特征的方差对特征的均值进行标准化,进
行不同类之间的比较。如果均值偏离很远,
此特征具有分别两样本的能力,否则该特
征的意义不大。
基于均值和方差的检验公式
设 A和 B是两个不同类特征的值的集
合,n1和 n2是相应的样本数 。
阈值???
???
)(/)()(:
)/)v a r (/)( v a r ()( 21
BASEBm e a nAm e a nT E S T
nBnABASE
上式基于这样一种假设,已知特征独
立于其他特征。主要用于分类问题。
例题:下表是一组数据集,有两个输
入特征 X和 Y,C是把样本分成两类
的附加特征。假设检验阈值为 0.5
X Y C
0.3 0.7 A
0.2 0.9 B
0.6 0.6 A
0.5 0.5 A
0.7 0.7 B
0.4 0.9 B
X和 Y特征的值的子集,
XA={0.3,0.6,0.5},XB={0.2,0.7,0.4}
YA={0.7,0.6,0.5},YB={0.9,0.7,0.9}
计算特征子集的均值和方差,
var(XA)=0.0233,var(XB)=0.6333
var(YA)=0.01,var(YB)=0.0133
4 6 7 8.03/6 3 3 3.03/0 2 3 3.0
)/)v a r (/)( v a r ()( 21
???
??? nXnXXXSE BABA
0 8 7 5.03/0 1 3 3.03/01.0
)/)v a r (/)( v a r ()( 21
???
??? nYnYYYSE BABA
5.00 7 3 5.04 6 7 8.0/4 3 3 3.04 6 6 7.0
)(/)()(
????
?? BABA XXSEXm e a nXm e a n
5.06 6 6 7.20 8 7 5.0/8 3 3 3.06.0
)(/)()(
????
?? BABA YYSEYm e a nYm e a n
结果分析:选择X进行归约,因它均值
接近,检验结果小于阈值。Y不需要归
约,它可能是两类间的区别特征。
上述方法分别检验特征。当分别考虑时,
一些特征可能是有用的,但是在预测能
力上它们可能会是冗余的。如果对特征
进行总体的而不是单个的检查,我们就
可获得一些关于它们的特性的额外信息。
3.4 主成分分析
最流行的大型数据集维归约的统计方
法是
Karhunen-Loeve(K-L)方法,也叫主
成分分析。主成分分析方法是将以向
量样本表示的初始数据集转换为一个
新的导出维度的向量样本集。转换的
目标是将不同样本中的 信息集中 在较
小的维度当中。
主成分分析的基本概念,
将一个 n维向量样本集X ={x1,x2,x3,…,x m}
转换成一个相同维度的集Y ={y1,y2,y3,…,y m},
但数据集Y中将大部分信息内容存在前几维中。
分析过程,
将输入集维度X是归约为只有一个维度Y,通
过矩阵计算将X转化为Y。
Y=A·X
选择A以使得Y对已知数据集方差最大,转换中
获得一维的Y叫做第一主成分,它是最大方差方
向的轴。它是数据点之间的距离平方和以及在它
们在成分轴上的投影最小。
矩阵 A是不可能直接确定, 在进行特征转换时,
先计算协方差矩阵 S。 S定义为,
?
?
?
?
?
?
?
?
?
?
?
?
????
n
j
j
n
j
j
T
jnn
xnx
xxxxnS
1
1
)/1('
)'()'()1/(1
式中
通过计算 S来实现与 m个最大的特征值相对
应的 m个特征向量定义了 n维空间向 m维空
间的线性转换,且 m个特征相互独立。
S中的相关知识,
1.Sn× n的特征值是 λ 1,λ 2,…,λ n,其中,
λ 1≥ λ 2≥ … λ n≥0
2.特征向量 e1,e2,…,en对应特征值
λ 1,λ 2,…,λ n,称为主轴。
变换后的 n维空间,第 i个成分的方差等于
第 i个特征值,数据集的大多数信息集中
在少数主成分中。
变换后数据集有效维度 (m)取值标准,
阈值??
?
??
?
??
?
??
?
?? ??
??
n
i
m
i
iiR
11
/ ??
则特征选择的标准是根据 S的 m个最大
特征值之和与 S的交点比率。(基于 Y
数据集方差最大准则)
主成分分析例子:初始数据集是著名
的艾里斯数据集,有 4个特征,每一
样本是一个 4维向量。下表标准化的
艾里斯数据的相关矩阵 (对称 )。
Feature1 Feature2 Feature3 Feature4
Feature1 1.0000 -0.1094 0.8718 0.8180
Feature2 -0.1094 1.0000 -0.4205 -0.3536
Feature3 0.8718 -0.4205 1.0000 0.9628
Feature4 0.8180 -0.3536 0.9628 1.0000
由相关矩阵直接计算特征值,下表所示
Feature 特征值
Feature1 2.91082
Feature2 0.92122
Feature3 0.14735
Feature 4 0.02062
设定阈值 R*=0.95,取前两个特征作为特征子
集。
R=(2.91082+0.92122)/(2.91082+0.92122+0.14735+0.02062)
=0.958>0.95
3.5 值归约
减少已知特征的离散值的数目是基于数据
归约阶段的第二套技术,这就是特征离散
化技术。则将连续型特征的值离散化,使
之成为少量的区间,每一个区间映射到一
个离散符号。其优点是简化了数据描述并
易于理解数据和最终挖掘的结果。例如人
的年龄可为儿童、青少年、成人,中年、
老年。
问题是这种归约处理存在两个问题,
1.什么是分割点?
2.怎样选择区间表述?
离散化可减少计算的复杂性。每个特征可以单独
平整,其过程只执行一次,但需要有关特征的知
识。
假设一个特征有一列数字值,这些值可以用大于
小于运算符由小到大进行排序,可采用分箱的概
念将相近的值分组,然后各小组进行平整。
均值或中位数,均值或众数适用于中等或大量箱
数,边界平整适用于小箱数。
例如:有一特征 f的值集合是,
{3,2,1,5,4,3,1,7,5,3},
通过分类组成一个有序集合,
{1,1,2,3,3,3,4,5,5,7}
分为3个箱,
{ 1,1,2,3,3,3,4,5,5,7}
BIN1 BIN2 BIN3
下面分别众数、均值和边界对其平整。
众数平整,
{ 1,1,1,3,3,3,5,5,5,5}
BIN1 BIN2 BIN3
均值平整,
{ 1.33,1.33,1.33,3,3,3,5.25,5.25,5.25,5.25}
BIN1 BIN2 BIN3
边界平整,
{ 1,1,2,3,3,3,4,4,4,7}
BIN1 BIN2 BIN3
主要问题是找到最好的分割点。理论上,
分割点不能独立其他特征来决定。但很多
挖掘应用每个特征的试探性决策独立地给
出了合适的结果。
值归约问题可表述为一个选择 k个箱的最优
化问题,给出箱的数量 k,分配箱中的值,
使得一个值到它的箱子的均值或中值的平
均距离最小 。算法可能非常复杂,通常采
用近似最优化算法,下面是一个改进的试
探性程序过程步骤,
1.对已知的特征的所有值进行分类。
2.大概在指定每个箱中分类的相邻值 (vi)的均
等数目,箱子数已给定。
3.当减少全局距离误差 (ER)(所有从每个 vi到
其指定箱子的均值或众数的距离之和 )时,
把边界元素 vi从一个箱中移到下一个 (或前
一个 )箱中。
例如:特征 f的值集合是 {5,1,8,2,2,9,2,1,8,6}
分成3个箱 (k=3),采用众数平整箱子。
第一次迭代计算,
a)集合排序为,{1,1,2,2,2,5,6,8,8,9}
b)分箱为,{1,1,2 2,2,5,6,8,8,9}
BIN1 BIN2 BIN3
c)(i)3 个箱子的众数是 {1,2,8},用众数的绝对距离
计算总误差,
ER=0+0+1+0+2+3+2+0+0+1=7
(iv)在下面的三次迭代中把两个元素从 BIN2移到
BIN1,一个元素从 BIN3移到 BIN2,得到 ER越来越小,
新的分布 (最终 ER=4,再移动 ER增大 )为,
{1,1,2,2,2 5,6,8,8,9}
BIN1 BIN2 BIN3
另一特征的值归约算法是用舍入来取得近似
值。其算法步骤,
1.整除 Y=int(X/10k)
2.舍入 If(mod(X,10k)≥10k/2)thenY=Y+1
3.整乘 Y=Y*10k
其中 k是从最右边起要舍入的位数。例如,
如果 k=1,数字 1450舍入为 1450;如果 k=2,
舍入为 1500 ;如果 k=3,舍入为 1000。
3.7 案例归约
如果我们没有参与数据收集过程,那么在
挖掘时可看作是二次数据分析,挖掘过程
与收集数据和选择初始数据的样本集的最
优方法没有联系,样本是已知的,质量或
好或坏,或者没有先验知识,需要解决案
例数据集中使用的维数和样本数目,或者
说数据表中的行数。因此案例归约是数据
归约中最复杂的任务。
案例归约过程实际上是一个取样过程,如
果取样已由挖掘技术来管理,就不需要进
行案例归约了。
在数据分析中出现两种取样过程,第一种,
有时数据集本身不过是来自较大的、未知
总体的一个样本,取样是数据收集过程的
一部分,挖掘对这类取样没有兴趣。
第二种,数据挖掘的更多特征是,初始数
据集描述了一个极大的总体,而对数据的
分析只基于样本的一个子集。
从数据集中选出一个有代表性的样本的子
集须考虑计算成本、存储要求、估计量的
精度以及其他的一些算法和数据的特征等
因素。
取样方法分类,
1.普通用途的取样方法 ;2.特殊领域的取样
方法。
普通用途的取样技术,
△系统化取样是最简单的取样技术,例
如,从一个数据集中选择 50%,可采用每
隔一个在选取数据集中的样本。
△随机取样是一种初始数据集中的每一
个样本都有相同机会入选子集的方法。随
机取样有两种方式,不回放随机取样和回
放随机取样 。
随机取样过程的基本形式有,
1.增量取样
在现实中挖掘逐步增大的随机样本子集
有助于发现误差和复杂性的倾向。案例归
约的一个主要方法是,对逐步增大的随机
子集进行挖掘处理,然后观察其性能走向,
如果没有获得性能提高就停止。
2,平均取样
当方案是从很多经过均化和表决的随机
样本子集建立起来的时候,组合方案和在
完整数据集上建立起来的单个方案一样,
甚至更好。
另外两种取样技术
分层取样:一种将整个数据集分割为不
相交的子集或层次的技术。每个层独立于
其他层取样。所有的来自不同层的小子集
组合形成了用于分析的最终的总数据样本
子集。
逆取样技术:当数据集中的一个特征出
现概率极小,且即使很大的样本子集也难
以为特征的值估计提供足够的信息时,采
用逆取样技术。它从最小的样本子集开始,
并一直持续直到特征值的必需数据的一些
条件得到满足。
本章目标
明确基于特征、案例维归约与技术归约的区
别。
解释数据挖掘过程的预处理阶段中进行数据
归约的优点
应用相应的统计方法,理解特征选择和特征
构成的基本原则。
理解特征等级主成分分析方法。
区别基于增量和平均样本的案例中的技术。
对数据描述, 特征的挑选, 归约或转换可能
是决定挖掘方案质量的最重要的问题 。 除了
影响到数据挖掘算法的属性, 它也能决定问
题量否可解, 或所得到的挖掘模型有多强大 。
为什么要数据归约,
1.一旦特征数量达到数百, 而只有上百条样
本用于分析时, 对挖掘是相对不够的 。
2.由高维度引起的数据超负, 使一些挖掘算
法不适用 。
3.1 大型数据集的维度
预处理数据集的三个主要维度,列(特
征),行(案例或样本)和特征的值。它
们以平面文件的形式出现。
数据归约过程3个基本操作,删除列、删
除行、减少列中值的数量(平整特征)。
例如:用分箱方法减少值的数量,用特征
合并代替原来特征(身体素质指标代替人
的身高和体重特征)
数据归约的约定是不要降低结果的质量 。
在数据归约操作时的目标过程,
1.计算时间,较简单的数据,也即经过数据归
约后的结果,可减少挖掘所消耗的时间 。
2.预测/描述精度,多数挖掘模型的主要度量
标准,它估量了数据归纳和慨括为模型的好
坏。
3.数据挖掘模型的描述,简单的描述通常来自
数据归约,意味着模型能得到更好的理解。
理想的情况是维归约后既能减少时间,又能
同时提高精度和简化描述。
数据归约算法的特征,
1.可测性:已归约的数据集可精确确定近似结果的质
量。
2.可识别性:挖掘前能执行归约算法时能确定近似结
果的质量。
3.单调性:算法是可迭代的,结果的质量是时间和输
入数据质量的一个非递减的函数。
4.一致性:结果的质量与时间和输入数据质量有关。
5.收益递增:方案在迭代早期可获得大的改进,但随
时间递减。
6.中断性:算法可在任何时刻停止并给出答案。
7.优先权:算法可以暂停并以最小的开销新开始。
3.2 特征归约
在进行数据归约时不但要处理干扰数
据和污染数据,而且要处理不相关、
相关、冗余数据。为了提高效率,通
常单独处理相关特征,只选择与挖掘
应用相关的数据,以达到用最小的测
量和处理量获得最好的性能。特征归
约的目标,
更少的数据,以便挖掘算法能更快的学
习。
更高的挖掘处理精度,以便更好地从数
据中归纳出模型。
简单的挖掘处理结果,以便理解和使用
起来更加容易。
更少的特征,以便在下一次数据收集中,
通过去除冗余或不相关特征做到节俭。
特征归约的目标与任务,
1.特征选择- 基于应用领域的知识和挖掘
的目标,选择初始数据集中特征的一个子
集。
2.特征构成- 有一些数据的转换对挖掘方
法的结果有惊人影响,因此特征构成是一
个比特殊的挖掘技术更有决定性因素。特
征构成依赖于应用的知识,交叉学科知识
的应用有利于数据准备的改进 。
特征选择方法,
1.特征排列算法,特征等级列表是根据特有的评
估测量标准进行排序的。测量标准基于可用数据
的精度、一致性、信息内容、样本之间的距离和
特征之间的最终统计相关性。它仅指出特征间的
相关性,不提供子集 。
2.最小子集算法,返回一个最小特征子集,子集
中的特征之间没有等级区别。子集中的特征与挖
掘过程相关,其余的则是不相关的 。
在特征选择过程中需要建立特征评估方案来确定
等级排列或特征子集选择,这一点很重要。
例如,若一个数据集有3个特征 {A1,A2,A3},
特征出现或不出现取值 0,1,共有 23个归约的
特征子集,
{0,0,0},{0,0,1},{0,1,0},{0,1,1},{1,0,0},{1,0,1},
{1,1,0},{1,1,1}
特征选择的任务是搜索空间中的每一种状态
都指定可能特征的一个子集。此问题 n=3,
空间较小,但大多数挖掘应用,n>20,搜
索起点和搜索策略相当重要,常常用试探
搜索代替穷举搜索。
特征子集选择的两种方法
1.自底向上方法:从空集开始,然后从初始
特征集选择最相关的特征来写入此集。这
种方法采用一种基于一些试探式的特征评
估标准。
2.自顶向下方法:从原始特征的的完整集合
开始,然后根据所选的试探式评估尺度一
个一个挑选出不相关的特征,并将其去除。
一种可行的特征选择技术是基于均值和方
差的比较。它适用于特征的分布是未知的
情况,实际情况也不知道特征的分布,如
果假设分布是正态,利用统计学可获得好
的结果。这种技术仅是一种试探式的、不
严密的数学建模工具。
如果一个特征描述了不同种类的实体,用
特征的方差对特征的均值进行标准化,进
行不同类之间的比较。如果均值偏离很远,
此特征具有分别两样本的能力,否则该特
征的意义不大。
基于均值和方差的检验公式
设 A和 B是两个不同类特征的值的集
合,n1和 n2是相应的样本数 。
阈值???
???
)(/)()(:
)/)v a r (/)( v a r ()( 21
BASEBm e a nAm e a nT E S T
nBnABASE
上式基于这样一种假设,已知特征独
立于其他特征。主要用于分类问题。
例题:下表是一组数据集,有两个输
入特征 X和 Y,C是把样本分成两类
的附加特征。假设检验阈值为 0.5
X Y C
0.3 0.7 A
0.2 0.9 B
0.6 0.6 A
0.5 0.5 A
0.7 0.7 B
0.4 0.9 B
X和 Y特征的值的子集,
XA={0.3,0.6,0.5},XB={0.2,0.7,0.4}
YA={0.7,0.6,0.5},YB={0.9,0.7,0.9}
计算特征子集的均值和方差,
var(XA)=0.0233,var(XB)=0.6333
var(YA)=0.01,var(YB)=0.0133
4 6 7 8.03/6 3 3 3.03/0 2 3 3.0
)/)v a r (/)( v a r ()( 21
???
??? nXnXXXSE BABA
0 8 7 5.03/0 1 3 3.03/01.0
)/)v a r (/)( v a r ()( 21
???
??? nYnYYYSE BABA
5.00 7 3 5.04 6 7 8.0/4 3 3 3.04 6 6 7.0
)(/)()(
????
?? BABA XXSEXm e a nXm e a n
5.06 6 6 7.20 8 7 5.0/8 3 3 3.06.0
)(/)()(
????
?? BABA YYSEYm e a nYm e a n
结果分析:选择X进行归约,因它均值
接近,检验结果小于阈值。Y不需要归
约,它可能是两类间的区别特征。
上述方法分别检验特征。当分别考虑时,
一些特征可能是有用的,但是在预测能
力上它们可能会是冗余的。如果对特征
进行总体的而不是单个的检查,我们就
可获得一些关于它们的特性的额外信息。
3.4 主成分分析
最流行的大型数据集维归约的统计方
法是
Karhunen-Loeve(K-L)方法,也叫主
成分分析。主成分分析方法是将以向
量样本表示的初始数据集转换为一个
新的导出维度的向量样本集。转换的
目标是将不同样本中的 信息集中 在较
小的维度当中。
主成分分析的基本概念,
将一个 n维向量样本集X ={x1,x2,x3,…,x m}
转换成一个相同维度的集Y ={y1,y2,y3,…,y m},
但数据集Y中将大部分信息内容存在前几维中。
分析过程,
将输入集维度X是归约为只有一个维度Y,通
过矩阵计算将X转化为Y。
Y=A·X
选择A以使得Y对已知数据集方差最大,转换中
获得一维的Y叫做第一主成分,它是最大方差方
向的轴。它是数据点之间的距离平方和以及在它
们在成分轴上的投影最小。
矩阵 A是不可能直接确定, 在进行特征转换时,
先计算协方差矩阵 S。 S定义为,
?
?
?
?
?
?
?
?
?
?
?
?
????
n
j
j
n
j
j
T
jnn
xnx
xxxxnS
1
1
)/1('
)'()'()1/(1
式中
通过计算 S来实现与 m个最大的特征值相对
应的 m个特征向量定义了 n维空间向 m维空
间的线性转换,且 m个特征相互独立。
S中的相关知识,
1.Sn× n的特征值是 λ 1,λ 2,…,λ n,其中,
λ 1≥ λ 2≥ … λ n≥0
2.特征向量 e1,e2,…,en对应特征值
λ 1,λ 2,…,λ n,称为主轴。
变换后的 n维空间,第 i个成分的方差等于
第 i个特征值,数据集的大多数信息集中
在少数主成分中。
变换后数据集有效维度 (m)取值标准,
阈值??
?
??
?
??
?
??
?
?? ??
??
n
i
m
i
iiR
11
/ ??
则特征选择的标准是根据 S的 m个最大
特征值之和与 S的交点比率。(基于 Y
数据集方差最大准则)
主成分分析例子:初始数据集是著名
的艾里斯数据集,有 4个特征,每一
样本是一个 4维向量。下表标准化的
艾里斯数据的相关矩阵 (对称 )。
Feature1 Feature2 Feature3 Feature4
Feature1 1.0000 -0.1094 0.8718 0.8180
Feature2 -0.1094 1.0000 -0.4205 -0.3536
Feature3 0.8718 -0.4205 1.0000 0.9628
Feature4 0.8180 -0.3536 0.9628 1.0000
由相关矩阵直接计算特征值,下表所示
Feature 特征值
Feature1 2.91082
Feature2 0.92122
Feature3 0.14735
Feature 4 0.02062
设定阈值 R*=0.95,取前两个特征作为特征子
集。
R=(2.91082+0.92122)/(2.91082+0.92122+0.14735+0.02062)
=0.958>0.95
3.5 值归约
减少已知特征的离散值的数目是基于数据
归约阶段的第二套技术,这就是特征离散
化技术。则将连续型特征的值离散化,使
之成为少量的区间,每一个区间映射到一
个离散符号。其优点是简化了数据描述并
易于理解数据和最终挖掘的结果。例如人
的年龄可为儿童、青少年、成人,中年、
老年。
问题是这种归约处理存在两个问题,
1.什么是分割点?
2.怎样选择区间表述?
离散化可减少计算的复杂性。每个特征可以单独
平整,其过程只执行一次,但需要有关特征的知
识。
假设一个特征有一列数字值,这些值可以用大于
小于运算符由小到大进行排序,可采用分箱的概
念将相近的值分组,然后各小组进行平整。
均值或中位数,均值或众数适用于中等或大量箱
数,边界平整适用于小箱数。
例如:有一特征 f的值集合是,
{3,2,1,5,4,3,1,7,5,3},
通过分类组成一个有序集合,
{1,1,2,3,3,3,4,5,5,7}
分为3个箱,
{ 1,1,2,3,3,3,4,5,5,7}
BIN1 BIN2 BIN3
下面分别众数、均值和边界对其平整。
众数平整,
{ 1,1,1,3,3,3,5,5,5,5}
BIN1 BIN2 BIN3
均值平整,
{ 1.33,1.33,1.33,3,3,3,5.25,5.25,5.25,5.25}
BIN1 BIN2 BIN3
边界平整,
{ 1,1,2,3,3,3,4,4,4,7}
BIN1 BIN2 BIN3
主要问题是找到最好的分割点。理论上,
分割点不能独立其他特征来决定。但很多
挖掘应用每个特征的试探性决策独立地给
出了合适的结果。
值归约问题可表述为一个选择 k个箱的最优
化问题,给出箱的数量 k,分配箱中的值,
使得一个值到它的箱子的均值或中值的平
均距离最小 。算法可能非常复杂,通常采
用近似最优化算法,下面是一个改进的试
探性程序过程步骤,
1.对已知的特征的所有值进行分类。
2.大概在指定每个箱中分类的相邻值 (vi)的均
等数目,箱子数已给定。
3.当减少全局距离误差 (ER)(所有从每个 vi到
其指定箱子的均值或众数的距离之和 )时,
把边界元素 vi从一个箱中移到下一个 (或前
一个 )箱中。
例如:特征 f的值集合是 {5,1,8,2,2,9,2,1,8,6}
分成3个箱 (k=3),采用众数平整箱子。
第一次迭代计算,
a)集合排序为,{1,1,2,2,2,5,6,8,8,9}
b)分箱为,{1,1,2 2,2,5,6,8,8,9}
BIN1 BIN2 BIN3
c)(i)3 个箱子的众数是 {1,2,8},用众数的绝对距离
计算总误差,
ER=0+0+1+0+2+3+2+0+0+1=7
(iv)在下面的三次迭代中把两个元素从 BIN2移到
BIN1,一个元素从 BIN3移到 BIN2,得到 ER越来越小,
新的分布 (最终 ER=4,再移动 ER增大 )为,
{1,1,2,2,2 5,6,8,8,9}
BIN1 BIN2 BIN3
另一特征的值归约算法是用舍入来取得近似
值。其算法步骤,
1.整除 Y=int(X/10k)
2.舍入 If(mod(X,10k)≥10k/2)thenY=Y+1
3.整乘 Y=Y*10k
其中 k是从最右边起要舍入的位数。例如,
如果 k=1,数字 1450舍入为 1450;如果 k=2,
舍入为 1500 ;如果 k=3,舍入为 1000。
3.7 案例归约
如果我们没有参与数据收集过程,那么在
挖掘时可看作是二次数据分析,挖掘过程
与收集数据和选择初始数据的样本集的最
优方法没有联系,样本是已知的,质量或
好或坏,或者没有先验知识,需要解决案
例数据集中使用的维数和样本数目,或者
说数据表中的行数。因此案例归约是数据
归约中最复杂的任务。
案例归约过程实际上是一个取样过程,如
果取样已由挖掘技术来管理,就不需要进
行案例归约了。
在数据分析中出现两种取样过程,第一种,
有时数据集本身不过是来自较大的、未知
总体的一个样本,取样是数据收集过程的
一部分,挖掘对这类取样没有兴趣。
第二种,数据挖掘的更多特征是,初始数
据集描述了一个极大的总体,而对数据的
分析只基于样本的一个子集。
从数据集中选出一个有代表性的样本的子
集须考虑计算成本、存储要求、估计量的
精度以及其他的一些算法和数据的特征等
因素。
取样方法分类,
1.普通用途的取样方法 ;2.特殊领域的取样
方法。
普通用途的取样技术,
△系统化取样是最简单的取样技术,例
如,从一个数据集中选择 50%,可采用每
隔一个在选取数据集中的样本。
△随机取样是一种初始数据集中的每一
个样本都有相同机会入选子集的方法。随
机取样有两种方式,不回放随机取样和回
放随机取样 。
随机取样过程的基本形式有,
1.增量取样
在现实中挖掘逐步增大的随机样本子集
有助于发现误差和复杂性的倾向。案例归
约的一个主要方法是,对逐步增大的随机
子集进行挖掘处理,然后观察其性能走向,
如果没有获得性能提高就停止。
2,平均取样
当方案是从很多经过均化和表决的随机
样本子集建立起来的时候,组合方案和在
完整数据集上建立起来的单个方案一样,
甚至更好。
另外两种取样技术
分层取样:一种将整个数据集分割为不
相交的子集或层次的技术。每个层独立于
其他层取样。所有的来自不同层的小子集
组合形成了用于分析的最终的总数据样本
子集。
逆取样技术:当数据集中的一个特征出
现概率极小,且即使很大的样本子集也难
以为特征的值估计提供足够的信息时,采
用逆取样技术。它从最小的样本子集开始,
并一直持续直到特征值的必需数据的一些
条件得到满足。