第 5章 统计方法
本章目标
? 阐述统计推论在数据挖掘中的一些常用方法。
? 介绍评价数据集的差异的不同统计参数。
? 描述朴素贝叶斯分类和对数回归方法的内容和基
本原理。
? 用列联表的相关分析介绍对数线性模型。
? 论述方差分析和多维样本的线性判别分析的一些
概念。
? 统计学是一门收集、组织数据并从这些数
据中得出结论的科学。数据集的一般特性
的描述和组织是描述性统计学的主题领域,
而怎样从这些数据推出结论是统计推理的
主题。
? 统计数据分析是为数据挖掘制定的最好的
一套方法论。从一元的到多元的数据分析,
统计学为数据挖掘提供了大量的不同类型
的回归和判别分析方法。
5.1 统计推断
? 在统计推断这个领域,如果观测到组成总体的所
有观测值是不可能或不切实际的,只要关心怎样
得出关于总体的结论。
? 在大多数统计分析应用中,必须依据从总体中抽
取的子集的观测值。称这个子集为数据集,从这
个数据集建立一个总体的统计模型,从而对相同
的总体作推断。
? 问题是它可能导致对总体错误的推断,因此最好
是在独立的、随机观察的情况下选取一个随机的
数据集。
? 统计推断方法:估计和假设检验。
在估计中,为了估计系统的未知参数需要给出一个
臵信度或一个臵信区间。
? 我们的目标是从数据集 T中获得信息来估计现实系
统 f(X,w)模型的一个或更多的参数 w。 数据集可用
下式描述,
T={(x11,…,x1n),(x21,…,x2n) (xm1,…,xmn)}
上式可作为一组具有相应特征值的样本被列成表格
的形式。只要估计出这个模型的参数,就能用来
预测随机变量 Y,Y是 T中固有的一个属性 Y∈ X。
如果Y是数值数据,称为回归,如果是离散的、
无序的数据,称为分类。
? 当估计出数据集的参数模型 w后,就可用该
模型 (以函数 f(X*,w)给出 )的结论去预测Y。
? 预测值与真实值Y之间的差称为预测误差。
? 对于Y的预测值,模型 f(X*,w)的自然属性度
量指标是整个数据集 T的期望均值平方差,
ET[Y-f(X*,w)2]
? 至于假设检验相关课程已有介绍。
5.2 评测数据集的差异
? 许多数据挖掘项目,了解给定数据集的更多有关
中心趋势分布的一些特征是非常有用的。平均数
mean、中位数 median和众数 mode是反映数据的中
心趋势的典型指标,而方差和标准差是反映数据
离散程度的指标。
? 平均数,
? 加权平均数,
?
?
?
n
i
ixnm e a n
1
/1
??
??
?
n
i
i
n
i
ii wxwm e a n
11
/
? 中位数:对偏斜数据集来说,中位数更能
反映它的中心趋势。
2/)1( ?nx
中位数 =
)( 1)2/(2/ ?? nn xx
n是奇数
n是偶数
? 众数:它是反映数据集中心趋势的另一个指标。
众数是在数据集中出现频率最高的一个数据集。
平均数和中位数主要反映数值型数据集的特征,
而众数也适应于分类数据,但因它是不排序,所
以必须有详细说明。
? 数值数据分散的程度为数据的离散度。反
映离散度最常用的指标是标准差和方差 。
n个数据值的 x1,x2,… xn的方差是,
?
?
???
n
i
i m e a nxn
1
22 )())1/(1(?
? 标准差是方差的平方根。其基本性质如下,
1.σ 度量的是半于平均值的离散程度,仅当平均
值作为中心的度量量使用。
2.仅当数据不存在分散时,σ=0,否则 σ>0 。
5.3 贝叶斯定理
? 不难想象,数据不是总体或系统建模时惟一可利
用的信息资源。贝叶斯方法提供了一套将外部客
观信息溶入数据分析过程中的原理方法。它为解
决归纳 -推理分类问题的统计方法提理论依据。
? 贝叶斯定理,
设 X是一个未知类标号的数据样本,设H为某
种假定:数据样本X属于特定的类C。我们希望
确定P (H|X),即给定观测数据样本X后假定H成
立的概率。
? 贝叶斯定理给出数据集X后我们对假设的
信任度的后验概率。贝叶斯定理提供了一
种由概率 P(H),P(X)和 P(X|H)计算后验概率
P(H|X)方法,其基本关系是,
P(H|X)=[P(X|H)P(H)]/P(X)
P(H|X)是后验概率,或条件 X下 H的后验
概率。例如,假设数据空间由水果组成,
用它们的颜色和形状描述。假设 X表示红色
和圆的,H表示假定 X是苹果,则 P(H|X)反
映当我们看到X是红色并是圆的时,我们
对X是苹果的确信程度。作为对比,P(H)是
先验概率,或H的先验概率。
? 现在假设有一组 m个元素的样本
s={s1,s2,…,sn},其中每一个样本 Si代表一个 n
维向量 {x1,x2,… xn},分别对应于属性
A1,A2,…,An。并且有 k个样本类,每一个样
本属于其中一个类。另外给出一个数据样
本X (它的类是未知的 ),可以用最高的条件
概率 P(Ci|X)(i=1,2,…,n)来预测X的类。
? P(Ci|X)的算式,
P(Ci|X)=[P(X|Ci)·P(Ci)]/P(X)
由于 P(X)对所有类为常数,只要 [P(X|Ci)·P(Ci)]
最大即可。
? P(Ci)=类别 Ci的样本数 /样本总数。
? P(X|Ci)·P(Ci)计算很复杂,假设样本属性之
间条件独立,上式可用一个乘积来表示。
?
?
?
n
i
iii CxPCXP
1
)|()|(
? P(xi|Ci) 可由训练样本来估算。
? 例如:下表是 Na?ve Bayesian classifier分类训
练数据集。
样本 属性 1
A1
属性 2
A2
属性 3
A3
类
C
1 1 2 1 1
2 0 0 1 1
3 2 1 2 2
4 1 2 1 2
5 0 1 2 1
6 2 2 2 2
7 1 0 3 1
? 用训练样本计算所给新样本
X={1,2,2,class=?}。
? 计算 P(Ci),
P(C=1)=4/7=0.5714; P(C=2)=3/7=0.4286
? 计算 P(xi|Ci),
P(A1=1/C=1)=2/4=0.50
P(A1=1/C=2)=1/3=0.33
P(A2=2/C=1)=1/4=0.25
P(A2=2/C=2)=2/3=0.66
P(A3=2/C=1)=1/4=0.25
P(A3=2/C=2)=2/3=0.66
假设各属性是条件独立的情况,条件概
率 P(X|Ci)是,
P(X|C=1)
=P(A1=1/C=1)·P(A2=2/C=1)·P(A3=2/C=1)
=0.50·0.25·0.25=0.03125
P(X|C=2)
=P(A1=1/C=2)·P(A2=2/C=2)·P(A3=2/C=2)
=0.33·0.66·0.25=0.14375
P(C1|X)≈P(X|C=1) ·P(C=1)=0.03125·0.5714
P(C2|X)≈P(X|C=2) ·P(C=2)=0.14375·0.4286
可见 P(C2|X)最大,我们预测新样本属于类C
=2。
? 理论上,朴素贝叶斯分类与数据挖掘
的其他分类方法相比具有最小的误差
率,但实践上并非如此,这是由于对
属性以及类条件的独立性的假设具有
不准确性。
5.4 预测回归
? 连续型数值的预测可以用称为回归的统计
技术进行建模。回归分析的目的是找到一
个联系输入变量和输出变量的最优模型。
? 广义线性模型是最常用的统计方法。它用
来描述一个变量的变化趋势和别的变量值
的关系。这种建模称为回归。建模的任务
不只是找到一个合适的模型,而且要从几
个模型中找出最优的模型。择优方法采用
方差分析,在 5.5节中介绍。
? 回归方程的广义线性模型如下,
Y=α+β1·X1+β2·X2+β3·X3+… +βn·Xn
? 应用于给定的样本集可得一新的方程组,
yi=α+β1·x1j+β2·x2j+β3·x3+… +βn·xnj+ξj
j=1,…,m
式中 ξj是 m个给定样本的回归误差。
? 一元线性回归,
给定 n个样本数据 (x1,y1),(x2,y2),…,(x n,yn),其
中 xi∈ X,yi∈ Y,线性回归模型如下,
Y=α+β·X
? 式中 α和 β是回归系数。假设变量Y的方
差上一个常量,可以用最小二乘法来计
算这些系数,使实际数据点和估计回归
直线之间的误差达到最小。一般称这些
残差平方和回归直线的误差平方和,用
SEE来表示,
???
???
??????
n
i
ii
n
i
ii
n
i
xyyyeS E E
1
2
1
2
1
2 )()'( ??
对 SEE分别对 α 和 β 求微分,
))((2)(
1
*?
?
??????
n
i
iii xxyS E E ???
?
?
??????
n
i
ii xyS E E
1
)(2/)( ???
令微分方程为零 (总误差最小 ),可得,
???
???
??
n
i
ii
n
i
i
n
i
i xyxx
11
2
1
??
??
??
??
n
i
i
n
i
i yxn
11
??
解方程组,可得,
])(/[)])(([
1
2
1
??
??
????
n
i
i
n
i
ii xxyyxx?
xy ?? ??
?多元回归是单个一元线性回归的扩展,
涉及到多个预测变量.响应变量Y是作
为几个预测变量的线性函数来建模的 。
? 三元线性回归方程,
Y=α+β1·X1+β2·X2+β3·X3
同样可利用最小二乘法求解系数α,β
1,β 2,β 3。
? 对于 n元线性回归可通过矩阵计算参数 β 。
Y=β·X
式中 β={β0,β1,β2,…,βn},β0=α
)'()'( 1 YXXX ???? ??
? 非线性回归:在回归模型设计时,经常
会涉及到自变量的更高次幂,例如,
3
221
2
1 /1,,,XXXXeX
x 或??
对此采用变换的方式将非线性模型转
换为线性模型。
本章目标
? 阐述统计推论在数据挖掘中的一些常用方法。
? 介绍评价数据集的差异的不同统计参数。
? 描述朴素贝叶斯分类和对数回归方法的内容和基
本原理。
? 用列联表的相关分析介绍对数线性模型。
? 论述方差分析和多维样本的线性判别分析的一些
概念。
? 统计学是一门收集、组织数据并从这些数
据中得出结论的科学。数据集的一般特性
的描述和组织是描述性统计学的主题领域,
而怎样从这些数据推出结论是统计推理的
主题。
? 统计数据分析是为数据挖掘制定的最好的
一套方法论。从一元的到多元的数据分析,
统计学为数据挖掘提供了大量的不同类型
的回归和判别分析方法。
5.1 统计推断
? 在统计推断这个领域,如果观测到组成总体的所
有观测值是不可能或不切实际的,只要关心怎样
得出关于总体的结论。
? 在大多数统计分析应用中,必须依据从总体中抽
取的子集的观测值。称这个子集为数据集,从这
个数据集建立一个总体的统计模型,从而对相同
的总体作推断。
? 问题是它可能导致对总体错误的推断,因此最好
是在独立的、随机观察的情况下选取一个随机的
数据集。
? 统计推断方法:估计和假设检验。
在估计中,为了估计系统的未知参数需要给出一个
臵信度或一个臵信区间。
? 我们的目标是从数据集 T中获得信息来估计现实系
统 f(X,w)模型的一个或更多的参数 w。 数据集可用
下式描述,
T={(x11,…,x1n),(x21,…,x2n) (xm1,…,xmn)}
上式可作为一组具有相应特征值的样本被列成表格
的形式。只要估计出这个模型的参数,就能用来
预测随机变量 Y,Y是 T中固有的一个属性 Y∈ X。
如果Y是数值数据,称为回归,如果是离散的、
无序的数据,称为分类。
? 当估计出数据集的参数模型 w后,就可用该
模型 (以函数 f(X*,w)给出 )的结论去预测Y。
? 预测值与真实值Y之间的差称为预测误差。
? 对于Y的预测值,模型 f(X*,w)的自然属性度
量指标是整个数据集 T的期望均值平方差,
ET[Y-f(X*,w)2]
? 至于假设检验相关课程已有介绍。
5.2 评测数据集的差异
? 许多数据挖掘项目,了解给定数据集的更多有关
中心趋势分布的一些特征是非常有用的。平均数
mean、中位数 median和众数 mode是反映数据的中
心趋势的典型指标,而方差和标准差是反映数据
离散程度的指标。
? 平均数,
? 加权平均数,
?
?
?
n
i
ixnm e a n
1
/1
??
??
?
n
i
i
n
i
ii wxwm e a n
11
/
? 中位数:对偏斜数据集来说,中位数更能
反映它的中心趋势。
2/)1( ?nx
中位数 =
)( 1)2/(2/ ?? nn xx
n是奇数
n是偶数
? 众数:它是反映数据集中心趋势的另一个指标。
众数是在数据集中出现频率最高的一个数据集。
平均数和中位数主要反映数值型数据集的特征,
而众数也适应于分类数据,但因它是不排序,所
以必须有详细说明。
? 数值数据分散的程度为数据的离散度。反
映离散度最常用的指标是标准差和方差 。
n个数据值的 x1,x2,… xn的方差是,
?
?
???
n
i
i m e a nxn
1
22 )())1/(1(?
? 标准差是方差的平方根。其基本性质如下,
1.σ 度量的是半于平均值的离散程度,仅当平均
值作为中心的度量量使用。
2.仅当数据不存在分散时,σ=0,否则 σ>0 。
5.3 贝叶斯定理
? 不难想象,数据不是总体或系统建模时惟一可利
用的信息资源。贝叶斯方法提供了一套将外部客
观信息溶入数据分析过程中的原理方法。它为解
决归纳 -推理分类问题的统计方法提理论依据。
? 贝叶斯定理,
设 X是一个未知类标号的数据样本,设H为某
种假定:数据样本X属于特定的类C。我们希望
确定P (H|X),即给定观测数据样本X后假定H成
立的概率。
? 贝叶斯定理给出数据集X后我们对假设的
信任度的后验概率。贝叶斯定理提供了一
种由概率 P(H),P(X)和 P(X|H)计算后验概率
P(H|X)方法,其基本关系是,
P(H|X)=[P(X|H)P(H)]/P(X)
P(H|X)是后验概率,或条件 X下 H的后验
概率。例如,假设数据空间由水果组成,
用它们的颜色和形状描述。假设 X表示红色
和圆的,H表示假定 X是苹果,则 P(H|X)反
映当我们看到X是红色并是圆的时,我们
对X是苹果的确信程度。作为对比,P(H)是
先验概率,或H的先验概率。
? 现在假设有一组 m个元素的样本
s={s1,s2,…,sn},其中每一个样本 Si代表一个 n
维向量 {x1,x2,… xn},分别对应于属性
A1,A2,…,An。并且有 k个样本类,每一个样
本属于其中一个类。另外给出一个数据样
本X (它的类是未知的 ),可以用最高的条件
概率 P(Ci|X)(i=1,2,…,n)来预测X的类。
? P(Ci|X)的算式,
P(Ci|X)=[P(X|Ci)·P(Ci)]/P(X)
由于 P(X)对所有类为常数,只要 [P(X|Ci)·P(Ci)]
最大即可。
? P(Ci)=类别 Ci的样本数 /样本总数。
? P(X|Ci)·P(Ci)计算很复杂,假设样本属性之
间条件独立,上式可用一个乘积来表示。
?
?
?
n
i
iii CxPCXP
1
)|()|(
? P(xi|Ci) 可由训练样本来估算。
? 例如:下表是 Na?ve Bayesian classifier分类训
练数据集。
样本 属性 1
A1
属性 2
A2
属性 3
A3
类
C
1 1 2 1 1
2 0 0 1 1
3 2 1 2 2
4 1 2 1 2
5 0 1 2 1
6 2 2 2 2
7 1 0 3 1
? 用训练样本计算所给新样本
X={1,2,2,class=?}。
? 计算 P(Ci),
P(C=1)=4/7=0.5714; P(C=2)=3/7=0.4286
? 计算 P(xi|Ci),
P(A1=1/C=1)=2/4=0.50
P(A1=1/C=2)=1/3=0.33
P(A2=2/C=1)=1/4=0.25
P(A2=2/C=2)=2/3=0.66
P(A3=2/C=1)=1/4=0.25
P(A3=2/C=2)=2/3=0.66
假设各属性是条件独立的情况,条件概
率 P(X|Ci)是,
P(X|C=1)
=P(A1=1/C=1)·P(A2=2/C=1)·P(A3=2/C=1)
=0.50·0.25·0.25=0.03125
P(X|C=2)
=P(A1=1/C=2)·P(A2=2/C=2)·P(A3=2/C=2)
=0.33·0.66·0.25=0.14375
P(C1|X)≈P(X|C=1) ·P(C=1)=0.03125·0.5714
P(C2|X)≈P(X|C=2) ·P(C=2)=0.14375·0.4286
可见 P(C2|X)最大,我们预测新样本属于类C
=2。
? 理论上,朴素贝叶斯分类与数据挖掘
的其他分类方法相比具有最小的误差
率,但实践上并非如此,这是由于对
属性以及类条件的独立性的假设具有
不准确性。
5.4 预测回归
? 连续型数值的预测可以用称为回归的统计
技术进行建模。回归分析的目的是找到一
个联系输入变量和输出变量的最优模型。
? 广义线性模型是最常用的统计方法。它用
来描述一个变量的变化趋势和别的变量值
的关系。这种建模称为回归。建模的任务
不只是找到一个合适的模型,而且要从几
个模型中找出最优的模型。择优方法采用
方差分析,在 5.5节中介绍。
? 回归方程的广义线性模型如下,
Y=α+β1·X1+β2·X2+β3·X3+… +βn·Xn
? 应用于给定的样本集可得一新的方程组,
yi=α+β1·x1j+β2·x2j+β3·x3+… +βn·xnj+ξj
j=1,…,m
式中 ξj是 m个给定样本的回归误差。
? 一元线性回归,
给定 n个样本数据 (x1,y1),(x2,y2),…,(x n,yn),其
中 xi∈ X,yi∈ Y,线性回归模型如下,
Y=α+β·X
? 式中 α和 β是回归系数。假设变量Y的方
差上一个常量,可以用最小二乘法来计
算这些系数,使实际数据点和估计回归
直线之间的误差达到最小。一般称这些
残差平方和回归直线的误差平方和,用
SEE来表示,
???
???
??????
n
i
ii
n
i
ii
n
i
xyyyeS E E
1
2
1
2
1
2 )()'( ??
对 SEE分别对 α 和 β 求微分,
))((2)(
1
*?
?
??????
n
i
iii xxyS E E ???
?
?
??????
n
i
ii xyS E E
1
)(2/)( ???
令微分方程为零 (总误差最小 ),可得,
???
???
??
n
i
ii
n
i
i
n
i
i xyxx
11
2
1
??
??
??
??
n
i
i
n
i
i yxn
11
??
解方程组,可得,
])(/[)])(([
1
2
1
??
??
????
n
i
i
n
i
ii xxyyxx?
xy ?? ??
?多元回归是单个一元线性回归的扩展,
涉及到多个预测变量.响应变量Y是作
为几个预测变量的线性函数来建模的 。
? 三元线性回归方程,
Y=α+β1·X1+β2·X2+β3·X3
同样可利用最小二乘法求解系数α,β
1,β 2,β 3。
? 对于 n元线性回归可通过矩阵计算参数 β 。
Y=β·X
式中 β={β0,β1,β2,…,βn},β0=α
)'()'( 1 YXXX ???? ??
? 非线性回归:在回归模型设计时,经常
会涉及到自变量的更高次幂,例如,
3
221
2
1 /1,,,XXXXeX
x 或??
对此采用变换的方式将非线性模型转
换为线性模型。