数据挖掘（ppt课件）：第五章统计方法(1)

分类：计算机格式：ppt 日期：2007年03月21日

第 5章统计方法
本章目标
? 阐述统计推论在数据挖掘中的一些常用方法。
? 介绍评价数据集的差异的不同统计参数。
? 描述朴素贝叶斯分类和对数回归方法的内容和基
本原理。
? 用列联表的相关分析介绍对数线性模型。
? 论述方差分析和多维样本的线性判别分析的一些
概念。
? 统计学是一门收集、组织数据并从这些数
据中得出结论的科学。数据集的一般特性
的描述和组织是描述性统计学的主题领域，
而怎样从这些数据推出结论是统计推理的
主题。
? 统计数据分析是为数据挖掘制定的最好的
一套方法论。从一元的到多元的数据分析，
统计学为数据挖掘提供了大量的不同类型
的回归和判别分析方法。
5.1 统计推断
? 在统计推断这个领域，如果观测到组成总体的所
有观测值是不可能或不切实际的，只要关心怎样
得出关于总体的结论。
? 在大多数统计分析应用中，必须依据从总体中抽
取的子集的观测值。称这个子集为数据集，从这
个数据集建立一个总体的统计模型，从而对相同
的总体作推断。
? 问题是它可能导致对总体错误的推断，因此最好
是在独立的、随机观察的情况下选取一个随机的
数据集。
? 统计推断方法：估计和假设检验。
在估计中，为了估计系统的未知参数需要给出一个
臵信度或一个臵信区间。
? 我们的目标是从数据集 T中获得信息来估计现实系
统 f(X,w)模型的一个或更多的参数 w。数据集可用
下式描述,
T={(x11,…,x1n),(x21,…,x2n) (xm1,…,xmn)}
上式可作为一组具有相应特征值的样本被列成表格
的形式。只要估计出这个模型的参数，就能用来
预测随机变量 Y,Y是 T中固有的一个属性 Y∈ X。
如果Ｙ是数值数据，称为回归，如果是离散的、
无序的数据，称为分类。
? 当估计出数据集的参数模型 w后，就可用该
模型 (以函数 f(X*,w)给出 )的结论去预测Ｙ。
? 预测值与真实值Ｙ之间的差称为预测误差。
? 对于Ｙ的预测值，模型 f(X*,w)的自然属性度
量指标是整个数据集 T的期望均值平方差,
ET[Y-f(X*,w)2]
? 至于假设检验相关课程已有介绍。
5.2 评测数据集的差异
? 许多数据挖掘项目,了解给定数据集的更多有关
中心趋势分布的一些特征是非常有用的。平均数
mean、中位数 median和众数 mode是反映数据的中
心趋势的典型指标，而方差和标准差是反映数据
离散程度的指标。
? 平均数,
? 加权平均数,
?
?
?
n
i
ixnm e a n
1
/1
??
??
?
n
i
i
n
i
ii wxwm e a n
11
/
? 中位数：对偏斜数据集来说，中位数更能
反映它的中心趋势。
2/)1( ?nx
中位数 =
)( 1)2/(2/ ?? nn xx
n是奇数
n是偶数
? 众数：它是反映数据集中心趋势的另一个指标。
众数是在数据集中出现频率最高的一个数据集。
平均数和中位数主要反映数值型数据集的特征，
而众数也适应于分类数据，但因它是不排序，所
以必须有详细说明。
? 数值数据分散的程度为数据的离散度。反
映离散度最常用的指标是标准差和方差。
n个数据值的 x1,x2,… xn的方差是,
?
?
???
n
i
i m e a nxn
1
22 )())1/(1(?
? 标准差是方差的平方根。其基本性质如下,
1.σ 度量的是半于平均值的离散程度，仅当平均
值作为中心的度量量使用。
2.仅当数据不存在分散时,σ=0,否则 σ>0 。
5.3 贝叶斯定理
? 不难想象，数据不是总体或系统建模时惟一可利
用的信息资源。贝叶斯方法提供了一套将外部客
观信息溶入数据分析过程中的原理方法。它为解
决归纳 -推理分类问题的统计方法提理论依据。
? 贝叶斯定理,
设 X是一个未知类标号的数据样本，设Ｈ为某
种假定：数据样本Ｘ属于特定的类Ｃ。我们希望
确定Ｐ (H|X)，即给定观测数据样本Ｘ后假定Ｈ成
立的概率。
? 贝叶斯定理给出数据集Ｘ后我们对假设的
信任度的后验概率。贝叶斯定理提供了一
种由概率 P(H),P(X)和 P(X|H)计算后验概率
P(H|X)方法，其基本关系是,
P(H|X)=[P(X|H)P(H)]/P(X)
P(H|X)是后验概率,或条件 X下 H的后验
概率。例如，假设数据空间由水果组成，
用它们的颜色和形状描述。假设 X表示红色
和圆的,H表示假定 X是苹果，则 P(H|X)反
映当我们看到Ｘ是红色并是圆的时，我们
对Ｘ是苹果的确信程度。作为对比,P(H)是
先验概率，或Ｈ的先验概率。
? 现在假设有一组 m个元素的样本
s={s1,s2,…,sn}，其中每一个样本 Si代表一个 n
维向量 {x1,x2,… xn}，分别对应于属性
A1,A2,…,An。并且有 k个样本类，每一个样
本属于其中一个类。另外给出一个数据样
本Ｘ (它的类是未知的 )，可以用最高的条件
概率 P(Ci|X)(i=1,2,…,n)来预测Ｘ的类。
? P(Ci|X)的算式,
P(Ci|X)=[P(X|Ci)·P(Ci)]/P(X)
由于 P(X)对所有类为常数，只要 [P(X|Ci)·P(Ci)]
最大即可。
? P(Ci)=类别 Ci的样本数 /样本总数。
? P(X|Ci)·P(Ci)计算很复杂，假设样本属性之
间条件独立，上式可用一个乘积来表示。
?
?
?
n
i
iii CxPCXP
1
)|()|(
? P(xi|Ci) 可由训练样本来估算。
? 例如：下表是 Na?ve Bayesian classifier分类训
练数据集。
样本属性 1
A1
属性 2
A2
属性 3
A3
类
Ｃ
1 1 2 1 1
2 0 0 1 1
3 2 1 2 2
4 1 2 1 2
5 0 1 2 1
6 2 2 2 2
7 1 0 3 1
? 用训练样本计算所给新样本
X={1,2,2,class=?}。
? 计算 P(Ci),
P(C=1)=4/7=0.5714; P(C=2)=3/7=0.4286
? 计算 P(xi|Ci),
P(A1=1/C=1)=2/4=0.50
P(A1=1/C=2)=1/3=0.33
P(A2=2/C=1)=1/4=0.25
P(A2=2/C=2)=2/3=0.66
P(A3=2/C=1)=1/4=0.25
P(A3=2/C=2)=2/3=0.66
假设各属性是条件独立的情况，条件概
率 P(X|Ci)是,
P(X|C=1)
=P(A1=1/C=1)·P(A2=2/C=1)·P(A3=2/C=1)
=0.50·0.25·0.25=0.03125
P(X|C=2)
=P(A1=1/C=2)·P(A2=2/C=2)·P(A3=2/C=2)
=0.33·0.66·0.25=0.14375
P(C1|X)≈P(X|C=1) ·P(C=1)=0.03125·0.5714
P(C2|X)≈P(X|C=2) ·P(C=2)=0.14375·0.4286
可见 P(C2|X)最大，我们预测新样本属于类Ｃ
=2。
? 理论上，朴素贝叶斯分类与数据挖掘
的其他分类方法相比具有最小的误差
率，但实践上并非如此，这是由于对
属性以及类条件的独立性的假设具有
不准确性。
5.4 预测回归
? 连续型数值的预测可以用称为回归的统计
技术进行建模。回归分析的目的是找到一
个联系输入变量和输出变量的最优模型。
? 广义线性模型是最常用的统计方法。它用
来描述一个变量的变化趋势和别的变量值
的关系。这种建模称为回归。建模的任务
不只是找到一个合适的模型，而且要从几
个模型中找出最优的模型。择优方法采用
方差分析，在 5.5节中介绍。
? 回归方程的广义线性模型如下,
Y=α+β1·X1+β2·X2+β3·X3+… +βn·Xn
? 应用于给定的样本集可得一新的方程组,
yi=α+β1·x1j+β2·x2j+β3·x3+… +βn·xnj+ξj
j=1,…,m
式中 ξj是 m个给定样本的回归误差。
? 一元线性回归,
给定 n个样本数据 (x1,y1),(x2,y2),…,(x n,yn)，其
中 xi∈ X,yi∈ Y，线性回归模型如下,
Y=α+β·X
? 式中 α和 β是回归系数。假设变量Ｙ的方
差上一个常量，可以用最小二乘法来计
算这些系数，使实际数据点和估计回归
直线之间的误差达到最小。一般称这些
残差平方和回归直线的误差平方和，用
SEE来表示,
???
???
??????
n
i
ii
n
i
ii
n
i
xyyyeS E E
1
2
1
2
1
2 )()'( ??
对 SEE分别对 α 和 β 求微分,
))((2)(
1
*?
?
??????
n
i
iii xxyS E E ???
?
?
??????
n
i
ii xyS E E
1
)(2/)( ???
令微分方程为零 (总误差最小 )，可得,
???
???
??
n
i
ii
n
i
i
n
i
i xyxx
11
2
1
??
??
??
??
n
i
i
n
i
i yxn
11
??
解方程组，可得,
])(/[)])(([
1
2
1
??
??
????
n
i
i
n
i
ii xxyyxx?
xy ?? ??
?多元回归是单个一元线性回归的扩展，
涉及到多个预测变量．响应变量Ｙ是作
为几个预测变量的线性函数来建模的。
? 三元线性回归方程,
Y=α+β1·X1+β2·X2+β3·X3
同样可利用最小二乘法求解系数α,β
1,β 2,β 3。
? 对于 n元线性回归可通过矩阵计算参数 β 。
Y=β·X
式中 β={β0,β1,β2,…,βn},β0=α
)'()'( 1 YXXX ???? ??
? 非线性回归：在回归模型设计时，经常
会涉及到自变量的更高次幂，例如,
3
221
2
1 /1,,,XXXXeX
x 或??
对此采用变换的方式将非线性模型转
换为线性模型。

课件简介

课件名称：	数据挖掘（ppt课件）
课件分类：	计算机
课件类型：	电子教案
文件大小：	2.66MB
下载次数：	2
评论次数：	2
用户评分：	7

用户列表

数据挖掘（ppt课件）：第五章 统计方法(1)

数据挖掘（ppt课件）：第五章统计方法(1)