5.5 方差分析
?通常,在分析估计回归直线的性能和自变量对
最终回归的影响时,用方差分析方法。
?方差分析是一种主要用于线性回归模型中 β 值
非零的情况下的识别方法。假设用最小二乘法
已求出参数 β 的值,那么观察到的输出值和拟
合值的差异是残差。
Ri=yi-f(xi)
?对数据集中的 m个样本,残差的大小和方差
σ 2 的大小是有联系的。方差可用下式估计,
))1(/(]))(([
1
22 ???? ?
?
nmixfiyS
m
i
式中分子是残差和,分母是残差的自由度。
?分析步骤,
?首先,计算模型所有输入的S 2,然后一一
删除这些输入,若删除一个有用的输入,S 2
的估计值将会大幅度上升,若删除一个多余
的输入,估计值不会有太大的变化。
?在上述步骤的迭代过程中,引入F比率和F
统计检验,形式如下,
22 /
o l dn e w SSF ?
?若一个输入被删除后,F接近于1,新模型
合适;若F值明显大于1,说明新模型不合
适。应用迭代的方差分析方法,能识别哪一
个输入和输出的相关的,哪些是不相关的。
?下表是有3个输入的数据集的方差分析
情况 输入集 Si2 F
1 x1,x2,x3 3.56
2 x1,x2 3.98 F21=1.12
3 x1,x3 6.22 F31=1.75
4 x2,x3 8.34 F41=2.34
5 X1 9.02 F52=2.27
6 X2 9.89 F62=2.48
?上述分析结果,只有删除 x3,F没有明显变
化,其他情况F比值显著增加,因此可以删
除,不影响模型的性能。
?方差的多元分析是方差分析的一个推广,解
决了输出不是单个数值而是一个向量的数据
分析问题。方差的多元分析基于这样一个假
设,输出变量间相互独立,采用一个多元线
性模型来建模,
jnjnjjji xxxxY ?????? ???????????,,,332211
?残差矩阵 R 为,
?
?
???
m
j
T
jjjj yyyyR
1
)')('(
?古典的多元分析也包含基本的分析方法,如
一组样本向量如何转换为一组新的维数更少
的样本向量。数据归约和数据转换中用到。
5.6 对数回归
?线性回归用于对连续值函数进行建模。广义
回归模型提供了将线性回归用于分类响应变
量建模的理论基础,它最常见的形式是对数
回归。
?对数回归将某些事件发生的概率建模为预测
变量集的线性函数。它不是预测因变量的值,
而是估计因变量取给定值的概率 p。 例如,对
数回归不预测顾客的信用等级是好是坏,而
是试着估计顾客有好的信用等级的概率。
?对数回归仅适用于输出变量是二元分类变
量的情况。但输入变量也可以是定量的,
它支持一般的输入数据集。假设输出 Y有两
个分类值编码为 0和 1,由数据集能计算出
所给输入样本所产生的输出值取 0和取 1的
概率。
?对数回归的模型表示为,
njnjjjjj xxxxpp ??????????? ?????,..))1/(l o g ( 332211
?输出用对数据是为了结果输出在 [0,1]区间。
321 3.04.06.05.1)(l o g xxxpit ?????
?假设有一训练数据集,用线性回归建成模
为,
?并假设给出一新的待分类的样本,其输入
值 {x1,x2,x3}={1.,0,1},用上面模型可估计出
输出值为 1的概率。
?根据概率 p的最终结果,可推出输出值 Y=1
的可能性比分类值 Y=0小。
?和挖掘的其他方法对比较。
5.7 对数 -线性模型
?对数 -线性建模是一种分类 (或数量型 )变量
间关系的方法。对数 -线性模型近似于离散
的、多元的概率分布。它是一种假设输出 Yi
具有泊松分布的的广义线性模型,假设其
期望值 μj的自然对数是输入的线性函数,
njnjjjj xxxx ?????????? ??????,..)l o g ( 332211
?由于所感兴趣的变量是分类变量,用表示数
据总体分布的频率表来表示它们。
?对数 -线性建模的主要目的是识别分类变量间
的关联。因此,此类分类问题转换成了求模
型中所有 β值为 0的问题。如果对数 -线性模式
中变量间有相互作用,表示这些变量不是独
立的而是相关的,相应的 β值不为 0。
?由于所研究的问题是变量间的关联,因此没
有必要将分类变量作为分析的输出。如果需
要输出,可采用对数回归来分析。此处仅解
释一个定义数据集时没有输出变量的对数 -对
性模型。
?一致性分析是分析关联矩阵 (也称列联表 )中的
分类数据。其分析结果回答了, 所分析的变
量间是否有关联, 这个问题。
?例如,下表是一个 2× 2列联表,有关男性和女
性对堕胎态度的调查结果,样本数 =1100,两
个分类变量-性别 (男性和女性 )和赞同 (是和
否 ),每一种情况都有累积结果。
赞 同
是 否 总计
性别 女 309 191 500
男 319 281 600
总计 628 472 1100
?对数-线性模型用于解决分类变量间的
关联,分析步骤是它基于根据两个列联
表的比较,定义变量间关联的算法,
1.第一步,把所给的列联表转换成一个
具有期望值的表,并假定这些变量间是
在独立的情况下来计算这些值。
2.第二步,用平均距离指标和卡方检验
作为评价两个分类变量关联的标准,对
这两个矩阵进行比较。
?算法思路:用 Xm× n来表示这个列联表。
其行和为,
?
?
? ?
n
i
jij XX
1
?
?
? ?
n
j
jii XX
1
其列和为,
行和的总和为,
?
?
??? ?
n
j
jXX
1
?
?
??? ?
n
i
iXX
1
列和的总和为,
假定各行和各列变量间没有关联。用这些和
可以计算期望值的列联表。期望值计算如下,
???? ?? XXXE ijji /)(
由上式可得到期望值的新表,两个表具
有相同的维数。上例计算结果如下,
j=1,…,m,i=1,…,n
赞 同
是 否 总计
性别 女 285.5 214.5 500
男 342.5 257.5 600
总计 628 472 1100
?到此已完成算法的第一步,下一步是关联
卡方检验的应用。初始假设 H 0是假设两个
变量是不相关的,可以用皮氏卡方公式来检
验,
? ?
? ?
??
m
j
n
i
jijiji EEX
1 1
22 )/)((?
?χ 2的值越大,拒绝假设 H 0的可能性越大。
对于上例有如下检验结果,
2 8 1 6.82 ??
?按照 m× n维表自由度的计算公式 为,
d.f.(degrees of reedom)
=(m-1)(n-1)=(2-1)(2-1)=1
?一般,在置信水平 α 下若 χ 2≥T( α ),那
么拒绝假设 H 0。其中 T(α )是 χ 2分布表的
阈值,本例中,选择 α= 0.05,可得,
84.3)1,95.0().,1()05.0( 22 ???? ??? fdT
?作简单的比较 48.3)05.0(2816.82 ??? T?
?结论是拒绝假设 H 0,则男性和女性对堕胎
的态度有很大的差异。
5.8 线性判别分析
?线性判别分析 (LDA)是解决因变量是类型的
(名义类型或顺序类型 ),自变量是数值型的分
类问题,LDA的目标是构造一个判别函数,能够
通过对不同的输出类中的数据进行计算产生
不同的分数。线性判别函数的形式如下,
kk xwxwxwz ???????,,,2211
式中 x1,x2,…,xk是自变量,z是判别得分,
w1,w2,…,wk是加权。
?判别函数 z的构造是求出一组权值 wi,这组权
值能使预分类的样本集的判别得分的类间方
差和类内方差的比率达到最大。构造出判别
函数 z后,就可以用它来预测一个新的未被分
类的样本的类。
?分数线 (cutting scores)是判断单个判别得分
的标准。设 za和 zb分别是类 A和类 B中预分类
的样本的平均判别得分。如果两类样本一样
大且服从同一方差分布,那么分数线 Zcut-ab的
最佳选择是,
zcut-ab=(za+zb)/2
?当 z>zcut-ab时,新样本为 A类;当 z<zcut-ab时,
新样本为 B类;当 z=zcut-ab时那么新样本可被
随意归到任意一类。
?当每类样本不一样大时,平均判别得分的加
权平均作为它的最佳分数线为,
zcut-ab=(na·za+nb·zb)/(na+nb)
式中 na,nb表示每类中样本数 。