多元回归分析第一讲 多元线性回归一元线性回归模型的评价对一元线性回归模型需做数据的拟合优度、线性相关关系的检验。
Y=β0十β1x+ε,ε~N(0,σ2)
其中,β0、β1、σ2是未知参数。
取定可控变量X的一组值x1,x2,…,xn,对Y做n次观察(试验),假定各次试验是相互独立的。记试验结果为Y1,Y2,…,Yn,则
Yi=β0十β1xi十εi,(i=1,2,…,n),
ε1,ε2,…,εn相互独立;
εi~N(0,σ2),i=1,2,…,n.
得参数β0、β1的估计:b0=、b1=,有经验回归模型
自变量X的不同取值;
其它因素(包括试验误差)的影响。
分析总偏差平方和
是观察值y1,y2,…,yn相对均值的离散程度,即n个观察值之间的差异。有
其中
称为回归平方和。回归平方和是由自变量X的变化而产生,反映了自变量X的重要程度。
称为残差平方和。 残差平方和的大小反映了试验误差和其它因素对试验结果的影响程度。
可证明
当b=0时, 并且,相互独立。
若X与Y之间存在线性相关关系,回归方程
中应有b≠0。
检验假设H0:b=0,若H0成立,则由F分布定理,统计量
由于QR的大小反映了X对Y的影响程度,QR的值越大,统计量F的值越大。对给定的显著性水平α,H0:b=0的拒绝域为
,
其中 。
若拒绝H0,称该线性回归方程是显著的,或称X与Y的线性相关关系显著。
二,多元线性回归若影响因变量Y的可控变量有X1,X2,…,X p,研究它们的定量关系是多元回归问题。
多元线性回归的数学模型设随机变量Y与P个可控变量的取值x1,x2,…,xp满足关系式
(1)
其中β0,β1,…,βP,σ2>0是未知参数,P>1。称为P元状态线性回归模型,有
,
称
为Y关于x1,x2,…,xp回归函数或理论回归方程对可控变量X1,X2,…,X p的N组试验数据及因变量Y的试验结果为
(yi ; xi,1,xi,2,…,xi,p),i=1,2,…,N.
有如下的结构式(样本模型):
(2)
其中,P>1,n>P,并假定
(1)ε1,ε2,…,εp相互独立,同服从正态分布N(0,σ2);
(2)自变量x1,x2,…,xp无完全的(或接近完全的)多重共线性,即自变量之间不存在完全的或接近完全的线性关系性。
令 ,,,
,
多元线性回归数学模型的矩阵形式为
Y=Xβ+ε,
有(1)ε是N维独立随机向量量,ε~N(On×1,σ2In×n);
X是非随机矩阵,且X'X是对称满秩矩阵。
称 Y—因变量向量; X—(数据的)结构矩阵或设计矩阵。
2.模型参数的估计
根据试验数据
(yi ; xi,1,xi,2,…,xi,p),i=1,2,…,N.
求未知参数β0,β1,…,βP的最小二乘估计。设b0,b1,…,bP分别是β0,β1,…,βP的估计,经验回归模型为
(3)
应选b0,b1,…,bP使得全部观察值yi与回归值的残差平方和
达到最小。其正规方程形式为
(4)
由于是满秩矩阵,Rank()=P+1≤n,方程有唯一解
(5)
记
A=—正规方程组的系数矩阵(信息矩阵);
B=—正规方程组的常数项矩阵;
C=—相关矩阵。
最小二乘估计b有以下统计性质:
(1)b是β的无偏估计量,若记
(2)回归系数b的相关矩阵R=σ2C=σ2(cij),即
COV(bi,bj)=σ2cij,i,j=0,1,2,…,P.
一般,cij,(i≠j)不全为零。
说明:
例1.(称量设计)用天平称质量会带有随机误差,如由气温、湿度、卫生条件及人的视觉等所引起。
有A、B、C、D共4件物品,其质量分别为β1,β2,β3,β4,现用天平称量,每次将4见物品都放上,然后选一个砝码使天平平衡。有如下的称量设计:
1)把4件物品均放在天平一侧,物品质量为
Y1=β1+β2+β3+β4+ε1,
2)把A、B放一侧,C、D放在另一侧,得
Y2=β1+β2-β3-β4+ε2,
3)把A、C放一侧,B、D放在另一侧,得
Y1=β1-β2+β3-β4+ε3,
4)把A、D放一侧,B、C放在另一侧,得
Y1=β1-β2-β3+β4+ε4,
其中εi~N(0,σ2)。
此4元回归模型的结构矩阵为
这是一个正交矩阵。系数矩阵和相关矩阵分别为
,
常数项矩阵为
由公式b=CB,求得
根据最小二乘估计的性质可知:
1)b1,b2,b3,b4分别是物体质量β1,β2,β3,β4的无偏估计;
2)D(bi)=σ2cii=σ2;
3) cij=0,当i≠j ( i,j=1,2,3,4),即b1,b2,b3,b4之间不相关。
结论:在不增加试验总次数的前提下,显著提高了称量精度。
3.模型的评价回归方程的显著性检验类似于一元线性回归,检验(经验)回归方程
(6)
是否显著,即判断变量Y与可控变量X1,X2,…,Xp间是否有显著的线性相关关系。
若H0成立,则多元线性回归模型
Y=Xβ+ε
中β的每一分量均为零,Y与X1,X2,…,Xp之间无显著的线性相关关系。
总偏差平方和为
可证明,若H0成立且结构矩阵X满秩,有
相互独立,从而统计量
,
若算得F的统计值f:f>fα(P,N-P-1),在显著性水平α下,可认为方程(6)
有显著意义。
注:对方程(6)通过了检验,仅可认为回归系数β0,β1,…,βP不全为零,但不能说明所有的回归系数都不为零。
希望从方程(6)中剔除次要的变量,建立形式更简洁的回归方程,首先需要判断各变量因素X1,X2,…,Xp对Y的影响程度。
② 回归系数的显著性检验
a,回归系数显著性检验法各变量的系数(回归系数)反映了各个变量因素X1,X2,…,Xp对Y的影响程度。
由(经验)回归方程
的最小二乘估计b的性质,b的每一分量bj均服从正态分布,且
E(bj)=βj,D(bj)=cj,jσ2,(j=1,2,…,P),
其中cj,j是相关矩阵C=A-1的第j个对角元素,故
如果Xj 对Y的线性影响不显著,则回归模型(1)
中的系数βj=0(或接近零),
检验假设H0:βj=0,若H0真,则
,
从而,
又因bj与QE相互独立,有
(7)
对给定显著性水平α,由样本值算得Fj的统计值fj,检验准则为
1)若fj≥fα(1,N-P-1),则拒绝H0,可以认为Xj对Y的线性影响显著;
2)若fj<fα(1,N-P-1),则接受H0,可以认为Xj对Y的线性影响不显著。
b,偏回归平方和
(经验)回归方程
的总偏差平方和分解式
其中,回归平方和为
有
1)所考虑的自变量越多,回归平方和QR值越大;
2)在回归模型中去掉一个自变量,回归平方和QR只能减小,而且减小的数值越大,说明该自变量在回归方程中的作用越大。
从方程(6)中去掉xi后得
(8)
算得回归平方和记为,称
(9)
为自变量xi的偏回归平方和,有
。
三.“最优”回归模型的选择应用中希望用“最优”的线性回归方程来描述变量间的线性相关关系。
最优标准:
1)方程中包含所有对Y有显著影响的自变量;
2)方程所包含的自变量的个数尽可能少。
问题:是否从方程(6)中剔除xi,得到的方程
(8)
就是理想的“最优”回归方程?
答案:由于各回归系数b0,b1,…,bP相互之间存在相关性,从原方程剔除一个变量时,其它变量(特别是与它密切相关的变量)的回归系数就会受到影响,因此不能简单剔除变量.
原则:对回归系数进行一次检验,只能剔除或引进一个自变量。
剔除变量算法:
1) 计算所有自变量的偏回归平方和Q1,Q2,…,QP及min{Q1,Q2,…,QP};
2) Qk= min{Q1,Q2,…,QP},计算
若,则从P个自变量剔除xk,反之则不能剔除;
3)若剔除了xk,再对新的回归方程
(10)
中余下的P-1个自变量重新计算偏回归平方和,循环到不能再剔除变量为止。
一般,新的回归系数,有
其中,是样本数据( xi,1,xi,2,…,xi,p),i=1,2,…,N的第j个分量的样本平均值;ckk,ckj是原P元线性回归模型的相关矩阵C=A-1=(cij)的元素。
引进变量算法:
1)求max{Q1,Q2,…,QP} ;
2) 若Qk= max{Q1,Q2,…,QP},且,就引进第P+1个自变量,否则认为没有引进模型的变量均无必要引进;
3)若引进了第P+1个自变量xP+1,重新计算新回归方程的偏回归平方和Q*1,Q*2,…,Q*P+1,重新回到1),循环到不能再引进变量为止。
根据以上剔除和引进变量的算法,有以下三种常用的最优多元线性回归方程的选择计算程序:
淘汰法(向后法、下降法)
根据实际问题的情况,将所有可能供选择的变量都放入模型中,然后逐个剔除,直到不能剔除为止。
纳新法(向前法、上升法)
模型中先选进少量变量,然后一个一个地使用引进变量程序,将新变量引进到模型中,直到不能引进为止。
注,在淘汰法中,一旦变量被剔除,以后就没有机会进入模型;
在纳新法中,一旦变量被选进模型,以后就不会被淘汰;
由于自变量之间有复杂的相关性,可能出现下述情况:
逐步回归法(吐故纳新法)
思想方法:将上两种方法结合起来,交替使用。
1)用纳新法引进一个(只能一个)变量;
2)对早进入模型的变量使用淘汰法,淘汰不显著的变量(可连续多次),一直到无变量可淘汰;
3)再使用纳新法引进一个新变量,回到2)。
如此循环,直到既不能纳新又不能淘汰为止。
注:以上方法有数学软件可供使用,如SASD软件。
第二讲 多项式回归与正交多项式一.多项式回归
在一元非线性回归问题中,如果随机变量Y和X的回归函数可假定为p次多项式
(1)
在xi(i=1,2,…,N)处的随机误差分别为,i=1,2,3,···,N,
可得多项式回归模型:
i=1,2,3,···,N (2)
其中~N(0,),,i=1,2,…,N相互独立。
令 xi1= xi,xi2= x2i,···,xip=xip
并把xi处的观察值yi看成是xi1,xi2,···,xip处对Y的观察值,于是多项式回归模型就转化为多元线性回归
i=1,2,3,···,N (3)
因此解决多元线性回归的方法可全部用于解决多项式回归问题。
在多元线性回归中检验bj是否显著,相当于判断多项式回归方程X的j次项Xj对Y是否有显著影响,
在多项式回归模型下,其结构矩阵
X=
系数矩阵 A=X’X=
常数项矩阵
B=X'Y=
参数的最小二乘估计是 b=A-1B=(X'X)-1X′Y
类似地,多元多项式回归问题也可化为多元线性回归来解决。
例:
i=1,2,3,···,N
令 xi1=zi1,xi2=zi2,xi3=,xi4=zi1zi2,xi5=
则上模型化为多元线性回归
i=1,2,3,···,N
多项式回归可以处理相当一类非线性问题。
微积分的维尔斯脱拉斯定理:若函数f(x)在有限闭区间[a,b]内连续,则存在一个多项式序列{pn(x)},pn(x)在[a,b]上一致收敛于f(x).
即连续函数f(x)可由多项式函数逼近.
更一般地,函数可分段用多项式逼近。因此在通常的问题中,不论变量Y与其他变量之间关系如何,总可以用多项式回归来进行分析和计算.
多项式回归可化为多元线性回归来处理,但它有两个基本缺点:
(1) 计算复杂,其复杂程度随着变量个数增加而迅速增大。
(2) 回归系数间存在相关性,剔除一个自变量后,还必然重新计算。
为简化计算和消去回归系数间的相关性,人们至今还在研究和探讨。
二.正交多项式回归模型微积分学中,常用正交函数系把一个函数展开成级数。
如三角函数系:1,cosx,sinx,cos2x,sin2x,· · ·,cosnx,sinnx,· · ·中任意两个不同函数的乘积在[-π,π]上的积分为零,即三角函数系是正交函数系。
此方法也可用到回归建模上,通过一个例子说明。
二次多项式回归模型
i=1,2,3,···,N(4)
当作多元线性回归模型处理,它的系数矩阵
A=X′X=
最后求出回归系数的最小二乘估计
b=A-1B=(X′X)-1X′Y。
多项式回归系数的计算,主要复杂在系数矩阵和它的逆矩阵的计算。
令 (5)
分别代替x和x2,得到一个新的多项式回归模型
i=1,2,3,···,N (6)
它与原多项式模型并无本质的区别,只是要估计的参数不同而已。其结构矩阵
X=
要使系数矩阵A=X′X成为对角阵,
A=X’X =
= (7)
应使 (8)
定义:设是p个多项式,若它们在自变量x的N个取值点x1,x2,…,xN,满足
kj
则称在点列:x1,x2,…,xN上正交()。
通过调节变换式(5)的参数k10,k20,k21,可选取
就可使系数矩阵A为对角阵(7).称模型(6)为正交多项式回归模型
1,正交多项式回归系数检验在(7)式中记 j=1,2
其相关矩阵为
C=A-1=
由于 COV(bi,bj)=×0=0,i≠j,i,j=0,1,2
的最小二乘估计,即回归系数 b0,b1,b2已不存在相关关系。
一般正交多项式回归模型形如:
Yi= (9)
~ i=1,2,…,N,其中是j次多项式。
应满足:
说明回归系数之间不存在相关关系。
在正交多项式回归中,回归平方和QR可以分解为各次正交多项式的偏回归平方和的和:QR=,而且由(9)式中多项式的正交性以及关系式:,可证明得,
残差平方和 QE=
其中 Qj == j=0,1,2,···,P
是第j个多项式的偏回归平方和。
由于回归系数之间不存在相关关系,从模型(9)中剔除或添进一个多项式,均不改变其他项的回归系数和偏回归平方和。
对所有回归系数的显著性检验可同时进行。
检验H0:,若H0真,则统计量
F=~F(1,N-P-1)
若某一项不显著,只要将它剃除即可,不必对整个回归方程重新计算。
2.参数估计以模型(6)为例,其常数矩阵
B=X′Y==
于是回归系数
b==(X′X)-1X′Y=
=
于是
,j=1,2
一般地,对正交多项式模型(9)
j=0,1,2,···,P.
三.正交多项式的产生
多项式正交化
定义:设为m个多项式,它们在点列x1,x2,…,xN上组成的矩阵
X=
若Rank(X)= m,则称它们在点列:x1,x2,…,xN上线性独立。
定理:对于m个线性独立多项式,经满秩线性变换
得到的多项式P1(x))P2(x),…,Pm(x)也是线性独立的。且若
则一定有
且回归系数由变换
确定。
现在感兴趣的是找出一种变换,使变换后的多项式列在点列上正交。
定理:设在点列上线性独立,由Gram-Schmidt正交化方法,令
P1(x) =,
P2(x) =-b21(x),
P3(x) =-b32-b31,
一般地 Pk(x)=
其中 bkj= j=1,2,…,k-1 k=1,2,…,m
则P1(x))P2(x),…,Pm(x)为由经满秩线性变换所产生的在点列x1,x2,…,xN上正交的多项式列。
2,构造正交多项式:
取=1,
假定已构造了k阶正交多项式:,则第k+1阶正交多项式由
给出。其中
,
。
一般,正交多项式的阶数不能超过点列中相异点的个数.
四.实例在土豆生长期间,施用不同量的氮(N)肥和钾(K)肥,磷肥均固定在p=200kg/ha水平上,产量结果如下:
序 号
N
K
产量
1
2
3
4
5
6
7
8
9
200 (-1)
200 (-1)
200 (-1)
260 (0)
260 (0)
260 (0)
320 (1)
320 (1)
320 (1)
270 (-1)
370 (0)
470 (1)
270 (-1)
370 (0)
470 (1)
270 (-1)
370 (0)
470 (1)
48
37
49
44
42
52
49
43
59
由农业知识可知产量Y与施肥量N,K为二次函数。这里不直接将Y表成N,K的函数,令
x1= x2=
将Y表成X1,X2的二次多项式,可证得
在9个实验点上正交,可将二次模型表为二次正交多项式
y=
将试验数据代入公式
k=1,2,…,6
可得回归系数
利用公式
Qj=
计算各偏回归平方和:
因
同理 Q2=
Q3=1.52×2=4.5,Q4=3.22×6=61.44,
Q5=9.52×2=180.5,Q6=2.252×4=20.3
残差平方和
QE=
在Q1,···,Q6中Q3=4.5最小,现考虑是否将从模型中剔除。
因
F=~F(1,9-5-1)=F(1,3)
给定显著性水平,f0.05(1,3)=10.1>f,故剔除是合理的。
注意:此时残差平方和中应加进Q3,得 。
现检验H0,=0
因 ~F(1,4)
,
仍然不显著。
但若将Q6并入残差 ,比原来增加太多。从实际问题考虑,虽然Q6不显著,仍然把保留在模型中,以反映N和K的交互作用。
最终选定经验模型为
总结:回归分析的主要内容是从一组试验数据出发,确定变量间的关系式;
对关系式的可信程度进行统计检验;
从影响着因变量的许多变量中判断哪些变量的影响是显著的;
利用所求得的关系式对研究对象进行预报和控制;
根据回归分析方法,特别是进行预报和控制所提出的要求,选择试验点,对试验进行某种设计。
Y=β0十β1x+ε,ε~N(0,σ2)
其中,β0、β1、σ2是未知参数。
取定可控变量X的一组值x1,x2,…,xn,对Y做n次观察(试验),假定各次试验是相互独立的。记试验结果为Y1,Y2,…,Yn,则
Yi=β0十β1xi十εi,(i=1,2,…,n),
ε1,ε2,…,εn相互独立;
εi~N(0,σ2),i=1,2,…,n.
得参数β0、β1的估计:b0=、b1=,有经验回归模型
自变量X的不同取值;
其它因素(包括试验误差)的影响。
分析总偏差平方和
是观察值y1,y2,…,yn相对均值的离散程度,即n个观察值之间的差异。有
其中
称为回归平方和。回归平方和是由自变量X的变化而产生,反映了自变量X的重要程度。
称为残差平方和。 残差平方和的大小反映了试验误差和其它因素对试验结果的影响程度。
可证明
当b=0时, 并且,相互独立。
若X与Y之间存在线性相关关系,回归方程
中应有b≠0。
检验假设H0:b=0,若H0成立,则由F分布定理,统计量
由于QR的大小反映了X对Y的影响程度,QR的值越大,统计量F的值越大。对给定的显著性水平α,H0:b=0的拒绝域为
,
其中 。
若拒绝H0,称该线性回归方程是显著的,或称X与Y的线性相关关系显著。
二,多元线性回归若影响因变量Y的可控变量有X1,X2,…,X p,研究它们的定量关系是多元回归问题。
多元线性回归的数学模型设随机变量Y与P个可控变量的取值x1,x2,…,xp满足关系式
(1)
其中β0,β1,…,βP,σ2>0是未知参数,P>1。称为P元状态线性回归模型,有
,
称
为Y关于x1,x2,…,xp回归函数或理论回归方程对可控变量X1,X2,…,X p的N组试验数据及因变量Y的试验结果为
(yi ; xi,1,xi,2,…,xi,p),i=1,2,…,N.
有如下的结构式(样本模型):
(2)
其中,P>1,n>P,并假定
(1)ε1,ε2,…,εp相互独立,同服从正态分布N(0,σ2);
(2)自变量x1,x2,…,xp无完全的(或接近完全的)多重共线性,即自变量之间不存在完全的或接近完全的线性关系性。
令 ,,,
,
多元线性回归数学模型的矩阵形式为
Y=Xβ+ε,
有(1)ε是N维独立随机向量量,ε~N(On×1,σ2In×n);
X是非随机矩阵,且X'X是对称满秩矩阵。
称 Y—因变量向量; X—(数据的)结构矩阵或设计矩阵。
2.模型参数的估计
根据试验数据
(yi ; xi,1,xi,2,…,xi,p),i=1,2,…,N.
求未知参数β0,β1,…,βP的最小二乘估计。设b0,b1,…,bP分别是β0,β1,…,βP的估计,经验回归模型为
(3)
应选b0,b1,…,bP使得全部观察值yi与回归值的残差平方和
达到最小。其正规方程形式为
(4)
由于是满秩矩阵,Rank()=P+1≤n,方程有唯一解
(5)
记
A=—正规方程组的系数矩阵(信息矩阵);
B=—正规方程组的常数项矩阵;
C=—相关矩阵。
最小二乘估计b有以下统计性质:
(1)b是β的无偏估计量,若记
(2)回归系数b的相关矩阵R=σ2C=σ2(cij),即
COV(bi,bj)=σ2cij,i,j=0,1,2,…,P.
一般,cij,(i≠j)不全为零。
说明:
例1.(称量设计)用天平称质量会带有随机误差,如由气温、湿度、卫生条件及人的视觉等所引起。
有A、B、C、D共4件物品,其质量分别为β1,β2,β3,β4,现用天平称量,每次将4见物品都放上,然后选一个砝码使天平平衡。有如下的称量设计:
1)把4件物品均放在天平一侧,物品质量为
Y1=β1+β2+β3+β4+ε1,
2)把A、B放一侧,C、D放在另一侧,得
Y2=β1+β2-β3-β4+ε2,
3)把A、C放一侧,B、D放在另一侧,得
Y1=β1-β2+β3-β4+ε3,
4)把A、D放一侧,B、C放在另一侧,得
Y1=β1-β2-β3+β4+ε4,
其中εi~N(0,σ2)。
此4元回归模型的结构矩阵为
这是一个正交矩阵。系数矩阵和相关矩阵分别为
,
常数项矩阵为
由公式b=CB,求得
根据最小二乘估计的性质可知:
1)b1,b2,b3,b4分别是物体质量β1,β2,β3,β4的无偏估计;
2)D(bi)=σ2cii=σ2;
3) cij=0,当i≠j ( i,j=1,2,3,4),即b1,b2,b3,b4之间不相关。
结论:在不增加试验总次数的前提下,显著提高了称量精度。
3.模型的评价回归方程的显著性检验类似于一元线性回归,检验(经验)回归方程
(6)
是否显著,即判断变量Y与可控变量X1,X2,…,Xp间是否有显著的线性相关关系。
若H0成立,则多元线性回归模型
Y=Xβ+ε
中β的每一分量均为零,Y与X1,X2,…,Xp之间无显著的线性相关关系。
总偏差平方和为
可证明,若H0成立且结构矩阵X满秩,有
相互独立,从而统计量
,
若算得F的统计值f:f>fα(P,N-P-1),在显著性水平α下,可认为方程(6)
有显著意义。
注:对方程(6)通过了检验,仅可认为回归系数β0,β1,…,βP不全为零,但不能说明所有的回归系数都不为零。
希望从方程(6)中剔除次要的变量,建立形式更简洁的回归方程,首先需要判断各变量因素X1,X2,…,Xp对Y的影响程度。
② 回归系数的显著性检验
a,回归系数显著性检验法各变量的系数(回归系数)反映了各个变量因素X1,X2,…,Xp对Y的影响程度。
由(经验)回归方程
的最小二乘估计b的性质,b的每一分量bj均服从正态分布,且
E(bj)=βj,D(bj)=cj,jσ2,(j=1,2,…,P),
其中cj,j是相关矩阵C=A-1的第j个对角元素,故
如果Xj 对Y的线性影响不显著,则回归模型(1)
中的系数βj=0(或接近零),
检验假设H0:βj=0,若H0真,则
,
从而,
又因bj与QE相互独立,有
(7)
对给定显著性水平α,由样本值算得Fj的统计值fj,检验准则为
1)若fj≥fα(1,N-P-1),则拒绝H0,可以认为Xj对Y的线性影响显著;
2)若fj<fα(1,N-P-1),则接受H0,可以认为Xj对Y的线性影响不显著。
b,偏回归平方和
(经验)回归方程
的总偏差平方和分解式
其中,回归平方和为
有
1)所考虑的自变量越多,回归平方和QR值越大;
2)在回归模型中去掉一个自变量,回归平方和QR只能减小,而且减小的数值越大,说明该自变量在回归方程中的作用越大。
从方程(6)中去掉xi后得
(8)
算得回归平方和记为,称
(9)
为自变量xi的偏回归平方和,有
。
三.“最优”回归模型的选择应用中希望用“最优”的线性回归方程来描述变量间的线性相关关系。
最优标准:
1)方程中包含所有对Y有显著影响的自变量;
2)方程所包含的自变量的个数尽可能少。
问题:是否从方程(6)中剔除xi,得到的方程
(8)
就是理想的“最优”回归方程?
答案:由于各回归系数b0,b1,…,bP相互之间存在相关性,从原方程剔除一个变量时,其它变量(特别是与它密切相关的变量)的回归系数就会受到影响,因此不能简单剔除变量.
原则:对回归系数进行一次检验,只能剔除或引进一个自变量。
剔除变量算法:
1) 计算所有自变量的偏回归平方和Q1,Q2,…,QP及min{Q1,Q2,…,QP};
2) Qk= min{Q1,Q2,…,QP},计算
若,则从P个自变量剔除xk,反之则不能剔除;
3)若剔除了xk,再对新的回归方程
(10)
中余下的P-1个自变量重新计算偏回归平方和,循环到不能再剔除变量为止。
一般,新的回归系数,有
其中,是样本数据( xi,1,xi,2,…,xi,p),i=1,2,…,N的第j个分量的样本平均值;ckk,ckj是原P元线性回归模型的相关矩阵C=A-1=(cij)的元素。
引进变量算法:
1)求max{Q1,Q2,…,QP} ;
2) 若Qk= max{Q1,Q2,…,QP},且,就引进第P+1个自变量,否则认为没有引进模型的变量均无必要引进;
3)若引进了第P+1个自变量xP+1,重新计算新回归方程的偏回归平方和Q*1,Q*2,…,Q*P+1,重新回到1),循环到不能再引进变量为止。
根据以上剔除和引进变量的算法,有以下三种常用的最优多元线性回归方程的选择计算程序:
淘汰法(向后法、下降法)
根据实际问题的情况,将所有可能供选择的变量都放入模型中,然后逐个剔除,直到不能剔除为止。
纳新法(向前法、上升法)
模型中先选进少量变量,然后一个一个地使用引进变量程序,将新变量引进到模型中,直到不能引进为止。
注,在淘汰法中,一旦变量被剔除,以后就没有机会进入模型;
在纳新法中,一旦变量被选进模型,以后就不会被淘汰;
由于自变量之间有复杂的相关性,可能出现下述情况:
逐步回归法(吐故纳新法)
思想方法:将上两种方法结合起来,交替使用。
1)用纳新法引进一个(只能一个)变量;
2)对早进入模型的变量使用淘汰法,淘汰不显著的变量(可连续多次),一直到无变量可淘汰;
3)再使用纳新法引进一个新变量,回到2)。
如此循环,直到既不能纳新又不能淘汰为止。
注:以上方法有数学软件可供使用,如SASD软件。
第二讲 多项式回归与正交多项式一.多项式回归
在一元非线性回归问题中,如果随机变量Y和X的回归函数可假定为p次多项式
(1)
在xi(i=1,2,…,N)处的随机误差分别为,i=1,2,3,···,N,
可得多项式回归模型:
i=1,2,3,···,N (2)
其中~N(0,),,i=1,2,…,N相互独立。
令 xi1= xi,xi2= x2i,···,xip=xip
并把xi处的观察值yi看成是xi1,xi2,···,xip处对Y的观察值,于是多项式回归模型就转化为多元线性回归
i=1,2,3,···,N (3)
因此解决多元线性回归的方法可全部用于解决多项式回归问题。
在多元线性回归中检验bj是否显著,相当于判断多项式回归方程X的j次项Xj对Y是否有显著影响,
在多项式回归模型下,其结构矩阵
X=
系数矩阵 A=X’X=
常数项矩阵
B=X'Y=
参数的最小二乘估计是 b=A-1B=(X'X)-1X′Y
类似地,多元多项式回归问题也可化为多元线性回归来解决。
例:
i=1,2,3,···,N
令 xi1=zi1,xi2=zi2,xi3=,xi4=zi1zi2,xi5=
则上模型化为多元线性回归
i=1,2,3,···,N
多项式回归可以处理相当一类非线性问题。
微积分的维尔斯脱拉斯定理:若函数f(x)在有限闭区间[a,b]内连续,则存在一个多项式序列{pn(x)},pn(x)在[a,b]上一致收敛于f(x).
即连续函数f(x)可由多项式函数逼近.
更一般地,函数可分段用多项式逼近。因此在通常的问题中,不论变量Y与其他变量之间关系如何,总可以用多项式回归来进行分析和计算.
多项式回归可化为多元线性回归来处理,但它有两个基本缺点:
(1) 计算复杂,其复杂程度随着变量个数增加而迅速增大。
(2) 回归系数间存在相关性,剔除一个自变量后,还必然重新计算。
为简化计算和消去回归系数间的相关性,人们至今还在研究和探讨。
二.正交多项式回归模型微积分学中,常用正交函数系把一个函数展开成级数。
如三角函数系:1,cosx,sinx,cos2x,sin2x,· · ·,cosnx,sinnx,· · ·中任意两个不同函数的乘积在[-π,π]上的积分为零,即三角函数系是正交函数系。
此方法也可用到回归建模上,通过一个例子说明。
二次多项式回归模型
i=1,2,3,···,N(4)
当作多元线性回归模型处理,它的系数矩阵
A=X′X=
最后求出回归系数的最小二乘估计
b=A-1B=(X′X)-1X′Y。
多项式回归系数的计算,主要复杂在系数矩阵和它的逆矩阵的计算。
令 (5)
分别代替x和x2,得到一个新的多项式回归模型
i=1,2,3,···,N (6)
它与原多项式模型并无本质的区别,只是要估计的参数不同而已。其结构矩阵
X=
要使系数矩阵A=X′X成为对角阵,
A=X’X =
= (7)
应使 (8)
定义:设是p个多项式,若它们在自变量x的N个取值点x1,x2,…,xN,满足
kj
则称在点列:x1,x2,…,xN上正交()。
通过调节变换式(5)的参数k10,k20,k21,可选取
就可使系数矩阵A为对角阵(7).称模型(6)为正交多项式回归模型
1,正交多项式回归系数检验在(7)式中记 j=1,2
其相关矩阵为
C=A-1=
由于 COV(bi,bj)=×0=0,i≠j,i,j=0,1,2
的最小二乘估计,即回归系数 b0,b1,b2已不存在相关关系。
一般正交多项式回归模型形如:
Yi= (9)
~ i=1,2,…,N,其中是j次多项式。
应满足:
说明回归系数之间不存在相关关系。
在正交多项式回归中,回归平方和QR可以分解为各次正交多项式的偏回归平方和的和:QR=,而且由(9)式中多项式的正交性以及关系式:,可证明得,
残差平方和 QE=
其中 Qj == j=0,1,2,···,P
是第j个多项式的偏回归平方和。
由于回归系数之间不存在相关关系,从模型(9)中剔除或添进一个多项式,均不改变其他项的回归系数和偏回归平方和。
对所有回归系数的显著性检验可同时进行。
检验H0:,若H0真,则统计量
F=~F(1,N-P-1)
若某一项不显著,只要将它剃除即可,不必对整个回归方程重新计算。
2.参数估计以模型(6)为例,其常数矩阵
B=X′Y==
于是回归系数
b==(X′X)-1X′Y=
=
于是
,j=1,2
一般地,对正交多项式模型(9)
j=0,1,2,···,P.
三.正交多项式的产生
多项式正交化
定义:设为m个多项式,它们在点列x1,x2,…,xN上组成的矩阵
X=
若Rank(X)= m,则称它们在点列:x1,x2,…,xN上线性独立。
定理:对于m个线性独立多项式,经满秩线性变换
得到的多项式P1(x))P2(x),…,Pm(x)也是线性独立的。且若
则一定有
且回归系数由变换
确定。
现在感兴趣的是找出一种变换,使变换后的多项式列在点列上正交。
定理:设在点列上线性独立,由Gram-Schmidt正交化方法,令
P1(x) =,
P2(x) =-b21(x),
P3(x) =-b32-b31,
一般地 Pk(x)=
其中 bkj= j=1,2,…,k-1 k=1,2,…,m
则P1(x))P2(x),…,Pm(x)为由经满秩线性变换所产生的在点列x1,x2,…,xN上正交的多项式列。
2,构造正交多项式:
取=1,
假定已构造了k阶正交多项式:,则第k+1阶正交多项式由
给出。其中
,
。
一般,正交多项式的阶数不能超过点列中相异点的个数.
四.实例在土豆生长期间,施用不同量的氮(N)肥和钾(K)肥,磷肥均固定在p=200kg/ha水平上,产量结果如下:
序 号
N
K
产量
1
2
3
4
5
6
7
8
9
200 (-1)
200 (-1)
200 (-1)
260 (0)
260 (0)
260 (0)
320 (1)
320 (1)
320 (1)
270 (-1)
370 (0)
470 (1)
270 (-1)
370 (0)
470 (1)
270 (-1)
370 (0)
470 (1)
48
37
49
44
42
52
49
43
59
由农业知识可知产量Y与施肥量N,K为二次函数。这里不直接将Y表成N,K的函数,令
x1= x2=
将Y表成X1,X2的二次多项式,可证得
在9个实验点上正交,可将二次模型表为二次正交多项式
y=
将试验数据代入公式
k=1,2,…,6
可得回归系数
利用公式
Qj=
计算各偏回归平方和:
因
同理 Q2=
Q3=1.52×2=4.5,Q4=3.22×6=61.44,
Q5=9.52×2=180.5,Q6=2.252×4=20.3
残差平方和
QE=
在Q1,···,Q6中Q3=4.5最小,现考虑是否将从模型中剔除。
因
F=~F(1,9-5-1)=F(1,3)
给定显著性水平,f0.05(1,3)=10.1>f,故剔除是合理的。
注意:此时残差平方和中应加进Q3,得 。
现检验H0,=0
因 ~F(1,4)
,
仍然不显著。
但若将Q6并入残差 ,比原来增加太多。从实际问题考虑,虽然Q6不显著,仍然把保留在模型中,以反映N和K的交互作用。
最终选定经验模型为
总结:回归分析的主要内容是从一组试验数据出发,确定变量间的关系式;
对关系式的可信程度进行统计检验;
从影响着因变量的许多变量中判断哪些变量的影响是显著的;
利用所求得的关系式对研究对象进行预报和控制;
根据回归分析方法,特别是进行预报和控制所提出的要求,选择试验点,对试验进行某种设计。