第九章 多元线性回归与多项式回归
直线回归研究的是一个依变量与一个自变量之间的回归问题,但是,在畜禽、水产科学领域的许多实际问题中,影响依变量的自变量往往不止一个,而是多个,比如绵羊的产毛量这一变量同时受到绵羊体重、胸围、体长等多个变量的影响,因此需要进行一个依变量与多个自变量间的回归分析,即多元回归分析(multiple regression analysis),而其中最为简单、常用并且具有基础性质的是多元线性回归分析(multiple linear regression analysis),许多非线性回归(non-linear regression)和多项式回归(polynomial regression)都可以化为多元线性回归来解决,因而多元线性回归分析有着广泛的应用。研究多元线性回归分析的思想、方法和原理与直线回归分析基本相同,但是其中要涉及到一些新的概念以及进行更细致的分析,特别是在计算上要比直线回归分析复杂得多,当自变量较多时,需要应用电子计算机进行计算。
第一节 多元线性回归分析
多元线性回归分析的基本任务包括:根据依变量与多个自变量的实际观测值建立依变量对多个自变量的多元线性回归方程;检验、分析各个自变量对依自变量的综合线性影响的显著性;检验、分析各个自变量对依变量的单纯线性影响的显著性,选择仅对依变量有显著线性影响的自变量,建立最优多元线性回归方程;评定各个自变量对依变量影响的相对重要性以及测定最优多元线性回归方程的偏离度等。
多元线性回归方程的建立
(一)多元线性回归的数学模型 设依变量与自变量、、…、共有n组实际观测数据:
变量序号
…
1
…
2
…
┆
┆
┆
┆
…
┆
…
假定依变量y与自变量x1、x2、…、xm间存在线性关系,其数学模型为:
(9-1)
(j=1,2,…,n)
式中,x1、x2、…、xm为可以观测的一般变量(或为可以观测的随机变量);y为可以观测的随机变量,随x1、x2、…、xm而变,受试验误差影响;为相互独立且都服从的随机变量。我们可以根据实际观测值对以及方差作出估计。
(二)建立线性回归方程 设对、、…、的元线性回归方程为:
其中的、、、…、为的最小二乘估计值。即、、、…、应使实际观测值y与回归估计值的偏差平方和最小。
令
为关于、、、…、的+1元函数。
根据微分学中多元函数求极值的方法,若使达到最小,则应有:
(=1、2、…、)
经整理得:
(9-2)
由方程组(9-2)中的第一个方程可得
(9-3)
即
若记
(、、、…、;k)
并将分别代入方程组(9-2)中的后个方程,经整理可得到关于偏回归系数、、…、的正规方程组(normal equations)为:
(9-4)
解正规方程组(9-4)即可得偏回归系数、、…、的解,而
于是得到元线性回归方程
元线性回归方程的图形为维空间的一个平面,称为回归平面;称为回归常数项,当==…==0时,在b0有实际意义时,表示的起始值;(=、2、…、)称为依变量对自变量的偏回归系数(partial regression coefficient),表示除自变量以外的其余个自变量都固定不变时,自变量每变化一个单位,依变量平均变化的单位数值,确切地说,当>0时,自变量每增加一个单位,依变量平均增加个单位;当<0时,自变量i每增加一个单位,依变量平均减少个单位。
若将代入上式,则得
(9-5)
(9-5)式也为对、、…、的元线性回归方程。
对于正规方程组(9-4),记
,,
则正规方程组(9-4)可用矩阵形式表示为
(9-6)
即 (9-7)
其中A为正规方程组的系数矩阵、b为偏回归系数矩阵(列向量)、B 为常数项矩阵(列向量)。
设系数矩阵A的逆矩阵为C矩阵,即,则
其中:C矩阵的元素(,j=1、2、…、)称为高斯乘数,是多元线性回归分析中显著性检验所需要的。
关于求系数矩阵A的逆矩阵A-1的方法有多种,如行(或列)的初等变换法等,请参阅线性代数教材,这里就不再赘述。
对于矩阵方程(9-7)求解,有:
即:
(9-8)
关于偏回归系数、、…、的解可表示为:
(9-9)
(=1、2、…、)
或者
而
【例9.1】 猪的瘦肉量是肉用型猪育种中的重要指标,而影响猪瘦肉量的有猪的眼肌面积、胴体长、膘厚等性状。设依变量为瘦肉量(),自变量为眼肌面积(2),自变量为胴体长(),自变量为膘厚()。根据三江猪育种组的54头杂种猪的实测数据资料,经过整理计算,得到如下数据:
试建立对、、的三元线性回归方程。
将上述有关数据代入(9-5)式,得到关于偏回归系数、、的正规方程组:
用线性代数有关方法求得系数矩阵的逆矩阵如下:
=
根据式(9-8),关于、、的解可表示为:
即关于b1、b2、b3的解为:
而
于是得到关于瘦肉量与眼肌面积、胴体长、膘厚的三元线性回归方程为:
(三)多元线性回归方程的偏离度 以上根据最小二乘法,即使偏差平方和最小建立了多元线性回归方程。偏差平方和的大小表示了实测点与回归平面的偏离程度,因而偏差平方和又称为离回归平方和。统计学已证明,在m元线性回归分析中,离回归平方和的自由度为(n-m-1)。于是可求得离回归均方为/(n-m-1)。离回归均方是模型(9-1)中σ2的估计值。离回归均方的平方根叫离回归标准误,记为(或简记为Se),即
(9-10)
离回归标准误的大小表示了回归平面与实测点的偏离程度,即回归估计值与实测值y偏离的程度,于是我们把离回归标准误用来表示回归方程的偏离度。离回归标准误大,表示回归方程偏离度大,离回归标准误小,表示回归方程偏离度小。
利用公式计算离回归平方和,因为先须计算出各个回归预测值,计算量大,下面我们将介绍计算离回归平方和的简便公式。
二、多元线性回归的显著性检验
(一)多元线性回归关系的显著性检验 在畜禽、水产科学的许多实际问题中,我们事先并不能断定依变量与自变量、、…、之间是否确有线性关系,在根据依变量与多个自变量的实际观测数据建立多元线性回归方程之前,依变量与多个自变量间的线性关系只是一种假设,尽管这种假设常常不是没有根据的,但是在建立了多元线性回归方程之后,还必须对依变量与多个自变量间的线性关系的假设进行显著性检验,也就是进行多元线性回归关系的显著性检验,或者说对多元线性回归方程进行显著性检验。这里应用F检验方法。
与直线回归分析即一元线性回归分析一样,在多元线性回归分析中,依变量的总平方和可以剖分为回归平方和与离回归平方和两部分,即:
(9-11)
依变量的总自由度也可以剖分为回归自由度与离回归自由度两部分,即:
(9-12)
(9-11)与(9-12)两式称为多元线性回归的平方和与自由度的划分式或剖分式。
在(9-11)式中,反映了依变量的总变异;反映了依变量与多个自变量间存在线性关系所引起的变异,或者反映了多个自变量对依变量的综合线性影响所引起的变异;反映了除依变量与多个自变量间存在线性关系以外的其他因素包括试验误差所引起的变异。
(9-11)式中各项平方和的计算方法如下:
(9-12)
(9-12)式中各项自由度的计算方法如下:
在上述计算方法中,为自变量的个数,为实际观测数据的组数。
在计算出、与、之后,我们可以方便地算出回归均方与离回归均方:
;
检验多元线性回归关系是否显著或者多元线性回归方程是否显著,就是检验各自变量的总体偏回归系数、2、…、)是否同时为零,显著性检验的无效假设与备择假设为:
在H0成立条件下,有
(9-14)
由上述统计量进行检验即可推断多元线性回归关系的显著性。
这里特别要说明的是,上述显著性检验实质上是测定各自变量对依变量的综合线性影响的显著性,或者测定依变量与各自变量的综合线性关系的显著性。如果经过检验,多元线性回归关系或者多元线性回归方程是显著的,则不一定每一个自变量与依变量的线性关系都是显著的,或者说每一个偏回归系数不一定都是显著的,这并不排斥其中存在着与依变量无线性关系的自变量的可能性。在上述多元线性回归关系显著性检验中,无法区别全部自变量中,哪些是对依变量的线性影响是显著的,哪些是不显著的。因此,当多元线性回归关系经显著检验为显著时,还必须逐一对各偏回归系数进行显著性检验,发现和剔除不显著的偏回归关系对应的自变量。另外,多元线性回归关系显著并不排斥有更合理的多元非线性回归方程的存在,这正如直线回归显著并不排斥有更合理的曲线回归方程存在一样。
对于【例9.1】,建立的三元线性回归方程为:
现在对三元线性回归关系进行显著性检验。
已计算得:
并且dfy=n-1=54-1=53
dfR=m=3
dfr=n-m-1=54-3-1=50
列出方差分析表,进行检验:
表9-1 三元线性回归关系方差分析表变异来源
SS
回 归
25.6433
3
8.5478
9.493**
离回归
45.0184
50
0.9004
总变异
70.6617
53
由=3、=50查F值表得F0.01(3,50)=4.20,因为F>F0.01(3,50),P<0.01。表明,猪瘦肉量与眼肌面积、胴体长、膘厚之间存在极显著的线性关系,或者眼肌面积、胴体长、膘厚对瘦肉量的综合线性影响是极显著的。
(二)偏回归系数的显著性检验 当多元线性回归关系经显著性检验为显著或极显著时,还必须对每个偏回归系数进行显著性检验,以判断每个自变量对依变量的线性影响是显著的还是不显著的,以便从回归方程中剔除那些不显著的自变量,重新建立更为简单的多元线性回归方程。偏回归系数、2、…、m)的显著性检验或某一个自变量对依变量的线性影响的显著性检验所建立的无效假设与备择假设为:
、2、…、m)
有两种完全等价的显著性检验方法──t检验与F检验。
1、t检验
、2、…、m) (9-15)
式中为偏回归系数标准误;
为离回归标准误;
为C=A-1的主对角线元素。
2、F检验 在多元线性回归分析中,回归平方和SSR反映了所有自变量对依变量的综合线性影响,它总是随着自变量的个数增多而有所增加,但决不会减少。因此,如果在所考虑的所有自变量当中去掉一个自变量时,回归平方和SSR只会减少,不会增加。减少的数值越大,说明该自变量在回归中所起的作用越大,也就是该自变量越重要。
设SSR 为m个自变量、、…、所引起的回归平方和,为去掉一个自变量后m-1个自变量所引起的回归平方和,那么它们的差即为去掉自变量之后,回归平方和所减少的量,称为自变量的偏回归平方和,记为,即:
可以证明:
(i=1、2、…、m) (9-16)
偏回归平方和可以衡量每个自变量在回归中所起作用的大小,或者说反映了每个自变量对依变量的影响程度的大小。值得注意的是,在一般情况下,
这是因为m个自变量之间往往存在着不同程度的相关,使得各自变量对依变量的作用相互影响。只有当m个自变量相互独立时,才有
偏回归平方和是去掉一个自变量使回归平方和减少的部分,也可理解为添入一个自变量使回归平方和增加的部分,其自由度为1,称为偏回归自由度,记为,即。显然,偏回归均方为
(i=1、2、…、m) (9-17)
检验各偏回归系数显著性的F检验法应用下述F统计量:
(i=1、2、…、m) (9-18)
可以将上述检验列成方差分析表的形式。
对于【例9.1】,我们已经进行了三元线性回归关系的显著性检验,且结果为极显著的。现在对三个偏回归系数分别进行显著性检验。
t检验法:
首先计算
然后计算各t统计量的值:
由df=n-m-1=50查t值表得。因为>、<、<,所以偏回归系数b1是极显著的,而偏回归系数b2、b3都是不显著的。
F检验法:
首先计算各个偏回归平方和:
进而计算各个偏回归均方:
最后计算各F的值:
由df1=1,df2=50查F值表得F0.05(1,50)=4.03,F0.01(1,50)=7.17。因为> F0.01(1,50),< F0.05(1,50),< F0.05(1,50),因此偏回归系数b1极显著,而偏回归系数b2、b3均不显著。这与t检验的结论是一致的。
也可以把上述偏回归系数显著性检验的F检验结果列成方差分析表的形式:
表9-2 偏回归系数显著性检验方差分析表变异来源
SS
df
MS
F
的偏回归
13.8460
1
13.8460
15.378**
的偏回归
2.2782
1
2.2782
2.530
的偏回归
3.4275
1
3.4275
3.807
离 回 归
45.0184
50
0.9004
(三)自变量剔除与重新建立多元线性回归方程 当对显著的多元线性回归方程中各个偏回归系数进行显著性检验都为显著时,说明各个自变量对依变量的单纯影响都是显著的。若有一个或几个偏回归系数经显著性检验为不显著时,说明其对应的自变量对依变量的作用或影响不显著,或者说这些自变量在回归方程中是不重要的,此时应该从回归方程中剔除一个不显著的偏回归系数对应的自变量,重新建立多元线性回归方程,再对新的多元线性回归方程或多元线性回归关系以及各个新的偏回归系数进行显著性检验,直至多元线性回归方程显著,并且各个偏回归系数都显著为止。此时的多元线性回归方程即为最优多元线性回归方程(the best multiple linear regression equation)。
1、自变量的剔除 当经显著性检验有几个不显著的偏回归系数时,我们一次只能剔除一个不显著的偏回归系数对应的自变量,被剔除的自变量的偏回归系数,应该是所有不显著的偏回归系数中的F值(或∣t∣值、或偏回归平方和)为最小者。这是因为自变量之间往往存在着相关性,当剔除某一个不显著的自变量之后,其对依变量的影响很大部分可以转加到另外不显著的自变量对依变量的影响上。如果同时剔除两个以上不显著的自变量,那就会比较多地减少回归平方和,从而影响利用回归方程进行估测的可靠程度。
2、重新进行少一个自变量的多元线性回归分析 我们一次剔除一个不显著的偏回归系数对应的自变量,不能简单地理解为只须把被剔除的自变量从多元线性回归方程中去掉就行了,这是因为自变量间往往存在相关性,剔除一个自变量,其余自变量的偏回归系数的数值将发生改变,回归方程的显著性检验、偏回归系数的显著性检验也都须重新进行,也就是说应该重新进行少一个自变量的多元线性回归分析。
设依变量y与自变量、、…、的m元线性回归方程为:
如果为被剔除的自变量,则m-1元线性回归方程为:
(9-19)
我们可以应用前面介绍过的m元线性回归方程的建立方法根据实际观测数据建立m-1元线性回归方程,但是这需要重新进行大量的计算。下面介绍利用m元线性回归方程与m-1元线性回归方程的对应偏回归系与的关系以及m元正规方程组系数矩阵逆矩阵C 的元素与m-1元正规方程组系数矩阵逆矩阵的元素之间的关系建立m-1元线性回归方程的方法。
设关于m-1元线性回归方程(9-19)中的偏回归系、、…、、、…、的正规方程组系数矩陈的逆矩阵为,其各元素为:
(=1、2、…、i-1、i+1、…、m; j;)
可以证明:
(9-20)
式中、、、均为m元正规方程组系数矩阵逆矩阵C的元素。这样我们就非常方便地计算出新的m-1阶逆矩阵的各元素,以进行m-1元线性回归方程的偏回归系数的显著性检验。
还可以证明,m-1元线性回归方程中的偏回归系数与m元线性回归方程中偏回归系数bj之间有如下关系:
(j=1、2、…、、、…、m) (9-21)
(9-21)式说明了可以利用原来的m 元线性回归方程中的偏回归系数和m元正规方程组系数矩阵的逆矩阵C的元素来计算剔除一个自变量之后新的m-1元线性回归方程中的各偏回归系数。
而新的m-1元线性回归方程中常数项由下式计算:
(9-22)
于是我们利用(9-21)和(9-22)式可以方便地算出新的m-1元线性回归方程中的各个偏回归系数及常数项,这样即建立了剔除一个自变量之后新的m-1元线性回归方程:
在重新建立m-1元线性回归方程之后,仍然需要对m-1元线性回归关系和偏回归系数进行显著性检验,方法同前,但一些统计量需要重新进行计算。对于m-1元线性回归方程(9-19):
回归平方和
回归自由度
离回归平方和
离回归自由度
对偏回归系数进行显著性检验时:
而新的偏回归平方和为:
上式中的MSr仍为新的离回归均方。
重复上述步骤,直至回归方程显著以及各偏回归系数都显著为止,即建立了最优多元线性回归方程。
对于【例9.1】,建立的三元线性回归方程为
经显著性检验,回归方程极显著,偏回归系数b1极显著,而b2、b3都是不显著的。因为,所以剔除偏回归系数对应的自变量(胴体长),重新建立瘦肉量对眼肌面积、膘厚的二元线性回归方程:
根据(9-21)式:
计算和。这里i=2,j=1,3。
而由(9-22)式计算:
于是重新建立的二元线性回归方程为:
现在对二元线性回归方程或者二元线性回归关系进行显著性检验。
已计算得:
列出方差分析表,进行F检验:
表9-3 二元线性回归关系方差分析表变异来源
SS
df
MS
F
回 归
23.3667
2
11.6834
12.598**
离回归
47.2950
51
0.9274
总变异
70.6617
53
由应用线性内插法求临界F值,得F0.01(2,51)=5.05,因为F>F0.01(2,51),P<0.01,表明二元线性回归关系或二元线性回归方程是极显著的。
下面对偏回归系数和进行显著性检验,这里应用F检验法:
首先应用(9-20)式
计算关于、的正规方程组系数矩阵的逆矩阵的主对角线上的各元素,这里i=2,j、k=1、3。
下面计算偏回归平方和:
列出方差分析表,进行F检验:
表9-4 偏回归系数显著性检验方差分析表变异来源
SS
df
MS
F
的偏回归
14.1839
1
14.1839
15.294**
的偏回归
7.8834
1
7.8834
8.500**
离 回 归
47.2950
51
0.9274
由应用线性内插法求临界F值,得F0.01(1,51)=7.16,因为,表明二元线性回归方程的偏回归系数和都是极显著的,或者说明眼肌面积、膘厚分别对瘦肉量y的线性影响都是极显著的。
于是我们得到【例9.1】的最优二元线性回归方程为:
回归方程表明:猪的瘦肉量与眼肌面积、膘厚有着极显著的线性回归关系。当膘厚性状保持不变时,眼肌面积性状每增加1cm2,瘦肉量平均增加0.1297kg;而当眼肌面积性状保持不变时,膘厚性状每增加1cm,瘦肉量平均减少0.7544kg。
该回归方程的离回归标准误为:
(四)自变量主次的判断 在实际应用中,我们经常需要对最优多元线性回归方程中的自变量进行主次判断,以便抓住主要矛盾,更好地解决实际问题。
1、标准偏回归系数(standard partial regression coefficient)的比较定义
(9-23)
为第i个自变量的标准偏回归系数。式中:为第个自变量的样本标准差,Sy为依变量y的样本标准差。
标准偏回归系数为不带单位的相对数,其绝对值的大小可以衡量对应的自变量对依变量作用的相对重要性。标准偏回归系数又称“通径系数”,其应用请参阅本章第五节。
在多元线性回归分析中,在各自变量之间无显著相关的情况下,可以比较各标准偏回归系数绝对值的大小,大者,其对应的自变量对依变量的作用是主要的。
2、偏回归平方和的比较 在多元线性回归分析中,当自变量间存在着显著相关时,或者当无法判断各自变量间的相关性时,应比较各自变量的偏回归平方和(i=1、2、…、m)的大小来判断各自变量对依变量影响的主次,凡是偏回归平方和大的自变量,其对依变量的作用一定是主要的。
对于【例9.1】建立的最优二元线性回归方程:
已算得
因为,所以在上述二元线性回归方程中,自变量(眼肌面积)对依变量(瘦肉量)的影响是主要的。
*第二节 复相关分析
一、复相关的概念及意义
研究一个变量与多个变量的线性相关称为复相关分析(analysis of multiple correlation)。从相关分析角度来说,复相关中的变量没有依变量与自变量之分,但是在实际应用中,复相关分析经常与多元线性回归分析联系在一起,因此,复相关分析一般指依变量y与m个自变量x1,x2、…、xm的线性相关。
在多元线性回归分析中,如果m个自变量对依变量的回归平方和SSR占依变量y的总平方和SSy的比率越大,则表明依变量y和m个自变量的线性联系越密切,或者表明依变量y与m个自变量的线性相关越密切,因此定义:
(9-24)
为y与x1,x2、…、xm的复相关指数,简称相关指数(correlation index)。
相关指数R2表示多元线性回归方程的拟合度,或者说表示用多元线回归方程进行预测的可靠程度。显然,
定义:
(9-25)
为依变量与个自变量x1,x2、…、xm 的复相关系数(multiple correlation coefficient)。
复相关系数表示与x1,x2、…、xm的线性关系的密切程度,由于包含了x1,x2、…、xm的综合线性影响,因此,y与x1,x2、…、xm的复相关系数也就相当于y与的简单相关系数,即
(9-26)
复相关系数的取值范围为:。在自由度一定时,R愈近于1,复相关愈密切;愈近于0,愈不密切。
二、复相关系数的显著性检验
复相关系数的显著性检验也就是对y与x1,x2、…、xm的线性关系的显著性检验,因此,复相关系数的显著性检验与相应的多元线性回归关系的显著性检验或多元线性回归方程的显著性检验是完全等价的。复相关系数R的显著性检验有两种方法——F检验法与查表法。
(一)F检验法 设为y与x1,x2、…、xm的总体复相关系数,F检验的无效假设与备择假设为:
由下述F统计量检验R的显著性:
(9-27)
注意:因为,代入(9-27)式得
说明利用(9-27)式计算的FR值实际上就是多元线性回归关系显著性检验——F检验计算的F值,也就是说复相关系数的显著性检验与多元线性回归关系的显著性检验是完全等价的。
(二)查表法 对于(9-27)式,由于在 一定时,给定显著水平的F值一定,因此,可计算出相应于显著水平时的临界R值:
并将其列成表。因此复相关系数显著性检验可用简便的查表法进行。
由和变量的总个数M=m+1查附表8《r和R的显著数值表》得临界R值:、,将R与、比较:
对于【例9.1】,依变量(瘦肉量)与自变量(眼肌面积)、(胴体长)、(膘厚)的复相关系数
由于,(F0.01(3,50)=4.20)
表明R极显著。注意,这里的FR值与三元线性回归关系显著性检验的F值是相同的。
若用查表法,则由与M=m+1=3+1=4查附表8得R0.01(50,4)=0.449,因为R>R0.01(50,4),P<0.01,故R为极显著。
显著性检验结果表明,猪的瘦肉量与眼肌面积、胴体长、膘厚间存在极显著的复相关。
由于篇幅的限制,附表8仅列出了M=3,4,5的临界R值。若M>5,则采用F检验或根据多元线性回归关系显著性检验的结果来推断复相关系数的显著性。
*第三节 偏相关分析
多个相关变量间的关系是较为复杂的,任何两个变量间常常存在不同程度的简单相关关系,但是这种相关关系又包含有其他变量的影响。因此简单相关分析即直线相关分析没有考虑其他变量对这两个变量的影响,简单相关分析实际上并不能真实反映两个相关变量间的相关关系。而只有消除了其他变量的影响之后,研究两个变量间的相关性,才能真实地反映这两个变量间相关的性质与密切程度。偏相关分析就是固定其他变量不变而研究某两个变量间相关性的统计分析方法。
一、偏相关系数的意义与计算
(一)偏相关系数的意义 在多个相关变量中,其他变量保持固定不变,所研究的两个变量间的线性相关称为偏相关(partial correlation)。
用来表示两个相关变量偏相关的性质与程度的统计量叫偏相关系数(partial correlation coefficient)。
根据被固定的变量个数可将偏相关系数分级,偏相关系数的级数等于被固定的变量的个数。
当研究2个相关变量x1、x2的关系时,用直线相关系数r12表示x1与x2线性相关的性质与程度。此时固定的变量个数为0,所以直线相关系数r12又叫做零级偏相关系数。
当研究3个相关变量x1、x2、x3的相关时,我们把x3保持固定不变,x1与x2的相关系数称为x1与x2的偏相关系数,记为r12.3,类似地,还有偏相关系数r13.2,r23.1。这3个偏相关系数固定的变量个数为1,所以都叫做一级偏相关系数。
当研究4个相关变量x1、x2、x3、x4的相关时,须将其中的2个变量固定不变,研究另外两个变量间的相关。即此时只有二级偏相关系数才真实地反映两个相关变量间线性相关的性质与程度。二级偏相关系数共有个:r12.34,r13.24,r14.23,r23.14,r24.13,r34.12。
一般,当研究m个相关变量x1、x2、、、…、xm的相关时,只有将其中的m-2个变量保持固定不变,研究另外两个变量的相关才能真实地反映这两个相关变量间的相关,即此时只有m-2级偏相关系数才真实地反映了这两个相关变量间线性相关的性质与程度。m-2级偏相关系数共有个。xi与xj的m-2级偏相关系数记为rij.(i,j=1,2,…,m,i≠j)。
偏相关系数的取值范围为[-1,1],即:-1≤rij.≤1。
(二)偏相关系数的计算
1、一级偏相关系数的计算 设三个相关变量共有n组实测数据:
序号
1
2
n
一级偏相关系数可由零级偏相关系数即直线相关系数计算,计算公式为:
(9-28)
2、二级偏相关系数的计算 设四个相关变量共有n组实测数据:
序号
1
2
n
二级偏相关系数可由一级偏相关系数计算,计算公式为:
(9-29)
3、m-2级偏相关系数的计算 设m个相关变量共有n组观测数据:
序号
…
1
…
2
…
n
…
m-2级偏相关系数的计算方法如下:
首先计算简单相关系数即直线相关系数:
,( (9-30)
其中,,,,并由简单相关系数rij组成相关系数矩阵:
(9-31)
然后求相关系数矩阵的逆矩阵
(9-32)
则相关变量的-2级偏相关系数的计算公式为:
(9-33)
二、偏相关系数的显著性检验
(一)t检验法 设相关变量的总体偏相关系数为,则对偏相关系数进行显著性检验的无效假设与备择假设为,
,
检验公式为:
(9-34)
(9-34)式中,为偏相关系数标准误,;n为观测数据组数,m为相关变量总个数。
注意,m个相关变量的偏相关分析中的m指相关变量的总个数;m元线性回归分析中的m指自变量的个数;这两种分析方法中的m所表达的意义是不同的。
(二)查表法 由及变量个数2查附表8《r和R显著数值表》得r0.05(n-m,2),r0.01(n-m,2)。将偏相关系数的绝对值 r0.05(n-m,2)、r0.01(n-m,2)进行比较,即可作出统计推断。
【例9.2】 对【例9.1】资料进行偏相关分析。注意,此时相关变量总个数m=4。
首先由【例9.1】的计算变量间的简单相关系数:
相关系数矩阵R为:
然后求得相关系数矩阵的逆矩阵C为:
因为我们需要研究的是瘦肉量(y)与眼肌面积(x1)、胴体长(x2)、膘厚(x3)的二级偏相关系数,由(9-33)式可以算得:
现在对上述三个二级偏相关系数进行t检验:
由查值表得t0.05(50)=2.008、t0.01(50)=2.678,因为,,所以为极显著;而因此,都是不显著的。
如用查表法对上述三个二级偏相关系数进行显著性检验,则由以及变量个数为2查附表8《显著数值表》得,而为极显著,都是不显著的,这与t检验结论一致。
显著性检验结果表明,瘦肉量(y)与眼肌面积(x1)呈极显著的正的偏相关,而瘦肉量(y)与胴体长(x2)、膘厚(x3)的偏相关均为不显著。
从以上分析中,我们看到简单相关系数,在数值上分别与相应的二级偏相关系是有差别的。经显著性检验,都是极显著的,是显著的,而这与对应的二级偏相关系数的显著性也是不完全一致的。造成偏相关系数与简单相关系数在数值上相差的原因就在于各自变量间的相关性。在多变量资料中,偏相关系数与简单相关系数在数值上可以相差很大,甚至有时连符号都可能相反。只有偏相关分析才能正确地表示两个变量间的线性相关的性质和程度,才真实反映了两变量间的本质联系。而简单相关分析则可能由于其他变量的影响,反映的两个变量间的关系只是非本质的表面联系,所以是不可靠的。因此,对多变量资料进行相关分析时,应进行偏相关分析。
*第四节 多项式回归
多项式回归概念
研究一个依变量与一个或多个自变量间多项式的回归分析方法,称为多项式回归(polynomial regression)。如果自变量只有一个时,称为一元多项式回归;如果自变量有多个时,称为多元多项式回归。
一元m次多项式回归方程为:
(9-35)
二元二次多项式回归方程为:
(9-36)
在一元回归分析中,如果依变量与自变量的关系为非线性的,但是又找不到适当的函数曲线来拟合,则可以采用一元多项式回归。多项式回归的最大优点就是可以通过增加x的高次项对实测点进行逼近,直至满意为止。事实上,多项式回归可以处理相当一类非线性问题,它在回归分析中占有重要的地位,因为任一函数都可以分段用多项式来逼近。因此,在通常的实际问题中,不论依变量与其他自变量的关系如何,我们总可以用多项式回归来进行分析。
多项式回归分析的一般方法
多项式回归问题可以通过变量转换化为多元线性回归问题来解决。
对于一元m次多项式回归方程(9-35),令、=、…、=,则(9-35)就转化为m 元线性回归方程
因此用本章第一节的方法就可解决多项式回归问题。需要指出的是,在多项式回归分析中,检验回归系数bi是否显著,实质上就是判断自变量x的i次方项xi对依变量y的影响是否显著。
对于二元二次多项式回归方程(9-36),令,则(9-36)就转化为五元线性回归方程
但随着自变量个数的增加,多元多项式回归分析的计算量急剧增加。多元多项式回归属于多元非线性回归问题,在这里不作介绍。
在多项式回归中较为常用的是一元二次多项式回归和一元三次多项式回归,下面结合一实例对一元二次多项式回归作详细介绍。
一元二次多项式回归分析
【例9.3】 给动物口服某种药物A 1000mg,每间隔1小时测定血药浓度(g/ml),得到表9-5的数据(血药浓度为5头供试动物的平均值)。试建立血药浓度(依变量y)对服药时间(自变量x)的回归方程。
表9-5 血药浓度与服药时间测定结果表服药时间x(小时)
1
2
3
4
5
6
7
8
9
血药浓度y(g/ml)
21.89
47.13
61.86
70.78
72.81
66.36
50.34
25.31
3.17
22.7182
46.2563
62.2684
70.7545
71.7146
65.1487
51.0568
29.4389
0.2950
y-
-0.8282
0.8737
-0.4084
0.0255
1.0954
1.2113
-0.7168
-4.1298
2.8750
(一)根据表9-5的数据资料绘制x与y的散点图 (见图9-1)。由散点图我们看到:血药浓度最大值出现在服药后5小时,在5小时之前血药浓度随时间的增加而增加,在5小时之后随着时间的增加而减少,
散点图呈抛物线形状,因此我们可以选用一元二次多项式来描述血药浓度与服药时间的关系,即进行一元二次多项式回归或抛物线回归。
(二)进行变量转换 设一元二次多项式回归方程为,
令、,则得二元线性回归方程
(三)进行二元线性回归分析 先计算得:
再计算得:
于是得到关于
求出上述正规方程组系数矩阵的逆矩阵为:
关于
即:
而
于是得到二元线性回归方程为:
现在对二元线性回归方程或二元线性回归关系进行显著性检验。
列出方差分析表,进行F检验。
表9-6 二元线性回归关系方差分析表变异来源
SS
df
MS
F
回 归
4830.9162
2
2415.4581
511.750**
离回归
28.3202
6
4.7200
总变异
4859.2364
8
由查F值表得,因为F>F0.01(2,6),P<0.01,表明二元线性回归关系是极显著的。
偏回归系数的显著检验,应用F检验法:
由查F值表得,因为、,表明偏回归系数都是极显著的。
(四)建立一元二次多项式回归方程 将还原为,还原为x2,即得一元二次多项式回归方程为:
(五)计算相关指数R2 因为,,相关指数R2为:
表明y对x的一元二次多项式回归方程的拟合度是比较高的,或者说该回归方程估测的可靠程度是比较高的。
*第五节 通径分析
在研究多个相关变量间的线性关系时,除了可以采用多元线性回归分析和偏相关分析,还可以采用通径分析(path analysis)。由S·Wright(1921)提出,并经遗传育种工作者不断完善和改进的通径分析,在研究多个相关变量间关系中具有精确、直观等优点,在遗传育种工作中广泛应用于研究遗传相关、近交系数、亲缘系数、遗传力,确定综合选择指数、复合育种值,剖分性状间的相关系数为直接作用与间接作用的代数和等等。
一、通径系数(path coefficient)与决定系数
(一)通径、相关线与通径图 为直观起见,先讨论一个依变量、两个自变量的情况。
设三个相关变量与、间存在线性关系,为依变量(结果),、为自变量(原因)且彼此相关,回归方程为:
(9-37)
或 (9-38)
其中为剩余项。
可用图9-2来表示三个相关变量间的关系。
在图9-2中,单箭头线,”
表示变量间存在着因果关系,方向为由原因到结果,称为通径(path),也称为直接通径。双箭头线,”
表示变量间存在着平行关系(互为因果),称为相关线(correlation line),
一条相关线相当于两条尾端相联的通径。将包含两条或两条以上通径、也 图9-2 自变量、与可以包含一条相关线的链称为间接通 依变量的通径图径。如图9-2中,→为通径或直接通径, 为间接通径。这种用来表示相关变量间因果关系与平行关系的箭形图称为通径图(path chart)。
(二)通径系数 通径图直观、形象地表达了相关变量间的关系,仅定性地表达还不够,还须进一步用数量表示因果关系中原因对结果影响的相对重要程度与性质、平行关系中变量间相关的相对重要程度与性质,也就是必须用数量表示“通径”与“相关线”的相对重要程度与性质。
表示“通径”相对重要程度与性质的数量叫通径系数。表示“相关线”相对重要程度与性质的数量叫相关系数。
相关系数已在第八章进行了详细介绍。下面介绍通径系数的数学表达式。
设依变量与自变量、间存在线性关系,回归方程为:
或
其中为剩余项:,且;、彼此相关。表示这三个相关变量间关系的通径图见图9-2。
由于偏回归系数、是带有单位的,一般不能直接由、比较自变量、(原因)对依变量(结果)影响的重要程度的大小。为了能直接比较各自变量对依变量影响重要程度的大小,现将、、三个变量及剩余项进行标准化变换,使、、及变为不带单位的相对数。
由可得
(9-39)
将上述两式等号左右两端相减得
(9-40)
再将(9-40)式两端同除以的标准差,并作相应的恒等变形,得:
(9-41)
式中:、、分别为、与的标准差。
、为变量、标准化之后的偏回归系数,分别表示x1、x2对y影响的相对重要程度和性质;表示剩余项e对y影响的相对重要程度和性质;、和就是x1、x2和e到y的通径系数的数学表达式。若把x1、x2和e到y的通径系数记为P0.1、P0.2、P0.e,则有:
,,
一般,若依变量与自变量、、间存在线性关系,回归方程为:
(9-42)
或 (9-43)
当自变量两两相关时,其通径图如图9-3所示。则原因与剩余项到结果的通径系数为:
,
图9-3 自变量、、与依变量的通径图
(三)决定系数 通径系数的平方称为决定系数(determination coefficient)。决定系数表示原因(自变量)或误差对结果(依变量)的相对决定程度。
对于情况,原因、和剩余项对结果的决定系数分别记为、、,则:
对于,原因()和剩余项e对结果的决定系数记为d0.i(i=1,2,…,m)和d0.e。
则 ,
二、通径系数的性质
可以证明通径系数有如下四个重要性质。
性质1 如果相关变量、、间存在线性关系,其中为依变量(结果)、和为自变量(原因),且和彼此相关,回归方程为
或
通径图如图9-2所示。则:
(9-44)
(9-45)
对于(9-45)式可以进行如下通径分析:由到有两条通径,第一条是直接通径 →,直接通径系数p0.1表示对的直接作用;第二条是间接通径 →,并定义间接通径系数等于组成该间接通径的通径与相关线系数的乘积:r12p0.2,则间接通径系数表示通过与其相关的对的间接作用。因此,与的相关系数剖分为对的直接作用与通过对的间接作用的代数和,即与y的相关系数等于与间的直接通径系数与间接通径系数之和。
对于(9-45)式也可以进行同样的通径分析:由到有两条通径,第一条是直接通径→,第二条是间接通径 →。与的相关系数剖分为对的直接作用与通过对的间接作用的代数和,即,与的相关系数等于与的直接通径系数与间接通径系数之和。
对于(9-44)与(9-45)式,可以改写为:
(9-46)
(9-46)式为关于通径系数的正规方程组。如写成矩阵形式为:
(9-47)
如果相关系数已计算出,那么可以由(9-46)式或(9-47)式求出通径系数和。
一般,设相关变量与间存在线性关系,回归方程为:
或
其中,为依变量,、、…、为自变量,且两两相关,通径图如图9-3所示。则:
(9-48)
(9-48)式说明,()与的相关系数剖分为对的直接作用与间接作用的代数和,即与的相关系数等于到的直接通径系数与通过与其相关的各个对的所有间接通径系数之和。
对于(9-48)式写成关于各通径系数、、、的正规方程组形式为:
(9-49)
(9-49)式的矩阵形式为:
(9-50)
如果相关系数、(已经算出,那么可以由(9-49)式或(9-50)式求通径系数。
性质1有两个主要用途:一是利用相关系数求通径系数;二是将原因(自变量)与结果(依变量)的相关系数剖分为直接通径系数与间接通径系数的代数和,从而进行原因对结果的直接作用、间接作用的分析。
性质2 如果依变量与自变量、存在线性关系,且、彼此相关(见图9-2),则原因、与剩余项对结果的决定系数、、与到的通径系数、到的通径系数同、间的相关系数乘积的两倍之和为1,即:
(9-51)
在(9-51)式中,表示两个相关原因、共同对结果的相对决定程度,称为相关原因、共同对结果的决定系数,记作,即:。
因此,(9-51)式可以改写为:
(9-52)
即当一个结果的两个原因相关时,两个原因对结果的决定系数加上相关原因共同对结果的决定系数与剩余项对结果的决定系数之和等于1。
根据(9-52)式,可以计算出剩余项对结果的决定系数与通径系数:
(9-53)
(9-54)
一般,如果依变量与自变量、存在线性关系,且自变量两两相关(见图9-3),则原因、分别对结果的决定系数与每两个相关原因共同对结果的决定系数以及剩余项对结果的决定系数之和为1,即:
或简写为:
(9-55)
根据(9-55)式,可以计算出剩余项对结果的决定系数与通径系数:
(9-56)
(9-57)
根据(9-56)式的计算结果,如果 的绝对值较大,说明可能还有对结果影响较大的原因未被考虑到,这在通径分析时应予以注意。
性质2的主要用途是利用各决定系数绝对值的大小来分析各个原因及两两相关原因对结果的相对决定程度,这是通径分析中进行决定程度分析的依据。同时性质2也为计算、提供了简便方法。
性质3 如果依变量与自变量、间存在线性关系,且自变量两两间彼此相关(见图9-3),回归方程为:
或
则 (9-58)
简写为,
并且 (9-59)
(9-60)
(9-61)
(9-58)、(9-59)、(9-60)、(9-61)式中R2为依变量与自变量、的相关指数,也为标准化变量的回归平方和;(9-60)、(9-61)式中的的d0.e为标准化变量的离回归平方和。
(9-58)式中的、、可以看成为各原因、分别对结果y的总决定程度,这是因为根据(9-48)式及两相关原因共同对结果的决定系数的计算公式,可以导出如下结果:
(9-62)
根据(9-58)式,将、、分别称为自变量、对回归方程估测可靠程度的总贡献。
性质3的主要用途为在通径分析中进行各原因对回归方程估测可靠程度的总贡献分析。
性质4 如果结果与结果分别与、间存在线性关系,即、是影响与的m个公共原因,且、两两相关,(见图9-4)。
则 + (9-63)
图 9-4 x1、x2、…、xm与y1和y2的通径图 图 9-5 x1、x2与y1、y2的通径图
性质4是通径分析中最重要的性质,利用它,可以计算任意两个结果间的相关系数。性质4在动物遗传育种的理论研究上有着十分重要的应用。
例如,结果和结果分别与、存在线性关系,、是影响与的两个公共原因,且与相关(见图9-5),那么,结果与结果的相关系数为:
三、通径分析的显著性检验
通径分析是标准化变量的多元线性回归分析。通径分析的显著性检验包括回归方程显著性检验、通径系数显著性检验、通径系数差异显著性检验、两次通径分析相应通径系数差异显著性检验四个内容。后两种检验在一般的多元线性回归分析中通常无法进行,因为偏回归系数所带的单位通常不相同,后两种检验只能在通径分析中进行,这是通径分析的优点之一。
设依变量与自变量、间存在线性关系,自变量两两相关。与、共有n组实际观测数据。则元线性回归方程为:
(9-64)
现对、、分别进行标准化变换:
, ()
其中。
注意,为了进行显著性检验简便易行,这里我们用作分母进行标准化变换,与前面用作分母进行标准化变换有所不同。两种标准化变换所得的通径系数,即标准化回归变量的偏回归系数数值相同。
标准化变量的m元线性回归方程为:
(9-65)
(9-65)式中,(为标准化变量的偏回归系数即通径系数。
令,则式(9-65)可改写为:
(9-66)
(9-66)式也为标准化变量的m元线性回归方程。关于通径系数的正规方程组为:
(一)回归方程显著性检验 由于进行通径分析的前提是与、间存在显著的线性关系,因此需要对回归方程即式(9-66)进行显著性检验。如果经显著性检验,回归方程不显著,则不必继续进行通径分析。
采用F检验法检验回归方程的显著性。对于标准化变量的回归方程(9-66)式,总平方和可以剖分为回归平方和与离回归平方和两部分,即:
(9-67)
总自由度可剖分为回归自由度与离回归自由度 两部分,即:
(9-68)
可以证明在这里所进行的标准化变化下:
,
,
,
由统计量
(9-69)
或 (9-70)
检验回归方程(9-66)是否显著。
(二)通径系数的显著性检验
1、F检验 由统计量
() (9-71)
检验通径系数(是否显著。其中为相关系数矩阵R的逆矩阵R-1=C中主对角线上的元素。
2、t检验 由统计量
(9-72)
检验通径系数是否显著。其中为通径系数标准误,其计算公式为:
(9-73)
注意,这里介绍的F检验与t检验等价,在实际进行通径系数显著性检验时,只须任选其一。
(三)通径系数差异显著性检验 由于通径系数为不带单位的相对数,因此可以进行一次通径分析中的两个通径系数差异显著性检验。
1、F检验
由统计量
(9-74)
(
检验通径系数与之间的差异是否显著。其中为相关系数矩阵R的逆矩阵的元素。
2、t检验由统计量
(9-75)
(
检验通径系数与间的差异是否显著。其中称为通径系数差异标准误,其计算公式为:
(9-76)
注意,这里介绍的F检验与t检验也是等价的。
(四)两次通径分析相应通径系数差异显著性检验 设两次通径分析有关数据与结果如下:
自变量个 数
观测值组 数
通 径系 数
离回归平方和
离回归均 方
高斯乘数
第一次通径分析
第二次通径分析
首先进行两次通径分析剩余项方差齐性检验,这里应用两尾F检验。由统计量
(9-77)
检验差异是否显著。注意在式(9-77)中,应将较大的均方放在分子。
如果差异不显著,那么再用F检验或与其等价的t检验进行两次通径分析相应通径系数差异显著性检验。
1、F检验 由统计量
(9-78)
检验两次通径分析相应通径系数与差异是否显著。
2、t检验 由统计量
(9-79)
检验两次通径分析相应通径系数与差异是否显著。其中 为两次通径分析的通径系数差异标准误,其计算公式为:
(9-80)
四、实 例
现结合一实例介绍通径分析的基本步骤。
【例9.4】 奶牛第一胎产奶量是奶牛的重要育种目标,由于奶牛的一个产奶周期较长(305天),如果能从奶牛的初期性状中找到影响奶牛305天产奶量的主要因素,这对保证早期选种的准确性,加速奶牛的育种工作有其重要意义。某奶牛场观察记载了273头黑白花奶牛的一胎305天产奶量(),最高日产天数(),最高月产(),90天产奶量(),最高日产()5个性状。试进行通径分析。
(一)计算性状间的相关系数 由273组实测数据(略)计算得性状间相关系数并进行显著性检验,如表9-7所示。
表9-7 5个性状间的相关系数
最高月产
90天产奶量
最高日产
一胎305天产奶量
最高日产天数
0.1320*
0.0903
0.0864
0.2026**
最高月产
0.9573**
0.9274**
0.7644**
90天产奶量
0.9239**
0.7981**
最高日产
0.7561**
(二)计算各通径系数 关于通径系数、、、的正规方程组为:
写成矩阵形式,为:
求得正规方程组系数矩阵即相关系数矩阵R的逆矩阵如下:
于是求得各通径系数为:
即:,,,
(三)显著性检验
1、线性关系显著性检验——F检验因为
而
所以
因为F=130.0417>F0.01(4,268)=3.389,P<0.01,表明一胎305天产奶量y与最高日产天数、最高月产、90天产奶量、最高日产间存在极显著的线性关系,可以对y与、、、进行通径分析。
又因为,所以
2,通径系数显著性检验 选用F检验,根据(9-71)式,分别计算检验通径系数、、、显著性的F统计量的值,得:
由应用线性插值法求得临界F值:,因、,而、,表明通径系数和为极显著,而和为不显著。
3、通径系数差异显著性检验 选用t检验法检验4个通径系数两两之间的差异显著性。先根据(9—76)式分别算得各通径系数差异标准误如下:
根据(9-75)式算得各t统计量的值如下:
*
**
由应用线性内插法求得临界t值:,。
因为,表明与差异显著;均大于,表明与
、、差异都极显著;而、都小于,表明与、差异都不显著。
(四)绘制通径图(见图9-6) 图9-6 通径图
(五)进行原因对结果的直接作用与间接作用分析 根据性质1,可以将自变量(原因)、、、与依变量(结果)的相关系数剖分为直接作用与间接作用的代数和,结果见表9—8。
表9-8 直接作用与间接作用分析性 状
相 关系 数
直 接作 用
间 接 作 用
总 的
其 中 通 过
0.2026
0.1384
0.0643
-0.0210
0.0704
0.0149
0.7644
-0.1590
0.9235
0.0183
0.7548
0.1594
0.7981
0.7791
0.0191
0.0125
-0.1522
0.1588
0.7561
0.1719
0.5843
0.0120
-0.1475
0.7198
(六)进行决定程度分析 各决定系数为:
按绝对值大小将决定系数进行排列:
,,,,
,,
, 。
结果表明,对的相对决定程度最大;其次是剩余项,可能是观测值误差较大或者可能还有对一胎305天产奶量影响较大的性状或因素未考虑到。
(七)进行各自变量对回归方程估测可靠程度R2总贡献分析先计算各:
,说明自变量对R2的总贡献为0.6218,居各自变量对R2总贡献之首。
由上述分析,可以得出如下结论:
(1)一胎305天产奶量与最高日产天数、最高月产、90天产奶量、最高日产间存在极显著的线性关系,相关指数,若用与、、、间的线性回归方程来估测,其可靠程度仅为65.83%;而剩余项对一胎305天产奶量的相对决定程度为0.3417,其绝对值在各决定系数中居第二,表明可能是观测值误差较大或者可能还有对一胎305天产奶量影响较大的性状或因素未被考虑到。
(2)、、、对的直接作用分别为:,,,。其中、不显著,、达极显著。但极显著地高于、、,表明,4个性状中最高日产天数和90天产奶量对一胎305天产奶量y有极显著影响,而90天产奶量又极显著地高于其它3个性状对一胎305天产奶量y的影响,由此说明90天产奶量是影响一胎305天产奶量的最重要的早期性状。
(3)从表9-8看到,对的直接作用最大,=0.7791,通过、、对的间接作用之和为0.0191,其绝对值较小。也具有类似的特性。表明、对的作用主要为直接作用,而、对的作用主要为间接作用。
(4)90天产奶量与最高日产共同对一胎305天产奶量的相对决定程度为0.2475,其绝对值在各决定系数中居第三;且对的总贡献中居第二,说明在注意90天产奶量的同时,还应注意最高日产这一早期产奶性状,若二者皆高,则一胎305天产奶量很可能也是高的,由于,与为极显著正相关,两个性状同步增减,易于实现两个性状都高。
(5)90天产奶量与最高月产共同对一胎305天产奶量y的相对决定程度为
-0.2372,之所以是负的,是因为,即对的直接作是负的。但是,即与为极显著正相关,高(这是我们所希望的),一般说来也高(这是我们所不希望的)。所以当注意了90天产奶量这一性状后,还应尽量兼顾最高月产不要太高,否则会影响一胎305天产奶量。
因此,为了选取一胎305天产奶量高的奶牛,就所考虑的4个早期性状而言,应选取90天产奶量高、最高日产量高而最高月产奶量适中的奶牛;此外,还应进一步寻找对奶牛一胎305天产奶量影响较大的另外的性状或因素。
习 题
1.如何建立多元线性回归方程?偏回归系数有何意义?
2.多元线性回归的显著性检验包含哪些内容?如何进行?
3.在多元线性回归分析中,如何剔除不显著的自变量?怎样重新建立多元线性回归方程?
4.什么是相关系数?其意义是什么?
5.什么是复相关系数?其意义是什么?如何进行显著性检验?
6.什么是偏相关系数?偏相关分析与简单相关分析有何区别?
7,如何将多项式回归转化为多元线性回归?
8.什么是通径系数?怎样计算和检验通径系数?通径分析的基本步骤有哪些?
9.根据下述某猪场25头育肥猪4个胴体性状的数据资料,试进行瘦肉量y对眼肌面积(x1)、腿肉量(x2)、腰肉量(x3)的多元线性回归分析。
序号
瘦肉量
y(kg)
眼肌面积
x1(cm2)
腿肉量
x2(kg)
腰肉量
x3(kg)
序号
瘦肉量y(kg)
眼肌面积x1(cm2)
腿肉量x2(kg)
腰肉量x3(kg)
1
15.02
23.73
5.49
1.21
14
15.94
23.52
5.18
1.98
2
12.62
22.34
4.32
1.35
15
14.33
21.86
4.86
1.59
3
14.86
28.84
5.04
1.92
16
15.11
28.95
5.18
1.37
4
13.98
27.67
4.72
1.49
17
13.81
24.53
4.88
1.39
5
15.91
20.83
5.35
1.56
18
15.58
27.65
5.02
1.66
6
12.47
22.27
4.27
1.50
19
15.85
27.29
5.55
1.70
7
15.80
27.57
5.25
1.85
20
15.28
29.07
5.26
1.82
8
14.32
28.01
4.62
1.51
21
16.40
32.47
5.18
1.75
9
13.76
24.79
4.42
1.46
22
15.02
29.65
5.08
1.70
10
15.18
28.96
5.30
1.66
23
15.73
22.11
4.90
1.81
11
14.20
25.77
4.87
1.64
24
14.75
22.43
4.65
1.82
12
17.07
23.17
5.80
1.90
25
14.37
20.44
5.10
1.55
13
15.40
28.57
5.22
1.66
10.对本章习题9所给数据资料,分别计算y与、、的二级偏相关系数并进行显著性检验。
()
11.根据重庆市种畜场奶牛群各月份产犊母牛平均305天产奶量的数据资料,试进行一元二次多项式回归分析。
平均产奶量y(kg)
3833.43
3811.58
3769.47
3565.74
3481.99
3372.82
产犊月份x
1
2
3
4
5
6
平均产奶量y(kg)
3476.76
3466.22
3395.42
3807.08
3817.03
3884.52
产犊月份x
7
8
9
10
11
12
()
12.根据【例9.1】所给数据资料,试进行瘦肉量y与眼肌面积()、胴体长()、膘厚()四个性状的通径分析。
()
直线回归研究的是一个依变量与一个自变量之间的回归问题,但是,在畜禽、水产科学领域的许多实际问题中,影响依变量的自变量往往不止一个,而是多个,比如绵羊的产毛量这一变量同时受到绵羊体重、胸围、体长等多个变量的影响,因此需要进行一个依变量与多个自变量间的回归分析,即多元回归分析(multiple regression analysis),而其中最为简单、常用并且具有基础性质的是多元线性回归分析(multiple linear regression analysis),许多非线性回归(non-linear regression)和多项式回归(polynomial regression)都可以化为多元线性回归来解决,因而多元线性回归分析有着广泛的应用。研究多元线性回归分析的思想、方法和原理与直线回归分析基本相同,但是其中要涉及到一些新的概念以及进行更细致的分析,特别是在计算上要比直线回归分析复杂得多,当自变量较多时,需要应用电子计算机进行计算。
第一节 多元线性回归分析
多元线性回归分析的基本任务包括:根据依变量与多个自变量的实际观测值建立依变量对多个自变量的多元线性回归方程;检验、分析各个自变量对依自变量的综合线性影响的显著性;检验、分析各个自变量对依变量的单纯线性影响的显著性,选择仅对依变量有显著线性影响的自变量,建立最优多元线性回归方程;评定各个自变量对依变量影响的相对重要性以及测定最优多元线性回归方程的偏离度等。
多元线性回归方程的建立
(一)多元线性回归的数学模型 设依变量与自变量、、…、共有n组实际观测数据:
变量序号
…
1
…
2
…
┆
┆
┆
┆
…
┆
…
假定依变量y与自变量x1、x2、…、xm间存在线性关系,其数学模型为:
(9-1)
(j=1,2,…,n)
式中,x1、x2、…、xm为可以观测的一般变量(或为可以观测的随机变量);y为可以观测的随机变量,随x1、x2、…、xm而变,受试验误差影响;为相互独立且都服从的随机变量。我们可以根据实际观测值对以及方差作出估计。
(二)建立线性回归方程 设对、、…、的元线性回归方程为:
其中的、、、…、为的最小二乘估计值。即、、、…、应使实际观测值y与回归估计值的偏差平方和最小。
令
为关于、、、…、的+1元函数。
根据微分学中多元函数求极值的方法,若使达到最小,则应有:
(=1、2、…、)
经整理得:
(9-2)
由方程组(9-2)中的第一个方程可得
(9-3)
即
若记
(、、、…、;k)
并将分别代入方程组(9-2)中的后个方程,经整理可得到关于偏回归系数、、…、的正规方程组(normal equations)为:
(9-4)
解正规方程组(9-4)即可得偏回归系数、、…、的解,而
于是得到元线性回归方程
元线性回归方程的图形为维空间的一个平面,称为回归平面;称为回归常数项,当==…==0时,在b0有实际意义时,表示的起始值;(=、2、…、)称为依变量对自变量的偏回归系数(partial regression coefficient),表示除自变量以外的其余个自变量都固定不变时,自变量每变化一个单位,依变量平均变化的单位数值,确切地说,当>0时,自变量每增加一个单位,依变量平均增加个单位;当<0时,自变量i每增加一个单位,依变量平均减少个单位。
若将代入上式,则得
(9-5)
(9-5)式也为对、、…、的元线性回归方程。
对于正规方程组(9-4),记
,,
则正规方程组(9-4)可用矩阵形式表示为
(9-6)
即 (9-7)
其中A为正规方程组的系数矩阵、b为偏回归系数矩阵(列向量)、B 为常数项矩阵(列向量)。
设系数矩阵A的逆矩阵为C矩阵,即,则
其中:C矩阵的元素(,j=1、2、…、)称为高斯乘数,是多元线性回归分析中显著性检验所需要的。
关于求系数矩阵A的逆矩阵A-1的方法有多种,如行(或列)的初等变换法等,请参阅线性代数教材,这里就不再赘述。
对于矩阵方程(9-7)求解,有:
即:
(9-8)
关于偏回归系数、、…、的解可表示为:
(9-9)
(=1、2、…、)
或者
而
【例9.1】 猪的瘦肉量是肉用型猪育种中的重要指标,而影响猪瘦肉量的有猪的眼肌面积、胴体长、膘厚等性状。设依变量为瘦肉量(),自变量为眼肌面积(2),自变量为胴体长(),自变量为膘厚()。根据三江猪育种组的54头杂种猪的实测数据资料,经过整理计算,得到如下数据:
试建立对、、的三元线性回归方程。
将上述有关数据代入(9-5)式,得到关于偏回归系数、、的正规方程组:
用线性代数有关方法求得系数矩阵的逆矩阵如下:
=
根据式(9-8),关于、、的解可表示为:
即关于b1、b2、b3的解为:
而
于是得到关于瘦肉量与眼肌面积、胴体长、膘厚的三元线性回归方程为:
(三)多元线性回归方程的偏离度 以上根据最小二乘法,即使偏差平方和最小建立了多元线性回归方程。偏差平方和的大小表示了实测点与回归平面的偏离程度,因而偏差平方和又称为离回归平方和。统计学已证明,在m元线性回归分析中,离回归平方和的自由度为(n-m-1)。于是可求得离回归均方为/(n-m-1)。离回归均方是模型(9-1)中σ2的估计值。离回归均方的平方根叫离回归标准误,记为(或简记为Se),即
(9-10)
离回归标准误的大小表示了回归平面与实测点的偏离程度,即回归估计值与实测值y偏离的程度,于是我们把离回归标准误用来表示回归方程的偏离度。离回归标准误大,表示回归方程偏离度大,离回归标准误小,表示回归方程偏离度小。
利用公式计算离回归平方和,因为先须计算出各个回归预测值,计算量大,下面我们将介绍计算离回归平方和的简便公式。
二、多元线性回归的显著性检验
(一)多元线性回归关系的显著性检验 在畜禽、水产科学的许多实际问题中,我们事先并不能断定依变量与自变量、、…、之间是否确有线性关系,在根据依变量与多个自变量的实际观测数据建立多元线性回归方程之前,依变量与多个自变量间的线性关系只是一种假设,尽管这种假设常常不是没有根据的,但是在建立了多元线性回归方程之后,还必须对依变量与多个自变量间的线性关系的假设进行显著性检验,也就是进行多元线性回归关系的显著性检验,或者说对多元线性回归方程进行显著性检验。这里应用F检验方法。
与直线回归分析即一元线性回归分析一样,在多元线性回归分析中,依变量的总平方和可以剖分为回归平方和与离回归平方和两部分,即:
(9-11)
依变量的总自由度也可以剖分为回归自由度与离回归自由度两部分,即:
(9-12)
(9-11)与(9-12)两式称为多元线性回归的平方和与自由度的划分式或剖分式。
在(9-11)式中,反映了依变量的总变异;反映了依变量与多个自变量间存在线性关系所引起的变异,或者反映了多个自变量对依变量的综合线性影响所引起的变异;反映了除依变量与多个自变量间存在线性关系以外的其他因素包括试验误差所引起的变异。
(9-11)式中各项平方和的计算方法如下:
(9-12)
(9-12)式中各项自由度的计算方法如下:
在上述计算方法中,为自变量的个数,为实际观测数据的组数。
在计算出、与、之后,我们可以方便地算出回归均方与离回归均方:
;
检验多元线性回归关系是否显著或者多元线性回归方程是否显著,就是检验各自变量的总体偏回归系数、2、…、)是否同时为零,显著性检验的无效假设与备择假设为:
在H0成立条件下,有
(9-14)
由上述统计量进行检验即可推断多元线性回归关系的显著性。
这里特别要说明的是,上述显著性检验实质上是测定各自变量对依变量的综合线性影响的显著性,或者测定依变量与各自变量的综合线性关系的显著性。如果经过检验,多元线性回归关系或者多元线性回归方程是显著的,则不一定每一个自变量与依变量的线性关系都是显著的,或者说每一个偏回归系数不一定都是显著的,这并不排斥其中存在着与依变量无线性关系的自变量的可能性。在上述多元线性回归关系显著性检验中,无法区别全部自变量中,哪些是对依变量的线性影响是显著的,哪些是不显著的。因此,当多元线性回归关系经显著检验为显著时,还必须逐一对各偏回归系数进行显著性检验,发现和剔除不显著的偏回归关系对应的自变量。另外,多元线性回归关系显著并不排斥有更合理的多元非线性回归方程的存在,这正如直线回归显著并不排斥有更合理的曲线回归方程存在一样。
对于【例9.1】,建立的三元线性回归方程为:
现在对三元线性回归关系进行显著性检验。
已计算得:
并且dfy=n-1=54-1=53
dfR=m=3
dfr=n-m-1=54-3-1=50
列出方差分析表,进行检验:
表9-1 三元线性回归关系方差分析表变异来源
SS
回 归
25.6433
3
8.5478
9.493**
离回归
45.0184
50
0.9004
总变异
70.6617
53
由=3、=50查F值表得F0.01(3,50)=4.20,因为F>F0.01(3,50),P<0.01。表明,猪瘦肉量与眼肌面积、胴体长、膘厚之间存在极显著的线性关系,或者眼肌面积、胴体长、膘厚对瘦肉量的综合线性影响是极显著的。
(二)偏回归系数的显著性检验 当多元线性回归关系经显著性检验为显著或极显著时,还必须对每个偏回归系数进行显著性检验,以判断每个自变量对依变量的线性影响是显著的还是不显著的,以便从回归方程中剔除那些不显著的自变量,重新建立更为简单的多元线性回归方程。偏回归系数、2、…、m)的显著性检验或某一个自变量对依变量的线性影响的显著性检验所建立的无效假设与备择假设为:
、2、…、m)
有两种完全等价的显著性检验方法──t检验与F检验。
1、t检验
、2、…、m) (9-15)
式中为偏回归系数标准误;
为离回归标准误;
为C=A-1的主对角线元素。
2、F检验 在多元线性回归分析中,回归平方和SSR反映了所有自变量对依变量的综合线性影响,它总是随着自变量的个数增多而有所增加,但决不会减少。因此,如果在所考虑的所有自变量当中去掉一个自变量时,回归平方和SSR只会减少,不会增加。减少的数值越大,说明该自变量在回归中所起的作用越大,也就是该自变量越重要。
设SSR 为m个自变量、、…、所引起的回归平方和,为去掉一个自变量后m-1个自变量所引起的回归平方和,那么它们的差即为去掉自变量之后,回归平方和所减少的量,称为自变量的偏回归平方和,记为,即:
可以证明:
(i=1、2、…、m) (9-16)
偏回归平方和可以衡量每个自变量在回归中所起作用的大小,或者说反映了每个自变量对依变量的影响程度的大小。值得注意的是,在一般情况下,
这是因为m个自变量之间往往存在着不同程度的相关,使得各自变量对依变量的作用相互影响。只有当m个自变量相互独立时,才有
偏回归平方和是去掉一个自变量使回归平方和减少的部分,也可理解为添入一个自变量使回归平方和增加的部分,其自由度为1,称为偏回归自由度,记为,即。显然,偏回归均方为
(i=1、2、…、m) (9-17)
检验各偏回归系数显著性的F检验法应用下述F统计量:
(i=1、2、…、m) (9-18)
可以将上述检验列成方差分析表的形式。
对于【例9.1】,我们已经进行了三元线性回归关系的显著性检验,且结果为极显著的。现在对三个偏回归系数分别进行显著性检验。
t检验法:
首先计算
然后计算各t统计量的值:
由df=n-m-1=50查t值表得。因为>、<、<,所以偏回归系数b1是极显著的,而偏回归系数b2、b3都是不显著的。
F检验法:
首先计算各个偏回归平方和:
进而计算各个偏回归均方:
最后计算各F的值:
由df1=1,df2=50查F值表得F0.05(1,50)=4.03,F0.01(1,50)=7.17。因为> F0.01(1,50),< F0.05(1,50),< F0.05(1,50),因此偏回归系数b1极显著,而偏回归系数b2、b3均不显著。这与t检验的结论是一致的。
也可以把上述偏回归系数显著性检验的F检验结果列成方差分析表的形式:
表9-2 偏回归系数显著性检验方差分析表变异来源
SS
df
MS
F
的偏回归
13.8460
1
13.8460
15.378**
的偏回归
2.2782
1
2.2782
2.530
的偏回归
3.4275
1
3.4275
3.807
离 回 归
45.0184
50
0.9004
(三)自变量剔除与重新建立多元线性回归方程 当对显著的多元线性回归方程中各个偏回归系数进行显著性检验都为显著时,说明各个自变量对依变量的单纯影响都是显著的。若有一个或几个偏回归系数经显著性检验为不显著时,说明其对应的自变量对依变量的作用或影响不显著,或者说这些自变量在回归方程中是不重要的,此时应该从回归方程中剔除一个不显著的偏回归系数对应的自变量,重新建立多元线性回归方程,再对新的多元线性回归方程或多元线性回归关系以及各个新的偏回归系数进行显著性检验,直至多元线性回归方程显著,并且各个偏回归系数都显著为止。此时的多元线性回归方程即为最优多元线性回归方程(the best multiple linear regression equation)。
1、自变量的剔除 当经显著性检验有几个不显著的偏回归系数时,我们一次只能剔除一个不显著的偏回归系数对应的自变量,被剔除的自变量的偏回归系数,应该是所有不显著的偏回归系数中的F值(或∣t∣值、或偏回归平方和)为最小者。这是因为自变量之间往往存在着相关性,当剔除某一个不显著的自变量之后,其对依变量的影响很大部分可以转加到另外不显著的自变量对依变量的影响上。如果同时剔除两个以上不显著的自变量,那就会比较多地减少回归平方和,从而影响利用回归方程进行估测的可靠程度。
2、重新进行少一个自变量的多元线性回归分析 我们一次剔除一个不显著的偏回归系数对应的自变量,不能简单地理解为只须把被剔除的自变量从多元线性回归方程中去掉就行了,这是因为自变量间往往存在相关性,剔除一个自变量,其余自变量的偏回归系数的数值将发生改变,回归方程的显著性检验、偏回归系数的显著性检验也都须重新进行,也就是说应该重新进行少一个自变量的多元线性回归分析。
设依变量y与自变量、、…、的m元线性回归方程为:
如果为被剔除的自变量,则m-1元线性回归方程为:
(9-19)
我们可以应用前面介绍过的m元线性回归方程的建立方法根据实际观测数据建立m-1元线性回归方程,但是这需要重新进行大量的计算。下面介绍利用m元线性回归方程与m-1元线性回归方程的对应偏回归系与的关系以及m元正规方程组系数矩阵逆矩阵C 的元素与m-1元正规方程组系数矩阵逆矩阵的元素之间的关系建立m-1元线性回归方程的方法。
设关于m-1元线性回归方程(9-19)中的偏回归系、、…、、、…、的正规方程组系数矩陈的逆矩阵为,其各元素为:
(=1、2、…、i-1、i+1、…、m; j;)
可以证明:
(9-20)
式中、、、均为m元正规方程组系数矩阵逆矩阵C的元素。这样我们就非常方便地计算出新的m-1阶逆矩阵的各元素,以进行m-1元线性回归方程的偏回归系数的显著性检验。
还可以证明,m-1元线性回归方程中的偏回归系数与m元线性回归方程中偏回归系数bj之间有如下关系:
(j=1、2、…、、、…、m) (9-21)
(9-21)式说明了可以利用原来的m 元线性回归方程中的偏回归系数和m元正规方程组系数矩阵的逆矩阵C的元素来计算剔除一个自变量之后新的m-1元线性回归方程中的各偏回归系数。
而新的m-1元线性回归方程中常数项由下式计算:
(9-22)
于是我们利用(9-21)和(9-22)式可以方便地算出新的m-1元线性回归方程中的各个偏回归系数及常数项,这样即建立了剔除一个自变量之后新的m-1元线性回归方程:
在重新建立m-1元线性回归方程之后,仍然需要对m-1元线性回归关系和偏回归系数进行显著性检验,方法同前,但一些统计量需要重新进行计算。对于m-1元线性回归方程(9-19):
回归平方和
回归自由度
离回归平方和
离回归自由度
对偏回归系数进行显著性检验时:
而新的偏回归平方和为:
上式中的MSr仍为新的离回归均方。
重复上述步骤,直至回归方程显著以及各偏回归系数都显著为止,即建立了最优多元线性回归方程。
对于【例9.1】,建立的三元线性回归方程为
经显著性检验,回归方程极显著,偏回归系数b1极显著,而b2、b3都是不显著的。因为,所以剔除偏回归系数对应的自变量(胴体长),重新建立瘦肉量对眼肌面积、膘厚的二元线性回归方程:
根据(9-21)式:
计算和。这里i=2,j=1,3。
而由(9-22)式计算:
于是重新建立的二元线性回归方程为:
现在对二元线性回归方程或者二元线性回归关系进行显著性检验。
已计算得:
列出方差分析表,进行F检验:
表9-3 二元线性回归关系方差分析表变异来源
SS
df
MS
F
回 归
23.3667
2
11.6834
12.598**
离回归
47.2950
51
0.9274
总变异
70.6617
53
由应用线性内插法求临界F值,得F0.01(2,51)=5.05,因为F>F0.01(2,51),P<0.01,表明二元线性回归关系或二元线性回归方程是极显著的。
下面对偏回归系数和进行显著性检验,这里应用F检验法:
首先应用(9-20)式
计算关于、的正规方程组系数矩阵的逆矩阵的主对角线上的各元素,这里i=2,j、k=1、3。
下面计算偏回归平方和:
列出方差分析表,进行F检验:
表9-4 偏回归系数显著性检验方差分析表变异来源
SS
df
MS
F
的偏回归
14.1839
1
14.1839
15.294**
的偏回归
7.8834
1
7.8834
8.500**
离 回 归
47.2950
51
0.9274
由应用线性内插法求临界F值,得F0.01(1,51)=7.16,因为,表明二元线性回归方程的偏回归系数和都是极显著的,或者说明眼肌面积、膘厚分别对瘦肉量y的线性影响都是极显著的。
于是我们得到【例9.1】的最优二元线性回归方程为:
回归方程表明:猪的瘦肉量与眼肌面积、膘厚有着极显著的线性回归关系。当膘厚性状保持不变时,眼肌面积性状每增加1cm2,瘦肉量平均增加0.1297kg;而当眼肌面积性状保持不变时,膘厚性状每增加1cm,瘦肉量平均减少0.7544kg。
该回归方程的离回归标准误为:
(四)自变量主次的判断 在实际应用中,我们经常需要对最优多元线性回归方程中的自变量进行主次判断,以便抓住主要矛盾,更好地解决实际问题。
1、标准偏回归系数(standard partial regression coefficient)的比较定义
(9-23)
为第i个自变量的标准偏回归系数。式中:为第个自变量的样本标准差,Sy为依变量y的样本标准差。
标准偏回归系数为不带单位的相对数,其绝对值的大小可以衡量对应的自变量对依变量作用的相对重要性。标准偏回归系数又称“通径系数”,其应用请参阅本章第五节。
在多元线性回归分析中,在各自变量之间无显著相关的情况下,可以比较各标准偏回归系数绝对值的大小,大者,其对应的自变量对依变量的作用是主要的。
2、偏回归平方和的比较 在多元线性回归分析中,当自变量间存在着显著相关时,或者当无法判断各自变量间的相关性时,应比较各自变量的偏回归平方和(i=1、2、…、m)的大小来判断各自变量对依变量影响的主次,凡是偏回归平方和大的自变量,其对依变量的作用一定是主要的。
对于【例9.1】建立的最优二元线性回归方程:
已算得
因为,所以在上述二元线性回归方程中,自变量(眼肌面积)对依变量(瘦肉量)的影响是主要的。
*第二节 复相关分析
一、复相关的概念及意义
研究一个变量与多个变量的线性相关称为复相关分析(analysis of multiple correlation)。从相关分析角度来说,复相关中的变量没有依变量与自变量之分,但是在实际应用中,复相关分析经常与多元线性回归分析联系在一起,因此,复相关分析一般指依变量y与m个自变量x1,x2、…、xm的线性相关。
在多元线性回归分析中,如果m个自变量对依变量的回归平方和SSR占依变量y的总平方和SSy的比率越大,则表明依变量y和m个自变量的线性联系越密切,或者表明依变量y与m个自变量的线性相关越密切,因此定义:
(9-24)
为y与x1,x2、…、xm的复相关指数,简称相关指数(correlation index)。
相关指数R2表示多元线性回归方程的拟合度,或者说表示用多元线回归方程进行预测的可靠程度。显然,
定义:
(9-25)
为依变量与个自变量x1,x2、…、xm 的复相关系数(multiple correlation coefficient)。
复相关系数表示与x1,x2、…、xm的线性关系的密切程度,由于包含了x1,x2、…、xm的综合线性影响,因此,y与x1,x2、…、xm的复相关系数也就相当于y与的简单相关系数,即
(9-26)
复相关系数的取值范围为:。在自由度一定时,R愈近于1,复相关愈密切;愈近于0,愈不密切。
二、复相关系数的显著性检验
复相关系数的显著性检验也就是对y与x1,x2、…、xm的线性关系的显著性检验,因此,复相关系数的显著性检验与相应的多元线性回归关系的显著性检验或多元线性回归方程的显著性检验是完全等价的。复相关系数R的显著性检验有两种方法——F检验法与查表法。
(一)F检验法 设为y与x1,x2、…、xm的总体复相关系数,F检验的无效假设与备择假设为:
由下述F统计量检验R的显著性:
(9-27)
注意:因为,代入(9-27)式得
说明利用(9-27)式计算的FR值实际上就是多元线性回归关系显著性检验——F检验计算的F值,也就是说复相关系数的显著性检验与多元线性回归关系的显著性检验是完全等价的。
(二)查表法 对于(9-27)式,由于在 一定时,给定显著水平的F值一定,因此,可计算出相应于显著水平时的临界R值:
并将其列成表。因此复相关系数显著性检验可用简便的查表法进行。
由和变量的总个数M=m+1查附表8《r和R的显著数值表》得临界R值:、,将R与、比较:
对于【例9.1】,依变量(瘦肉量)与自变量(眼肌面积)、(胴体长)、(膘厚)的复相关系数
由于,(F0.01(3,50)=4.20)
表明R极显著。注意,这里的FR值与三元线性回归关系显著性检验的F值是相同的。
若用查表法,则由与M=m+1=3+1=4查附表8得R0.01(50,4)=0.449,因为R>R0.01(50,4),P<0.01,故R为极显著。
显著性检验结果表明,猪的瘦肉量与眼肌面积、胴体长、膘厚间存在极显著的复相关。
由于篇幅的限制,附表8仅列出了M=3,4,5的临界R值。若M>5,则采用F检验或根据多元线性回归关系显著性检验的结果来推断复相关系数的显著性。
*第三节 偏相关分析
多个相关变量间的关系是较为复杂的,任何两个变量间常常存在不同程度的简单相关关系,但是这种相关关系又包含有其他变量的影响。因此简单相关分析即直线相关分析没有考虑其他变量对这两个变量的影响,简单相关分析实际上并不能真实反映两个相关变量间的相关关系。而只有消除了其他变量的影响之后,研究两个变量间的相关性,才能真实地反映这两个变量间相关的性质与密切程度。偏相关分析就是固定其他变量不变而研究某两个变量间相关性的统计分析方法。
一、偏相关系数的意义与计算
(一)偏相关系数的意义 在多个相关变量中,其他变量保持固定不变,所研究的两个变量间的线性相关称为偏相关(partial correlation)。
用来表示两个相关变量偏相关的性质与程度的统计量叫偏相关系数(partial correlation coefficient)。
根据被固定的变量个数可将偏相关系数分级,偏相关系数的级数等于被固定的变量的个数。
当研究2个相关变量x1、x2的关系时,用直线相关系数r12表示x1与x2线性相关的性质与程度。此时固定的变量个数为0,所以直线相关系数r12又叫做零级偏相关系数。
当研究3个相关变量x1、x2、x3的相关时,我们把x3保持固定不变,x1与x2的相关系数称为x1与x2的偏相关系数,记为r12.3,类似地,还有偏相关系数r13.2,r23.1。这3个偏相关系数固定的变量个数为1,所以都叫做一级偏相关系数。
当研究4个相关变量x1、x2、x3、x4的相关时,须将其中的2个变量固定不变,研究另外两个变量间的相关。即此时只有二级偏相关系数才真实地反映两个相关变量间线性相关的性质与程度。二级偏相关系数共有个:r12.34,r13.24,r14.23,r23.14,r24.13,r34.12。
一般,当研究m个相关变量x1、x2、、、…、xm的相关时,只有将其中的m-2个变量保持固定不变,研究另外两个变量的相关才能真实地反映这两个相关变量间的相关,即此时只有m-2级偏相关系数才真实地反映了这两个相关变量间线性相关的性质与程度。m-2级偏相关系数共有个。xi与xj的m-2级偏相关系数记为rij.(i,j=1,2,…,m,i≠j)。
偏相关系数的取值范围为[-1,1],即:-1≤rij.≤1。
(二)偏相关系数的计算
1、一级偏相关系数的计算 设三个相关变量共有n组实测数据:
序号
1
2
n
一级偏相关系数可由零级偏相关系数即直线相关系数计算,计算公式为:
(9-28)
2、二级偏相关系数的计算 设四个相关变量共有n组实测数据:
序号
1
2
n
二级偏相关系数可由一级偏相关系数计算,计算公式为:
(9-29)
3、m-2级偏相关系数的计算 设m个相关变量共有n组观测数据:
序号
…
1
…
2
…
n
…
m-2级偏相关系数的计算方法如下:
首先计算简单相关系数即直线相关系数:
,( (9-30)
其中,,,,并由简单相关系数rij组成相关系数矩阵:
(9-31)
然后求相关系数矩阵的逆矩阵
(9-32)
则相关变量的-2级偏相关系数的计算公式为:
(9-33)
二、偏相关系数的显著性检验
(一)t检验法 设相关变量的总体偏相关系数为,则对偏相关系数进行显著性检验的无效假设与备择假设为,
,
检验公式为:
(9-34)
(9-34)式中,为偏相关系数标准误,;n为观测数据组数,m为相关变量总个数。
注意,m个相关变量的偏相关分析中的m指相关变量的总个数;m元线性回归分析中的m指自变量的个数;这两种分析方法中的m所表达的意义是不同的。
(二)查表法 由及变量个数2查附表8《r和R显著数值表》得r0.05(n-m,2),r0.01(n-m,2)。将偏相关系数的绝对值 r0.05(n-m,2)、r0.01(n-m,2)进行比较,即可作出统计推断。
【例9.2】 对【例9.1】资料进行偏相关分析。注意,此时相关变量总个数m=4。
首先由【例9.1】的计算变量间的简单相关系数:
相关系数矩阵R为:
然后求得相关系数矩阵的逆矩阵C为:
因为我们需要研究的是瘦肉量(y)与眼肌面积(x1)、胴体长(x2)、膘厚(x3)的二级偏相关系数,由(9-33)式可以算得:
现在对上述三个二级偏相关系数进行t检验:
由查值表得t0.05(50)=2.008、t0.01(50)=2.678,因为,,所以为极显著;而因此,都是不显著的。
如用查表法对上述三个二级偏相关系数进行显著性检验,则由以及变量个数为2查附表8《显著数值表》得,而为极显著,都是不显著的,这与t检验结论一致。
显著性检验结果表明,瘦肉量(y)与眼肌面积(x1)呈极显著的正的偏相关,而瘦肉量(y)与胴体长(x2)、膘厚(x3)的偏相关均为不显著。
从以上分析中,我们看到简单相关系数,在数值上分别与相应的二级偏相关系是有差别的。经显著性检验,都是极显著的,是显著的,而这与对应的二级偏相关系数的显著性也是不完全一致的。造成偏相关系数与简单相关系数在数值上相差的原因就在于各自变量间的相关性。在多变量资料中,偏相关系数与简单相关系数在数值上可以相差很大,甚至有时连符号都可能相反。只有偏相关分析才能正确地表示两个变量间的线性相关的性质和程度,才真实反映了两变量间的本质联系。而简单相关分析则可能由于其他变量的影响,反映的两个变量间的关系只是非本质的表面联系,所以是不可靠的。因此,对多变量资料进行相关分析时,应进行偏相关分析。
*第四节 多项式回归
多项式回归概念
研究一个依变量与一个或多个自变量间多项式的回归分析方法,称为多项式回归(polynomial regression)。如果自变量只有一个时,称为一元多项式回归;如果自变量有多个时,称为多元多项式回归。
一元m次多项式回归方程为:
(9-35)
二元二次多项式回归方程为:
(9-36)
在一元回归分析中,如果依变量与自变量的关系为非线性的,但是又找不到适当的函数曲线来拟合,则可以采用一元多项式回归。多项式回归的最大优点就是可以通过增加x的高次项对实测点进行逼近,直至满意为止。事实上,多项式回归可以处理相当一类非线性问题,它在回归分析中占有重要的地位,因为任一函数都可以分段用多项式来逼近。因此,在通常的实际问题中,不论依变量与其他自变量的关系如何,我们总可以用多项式回归来进行分析。
多项式回归分析的一般方法
多项式回归问题可以通过变量转换化为多元线性回归问题来解决。
对于一元m次多项式回归方程(9-35),令、=、…、=,则(9-35)就转化为m 元线性回归方程
因此用本章第一节的方法就可解决多项式回归问题。需要指出的是,在多项式回归分析中,检验回归系数bi是否显著,实质上就是判断自变量x的i次方项xi对依变量y的影响是否显著。
对于二元二次多项式回归方程(9-36),令,则(9-36)就转化为五元线性回归方程
但随着自变量个数的增加,多元多项式回归分析的计算量急剧增加。多元多项式回归属于多元非线性回归问题,在这里不作介绍。
在多项式回归中较为常用的是一元二次多项式回归和一元三次多项式回归,下面结合一实例对一元二次多项式回归作详细介绍。
一元二次多项式回归分析
【例9.3】 给动物口服某种药物A 1000mg,每间隔1小时测定血药浓度(g/ml),得到表9-5的数据(血药浓度为5头供试动物的平均值)。试建立血药浓度(依变量y)对服药时间(自变量x)的回归方程。
表9-5 血药浓度与服药时间测定结果表服药时间x(小时)
1
2
3
4
5
6
7
8
9
血药浓度y(g/ml)
21.89
47.13
61.86
70.78
72.81
66.36
50.34
25.31
3.17
22.7182
46.2563
62.2684
70.7545
71.7146
65.1487
51.0568
29.4389
0.2950
y-
-0.8282
0.8737
-0.4084
0.0255
1.0954
1.2113
-0.7168
-4.1298
2.8750
(一)根据表9-5的数据资料绘制x与y的散点图 (见图9-1)。由散点图我们看到:血药浓度最大值出现在服药后5小时,在5小时之前血药浓度随时间的增加而增加,在5小时之后随着时间的增加而减少,
散点图呈抛物线形状,因此我们可以选用一元二次多项式来描述血药浓度与服药时间的关系,即进行一元二次多项式回归或抛物线回归。
(二)进行变量转换 设一元二次多项式回归方程为,
令、,则得二元线性回归方程
(三)进行二元线性回归分析 先计算得:
再计算得:
于是得到关于
求出上述正规方程组系数矩阵的逆矩阵为:
关于
即:
而
于是得到二元线性回归方程为:
现在对二元线性回归方程或二元线性回归关系进行显著性检验。
列出方差分析表,进行F检验。
表9-6 二元线性回归关系方差分析表变异来源
SS
df
MS
F
回 归
4830.9162
2
2415.4581
511.750**
离回归
28.3202
6
4.7200
总变异
4859.2364
8
由查F值表得,因为F>F0.01(2,6),P<0.01,表明二元线性回归关系是极显著的。
偏回归系数的显著检验,应用F检验法:
由查F值表得,因为、,表明偏回归系数都是极显著的。
(四)建立一元二次多项式回归方程 将还原为,还原为x2,即得一元二次多项式回归方程为:
(五)计算相关指数R2 因为,,相关指数R2为:
表明y对x的一元二次多项式回归方程的拟合度是比较高的,或者说该回归方程估测的可靠程度是比较高的。
*第五节 通径分析
在研究多个相关变量间的线性关系时,除了可以采用多元线性回归分析和偏相关分析,还可以采用通径分析(path analysis)。由S·Wright(1921)提出,并经遗传育种工作者不断完善和改进的通径分析,在研究多个相关变量间关系中具有精确、直观等优点,在遗传育种工作中广泛应用于研究遗传相关、近交系数、亲缘系数、遗传力,确定综合选择指数、复合育种值,剖分性状间的相关系数为直接作用与间接作用的代数和等等。
一、通径系数(path coefficient)与决定系数
(一)通径、相关线与通径图 为直观起见,先讨论一个依变量、两个自变量的情况。
设三个相关变量与、间存在线性关系,为依变量(结果),、为自变量(原因)且彼此相关,回归方程为:
(9-37)
或 (9-38)
其中为剩余项。
可用图9-2来表示三个相关变量间的关系。
在图9-2中,单箭头线,”
表示变量间存在着因果关系,方向为由原因到结果,称为通径(path),也称为直接通径。双箭头线,”
表示变量间存在着平行关系(互为因果),称为相关线(correlation line),
一条相关线相当于两条尾端相联的通径。将包含两条或两条以上通径、也 图9-2 自变量、与可以包含一条相关线的链称为间接通 依变量的通径图径。如图9-2中,→为通径或直接通径, 为间接通径。这种用来表示相关变量间因果关系与平行关系的箭形图称为通径图(path chart)。
(二)通径系数 通径图直观、形象地表达了相关变量间的关系,仅定性地表达还不够,还须进一步用数量表示因果关系中原因对结果影响的相对重要程度与性质、平行关系中变量间相关的相对重要程度与性质,也就是必须用数量表示“通径”与“相关线”的相对重要程度与性质。
表示“通径”相对重要程度与性质的数量叫通径系数。表示“相关线”相对重要程度与性质的数量叫相关系数。
相关系数已在第八章进行了详细介绍。下面介绍通径系数的数学表达式。
设依变量与自变量、间存在线性关系,回归方程为:
或
其中为剩余项:,且;、彼此相关。表示这三个相关变量间关系的通径图见图9-2。
由于偏回归系数、是带有单位的,一般不能直接由、比较自变量、(原因)对依变量(结果)影响的重要程度的大小。为了能直接比较各自变量对依变量影响重要程度的大小,现将、、三个变量及剩余项进行标准化变换,使、、及变为不带单位的相对数。
由可得
(9-39)
将上述两式等号左右两端相减得
(9-40)
再将(9-40)式两端同除以的标准差,并作相应的恒等变形,得:
(9-41)
式中:、、分别为、与的标准差。
、为变量、标准化之后的偏回归系数,分别表示x1、x2对y影响的相对重要程度和性质;表示剩余项e对y影响的相对重要程度和性质;、和就是x1、x2和e到y的通径系数的数学表达式。若把x1、x2和e到y的通径系数记为P0.1、P0.2、P0.e,则有:
,,
一般,若依变量与自变量、、间存在线性关系,回归方程为:
(9-42)
或 (9-43)
当自变量两两相关时,其通径图如图9-3所示。则原因与剩余项到结果的通径系数为:
,
图9-3 自变量、、与依变量的通径图
(三)决定系数 通径系数的平方称为决定系数(determination coefficient)。决定系数表示原因(自变量)或误差对结果(依变量)的相对决定程度。
对于情况,原因、和剩余项对结果的决定系数分别记为、、,则:
对于,原因()和剩余项e对结果的决定系数记为d0.i(i=1,2,…,m)和d0.e。
则 ,
二、通径系数的性质
可以证明通径系数有如下四个重要性质。
性质1 如果相关变量、、间存在线性关系,其中为依变量(结果)、和为自变量(原因),且和彼此相关,回归方程为
或
通径图如图9-2所示。则:
(9-44)
(9-45)
对于(9-45)式可以进行如下通径分析:由到有两条通径,第一条是直接通径 →,直接通径系数p0.1表示对的直接作用;第二条是间接通径 →,并定义间接通径系数等于组成该间接通径的通径与相关线系数的乘积:r12p0.2,则间接通径系数表示通过与其相关的对的间接作用。因此,与的相关系数剖分为对的直接作用与通过对的间接作用的代数和,即与y的相关系数等于与间的直接通径系数与间接通径系数之和。
对于(9-45)式也可以进行同样的通径分析:由到有两条通径,第一条是直接通径→,第二条是间接通径 →。与的相关系数剖分为对的直接作用与通过对的间接作用的代数和,即,与的相关系数等于与的直接通径系数与间接通径系数之和。
对于(9-44)与(9-45)式,可以改写为:
(9-46)
(9-46)式为关于通径系数的正规方程组。如写成矩阵形式为:
(9-47)
如果相关系数已计算出,那么可以由(9-46)式或(9-47)式求出通径系数和。
一般,设相关变量与间存在线性关系,回归方程为:
或
其中,为依变量,、、…、为自变量,且两两相关,通径图如图9-3所示。则:
(9-48)
(9-48)式说明,()与的相关系数剖分为对的直接作用与间接作用的代数和,即与的相关系数等于到的直接通径系数与通过与其相关的各个对的所有间接通径系数之和。
对于(9-48)式写成关于各通径系数、、、的正规方程组形式为:
(9-49)
(9-49)式的矩阵形式为:
(9-50)
如果相关系数、(已经算出,那么可以由(9-49)式或(9-50)式求通径系数。
性质1有两个主要用途:一是利用相关系数求通径系数;二是将原因(自变量)与结果(依变量)的相关系数剖分为直接通径系数与间接通径系数的代数和,从而进行原因对结果的直接作用、间接作用的分析。
性质2 如果依变量与自变量、存在线性关系,且、彼此相关(见图9-2),则原因、与剩余项对结果的决定系数、、与到的通径系数、到的通径系数同、间的相关系数乘积的两倍之和为1,即:
(9-51)
在(9-51)式中,表示两个相关原因、共同对结果的相对决定程度,称为相关原因、共同对结果的决定系数,记作,即:。
因此,(9-51)式可以改写为:
(9-52)
即当一个结果的两个原因相关时,两个原因对结果的决定系数加上相关原因共同对结果的决定系数与剩余项对结果的决定系数之和等于1。
根据(9-52)式,可以计算出剩余项对结果的决定系数与通径系数:
(9-53)
(9-54)
一般,如果依变量与自变量、存在线性关系,且自变量两两相关(见图9-3),则原因、分别对结果的决定系数与每两个相关原因共同对结果的决定系数以及剩余项对结果的决定系数之和为1,即:
或简写为:
(9-55)
根据(9-55)式,可以计算出剩余项对结果的决定系数与通径系数:
(9-56)
(9-57)
根据(9-56)式的计算结果,如果 的绝对值较大,说明可能还有对结果影响较大的原因未被考虑到,这在通径分析时应予以注意。
性质2的主要用途是利用各决定系数绝对值的大小来分析各个原因及两两相关原因对结果的相对决定程度,这是通径分析中进行决定程度分析的依据。同时性质2也为计算、提供了简便方法。
性质3 如果依变量与自变量、间存在线性关系,且自变量两两间彼此相关(见图9-3),回归方程为:
或
则 (9-58)
简写为,
并且 (9-59)
(9-60)
(9-61)
(9-58)、(9-59)、(9-60)、(9-61)式中R2为依变量与自变量、的相关指数,也为标准化变量的回归平方和;(9-60)、(9-61)式中的的d0.e为标准化变量的离回归平方和。
(9-58)式中的、、可以看成为各原因、分别对结果y的总决定程度,这是因为根据(9-48)式及两相关原因共同对结果的决定系数的计算公式,可以导出如下结果:
(9-62)
根据(9-58)式,将、、分别称为自变量、对回归方程估测可靠程度的总贡献。
性质3的主要用途为在通径分析中进行各原因对回归方程估测可靠程度的总贡献分析。
性质4 如果结果与结果分别与、间存在线性关系,即、是影响与的m个公共原因,且、两两相关,(见图9-4)。
则 + (9-63)
图 9-4 x1、x2、…、xm与y1和y2的通径图 图 9-5 x1、x2与y1、y2的通径图
性质4是通径分析中最重要的性质,利用它,可以计算任意两个结果间的相关系数。性质4在动物遗传育种的理论研究上有着十分重要的应用。
例如,结果和结果分别与、存在线性关系,、是影响与的两个公共原因,且与相关(见图9-5),那么,结果与结果的相关系数为:
三、通径分析的显著性检验
通径分析是标准化变量的多元线性回归分析。通径分析的显著性检验包括回归方程显著性检验、通径系数显著性检验、通径系数差异显著性检验、两次通径分析相应通径系数差异显著性检验四个内容。后两种检验在一般的多元线性回归分析中通常无法进行,因为偏回归系数所带的单位通常不相同,后两种检验只能在通径分析中进行,这是通径分析的优点之一。
设依变量与自变量、间存在线性关系,自变量两两相关。与、共有n组实际观测数据。则元线性回归方程为:
(9-64)
现对、、分别进行标准化变换:
, ()
其中。
注意,为了进行显著性检验简便易行,这里我们用作分母进行标准化变换,与前面用作分母进行标准化变换有所不同。两种标准化变换所得的通径系数,即标准化回归变量的偏回归系数数值相同。
标准化变量的m元线性回归方程为:
(9-65)
(9-65)式中,(为标准化变量的偏回归系数即通径系数。
令,则式(9-65)可改写为:
(9-66)
(9-66)式也为标准化变量的m元线性回归方程。关于通径系数的正规方程组为:
(一)回归方程显著性检验 由于进行通径分析的前提是与、间存在显著的线性关系,因此需要对回归方程即式(9-66)进行显著性检验。如果经显著性检验,回归方程不显著,则不必继续进行通径分析。
采用F检验法检验回归方程的显著性。对于标准化变量的回归方程(9-66)式,总平方和可以剖分为回归平方和与离回归平方和两部分,即:
(9-67)
总自由度可剖分为回归自由度与离回归自由度 两部分,即:
(9-68)
可以证明在这里所进行的标准化变化下:
,
,
,
由统计量
(9-69)
或 (9-70)
检验回归方程(9-66)是否显著。
(二)通径系数的显著性检验
1、F检验 由统计量
() (9-71)
检验通径系数(是否显著。其中为相关系数矩阵R的逆矩阵R-1=C中主对角线上的元素。
2、t检验 由统计量
(9-72)
检验通径系数是否显著。其中为通径系数标准误,其计算公式为:
(9-73)
注意,这里介绍的F检验与t检验等价,在实际进行通径系数显著性检验时,只须任选其一。
(三)通径系数差异显著性检验 由于通径系数为不带单位的相对数,因此可以进行一次通径分析中的两个通径系数差异显著性检验。
1、F检验
由统计量
(9-74)
(
检验通径系数与之间的差异是否显著。其中为相关系数矩阵R的逆矩阵的元素。
2、t检验由统计量
(9-75)
(
检验通径系数与间的差异是否显著。其中称为通径系数差异标准误,其计算公式为:
(9-76)
注意,这里介绍的F检验与t检验也是等价的。
(四)两次通径分析相应通径系数差异显著性检验 设两次通径分析有关数据与结果如下:
自变量个 数
观测值组 数
通 径系 数
离回归平方和
离回归均 方
高斯乘数
第一次通径分析
第二次通径分析
首先进行两次通径分析剩余项方差齐性检验,这里应用两尾F检验。由统计量
(9-77)
检验差异是否显著。注意在式(9-77)中,应将较大的均方放在分子。
如果差异不显著,那么再用F检验或与其等价的t检验进行两次通径分析相应通径系数差异显著性检验。
1、F检验 由统计量
(9-78)
检验两次通径分析相应通径系数与差异是否显著。
2、t检验 由统计量
(9-79)
检验两次通径分析相应通径系数与差异是否显著。其中 为两次通径分析的通径系数差异标准误,其计算公式为:
(9-80)
四、实 例
现结合一实例介绍通径分析的基本步骤。
【例9.4】 奶牛第一胎产奶量是奶牛的重要育种目标,由于奶牛的一个产奶周期较长(305天),如果能从奶牛的初期性状中找到影响奶牛305天产奶量的主要因素,这对保证早期选种的准确性,加速奶牛的育种工作有其重要意义。某奶牛场观察记载了273头黑白花奶牛的一胎305天产奶量(),最高日产天数(),最高月产(),90天产奶量(),最高日产()5个性状。试进行通径分析。
(一)计算性状间的相关系数 由273组实测数据(略)计算得性状间相关系数并进行显著性检验,如表9-7所示。
表9-7 5个性状间的相关系数
最高月产
90天产奶量
最高日产
一胎305天产奶量
最高日产天数
0.1320*
0.0903
0.0864
0.2026**
最高月产
0.9573**
0.9274**
0.7644**
90天产奶量
0.9239**
0.7981**
最高日产
0.7561**
(二)计算各通径系数 关于通径系数、、、的正规方程组为:
写成矩阵形式,为:
求得正规方程组系数矩阵即相关系数矩阵R的逆矩阵如下:
于是求得各通径系数为:
即:,,,
(三)显著性检验
1、线性关系显著性检验——F检验因为
而
所以
因为F=130.0417>F0.01(4,268)=3.389,P<0.01,表明一胎305天产奶量y与最高日产天数、最高月产、90天产奶量、最高日产间存在极显著的线性关系,可以对y与、、、进行通径分析。
又因为,所以
2,通径系数显著性检验 选用F检验,根据(9-71)式,分别计算检验通径系数、、、显著性的F统计量的值,得:
由应用线性插值法求得临界F值:,因、,而、,表明通径系数和为极显著,而和为不显著。
3、通径系数差异显著性检验 选用t检验法检验4个通径系数两两之间的差异显著性。先根据(9—76)式分别算得各通径系数差异标准误如下:
根据(9-75)式算得各t统计量的值如下:
*
**
由应用线性内插法求得临界t值:,。
因为,表明与差异显著;均大于,表明与
、、差异都极显著;而、都小于,表明与、差异都不显著。
(四)绘制通径图(见图9-6) 图9-6 通径图
(五)进行原因对结果的直接作用与间接作用分析 根据性质1,可以将自变量(原因)、、、与依变量(结果)的相关系数剖分为直接作用与间接作用的代数和,结果见表9—8。
表9-8 直接作用与间接作用分析性 状
相 关系 数
直 接作 用
间 接 作 用
总 的
其 中 通 过
0.2026
0.1384
0.0643
-0.0210
0.0704
0.0149
0.7644
-0.1590
0.9235
0.0183
0.7548
0.1594
0.7981
0.7791
0.0191
0.0125
-0.1522
0.1588
0.7561
0.1719
0.5843
0.0120
-0.1475
0.7198
(六)进行决定程度分析 各决定系数为:
按绝对值大小将决定系数进行排列:
,,,,
,,
, 。
结果表明,对的相对决定程度最大;其次是剩余项,可能是观测值误差较大或者可能还有对一胎305天产奶量影响较大的性状或因素未考虑到。
(七)进行各自变量对回归方程估测可靠程度R2总贡献分析先计算各:
,说明自变量对R2的总贡献为0.6218,居各自变量对R2总贡献之首。
由上述分析,可以得出如下结论:
(1)一胎305天产奶量与最高日产天数、最高月产、90天产奶量、最高日产间存在极显著的线性关系,相关指数,若用与、、、间的线性回归方程来估测,其可靠程度仅为65.83%;而剩余项对一胎305天产奶量的相对决定程度为0.3417,其绝对值在各决定系数中居第二,表明可能是观测值误差较大或者可能还有对一胎305天产奶量影响较大的性状或因素未被考虑到。
(2)、、、对的直接作用分别为:,,,。其中、不显著,、达极显著。但极显著地高于、、,表明,4个性状中最高日产天数和90天产奶量对一胎305天产奶量y有极显著影响,而90天产奶量又极显著地高于其它3个性状对一胎305天产奶量y的影响,由此说明90天产奶量是影响一胎305天产奶量的最重要的早期性状。
(3)从表9-8看到,对的直接作用最大,=0.7791,通过、、对的间接作用之和为0.0191,其绝对值较小。也具有类似的特性。表明、对的作用主要为直接作用,而、对的作用主要为间接作用。
(4)90天产奶量与最高日产共同对一胎305天产奶量的相对决定程度为0.2475,其绝对值在各决定系数中居第三;且对的总贡献中居第二,说明在注意90天产奶量的同时,还应注意最高日产这一早期产奶性状,若二者皆高,则一胎305天产奶量很可能也是高的,由于,与为极显著正相关,两个性状同步增减,易于实现两个性状都高。
(5)90天产奶量与最高月产共同对一胎305天产奶量y的相对决定程度为
-0.2372,之所以是负的,是因为,即对的直接作是负的。但是,即与为极显著正相关,高(这是我们所希望的),一般说来也高(这是我们所不希望的)。所以当注意了90天产奶量这一性状后,还应尽量兼顾最高月产不要太高,否则会影响一胎305天产奶量。
因此,为了选取一胎305天产奶量高的奶牛,就所考虑的4个早期性状而言,应选取90天产奶量高、最高日产量高而最高月产奶量适中的奶牛;此外,还应进一步寻找对奶牛一胎305天产奶量影响较大的另外的性状或因素。
习 题
1.如何建立多元线性回归方程?偏回归系数有何意义?
2.多元线性回归的显著性检验包含哪些内容?如何进行?
3.在多元线性回归分析中,如何剔除不显著的自变量?怎样重新建立多元线性回归方程?
4.什么是相关系数?其意义是什么?
5.什么是复相关系数?其意义是什么?如何进行显著性检验?
6.什么是偏相关系数?偏相关分析与简单相关分析有何区别?
7,如何将多项式回归转化为多元线性回归?
8.什么是通径系数?怎样计算和检验通径系数?通径分析的基本步骤有哪些?
9.根据下述某猪场25头育肥猪4个胴体性状的数据资料,试进行瘦肉量y对眼肌面积(x1)、腿肉量(x2)、腰肉量(x3)的多元线性回归分析。
序号
瘦肉量
y(kg)
眼肌面积
x1(cm2)
腿肉量
x2(kg)
腰肉量
x3(kg)
序号
瘦肉量y(kg)
眼肌面积x1(cm2)
腿肉量x2(kg)
腰肉量x3(kg)
1
15.02
23.73
5.49
1.21
14
15.94
23.52
5.18
1.98
2
12.62
22.34
4.32
1.35
15
14.33
21.86
4.86
1.59
3
14.86
28.84
5.04
1.92
16
15.11
28.95
5.18
1.37
4
13.98
27.67
4.72
1.49
17
13.81
24.53
4.88
1.39
5
15.91
20.83
5.35
1.56
18
15.58
27.65
5.02
1.66
6
12.47
22.27
4.27
1.50
19
15.85
27.29
5.55
1.70
7
15.80
27.57
5.25
1.85
20
15.28
29.07
5.26
1.82
8
14.32
28.01
4.62
1.51
21
16.40
32.47
5.18
1.75
9
13.76
24.79
4.42
1.46
22
15.02
29.65
5.08
1.70
10
15.18
28.96
5.30
1.66
23
15.73
22.11
4.90
1.81
11
14.20
25.77
4.87
1.64
24
14.75
22.43
4.65
1.82
12
17.07
23.17
5.80
1.90
25
14.37
20.44
5.10
1.55
13
15.40
28.57
5.22
1.66
10.对本章习题9所给数据资料,分别计算y与、、的二级偏相关系数并进行显著性检验。
()
11.根据重庆市种畜场奶牛群各月份产犊母牛平均305天产奶量的数据资料,试进行一元二次多项式回归分析。
平均产奶量y(kg)
3833.43
3811.58
3769.47
3565.74
3481.99
3372.82
产犊月份x
1
2
3
4
5
6
平均产奶量y(kg)
3476.76
3466.22
3395.42
3807.08
3817.03
3884.52
产犊月份x
7
8
9
10
11
12
()
12.根据【例9.1】所给数据资料,试进行瘦肉量y与眼肌面积()、胴体长()、膘厚()四个性状的通径分析。
()