第八章 直线回归与相关
前面各章我们讨论的问题,都只涉及到一个变量,如体重、日增重或发病率。但是,由于客观事物在发展过程中相互联系、相互影响,因而在畜牧、水产等试验研究中常常要研究两个或两个以上变量间的关系。变量间的关系有两类,一类是变量间存在着完全确定性的关系,可以用精确的数学表达式来表示,如长方形的面积(S)与长(a)和宽(b)的关系可以表达为:S=ab。它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确地计算出另一个变量的值,这类变量间的关系称为函数关系。另一类是变量间关系不存在完全的确定性关系,不能用精确的数学公式来表示,如人的身高与体重的关系;仔猪初生重与断奶重的关系;猪瘦肉率与背膘厚度、眼肌面积、胴体长等的关系等等,这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。像这样一类关系在生物界中是大量存在的,统计学中把这些变量间的关系称为相关关系,把存在相关关系的变量称为相关变量。
相关变量间的关系一般分为两种,一种是因果关系,即一个变量的变化受另一个或几个变量的影响,如仔猪的生长速度受遗传、营养、饲养管理等因素的影响,子女的身高受父母身高的影响;另一种是平行关系,即两个以上变量之间共同受到另外因素的影响,如人的身高和体重之间的关系,兄弟身高之间的关系等都属于平行关系。变量间的关系及分析方法归纳如下:
函数关系 有精确的数学表达式
(确定性的关系) 直线回归分析
一元回归分析
变量间的关系 因果关系 曲线回归分析
(回归分析) 多元线性回归分析
多元回归分析
相关关系 多元非线性回归分析
(非确定性的关系) 简单相关分析—— 直线相关分析
平行关系 复相关分析
(相关分析) 多元相关分析
偏相关分析
统计学上采用回归分析(regression analysis)研究呈因果关系的相关变量间的关系。表示原因的变量称为自变量,表示结果的变量称为依变量。研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析;研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。一元回归分析又分为直线回归分析与曲线回归分析两种;多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。回归分析的任务是揭示出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制依变量(结果)。
统计学上采用相关分析(correlation analysis)研究呈平行关系的相关变量之间的关系。对两个变量间的直线关系进行相关分析称为简单相关分析(也叫直线相关分析);对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。在相关分析中,变量无自变量和依变量之分。相关分析只能研究两个变量之间相关的程度和性质或一个变量与多个变量之间相关的程度,不能用一个或多个变量去预测、控制另一个变量的变化,这是回归分析与相关分析区别的关键所在。但是二者也不能截然分开,因为由回归分析可以获得相关的一些重要信息,由相关分析也能获得回归的一些重要信息。
本章先介绍直线回归与相关分析。
第一节 直线回归
一、直线回归方程的建立
对于两个相关变量,一个变量用符号x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的成对观测值,可表示为(x1,y1),(x2,y2),……,(xn,yn)。为了直观地看出x和y间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图(见图8-1)。
从散点图(图8-1)可以看出:①两个变量间关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切);②两个变量间关系的类型,是直线型还是曲线型;③是否有异常观测值的干扰。散点图直观地、定性地表示了两个变量之间的关系。为了探讨它们之间的规律性,还必须根据观测值将其内在关系定量地表达出来。
如果两个相关变量间的关系是直线关系,根据n对观测值所描出的散点图,如图8—1(c)和图8—1(d)。如果把变量y与x内在联系的总体直线回归方程记为y=α+βx,由于依变量的实际观测值总是带有随机误差,因而实际观测值yi可表示为:
(i=1,2,…,n) (8—1)
其中( i为相互独立,且都服从N(0,σ2)的随机变量。这就是直线回归的数学模型。我们可以根据实际观测值对α,β以及方差σ2做出估计。
在x,y的直角坐标平面上可以作出无数条直线,而回归直线是指所有直线中最接近散点图中全部散点的直线。设样本直线回归方程为:
(8-2)
其中,a是α的估计值,b是β的估计值。
回归直线在平面坐标系中的位置取决于a、b的取值,为了使能最好地反应y和x两变量间的数量关系,根据最小二乘法,a、b应使回归估计值与观测值的偏差平方和最小,即:
最小。
根据微积分学中的极值原理,令 Q对a、b的一阶偏导数等于0,即:
整理得关于a、b的正规方程组:
解正规方程组,得:
(8-3)
(8-4)
(8-3)式中的分子是自变量x的离均差与依变量y的离均差的乘积和,简称乘积和,记作,分母是自变量x的离均差平方和,记作。
a叫做样本回归截距,是回归直线与y轴交点的纵坐标,当x=0时,=a;b叫做样本回归系数,表示x改变一个单位,y平均改变的数量;b的符号反映了x影响y的性质,b的绝对值大小反映了x影响y的程度。
a和b均可取正值,也可取负值,因具体资料而异,由图8-2可以看出,a>0,表示回归直线在第一象限与y轴相交;a<0表示回归直线在第一象限与x轴相交。b>0,表示y随x的增加而增加;b<0;表示y随x的减少而减少;b=0或与0差异不显著时,表示y的变化与x的取值无关,两变量间不存在直线回归关系。这只是对a和b的统计学解释,对于具体资料,a和b往往还有专业上的实际意义。
叫做回归估计值,是当x在在其研究范围内取某一个值时,y值平均数估计值。研究y和间的关系,可发现回归方程的三个基本性质:
性质1 最小;
性质2 ;
性质3 回归直线必须通过中心点。
如果将(8-3)式代入(8-2)式,得到回归方程的另一种形式:
(8-5)
【例8.1】在四川白鹅的生产性能研究中,得到如下一组关于雏鹅重(g)与70日龄重(g)的数据,试建立70日龄重(y)与雏鹅重(x)的直线回归方程。
表8-1 四川白鹅重与70日龄重测定结果 (单位:g)
编号
1
2
3
4
5
6
7
8
9
10
11
12
雏鹅重(x)
80
86
98
90
120
102
95
83
113
105
110
100
70日龄重(y)
2350
2400
2720
2500
3150
2680
2630
2400
3080
2920
2960
2860
1、作散点图 以雏鹅重(x)为横坐标,70日龄重(y)为纵坐标作散点图,见图8-3。由图形可见四川白鹅的70日龄重与雏鹅重间存在直线关系,70日龄重随雏鹅重的增大而增大。
2、计算回归截距a,回归系数b,建立直线回归方程首先根据实际观测值计算出下列数据:
进而计算出b、a:
得到四川白鹅的70日龄重y对雏鹅重x的直线回归方程为:
从回归系数可知,雏鹅重每增加1g,70日龄平均重增加21.7122g。
根据直线回归方程可作出回归直线,见图8-3。从图8-3可看出,尽管是该资料最恰当的回归方程,但是并不是所有的散点都恰好落在回归直线上,这说明用去估计y是有偏差的。
3、直线回归的偏离度估计 以上根据使偏差平方和最小建立了直线回归方程。偏差平方和的大小表示了实测点与回归直线偏离的程度,因而偏差平方和又称为离回归平方和。统计学已经证明:在直线回归分析中离回归平方和的自由度为n-2。于是可求得离回归均方为:。离回归均方是模型(8-1)中σ2的估计值。离回归均方的平方根叫离回归标准误,记为,即
(8-6)
离回归标准误的大小表示了回归直线与实测点偏差的程度,即回归估测值与实际观测值y偏差的程度,于是我们把离回归标准误用来表示回归方程的偏离度。离回归标准误大表示回归方程偏离度大,小表示回归方程偏离度小。
在用(8-6)式计算离回归标准误时,需要把每一个x值的回归估计值计算出来,因而计算麻烦,且累计舍入误差大。以后我们将证明:
(8-7)
利用(8-7)式先计算出,然后再代入(8-6)式求,这样就简便多了。对于【例8.1】有
所以
(g)
即当利用直线回归,由四川白鹅的雏鹅重估计70日龄重时,离回归标准误为60.9525g。
直线回归的显著性检验
若x和y变量间并不存在直线关系,但由n对观测值(xi,yi)也可以根据上面介绍的方法求得一个回归方程=a+bx。显然,这样的回归方程所反应的两个变量间的直线关系是不真实的。这取决于如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这取决于变量x与y间是否存在直线关系。我们先探讨依变量y的变异,然后再作出统计推断。
1、直线回归的变异来源
从图8-4看到:依变量y的总变异由y与x间存在直线关系所引起的变异与偏差两部分构成,即
上式两端平方,然后对所有的n点求和,则有
由于,所以
于是
所以有 (8-8)
反映了y的总变异程度,称为y的总平方和,记为;反映了由于y与x间存在直线关系所引起的y的变异程度,称为回归平方和,记为;反映了除y与x存在直线关系以外的原因,包括随机误差所引起的y的变异程度,称为离回归平方和或剩余平方和,记为SSr。(8-8)式又可表示为:
(8-9)
这表明y的总平方和划分为回归平方和与离回归平方和两部分。与此相对应,y的总自由度也划分为回归自由度与离回归自由度两部分,即
(8-10)
在直线回归分析中,回归自由度等于自变量的个数,即;y的总自由度;离回归自由度。于是:
离回归均方,回归均方
回归关系显著性检验—F检验
x与y两个变量间是否存在直线关系,可用F检验法进行检验。由(8-1)式可推知,若x与y间不存在直线关系,则总体回归系数(=0,若x与y间存在直线关系,则总体回归系数(≠0。所以,对x与y间是否存在直线关系的假设检验其无效假设:(=0,备择假设:(≠0。在无效假设成立的条件下,回归均方与离回归均方的比值服从和的F分布,所以可以用
,df1=1,df2=n-2 (8-11)
来检验回归关系即回归方程的显著性。
回归平方和还可用下面的公式计算得到:
(8-12)
(8-13)
利用(8-13)式计算的舍入误差最小;而(8-12)式便于推广到多元线性回归分析的情况。根据(8-9)式。可得到离回归平方和计算公式为:
对于【例8.1】资料,有
,,
而。于是可以列出方差分析表进行回归关系显著性检验。
表8-2 四川白鹅70日龄重与雏鹅重回归关系方差分析变异来源
df
SS
MS
F值
F0.05
F0.01
回归
1
794339.60
794339.60
213.81**
4.96
10.04
离回归
10
37152.07
3715.21
总变异
11
831491.67
因为,表明四川白鹅70日龄重与雏鹅重间存在显著的直线关系。
3、回归系数的显著性检验—t检验采用回归系数的显著性检验—t检验也可检验x与y间是否存在直线关系。回归系数显著性检验的无效假设和备择假设分别为:β=0,:β≠0。
t检验的计算公式为:
(8-14)
(8-15)
其中,为回归系数标准误。
对于【例8.1】资料,已计算得,故有
当,查t值表,得,。因 ,,否定:β=0,接受:β≠0,即四川白鹅70日龄重(y)与雏鹅重(x)的直线回归系数b=21.7122是极显著的,表明四川白鹅70日龄重与雏鹅重间存在极显著的直线关系,可用所建立的直线回归方程来进行预测和控制。
F检验的结果与t检验的结果一致。事实上,统计学已证明,在直线回归分析中,这二种检验方法是等价的,可任选一种进行检验。
由于四川白鹅70日龄重与雏鹅重间的直线回归关系极显著,因此,在实际生产中,可以通过四川白鹅的雏鹅重对70日龄重作出预测或控制。特别要指出的是:利用直线回归方程进行预测或控制时,一般只适用于原来研究的范围,不能随意把范围扩大,因为在研究的范围内两变量是直线关系,这并不能保证在这研究范围之外仍然是直线关系。若需要扩大预测和控制范围,则要有充分的理论依据或进一步的实验依据。利用直线回归方程进行预测或控制,一般只能内插,不要轻易外延。
*三、直线回归的区间估计
前面已求出了总体回归截距a、回归系数β和x所对应的y值总体平均数a+βx的估计值a,b和。这仅是一种点估计。下面在一定置信度下对α、β以及α+βx作出区间估计。
1、总体回归截距a的置信区间 统计学已证明服从自由度为n-2的t分布。其中,叫做样本回归截距标准误,计算公式为:
容易导出α的95%、99%置信区间为:
【例8.2】 试计算【例8.1】资料回归截距α的95%和99%置信区间。
对于【例8.1】资料,因为
,,,,
所以,
,
于是总体回归截距α的95%和99%置信区间分别为:
[582.1816-2.228×147.3153,582.1816+2.228×147.3153]
[582.1816-3.169×147.3153,582.1816+3.169×147.3153]
即[253.9631,910.40]和[115.3394,1049.0238]。
这说明在研究雏鹅重与70日龄重的关系时,总体回归截距α在[253.9631,910.40]区间内,其可靠度为95%;在[115.3394,1049.0238]区间内,其可靠度为99%。
2、总体回归系数β的置信区间 统计学已证明服从自由度为n-2的t公布,其中,叫做样本回归系数标准误,由(8-15)式计算。可以导出β的95%、99%置信区间为:
(8-16)
(8-17)
【例8.3】 求出【例8.1】资料总体回归系数β的95%和99%置信区间。
对于【例8.1】资料,因为
,,
,
所以总体回归系数β的95%和99%置信区间分别为:
[21.7122-2.228×1.4849,21.7122+2.228×1.4849]
[21.7122-3.169×1.4849,21.7122+3.169×1.4849]
即[18.4038,25.0206]和[17.0066,26.4178]。
这说明雏鹅重和70日龄重的总体回归系数β在[18.4038,25.0206]区间内,其可靠度为95%;在[17.0066,26.4178]区间内,其可靠度为99%。
3、总体平均数α+βx的置信区间 统计学已证明服从自由度为n-2的t分布。其中叫回归估计标准误,计算公式为:
(8-18)
于是可以导出α+βx的95%、99%置信区间为:
(8-19)
(8-20)
【例8.4】 求出【例8.1】资料当x=98时y总体平均数α+βx的95%和99%置信区间。
对于【例8.1】资料,当x=98时,=582.1816+21.7122×98=2709.9772,而
,。所以当x=98时,y总体平均数的95%和99%置信区间分别为:
[2709.9772-2.228×17.6111,2709.9772+2.228×17.6111]
[2709.9772-3.169×17.6111,2709.9772+3.169×17.6111]
即[2670.7397,2749.2147]和[2654,2765.7868]。
这说明雏鹅重为98克时,70日龄总体平均重在[2670.7397,2749.2147]区间内,其可靠度为95%;在[2654,2765.7868]区间内,其可靠度为99%。
4、单个y值的置信区间 有时需要估计当x取某一数值时,相应y总体的一个y值的置信区间。因为服从自由度为n-2的t分布,其中,为单个y值的估计标准误,计算公式为:
(8-21)
当x取某一数值时,单个y值的95%、99%置信区间为:
(8-22)
(8-23)
【例8.5】 求出【例8.1】资料当x=98时单个y值的95%和99%置信区间。
对于【例8.1】资料,当x=98时,=2709.9772,且
,。所以当x=98时,某一y值的95%和99%置信区间分别为:
[2709.9772-2.228×63.4457,2709.9772+2.228×63.4457]
[2709.9772-3.169×63.4457,2709.9772+3.169×63.4457]
即[2568.6202,2851.3342]和[2508.9178,2911.0366]。
这说明雏鹅重为98克时,就一只白鹅而言,70日龄重在[2568.6202,2851.3342]区间内,其可靠度为95%;在[2508.9178,2911.0366] 区间内,其可靠度为99%。
从计算的(8-18)式和的(8-21)式可以看出:和随的绝对值增大而增大,随n和SSx的增大而减少。这表明,愈靠近,对y总体平均值或单个y的估计值就愈精确,而增大样本含量,扩大x的取值范围亦可提高精确度。
第二节 直线相关
进行直线相关分析的基本任务在于根据x、y的实际观测值,计算表示两个相关变量x、y间线性相关程度和性质的统计量——相关系数r并进行显著性检验。
决定系数和相关系数
在上一节中已经证明了等式:。从这个等式不难看到:y与x直线回归效果的好坏取决于回归平方和与离回归平方和的大小,或者说取决于回归平方和在y的总平方和中所占的比例的大小。这个比例越大,y与x的直线回归效果就越好,反之则差。我们把比值叫做x对y的决定系数(coefficient of determination),记为 r2,即
(8-24)
决定系数的大小表示了回归方程估测可靠程度的高低,或者说表示了回归直线拟合度的高低。显然有0≤r2≤1。因为
而SPxy/SSx是以x为自变量、y为依变量时的回归系数byx。若把y作为自变量、x作为依变量,则回归系数bxy=SPxy/SSy,所以决定系数r2等于y对x的回归系数与x对y的回归系数的乘积。这就是说,决定系数反应了x为自变量、y为依变量和y为自变量、x为依变量时两个相关变量x与y直线相关的信息,即决定系数表示了两个互为因果关系的相关变量间直线相关的程度。但决定系数介于0和1之间,不能反应直线关系的性质——是同向增减或是异向增减。
若求r2的平方根,且取平方根的符号与乘积和SPxy的符号一致,即与bxy,byx的符号一致,这样求出的平方根既可表示y与x的直线相关的程度,也可表示直线相关的性质。统计学上把这样计算所得的统计量称为x与y的相关系数(coefficient of correlation),记为r,即
(8-25)
(8-26)
二、相关系数的计算
【例8.6】计算10只绵羊的胸围(cm)和体重(kg) (表8-3)的相关系数。
表8-3 10只绵羊胸围和体重资料编号
1
2
3
4
5
6
7
8
9
10
胸围(x)
68
70
70
71
71
71
73
74
76
76
体重(y)
50
60
68
65
69
72
71
73
75
77
根据表8-3所列数据先计算出:
代入(8-25)式得:
即绵羊胸围与体重的相关系数为0.8475。
相关系数的显著性检验
上述根据实际观测值计算得来的相关系数r是样本相关系数,它是双变量正态总体中的总体相关系数ρ的估计值。样本相关系数r是否来自ρ≠0的总体,还须对样本相关系数r 进行显著性检验。此时无效假设、备择假设为:ρ=0,:ρ≠0。 与直线回归关系显著性检验一样,可采用t检验法与F检验法对相关系数r的显著性进行检验。
t 检验的计算公式为
t=,df=n-2 (8-27)
其中,,叫做相关系数标准误。
F检验的计算公式为
F=,=1,=n-2 (8-28)
统计学家已根据相关系数r显著性t检验法计算出了临界r值并列出了表格。 所以可以直接采用查表法对相关系数r进行显著性检验。具体作法是,先根据自由度n-2查临界r值(附表8),得,。 若|r|<,P>0.05,则相关系数r不显著,在r的右上方标记“ns”;若≤|r|<,0.01<P≤0.05,则相关系数r显著,在r的右上方标记“*”;若|r|≥,P≤0.01,则相关系数r极显著,在r的右上方标记“**”。
对于【例8-6】,因为df=n-2=10-2=8,查附表8得:=0.632,=0.765,而r=0.8475>,P<0.01,表明绵羊胸围与体重的相关系数极显著。
四、相关系数与回归系数的关系
从相关系数计算公式的导出可以看到:相关变量x与y的相关系数r是y对x的回归系数与x对y的相关系数的几何平均数:
这表明直线相关分析与回归分析关系十分密切。事实上,它们的研究对象都是呈直线关系的相关变量。直线回归分析将二个相关变量区分为自变量和依变量,侧重于寻求它们之间的联系形式——直线回归方程;直线相关分析不区分自变量和依变量,侧重于揭示它们之间的联系程度和性质——计算出相关系数。两种分析所进行的显著性检验都是解决y与x间是否存在直线关系。因而二者的检验是等价的。即相关系数显著,回归系数亦显著;相关系数不显著,回归系数也必然不显著。由于利用查表法对相关系数进行检验十分简便,因此在实际进行直线回归分析时,可用相关系数显著性检验代替直线回归关系显著性检验,即可先计算出相关系数r并对其进行显著性检验,若检验结果r不显著,则用不着建立直线回归方程;若r显著,再计算回归系数b、回归截距a,建立直线回归方程,此时所建立的直线回归方程代表的直线关系是真实的,可利用来进行预测和控制。
应用直线回归与相关的注意事项
直线回归分析与相关分析在生物科学研究领域中已得到了广泛的应用,但在实际工作中却很容易被误用或作出错误的解释。为了正确地应用直线回归分析和相关分析这一工具,必须注意以下几点:
1、变量间是否存在相关 直线回归分析和相关分析毕竟是处理变量间关系的数学方法,在将这些方法应用于生物科学研究时要考虑到生物本身的客观实际情况,譬如变量间是否存在直线相关以及在什么条件下会发生直线相关,求出的直线回归方程是否有意义,某性状作为自变量或依变量的确定等等,都必须由生物科学相应的专业知识来决定,并且还要用到生物科学实践中去检验。如果不以一定的生物科学依据为前提,把风马牛不相及的资料随意凑到一块作直线回归分析或相关分析,那将是根本性的错误。
2、其余变量尽量保持一致 由于自然界各种事物间的相互联系和相互制约,一个变量的变化通常会受到许多其它变量的影响,因此,在研究两个变量间关系时,要求其余变量应尽量保持在同一水平,否则,回归分析和相关分析可能会导致完全虚假的结果。例如人的身高和胸围之间的关系,如果体重固定,身高越高的人,胸围越小,但当体重在变化时,其结果就会相反。
3、观测值要尽可能的多 在进行直线回归与相关分析时,两个变量成对观测值应尽可能多一些,这样可提高分析的精确性,一般至少有5对以上的观测值。同时变量x的取值范围要尽可能大一些,这样才容易发现两个变量间的变化关系。
4、外推要谨慎 直线回归与相关分析一般是在一定取值区间内对两个变量间的关系进行描述,超出这个区间,变量间关系类型可能会发生改变,所以回归预测必须限制在自变量x的取值区间以内,外推要谨慎,否则会得出错误的结果。
5、正确理解回归或相关显著与否的含义 一个不显著的相关系数并不意味着变量x和y之间没有关系,而只有能说明两变量间没有显著的直线关系;一个显著的相关系数或回归系数亦并不意味着x和y的关系必定为直线,因为并不排除有能够更好地描述它们关系的非线性方程的存在。
6、一个显著的回归方程并不一定具有实践上的预测意义 如一个资料x、y两个变量间的相关系数r=0.5,在df=24时,r0.01(24) =0.496,r>r0.01(24),表明相关系数极显著。而r2=0.25,即x变量或y变量的总变异能够通过y变量或x变量以直线回归的关系来估计的比重只占25%,其余的75%的变异无法借助直线回归来估计。
*第三节 曲线回归
曲线回归分析概述
直线关系是两变量间最简单的一种关系。这种关系往往在变量一定的取值范围内成立,取值范围一扩大,散点图就明显偏离直线,此时两个变量间的关系不是直线而是曲线。例如,细菌的繁殖速率与温度关系,畜禽在生长发育过程中各种生理指标与年龄的关系,乳牛的泌乳量与泌乳天数的关系等都属这种类型。可用来表示双变量间关系的曲线种类很多,但许多曲线类型都可以通过变量转换化成直线形式,先利用直线回归的方法配合直线回归方程,然后再还原成曲线回归方程。
曲线回归分析(curvilinear regression analysis)的基本任务是通过两个相关变量x与y的实际观测数据建立曲线回归方程,以揭示x与y间的曲线联系的形式。
曲线回归分析最困难和首要的工作是确定变量与x间的曲线关系的类型。通常通过两个途径来确定:1、利用生物科学的有关专业知识,根据已知的理论规律和实践经验。例如,细菌数量的增长常具有指数函数的形式: ;幼畜体重的增长常具有“S”型曲线的形状,即Logistic曲线的形式等。2、若没有已知的理论规律和经验可资利用,则可用描点法将实测点在直角坐标纸上描出,观察实测点的分布趋势与哪一类已知的函数曲线最接近,然后再选用该函数关系式来拟合实测点。
对于可直线化的曲线函数类型,曲线回归分析的基本过程是:先将x或y进行变量转换,然后对新变量进行直线回归分析——建立直线回归方程并进行显著性检验和区间估计,最后将新变量还原为原变量,由新变量的直线回归方程和置信区间得出原变量的曲线回归方程和置信区间。
还有一情况是找不到已知的函数曲线较接近实测点的分布趋势,这时可利用多项式回归,通过逐渐增加多项式的高次项来拟合,直到满意为止。该内容将在下一章的多项式回归中讨论。
二、能直线化的曲线类型
下面是几种常用的能直线化的曲线函数类型及其图型,并将其直线化,供进行曲线回归分析时选用。
1、双曲线函数
若令,则可将双曲线函数直线化为:
2、幂函数(a>0)
若对幂函数两端求自然对数,得:
并令,则可将幂函数直线化为:
3、指数函数或(a>0)
(1)若对指数函数(图8-7a)两端求自然对数,得:
并令,则可将其直线化为:
(2)若对指数函数(图8-7b)两端取自然对数,得:
并令,则可将其直线化为:
4、对数函数
令,则将其直线化为
5、Logistic生长曲线
若将Logistic生长曲线两端取倒数,得,
,
对两端取自然对数,得
令,可将其直线化为,
【例8.7】 测定黑龙江雌性鲟鱼体长(cm)和体重(kg),结果如8—4表所示,试对鲟鱼体重与体长进行回归分析。
1、根据实际观测值在直角坐标纸上作散点图,选定曲线类型 此例的散点图见图8-10。从散点图实测点的分布趋势看出它比较接近幂函数曲线图形,因而选用来进行拟合。取,,则可将其直线化为:。
2、对进行直线回归分析
表8-4 鲟鱼体长与体重数据表序号
体长
(x)
体重
(y)
1
70.70
1.00
1.8495
0
1.16305
-0.16306
2
98.25
4.85
1.9923
0.6857
3.86206
0.98794
3
112.57
6.59
2.0514
0.8189
6.34346
0.24654
4
122.48
9.01
2.0881
0.9547
8.62909
0.38091
5
138.46
12.34
2.1413
1.0913
13.49604
-1.15604
6
148.00
15.50
2.1703
1.1903
17.20854
-1.70854
7
152.00
21.25
2.1818
1.3274
18.96637
2.28363
8
162.00
22.11
2.2095
1.3446
23.92790
-1.81970
根据表8-4计算得:
与的相关系数为:
图8-10 鲟鱼体长与体重散点图及回归曲线图
当df=n-2=8-2=6时,,,P<0.01,表明yˊ与xˊ间存在极显著的线性关系。又因为:
得,yˊ与xˊ的直线回归方程为:
3、将变量xˊ、yˊ还原为x、y
即,
4、曲线配合的拟合度 曲线配合的好坏,即所配曲线与实测点吻合的好坏,取决于离回归平方和与y的平方和的比例大小。若这个比例小,说明所配曲线与实测点吻合程度高,反之则低,我们把数量1与这个比值之差定义为曲线回归的相关指数,记为R2,即:
(8-29)
相关指数R2的大小表示了回归曲线拟合度的高低,或者说表示了曲线回归方程估测的可靠程度的高低。
对于【例8.7】先根据回归方程计算出各个回归估计值和,见表8-4,计算出相关指数R2为:
表明曲线回归方程的拟合度是比较高的,或者说该曲线回归方程估测的可靠程度比较高。
对于同一组实测数据,根据散点图的形状,可用几个相近的曲线进行拟合,同时建立几个曲线回归方程,此时可根据R2的大小和生物学等专业知识,选择既符合生物学规律,拟合度又较高的曲线回归方程来描述这两个变量间的曲线关系。
【例8.8】在肉用四川白鹅的补饲料配方研究中,得到如下一组试验结果,试对体重与日龄进行回归分析。
表8-5 肉用四川白鹅不同日龄的体重 (单位:d,g)
日龄(x)
体重(y)
(4316-y)/y
=lg[(4316-y)/y]
y-
0
105
40.1048
1.6032
141.6726
-36.6726
7
214
19.1682
1.2826
212.2565
1.7435
14
335
11.8836
1.0749
315.3498
19.6502
21
560
6.7071
0.8265
462.8681
97.1319
28
790
4.4633
0.6479
667.8739
122.1261
42
1290
2.3457
0.3703
1287.6405
2.3595
56
2010
1.1473
0.0597
2144.4592
-134.4592
70
2950
0.4631
-0.3344
3005.5687
-55.5687
1、先根据实际观测数据在直角坐标纸上作散点图,选定曲线函数类型 此例的散点图见图8-11。根据生物学知识和散点图的分布趋势,选用Logistic(S型)曲线,,其中k称为极限生长量。选取满足条件x2=(x1+x3)/2的3对观测值(14,335),(42,1290),(70,2950),算得k的估计值为:
=
因而在表8-5中得出(4316-y)/y和=lg[(4316-y)/y]
2、对和进行直线回归分析
根据表8-5,可算得:
所以与的相关系数为:
图8-11 四川白鹅的日龄与体重散点图及回归曲线图
而当df=n-2=8-2=6时,,,P<0.01,表明x与yˊ间存在极显著的直线关系。又因为:
所以与x的直线回归方程为:
3、将变量y′还原为y
因为 ,,
所以
因此Logistic(S型)生长曲线回归方程为:
4、曲线配合的拟合度
先根据回归方程计算出各个估计值和,见表8-5,于是可以计算出相关指数R2为:
表明曲线回归方程的拟合度是比较高的,或者说该曲线回归方程估测的可靠程度是比较高的。
习 题
1、什么叫直线回归分析?回归截距、回归系数与回归估计值的统计意义是什么?
2、什么是直线相关分析?决定系数、相关系数的意义是什么?如何计算?
3、直线相关系数与回归系数的关系如何?直线相关系数与配合回归直线有何关系?
4、如何确定两个变量间的曲线类型?可直线化的曲线回归分析的基本步骤是什么?
5、10头育肥猪的饲料消耗(x)和增重(y)资料如下表(单位:kg),试对增重与饲料消耗进行直线回归分析,并作出回归直线。
x
191
167
194
158
200
179
178
174
170
175
y
33
11
42
24
38
44
38
37
30
35
(r=0.6074,=-47.8084+0.4536x)
6、试对下列资料进行直线相关和回归分析。
X
36
30
26
23
26
30
20
19
20
16
Y
0.89
0.80
0.74
0.80
0.85
0.68
0.73
0.68
0.80
0.58
(r=0.6369,=0.5215+0.009492x)
7、对来航鸡胚胎生长的研究,测得5—20日龄鸡胚重量资料见下表,试建立鸡胚重依日龄变化的回归方程(用Logistic曲线拟合)
日龄x(天)
5
6
7
8
9
10
11
12
胚重y(g)
0.250
0.498
0.846
1.288
1.656
2.662
3.100
4.579
日龄x(天)
13
14
15
16
17
18
19
20
胚重y(g)
6.518
7.486
9.948
14.522
15.610
19.914
23.736
26.472
(=0.9848,=33.239/(1+659.9636e-0.3863x),R2=0.9937)
前面各章我们讨论的问题,都只涉及到一个变量,如体重、日增重或发病率。但是,由于客观事物在发展过程中相互联系、相互影响,因而在畜牧、水产等试验研究中常常要研究两个或两个以上变量间的关系。变量间的关系有两类,一类是变量间存在着完全确定性的关系,可以用精确的数学表达式来表示,如长方形的面积(S)与长(a)和宽(b)的关系可以表达为:S=ab。它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确地计算出另一个变量的值,这类变量间的关系称为函数关系。另一类是变量间关系不存在完全的确定性关系,不能用精确的数学公式来表示,如人的身高与体重的关系;仔猪初生重与断奶重的关系;猪瘦肉率与背膘厚度、眼肌面积、胴体长等的关系等等,这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。像这样一类关系在生物界中是大量存在的,统计学中把这些变量间的关系称为相关关系,把存在相关关系的变量称为相关变量。
相关变量间的关系一般分为两种,一种是因果关系,即一个变量的变化受另一个或几个变量的影响,如仔猪的生长速度受遗传、营养、饲养管理等因素的影响,子女的身高受父母身高的影响;另一种是平行关系,即两个以上变量之间共同受到另外因素的影响,如人的身高和体重之间的关系,兄弟身高之间的关系等都属于平行关系。变量间的关系及分析方法归纳如下:
函数关系 有精确的数学表达式
(确定性的关系) 直线回归分析
一元回归分析
变量间的关系 因果关系 曲线回归分析
(回归分析) 多元线性回归分析
多元回归分析
相关关系 多元非线性回归分析
(非确定性的关系) 简单相关分析—— 直线相关分析
平行关系 复相关分析
(相关分析) 多元相关分析
偏相关分析
统计学上采用回归分析(regression analysis)研究呈因果关系的相关变量间的关系。表示原因的变量称为自变量,表示结果的变量称为依变量。研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析;研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。一元回归分析又分为直线回归分析与曲线回归分析两种;多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。回归分析的任务是揭示出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制依变量(结果)。
统计学上采用相关分析(correlation analysis)研究呈平行关系的相关变量之间的关系。对两个变量间的直线关系进行相关分析称为简单相关分析(也叫直线相关分析);对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。在相关分析中,变量无自变量和依变量之分。相关分析只能研究两个变量之间相关的程度和性质或一个变量与多个变量之间相关的程度,不能用一个或多个变量去预测、控制另一个变量的变化,这是回归分析与相关分析区别的关键所在。但是二者也不能截然分开,因为由回归分析可以获得相关的一些重要信息,由相关分析也能获得回归的一些重要信息。
本章先介绍直线回归与相关分析。
第一节 直线回归
一、直线回归方程的建立
对于两个相关变量,一个变量用符号x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的成对观测值,可表示为(x1,y1),(x2,y2),……,(xn,yn)。为了直观地看出x和y间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图(见图8-1)。
从散点图(图8-1)可以看出:①两个变量间关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切);②两个变量间关系的类型,是直线型还是曲线型;③是否有异常观测值的干扰。散点图直观地、定性地表示了两个变量之间的关系。为了探讨它们之间的规律性,还必须根据观测值将其内在关系定量地表达出来。
如果两个相关变量间的关系是直线关系,根据n对观测值所描出的散点图,如图8—1(c)和图8—1(d)。如果把变量y与x内在联系的总体直线回归方程记为y=α+βx,由于依变量的实际观测值总是带有随机误差,因而实际观测值yi可表示为:
(i=1,2,…,n) (8—1)
其中( i为相互独立,且都服从N(0,σ2)的随机变量。这就是直线回归的数学模型。我们可以根据实际观测值对α,β以及方差σ2做出估计。
在x,y的直角坐标平面上可以作出无数条直线,而回归直线是指所有直线中最接近散点图中全部散点的直线。设样本直线回归方程为:
(8-2)
其中,a是α的估计值,b是β的估计值。
回归直线在平面坐标系中的位置取决于a、b的取值,为了使能最好地反应y和x两变量间的数量关系,根据最小二乘法,a、b应使回归估计值与观测值的偏差平方和最小,即:
最小。
根据微积分学中的极值原理,令 Q对a、b的一阶偏导数等于0,即:
整理得关于a、b的正规方程组:
解正规方程组,得:
(8-3)
(8-4)
(8-3)式中的分子是自变量x的离均差与依变量y的离均差的乘积和,简称乘积和,记作,分母是自变量x的离均差平方和,记作。
a叫做样本回归截距,是回归直线与y轴交点的纵坐标,当x=0时,=a;b叫做样本回归系数,表示x改变一个单位,y平均改变的数量;b的符号反映了x影响y的性质,b的绝对值大小反映了x影响y的程度。
a和b均可取正值,也可取负值,因具体资料而异,由图8-2可以看出,a>0,表示回归直线在第一象限与y轴相交;a<0表示回归直线在第一象限与x轴相交。b>0,表示y随x的增加而增加;b<0;表示y随x的减少而减少;b=0或与0差异不显著时,表示y的变化与x的取值无关,两变量间不存在直线回归关系。这只是对a和b的统计学解释,对于具体资料,a和b往往还有专业上的实际意义。
叫做回归估计值,是当x在在其研究范围内取某一个值时,y值平均数估计值。研究y和间的关系,可发现回归方程的三个基本性质:
性质1 最小;
性质2 ;
性质3 回归直线必须通过中心点。
如果将(8-3)式代入(8-2)式,得到回归方程的另一种形式:
(8-5)
【例8.1】在四川白鹅的生产性能研究中,得到如下一组关于雏鹅重(g)与70日龄重(g)的数据,试建立70日龄重(y)与雏鹅重(x)的直线回归方程。
表8-1 四川白鹅重与70日龄重测定结果 (单位:g)
编号
1
2
3
4
5
6
7
8
9
10
11
12
雏鹅重(x)
80
86
98
90
120
102
95
83
113
105
110
100
70日龄重(y)
2350
2400
2720
2500
3150
2680
2630
2400
3080
2920
2960
2860
1、作散点图 以雏鹅重(x)为横坐标,70日龄重(y)为纵坐标作散点图,见图8-3。由图形可见四川白鹅的70日龄重与雏鹅重间存在直线关系,70日龄重随雏鹅重的增大而增大。
2、计算回归截距a,回归系数b,建立直线回归方程首先根据实际观测值计算出下列数据:
进而计算出b、a:
得到四川白鹅的70日龄重y对雏鹅重x的直线回归方程为:
从回归系数可知,雏鹅重每增加1g,70日龄平均重增加21.7122g。
根据直线回归方程可作出回归直线,见图8-3。从图8-3可看出,尽管是该资料最恰当的回归方程,但是并不是所有的散点都恰好落在回归直线上,这说明用去估计y是有偏差的。
3、直线回归的偏离度估计 以上根据使偏差平方和最小建立了直线回归方程。偏差平方和的大小表示了实测点与回归直线偏离的程度,因而偏差平方和又称为离回归平方和。统计学已经证明:在直线回归分析中离回归平方和的自由度为n-2。于是可求得离回归均方为:。离回归均方是模型(8-1)中σ2的估计值。离回归均方的平方根叫离回归标准误,记为,即
(8-6)
离回归标准误的大小表示了回归直线与实测点偏差的程度,即回归估测值与实际观测值y偏差的程度,于是我们把离回归标准误用来表示回归方程的偏离度。离回归标准误大表示回归方程偏离度大,小表示回归方程偏离度小。
在用(8-6)式计算离回归标准误时,需要把每一个x值的回归估计值计算出来,因而计算麻烦,且累计舍入误差大。以后我们将证明:
(8-7)
利用(8-7)式先计算出,然后再代入(8-6)式求,这样就简便多了。对于【例8.1】有
所以
(g)
即当利用直线回归,由四川白鹅的雏鹅重估计70日龄重时,离回归标准误为60.9525g。
直线回归的显著性检验
若x和y变量间并不存在直线关系,但由n对观测值(xi,yi)也可以根据上面介绍的方法求得一个回归方程=a+bx。显然,这样的回归方程所反应的两个变量间的直线关系是不真实的。这取决于如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这取决于变量x与y间是否存在直线关系。我们先探讨依变量y的变异,然后再作出统计推断。
1、直线回归的变异来源
从图8-4看到:依变量y的总变异由y与x间存在直线关系所引起的变异与偏差两部分构成,即
上式两端平方,然后对所有的n点求和,则有
由于,所以
于是
所以有 (8-8)
反映了y的总变异程度,称为y的总平方和,记为;反映了由于y与x间存在直线关系所引起的y的变异程度,称为回归平方和,记为;反映了除y与x存在直线关系以外的原因,包括随机误差所引起的y的变异程度,称为离回归平方和或剩余平方和,记为SSr。(8-8)式又可表示为:
(8-9)
这表明y的总平方和划分为回归平方和与离回归平方和两部分。与此相对应,y的总自由度也划分为回归自由度与离回归自由度两部分,即
(8-10)
在直线回归分析中,回归自由度等于自变量的个数,即;y的总自由度;离回归自由度。于是:
离回归均方,回归均方
回归关系显著性检验—F检验
x与y两个变量间是否存在直线关系,可用F检验法进行检验。由(8-1)式可推知,若x与y间不存在直线关系,则总体回归系数(=0,若x与y间存在直线关系,则总体回归系数(≠0。所以,对x与y间是否存在直线关系的假设检验其无效假设:(=0,备择假设:(≠0。在无效假设成立的条件下,回归均方与离回归均方的比值服从和的F分布,所以可以用
,df1=1,df2=n-2 (8-11)
来检验回归关系即回归方程的显著性。
回归平方和还可用下面的公式计算得到:
(8-12)
(8-13)
利用(8-13)式计算的舍入误差最小;而(8-12)式便于推广到多元线性回归分析的情况。根据(8-9)式。可得到离回归平方和计算公式为:
对于【例8.1】资料,有
,,
而。于是可以列出方差分析表进行回归关系显著性检验。
表8-2 四川白鹅70日龄重与雏鹅重回归关系方差分析变异来源
df
SS
MS
F值
F0.05
F0.01
回归
1
794339.60
794339.60
213.81**
4.96
10.04
离回归
10
37152.07
3715.21
总变异
11
831491.67
因为,表明四川白鹅70日龄重与雏鹅重间存在显著的直线关系。
3、回归系数的显著性检验—t检验采用回归系数的显著性检验—t检验也可检验x与y间是否存在直线关系。回归系数显著性检验的无效假设和备择假设分别为:β=0,:β≠0。
t检验的计算公式为:
(8-14)
(8-15)
其中,为回归系数标准误。
对于【例8.1】资料,已计算得,故有
当,查t值表,得,。因 ,,否定:β=0,接受:β≠0,即四川白鹅70日龄重(y)与雏鹅重(x)的直线回归系数b=21.7122是极显著的,表明四川白鹅70日龄重与雏鹅重间存在极显著的直线关系,可用所建立的直线回归方程来进行预测和控制。
F检验的结果与t检验的结果一致。事实上,统计学已证明,在直线回归分析中,这二种检验方法是等价的,可任选一种进行检验。
由于四川白鹅70日龄重与雏鹅重间的直线回归关系极显著,因此,在实际生产中,可以通过四川白鹅的雏鹅重对70日龄重作出预测或控制。特别要指出的是:利用直线回归方程进行预测或控制时,一般只适用于原来研究的范围,不能随意把范围扩大,因为在研究的范围内两变量是直线关系,这并不能保证在这研究范围之外仍然是直线关系。若需要扩大预测和控制范围,则要有充分的理论依据或进一步的实验依据。利用直线回归方程进行预测或控制,一般只能内插,不要轻易外延。
*三、直线回归的区间估计
前面已求出了总体回归截距a、回归系数β和x所对应的y值总体平均数a+βx的估计值a,b和。这仅是一种点估计。下面在一定置信度下对α、β以及α+βx作出区间估计。
1、总体回归截距a的置信区间 统计学已证明服从自由度为n-2的t分布。其中,叫做样本回归截距标准误,计算公式为:
容易导出α的95%、99%置信区间为:
【例8.2】 试计算【例8.1】资料回归截距α的95%和99%置信区间。
对于【例8.1】资料,因为
,,,,
所以,
,
于是总体回归截距α的95%和99%置信区间分别为:
[582.1816-2.228×147.3153,582.1816+2.228×147.3153]
[582.1816-3.169×147.3153,582.1816+3.169×147.3153]
即[253.9631,910.40]和[115.3394,1049.0238]。
这说明在研究雏鹅重与70日龄重的关系时,总体回归截距α在[253.9631,910.40]区间内,其可靠度为95%;在[115.3394,1049.0238]区间内,其可靠度为99%。
2、总体回归系数β的置信区间 统计学已证明服从自由度为n-2的t公布,其中,叫做样本回归系数标准误,由(8-15)式计算。可以导出β的95%、99%置信区间为:
(8-16)
(8-17)
【例8.3】 求出【例8.1】资料总体回归系数β的95%和99%置信区间。
对于【例8.1】资料,因为
,,
,
所以总体回归系数β的95%和99%置信区间分别为:
[21.7122-2.228×1.4849,21.7122+2.228×1.4849]
[21.7122-3.169×1.4849,21.7122+3.169×1.4849]
即[18.4038,25.0206]和[17.0066,26.4178]。
这说明雏鹅重和70日龄重的总体回归系数β在[18.4038,25.0206]区间内,其可靠度为95%;在[17.0066,26.4178]区间内,其可靠度为99%。
3、总体平均数α+βx的置信区间 统计学已证明服从自由度为n-2的t分布。其中叫回归估计标准误,计算公式为:
(8-18)
于是可以导出α+βx的95%、99%置信区间为:
(8-19)
(8-20)
【例8.4】 求出【例8.1】资料当x=98时y总体平均数α+βx的95%和99%置信区间。
对于【例8.1】资料,当x=98时,=582.1816+21.7122×98=2709.9772,而
,。所以当x=98时,y总体平均数的95%和99%置信区间分别为:
[2709.9772-2.228×17.6111,2709.9772+2.228×17.6111]
[2709.9772-3.169×17.6111,2709.9772+3.169×17.6111]
即[2670.7397,2749.2147]和[2654,2765.7868]。
这说明雏鹅重为98克时,70日龄总体平均重在[2670.7397,2749.2147]区间内,其可靠度为95%;在[2654,2765.7868]区间内,其可靠度为99%。
4、单个y值的置信区间 有时需要估计当x取某一数值时,相应y总体的一个y值的置信区间。因为服从自由度为n-2的t分布,其中,为单个y值的估计标准误,计算公式为:
(8-21)
当x取某一数值时,单个y值的95%、99%置信区间为:
(8-22)
(8-23)
【例8.5】 求出【例8.1】资料当x=98时单个y值的95%和99%置信区间。
对于【例8.1】资料,当x=98时,=2709.9772,且
,。所以当x=98时,某一y值的95%和99%置信区间分别为:
[2709.9772-2.228×63.4457,2709.9772+2.228×63.4457]
[2709.9772-3.169×63.4457,2709.9772+3.169×63.4457]
即[2568.6202,2851.3342]和[2508.9178,2911.0366]。
这说明雏鹅重为98克时,就一只白鹅而言,70日龄重在[2568.6202,2851.3342]区间内,其可靠度为95%;在[2508.9178,2911.0366] 区间内,其可靠度为99%。
从计算的(8-18)式和的(8-21)式可以看出:和随的绝对值增大而增大,随n和SSx的增大而减少。这表明,愈靠近,对y总体平均值或单个y的估计值就愈精确,而增大样本含量,扩大x的取值范围亦可提高精确度。
第二节 直线相关
进行直线相关分析的基本任务在于根据x、y的实际观测值,计算表示两个相关变量x、y间线性相关程度和性质的统计量——相关系数r并进行显著性检验。
决定系数和相关系数
在上一节中已经证明了等式:。从这个等式不难看到:y与x直线回归效果的好坏取决于回归平方和与离回归平方和的大小,或者说取决于回归平方和在y的总平方和中所占的比例的大小。这个比例越大,y与x的直线回归效果就越好,反之则差。我们把比值叫做x对y的决定系数(coefficient of determination),记为 r2,即
(8-24)
决定系数的大小表示了回归方程估测可靠程度的高低,或者说表示了回归直线拟合度的高低。显然有0≤r2≤1。因为
而SPxy/SSx是以x为自变量、y为依变量时的回归系数byx。若把y作为自变量、x作为依变量,则回归系数bxy=SPxy/SSy,所以决定系数r2等于y对x的回归系数与x对y的回归系数的乘积。这就是说,决定系数反应了x为自变量、y为依变量和y为自变量、x为依变量时两个相关变量x与y直线相关的信息,即决定系数表示了两个互为因果关系的相关变量间直线相关的程度。但决定系数介于0和1之间,不能反应直线关系的性质——是同向增减或是异向增减。
若求r2的平方根,且取平方根的符号与乘积和SPxy的符号一致,即与bxy,byx的符号一致,这样求出的平方根既可表示y与x的直线相关的程度,也可表示直线相关的性质。统计学上把这样计算所得的统计量称为x与y的相关系数(coefficient of correlation),记为r,即
(8-25)
(8-26)
二、相关系数的计算
【例8.6】计算10只绵羊的胸围(cm)和体重(kg) (表8-3)的相关系数。
表8-3 10只绵羊胸围和体重资料编号
1
2
3
4
5
6
7
8
9
10
胸围(x)
68
70
70
71
71
71
73
74
76
76
体重(y)
50
60
68
65
69
72
71
73
75
77
根据表8-3所列数据先计算出:
代入(8-25)式得:
即绵羊胸围与体重的相关系数为0.8475。
相关系数的显著性检验
上述根据实际观测值计算得来的相关系数r是样本相关系数,它是双变量正态总体中的总体相关系数ρ的估计值。样本相关系数r是否来自ρ≠0的总体,还须对样本相关系数r 进行显著性检验。此时无效假设、备择假设为:ρ=0,:ρ≠0。 与直线回归关系显著性检验一样,可采用t检验法与F检验法对相关系数r的显著性进行检验。
t 检验的计算公式为
t=,df=n-2 (8-27)
其中,,叫做相关系数标准误。
F检验的计算公式为
F=,=1,=n-2 (8-28)
统计学家已根据相关系数r显著性t检验法计算出了临界r值并列出了表格。 所以可以直接采用查表法对相关系数r进行显著性检验。具体作法是,先根据自由度n-2查临界r值(附表8),得,。 若|r|<,P>0.05,则相关系数r不显著,在r的右上方标记“ns”;若≤|r|<,0.01<P≤0.05,则相关系数r显著,在r的右上方标记“*”;若|r|≥,P≤0.01,则相关系数r极显著,在r的右上方标记“**”。
对于【例8-6】,因为df=n-2=10-2=8,查附表8得:=0.632,=0.765,而r=0.8475>,P<0.01,表明绵羊胸围与体重的相关系数极显著。
四、相关系数与回归系数的关系
从相关系数计算公式的导出可以看到:相关变量x与y的相关系数r是y对x的回归系数与x对y的相关系数的几何平均数:
这表明直线相关分析与回归分析关系十分密切。事实上,它们的研究对象都是呈直线关系的相关变量。直线回归分析将二个相关变量区分为自变量和依变量,侧重于寻求它们之间的联系形式——直线回归方程;直线相关分析不区分自变量和依变量,侧重于揭示它们之间的联系程度和性质——计算出相关系数。两种分析所进行的显著性检验都是解决y与x间是否存在直线关系。因而二者的检验是等价的。即相关系数显著,回归系数亦显著;相关系数不显著,回归系数也必然不显著。由于利用查表法对相关系数进行检验十分简便,因此在实际进行直线回归分析时,可用相关系数显著性检验代替直线回归关系显著性检验,即可先计算出相关系数r并对其进行显著性检验,若检验结果r不显著,则用不着建立直线回归方程;若r显著,再计算回归系数b、回归截距a,建立直线回归方程,此时所建立的直线回归方程代表的直线关系是真实的,可利用来进行预测和控制。
应用直线回归与相关的注意事项
直线回归分析与相关分析在生物科学研究领域中已得到了广泛的应用,但在实际工作中却很容易被误用或作出错误的解释。为了正确地应用直线回归分析和相关分析这一工具,必须注意以下几点:
1、变量间是否存在相关 直线回归分析和相关分析毕竟是处理变量间关系的数学方法,在将这些方法应用于生物科学研究时要考虑到生物本身的客观实际情况,譬如变量间是否存在直线相关以及在什么条件下会发生直线相关,求出的直线回归方程是否有意义,某性状作为自变量或依变量的确定等等,都必须由生物科学相应的专业知识来决定,并且还要用到生物科学实践中去检验。如果不以一定的生物科学依据为前提,把风马牛不相及的资料随意凑到一块作直线回归分析或相关分析,那将是根本性的错误。
2、其余变量尽量保持一致 由于自然界各种事物间的相互联系和相互制约,一个变量的变化通常会受到许多其它变量的影响,因此,在研究两个变量间关系时,要求其余变量应尽量保持在同一水平,否则,回归分析和相关分析可能会导致完全虚假的结果。例如人的身高和胸围之间的关系,如果体重固定,身高越高的人,胸围越小,但当体重在变化时,其结果就会相反。
3、观测值要尽可能的多 在进行直线回归与相关分析时,两个变量成对观测值应尽可能多一些,这样可提高分析的精确性,一般至少有5对以上的观测值。同时变量x的取值范围要尽可能大一些,这样才容易发现两个变量间的变化关系。
4、外推要谨慎 直线回归与相关分析一般是在一定取值区间内对两个变量间的关系进行描述,超出这个区间,变量间关系类型可能会发生改变,所以回归预测必须限制在自变量x的取值区间以内,外推要谨慎,否则会得出错误的结果。
5、正确理解回归或相关显著与否的含义 一个不显著的相关系数并不意味着变量x和y之间没有关系,而只有能说明两变量间没有显著的直线关系;一个显著的相关系数或回归系数亦并不意味着x和y的关系必定为直线,因为并不排除有能够更好地描述它们关系的非线性方程的存在。
6、一个显著的回归方程并不一定具有实践上的预测意义 如一个资料x、y两个变量间的相关系数r=0.5,在df=24时,r0.01(24) =0.496,r>r0.01(24),表明相关系数极显著。而r2=0.25,即x变量或y变量的总变异能够通过y变量或x变量以直线回归的关系来估计的比重只占25%,其余的75%的变异无法借助直线回归来估计。
*第三节 曲线回归
曲线回归分析概述
直线关系是两变量间最简单的一种关系。这种关系往往在变量一定的取值范围内成立,取值范围一扩大,散点图就明显偏离直线,此时两个变量间的关系不是直线而是曲线。例如,细菌的繁殖速率与温度关系,畜禽在生长发育过程中各种生理指标与年龄的关系,乳牛的泌乳量与泌乳天数的关系等都属这种类型。可用来表示双变量间关系的曲线种类很多,但许多曲线类型都可以通过变量转换化成直线形式,先利用直线回归的方法配合直线回归方程,然后再还原成曲线回归方程。
曲线回归分析(curvilinear regression analysis)的基本任务是通过两个相关变量x与y的实际观测数据建立曲线回归方程,以揭示x与y间的曲线联系的形式。
曲线回归分析最困难和首要的工作是确定变量与x间的曲线关系的类型。通常通过两个途径来确定:1、利用生物科学的有关专业知识,根据已知的理论规律和实践经验。例如,细菌数量的增长常具有指数函数的形式: ;幼畜体重的增长常具有“S”型曲线的形状,即Logistic曲线的形式等。2、若没有已知的理论规律和经验可资利用,则可用描点法将实测点在直角坐标纸上描出,观察实测点的分布趋势与哪一类已知的函数曲线最接近,然后再选用该函数关系式来拟合实测点。
对于可直线化的曲线函数类型,曲线回归分析的基本过程是:先将x或y进行变量转换,然后对新变量进行直线回归分析——建立直线回归方程并进行显著性检验和区间估计,最后将新变量还原为原变量,由新变量的直线回归方程和置信区间得出原变量的曲线回归方程和置信区间。
还有一情况是找不到已知的函数曲线较接近实测点的分布趋势,这时可利用多项式回归,通过逐渐增加多项式的高次项来拟合,直到满意为止。该内容将在下一章的多项式回归中讨论。
二、能直线化的曲线类型
下面是几种常用的能直线化的曲线函数类型及其图型,并将其直线化,供进行曲线回归分析时选用。
1、双曲线函数
若令,则可将双曲线函数直线化为:
2、幂函数(a>0)
若对幂函数两端求自然对数,得:
并令,则可将幂函数直线化为:
3、指数函数或(a>0)
(1)若对指数函数(图8-7a)两端求自然对数,得:
并令,则可将其直线化为:
(2)若对指数函数(图8-7b)两端取自然对数,得:
并令,则可将其直线化为:
4、对数函数
令,则将其直线化为
5、Logistic生长曲线
若将Logistic生长曲线两端取倒数,得,
,
对两端取自然对数,得
令,可将其直线化为,
【例8.7】 测定黑龙江雌性鲟鱼体长(cm)和体重(kg),结果如8—4表所示,试对鲟鱼体重与体长进行回归分析。
1、根据实际观测值在直角坐标纸上作散点图,选定曲线类型 此例的散点图见图8-10。从散点图实测点的分布趋势看出它比较接近幂函数曲线图形,因而选用来进行拟合。取,,则可将其直线化为:。
2、对进行直线回归分析
表8-4 鲟鱼体长与体重数据表序号
体长
(x)
体重
(y)
1
70.70
1.00
1.8495
0
1.16305
-0.16306
2
98.25
4.85
1.9923
0.6857
3.86206
0.98794
3
112.57
6.59
2.0514
0.8189
6.34346
0.24654
4
122.48
9.01
2.0881
0.9547
8.62909
0.38091
5
138.46
12.34
2.1413
1.0913
13.49604
-1.15604
6
148.00
15.50
2.1703
1.1903
17.20854
-1.70854
7
152.00
21.25
2.1818
1.3274
18.96637
2.28363
8
162.00
22.11
2.2095
1.3446
23.92790
-1.81970
根据表8-4计算得:
与的相关系数为:
图8-10 鲟鱼体长与体重散点图及回归曲线图
当df=n-2=8-2=6时,,,P<0.01,表明yˊ与xˊ间存在极显著的线性关系。又因为:
得,yˊ与xˊ的直线回归方程为:
3、将变量xˊ、yˊ还原为x、y
即,
4、曲线配合的拟合度 曲线配合的好坏,即所配曲线与实测点吻合的好坏,取决于离回归平方和与y的平方和的比例大小。若这个比例小,说明所配曲线与实测点吻合程度高,反之则低,我们把数量1与这个比值之差定义为曲线回归的相关指数,记为R2,即:
(8-29)
相关指数R2的大小表示了回归曲线拟合度的高低,或者说表示了曲线回归方程估测的可靠程度的高低。
对于【例8.7】先根据回归方程计算出各个回归估计值和,见表8-4,计算出相关指数R2为:
表明曲线回归方程的拟合度是比较高的,或者说该曲线回归方程估测的可靠程度比较高。
对于同一组实测数据,根据散点图的形状,可用几个相近的曲线进行拟合,同时建立几个曲线回归方程,此时可根据R2的大小和生物学等专业知识,选择既符合生物学规律,拟合度又较高的曲线回归方程来描述这两个变量间的曲线关系。
【例8.8】在肉用四川白鹅的补饲料配方研究中,得到如下一组试验结果,试对体重与日龄进行回归分析。
表8-5 肉用四川白鹅不同日龄的体重 (单位:d,g)
日龄(x)
体重(y)
(4316-y)/y
=lg[(4316-y)/y]
y-
0
105
40.1048
1.6032
141.6726
-36.6726
7
214
19.1682
1.2826
212.2565
1.7435
14
335
11.8836
1.0749
315.3498
19.6502
21
560
6.7071
0.8265
462.8681
97.1319
28
790
4.4633
0.6479
667.8739
122.1261
42
1290
2.3457
0.3703
1287.6405
2.3595
56
2010
1.1473
0.0597
2144.4592
-134.4592
70
2950
0.4631
-0.3344
3005.5687
-55.5687
1、先根据实际观测数据在直角坐标纸上作散点图,选定曲线函数类型 此例的散点图见图8-11。根据生物学知识和散点图的分布趋势,选用Logistic(S型)曲线,,其中k称为极限生长量。选取满足条件x2=(x1+x3)/2的3对观测值(14,335),(42,1290),(70,2950),算得k的估计值为:
=
因而在表8-5中得出(4316-y)/y和=lg[(4316-y)/y]
2、对和进行直线回归分析
根据表8-5,可算得:
所以与的相关系数为:
图8-11 四川白鹅的日龄与体重散点图及回归曲线图
而当df=n-2=8-2=6时,,,P<0.01,表明x与yˊ间存在极显著的直线关系。又因为:
所以与x的直线回归方程为:
3、将变量y′还原为y
因为 ,,
所以
因此Logistic(S型)生长曲线回归方程为:
4、曲线配合的拟合度
先根据回归方程计算出各个估计值和,见表8-5,于是可以计算出相关指数R2为:
表明曲线回归方程的拟合度是比较高的,或者说该曲线回归方程估测的可靠程度是比较高的。
习 题
1、什么叫直线回归分析?回归截距、回归系数与回归估计值的统计意义是什么?
2、什么是直线相关分析?决定系数、相关系数的意义是什么?如何计算?
3、直线相关系数与回归系数的关系如何?直线相关系数与配合回归直线有何关系?
4、如何确定两个变量间的曲线类型?可直线化的曲线回归分析的基本步骤是什么?
5、10头育肥猪的饲料消耗(x)和增重(y)资料如下表(单位:kg),试对增重与饲料消耗进行直线回归分析,并作出回归直线。
x
191
167
194
158
200
179
178
174
170
175
y
33
11
42
24
38
44
38
37
30
35
(r=0.6074,=-47.8084+0.4536x)
6、试对下列资料进行直线相关和回归分析。
X
36
30
26
23
26
30
20
19
20
16
Y
0.89
0.80
0.74
0.80
0.85
0.68
0.73
0.68
0.80
0.58
(r=0.6369,=0.5215+0.009492x)
7、对来航鸡胚胎生长的研究,测得5—20日龄鸡胚重量资料见下表,试建立鸡胚重依日龄变化的回归方程(用Logistic曲线拟合)
日龄x(天)
5
6
7
8
9
10
11
12
胚重y(g)
0.250
0.498
0.846
1.288
1.656
2.662
3.100
4.579
日龄x(天)
13
14
15
16
17
18
19
20
胚重y(g)
6.518
7.486
9.948
14.522
15.610
19.914
23.736
26.472
(=0.9848,=33.239/(1+659.9636e-0.3863x),R2=0.9937)