第十章 直线回归和相关分析
以前各章所述的统计方法都只涉及X一种变数,其统计分析的主要目的可概括为试验结果的比较,即对一种变数间的差异是否显著进行测验,从而确定对不同处理试验结果的取舍。本章则是介绍研究X、Y两种数间关系的统计分析方法。
第一节 回归和相关意义
一、基本概念在自然界和生产实践中有许多现象、事物之间存在相互关系或相互影响,例如:人的体重和力气,施肥量与作物产量,降水量、温度和某作物病害发生程度等,显然通过对各种现象间变数关系的统计分析,从而对现象间相互关系进行研究有重要意义。
为了研究这些相互关系需要新的统计方法,若是两个变数的关系,可分别用变数符号X和Y表示。一般变数之间的关系可以分为两类:一类是函数关系,另一类是统计关系。
函数关系是一种确定性的关系,一个变数的取值和变化完全取决于另一个或几个变数的取值和变化。例如:圆面积与半径的关系为,对于任意一个半径值R,必能求得一个唯一的面积值S,两者之间的关系是完全确定的。函数关系不包含误差的干扰,常见于物理学、化学等理论科学。
统计关系是一种非确定性的关系,即一个变数的取值受到另一变数的影响,两者之间既有关系,但又不存在完全确定的函数关系。例如:作物的产量与施肥量的关系,适宜的施肥量下产量较高,施肥量不足则产量较低。但这种关系并不是完全确定的,即使施肥量完全相同,两块同样面积土地上的产量也不会相等。在实验科学中两类因受误差的干扰而表现为统计关系,这在农学和生物学中常见。
对具有统计关系的两个变数的资料进行初步考察的简便而有效的方法,是将这两个变数的n对观察值(x1,y1)、(x2,y2)、…、(xn,yn)分别以坐标点的形式标记于同一直角坐标平面上,获得散点图(scatter diagram)。根据散点图可初步判定双变数X和Y间的关系,包括:①X和Y相关的性质(正或负)和密切程度;②X和Y的关系是直线型的还是非直线型的;③是否有一些特殊的点表示着其他因素的干扰等。例如图1是水稻方面的3幅散点图,图10.1A是单株的生物产量(X)和稻谷产量(Y),图10.1B是每平方米土地上的总颖花数(X)和结实率(Y),图10.1C是最高叶面积指数(X)和每亩稻谷产量(Y)。从中可以看出:①图10.1A和10.1B都是直线型的,但方向相反;前者Y随X的增大而增大,表示两个变数的关系是正的,后者Y随X的增大而减小,表示关系是负的。②图10.1A的各个点几乎都落在一直线上,图10.1B则较为分散;因此,图10.1A中X和Y相关的密切程度必高于图10.1B。③图10.1C中X和Y的关系是非直线型的;大约在 x≤(6~7)时,Y随X 的增大而增 图10.1A 水稻单株生物产量与大,而当x>(6~7)时,Y随X的增大 稻谷产量的散点图而减小。
图10.1B 水稻每平方米颖花数和结实率的散点图 图10.1C 水稻最高叶面积指数和667m2产量的散点图
二、回归分析和相关分析根据研究目的和依据的数学模型不同,统计关系的分析方法有两种。
1.回归分析对两个变数进行回归分析是定量地研究X和Y的数值变化规律,根据这种规律可由一个变数的变化来估计另一个变数的变化。在回归模型中,两个变数有因果关系,原因变数称自变数(independent variable),一般用X表示;结果变数称依变数(dependent variable),以Y表示。X是已知的或是可控制的,没有误差或误差很小,而Y则不仅随X的变化而变化,还要受到随机误差的影响。例如在施肥量和产量的关系中,施肥量是产量变化的原因,是自变数(X);产量是对施肥量的反应,是依变数(Y)。施肥量X是事先确定的,但产量Y是依X的变化和误差影响而变化。
X和Y间数值变化关系用回归方程(regerssion equation)来描述。回归分析就是用试验或调查得到的样本数据,建立回归方程并对其进行测验显著后,应用该方程根据X的变化来估计Y的变化,从而达到预测(报)的目的。
根据涉及变数的多少和变数间关系的形式,回归分析有一元直线回归分析、多元线性回归分析和非线性回归分析等不同类型。
2.相关分析对两个变数进行相关分析,其目的是研究X和Y间有无相关以及相关程度、相关性质(方向)。在相关模型中,两个变数是平行的,没有因果关系的自变数和依变数之分,且皆有随机误差。
X和Y间的相关与否,用表示相关特征的统计数r来反映,r称相关系数(correlation coefficient)。相关分析就是用样本数据计算出r,并对其进行测验后,就可以回答X、Y间有无相关和相关程度等问题。
除了本章介绍的,两个变数为直线的相关分析外,还有多元相关分析等其它类型。
通常将计算回归方程为基础的统计方法称为回归分析,将计算相关系数为基础的统计方法称相关分析。理论上两个变数是因果关系,X没有误差(或很小)而Y含有误差时,应进行回归分析。X和Y是平行关系,均含有误差时应进行相关分析。然而在回归分析中往往含有相关分析的信息,在相关分析中也包含回归分析的信息。所以在实践中,一个资料究竟是采用回归分析还是相关分析,并没有严格界限,多可取决于研究目的。许多资料还可以同时进行这两种分析。
第二节 直线回归分析
一、直线回归方程
1.直线回归方程式
对于在散点图上呈直线趋势的两个变数,如果要概括其在数量上的互变规律,即从X的数量变化来预测或估计Y的数量变化,则要采用直线回归方程(linear regression equation)来描述。此方程的通式为:
上式读作“y依x的直线回归方程”。其中x是自变数;是和x的量相对应的依变数的点估计值;a是x=0时的值,即回归直线在y轴上的截距(regression intercept);b是x每增加一个单位数时,平均地将要增加(b>0时)或减少(b<0时)的单位数,叫回归系数(regression coefficient)。
要使能够最好地代表y和x在数量上的互变关系,根据最小二乘法,必须使
为最小因此,分别对a和b求偏导数并令其为0,即可获得正规方程组(normal equations):
解之得:
(10.2)
(10.3)
(10.3)的分子是x的离均差和y的离均差的乘积之和,简称乘积和(sum of products),记作SP;分母是x的离均差平方和,记作SSx。将(10.2)、(10.3)算得的a和b值代入(10.1),即可保证为最小,同时使。
a和b值皆可正可负,随具体资料而异。当a>0时,表示回归直线在I、II象限交于y轴;当a<0时,表示回归直线在III、IV象限交于y轴;当b>0时,表示y随x的增大而增大;当b<0时,表示y随x的增大而减小;参见图10.2。若b=0或和0的差异不显著,则表明y的变异和x的取值大小无关,直线回归关系不能成立。
以上是a和b值的统计学解释。在具体问题中,a和b值将有专业上的实际意义。
将(10.2)代入(10.1)可得:
(10.4)
由(10.4)可见:①当时,必有,所以回归直线一定通过(,)坐标点。(记住这一特性,有助于绘制具体资料的回归直线)。②当x以离均差()为单位时,回归直线的位置仅决定于和b。③当将坐标轴平移到以(,)为原点时,回归直线的走向仅决定于b,所以一般又称b为回归斜率(regression slope)。
2.直线回归方程的计算以一个实例说明回归统计数计算的过程。
[例10.1] 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续9年测定3月下旬至4月中旬平均温度累积值(x,旬·度)和水稻一代三化螟盛发期(y,以5月10日为0)的关系,得结果于表10.1。试计算其直线回归方程。
首先由表10.1算得回归分析所必须的6个一级数据(即由观察值直接算得的数据):
然后,由一级数据算得5个二级数据:
表10.1 累积温和一代三化螟盛发期的关系
x累积温
y盛发期
35.5
34.1
31.7
40.3
36.8
40.2
31.7
39.2
44.2
12
16
9
2
7
3
13
9
-1
因而有:
故得表10.1资料的回归方程为:
或化简成:
上述方程中回归系数和回归截距的意义为:当3月下旬至4月中旬的积温(x)每提高1旬·度时,一代三化螟的盛发期平均将提早1.1天;若积温为0,则一代三化螟的盛发期将在6月27-28日(x=0时,;因y是以5月10日为0,故48.5为6月27-28日)。由于x变数的实测区间为[31.7,44.2],当x<31.7或>44.2时,y的变化是否还符合的规律,观察数据中未曾得到任何信息。所以,在应用于预测时,需限定x的区间为[31.7,44.2];如要在x<31.7或>44.2的区间外延,则必须有新的依据。
3.直线回归方程的图示直线回归图包括回归直线的图像和散点图,它可以醒目地表示x和y的数量关系。
制作直线回归图时,首先以x为横坐标,以y为纵坐标构建直角坐标系(纵、横坐标皆需标明名称和单位);然后取x坐标上的一个小值x1代入回归方程得,取一个大值x2代入回归方程得,连接坐标点()和()即成一条回归直线。如例10.1资料,以x1=31.7代入回归方程得;以x2=44.2代入回归方程得。在图10.3上确定(31.7,13.69)和(44.2,-0.05)这两个点,再连接之,即为的直线图像。注意:此直线必通过点(),它可以作为制图是否正确的核对。最后,将实测的各对(xi,yi)数值也用坐标点标于图10.3上。
图10.3的回归直线是9个观察坐标点的代表,它不仅表示了例10.1资料的基本趋势,也便于预测。如某年3月下旬至4月中旬的积温为40旬·度,则在图10.3上可查到一代三化螟盛发期的点估计值在5月14-15日,这和将x=40代入原方程得到是一致的。因为回归直线是综合9年结果而得出的一般趋势,所以其代表性比任何一个实际的坐标点都好。当然,这种估计仍然有 x,3月下旬至4月中旬旬平均温度累积值随机误差,下文再作讨论。 图10.3 旬平均温度累积值和一
4.直线回归的估计标准误 代三化螟盛发期的关系由图10.3可见,满足为最小的直线回归方程和实测的观察点并不重合,
表明该回归方程仍然存在随机误差。Q就是误差的一种度量,称之为离回归平方和(sum of squares due to deviation from regression)或剩余平方和。由于在建立回归方程时用了a和b两个统计数,故Q的自由度v=n-2。因而,可定义回归方程的估计标准误sy/x为:
(10.5)
若各个观察点愈靠近回归线,sy/x将愈小(极端地说,当各观察点都落在回归线上时,sy/x=0);若各观察点在回归线上下分散得愈远,则sy/x愈大。故样本的sy/x是回归精确度的度量,sy/x愈小,由回归方程估计y的精确性愈高。
计算sy/x的主要手续在于求Q。直接计算不仅步骤多、工作量大,而且若数字保留位数不够,会引入较大的计算误差。为简化手续,可从以下恒等式得出:
(10.6)
[例10.2] 试计算由表10.1资料获得的回归方程的估计标准误。
据(10.6)由例10.1算好的有关数据可直接得到:
将算得Q代入(10.5)式有:
上述计算表明,当用回归方程,由3月下旬至4月中旬的积温预测一代三化螟发期时,有一个3.266天的估计标准误。它的统计意义是:在天范围内约有68.27%个观察点,在天范围内约有95.45%个观察点等。
5.直线回归的数学模型和基本假定回归分析的依据是直线回归模型。在这一模型中,Y总体的每一个值由以下三部分组成:①回归截距a,②回归系数,③Y变数的随机误差。因此,总体直线回归的数学模型可表示为:
(10.7)
其中,。相应的样本线性组成为:
(10.8)
在按上述模型进行回归分析时,假定:
(1)Y变数是随机变数,而X变数则是没有误差的固定变数,至少和Y变数比较起来X的误差小到可以忽略。
(2)在任一X上都存在着一个Y总体(可称为条件总体),它是作正态分布的,其平均数是X的线性函数:
(10.9)
的样本估计值,与X的关系就是线性回归方程(9.1)。
(3)所有的Y总体都具有共同的方差,这一方差不因X的不同而不同,而直线回归总体具有)。试验所得的一组观察值(xi,yi)只是中的一个随机样本。
(4)随机误差相互独立,并作正态分布,具有。
因此,模型中的参数共有a,即直线的截距;,即直线的斜率;,误差的方差。其样本的相应的估计值为a、b和。
理解上述模型和假定,有助于正确地进行回归分析。
二、直线回归的假设测验
1.回归关系的假设测验
若X和Y变数总体并不存在直线回归关系,则随机抽取的一个样本也能用上述方法算得一个直线方程。显然,这样的回归方程是靠不住的。所以对于样本的回归方程,必须测定其来自无直线回归关系总体的概率大小。只有当这种概率小于0.05或0.01时,我们才能冒较小的风险确认其所代表的总体存在着直线回归关系。这就是回归关系的假设测验,其测验方法有以下三种。
(1)t测验 由(10.4)可推知,若总体不存在直线回归关系,则总体回归系数;若总体存在直线回归关系,则。所以对直线回归的假设测验为。
由(10.3)可推得回归系数b的标准误sb为:
(10.10)
而 (10.11)
遵循v=n-2的t分布,故由t值即可知道样本回归系数b来自=0总体的概率大小。
[例10.3] 试测验例10.1资料回归关系的显著性。
在例10.1和10.2已算得,故有:
查附表4,t0.05,7=2.36,t0.01,7=3.50。现实得| t | = 4.05大于t0.01,7,表明在的总体中因抽样误差而获得现有样本的概率小于0.01。所以应否定,接受,即认为积温和一代三化螟盛发期是有真实直线回归关系,或者说此b = -1.0996是极显著的。
(2)F测验 当仅以表示y资料时(不考虑x的影响),y变数具有平方和和自由度v = n-1。当以表示y资料时(考虑x的影响),则SSy将分解成两个部分,即:
因为
故
上式的即离回归平方和Q,它和x的大小无关,具有v= n-2,已知前述;则为回归平方和,简记作U,它是由x的不同而引起的,具有。在计算U值时可应用公式
(10.12)
由于回归和离回归的方差比遵循的F分布,故由
(10.13)
即可测定回归关系的显著性。
[例10.4] 试用F测验法检测例10.1资料回归关系的显著性。
在例10.1和10.2已算得,故
174.8886,并有方差分析列于表10.2。
表10.2 例10.1资料回归关系的方差分析变异来源
DF
SS
MS
F
F0.01
回 归离 回 归
1
7
174.8886
74.6670
174.8886
10.6667
16.40
12.25
总 变 异
8
249.5556
在表10.3,得到F=16.40>F0.01,所以同样表明积温和一代三化螟盛发期是有真实直线回归关系的,即(准确地说,在的总体中获得现有回归样本的概率小于0.01)。
(3)相关系数法凡符合回归分析的资料都符合相关分析的要求,这样回归分析中也可计算相关系数。对于直线回归而言,相关系数即标准化的回归系数。因此,同一资料的回归关系与相关关系的显著与否是一致的,由于相关系数的计算和测验都比较容易,所以在实践中常采用计算相关系数假设测验来完成对回归关系的假设测验。具体方法待学过直线相关分析即知。
上述三种测验方法在任何回归样本上的测验结果都完全一致。因为相关系数的测验就用的t测验,而在同一概率值下,v1=1、v2=n-2的一尾F值,正好是v=n-2的两尾t值的平方即F=t2。如本例,F=16.40,t=-4.05,(-4.05)2=16.40。事实上,由(9.13)可作恒等变换。
所以,对直线回归作假设测验,只需选择上述测验方法之一即可。
2.两个回归系数比较时的假设测验 若两个直线回归样本,分别具有样本回归系数b1、b2和总体回归系数、,则在测验b1和b2的差异显著时,有对。
由抽样分布的理论可以推知(参见抽样分布的标准误公式),两个样本回归系数的差数标准误为:
(10.14)
上式的和分别为X变数两个样本的平方和,为两个样本回归估计的合并离回归差,其值为:
(10.15)
(10.15)的Q1和Q2分别为两个样本的离回归平方和,n1和n2为相应的样本容量。
由于遵循的t分布,故由
(10.16)
可测定在的总体中获得现有的样本的概率。
[例10.5] 测定两玉米品种叶片长宽乘积(x)和实际叶面积(y)的关系,得表10.3结果,试测验两回归系数间是否有显著差异。
表10.3 玉米叶片长宽乘积和叶面积关系的计算结果品 种
N
SSx
SSy
SP
B
Q
七叶白石榴子
22
18
1 351 824
1 070 822
658 513
516 863
942 483
743 652
0.69718
0.69447
1 420
420
由表10.4可得:
这一结果是完全不显著的,所以应接受,即认为叶片长宽乘积每增大1cm2,叶面积平均要增大的单位数在七叶白和石榴子两品种上是一致的,其共同值为:
注意:上式的b是两个回归系数的加权平均数,它不等于(b1+b2)/2。
三、直线回归的区间预测经假设测验表明显著的回归方程可用来进行预测,由于回归方程的建立是用样本数据,它与相应的回归总体有误差,如进行点的预测往往与实际有较大出入,因此,比较科学的办法应是考虑到误差的大小和坐标点的离散程度,作出区间预测。
1.条件总体平均数的区间预测 根据回归模型的定义,每一个X上都有一个变数的条件总体,该条件总体的平均数为,而其样本估计值为,其标准误为:
(10.17)
于是预测条件总体平均数的95%置信区间为:
(10.18)
[例10.6] 试根据例10.1资料预测:当三月下旬至4月中旬的积温为40旬·度时,历年的一代三化螟平均盛发期在何时(取95%可靠度)?
将x=40代入方程,再将前已算得的有关数据代入(10.17)、(10.18)得:
即3月下旬至4月中旬的积温为40旬·度的年份,其一代三化螟平均盛发期的95%置信区间为[1.4,7.7],即5月12日-18日。这一结果若写成形式,即为:当x=40时,包括在内的95%置信区间为。
2.条件总体预测值的区间预测 这是以一定的保证概率估计任一X上Y单位预测值的存在范围。单个预测值的估计标准误为:
(10.19)
故保证概率为0.95的Y(p)预测区间为:
(10.20)
[例10.7] 试根据例10.1资料预测:某年3月下旬至4月中旬的积温为40旬·度,试预测该年的一代三化螟盛发期在何时(取95%可靠度)?
由例10.6当x=40时,再由(10.19)和(10.20)可得:
因此 (即5月6日)
(即5月6日)
即某年3月下旬至4月中旬的积温为40旬·度时,该年一代三化螟平均盛发95%置信区间为[-3.8,12.9],即5月6-23日。这种预报在100次中将有95次是对的。如果该虫态是防治对象,则生产上在整个置信区间内都需注意检查和防治。这一结果若写成
的形式,即为:当x=40时,包括y在内的95%置信区间为 =。
表10.4 例10.1资料的置信区间和y的预测区间的计算
(1)
x
(2)
的95%置信区间计算
Y(P)的95%预测区间计算
(3)
(4)
(5)
[L1,L2]
(6)
sy
(7)
t0.05sy
(8)
[L1,L2]
30
32
34
36
37
38
40
42
44
46
15.6
13.4
11.2
9.0
7.9
6.8
4.6
2.4
0.2
-2.0
2.21
1.75
1.37
1.13
1.09
1.12
1.35
1.72
2.17
2.66
5.2
4.1
3.2
2.7
2.6
2.6
3.2
4.1
5.1
6.3
10.4,
9.3,
8.0,
6.3,
5.3,
4.2,
1.4,
-1.7,
-4.9,
-8.3,
20.8
17.5
14.4
11.7
10.5
9.4
7.8
6.5
5.3
4.3
3.95
2.72
3.53
3.46
3.43
3.46
3.53
3.69
3.92
4.21
9.3
8.8
8.3
8.2
8.1
8.2
8.3
8.7
9.3
9.9
6.3,
4.6,
2.9,
0.8,
-0.2,
-1.4,
-3.7,
-6.3,
-9.1,
-11.9,
24.9
22.2
19.5
17.2
16.0
15.0
12.9
11.1
9.5
7.9
3.置信区间和预测区间的图示 由于和sy的算式中包含有项,使和sy的值随x的不同而不同。当实践中经常需要由x来推断或预测Y时,最好将相应的置信区间和预测区间作成图,以便从图上直接读出所需的值。
在作图时,首先可取若干个等距的x值(x取值愈密,作图愈准确),算得与其相应的、、sy和、t0.05sy的值;然后再由和算得各x上的L1和L2,并标于图上;最后将各个L1和L2分别连成曲线即可。
制作例10.1资料包括和Y(p)在内有95%可靠度的置信区间图和预测区间图于图10.4。
根据图10.4就可作出由旬积温估计一代三化螟盛发期的各种预报。如:3月下旬至4月中旬积温为38旬·度,则在图上即可查得一代三化螟的平均盛发期在5月14-19日,个别盛发期在5月
8-25日。这些预报的可靠度都是95%。
图10.4 例10.7资料的Y预测值及其95%的置信带
第三节 直线相关分析
一、相关系数
1.相关系数公式对于坐标点呈直线趋势的两个变数,如果并不需要由X来估计Y,而仅需了解X和Y是否确有相关以及相关的性质(正相关或负相关),则首先应算出表示X和Y相关密切程度及其性质的统计数――相关系数。一般以表示总体相关系数,以r表示样本相关系数。
设有一X、Y均为随机变量的双变数总体,具有N对(X,Y)。若在标有这N个(X,Y)坐标点的直角坐标平面上移动坐标轴,将X轴和Y轴分别平移到和上,则各个点的位置不变,而所取坐标变为()。并且,在象限I,>0;在象限II,;在象限III,;在象限IV,。因而,凡落在象限I、III的点,皆为正值;凡落在象限II、IV的点,皆为负值。当(X,Y)总体呈正相关时,落在象限I、III的点一定比落在象限II、IV的多,故一定为正;同时落在象限I、III的点所占的比率愈大,此正值也愈大。当(X,Y)总体呈负相关时,则落在象限II、IV的点一定比落在象限I、III的为多,故一定为负;且落在象限II、IV的点所占的比率愈大,此负值的绝对值也愈大。如果(X,Y)总体没有相关,则落在象限I、II、III、IV的点是均匀分散的,因而正负相消,。参见图9.5。
图10.5 三种不同的总体相关散点图以上说明,的值可用来度量两个变数直线相关的相关程度和性质。但是,X和Y的变异程度、所取单位及N的大小都会影响,为便于普遍应用,应消去这些因素的影响。消去的方法就是将离均差转换成以各自的标准差为单位,使成为标准化离差,再以N除之。因而,可定义双变数总体的相关系数为:
(10.21)
(10.21)的已与两个变数的变异程度、单位和N大小都没有关系,是一个不带单位的纯数,因而可用来比较不同双变数总体的相关程度和性质。(10.21 )也说明,相关系数是两个变数标准化离差的乘积之和的平均数。
当计算样本的相关系数r时,、和便分别以、和取代,因而
(10.22)
上述结果是直观地建立起来的。实际上由回归分析亦可方便地得出同样结果。前已述及,y的平方和在回归分析时分成了两个部分,一部分是离回归平方和,另一部分是回归平方和,或者是由X的不同而引起的。显然,若坐标点愈靠近回归线,则U对SSy的比率愈大,直线相关就愈密切。因此,又可有定义:
上述说明,当散点图上的点完全落在回归直线上时,Q=0,U=SSy,故;当y的变异和x完全无关时,U=0,Q=SSy,故。所以r的取值区间是[-1,1]。双变数的相关程度决定于,越接近于1,相关越密切;越接近于0,越可能无相关。另一方面,r的显著与否还和自由度v有关,v越大,受抽样误差的影响越小,r达到显著水平a的值就较小。r的正或负则表示相关的性质:正的r值表示正相关,即y随x的增大而增大;负的r值表示负相关,即y随x的增大而减少。由于r和b算式中的分母部分总取正值,而分子部分都是SP,所以相关系数的正或负,必然和回归系数一致。
2.相关系数的计算
[例10.8] 某小麦品种穗长与穗粒数的测量资料如下,试计算其样本相关系数。
序 号
1
2
3
4
5
6
7
8
9
10
穗长(cm)
穗粒数(粒)
8
16
9
19
9
18
10
20
10
22
11
23
11
23
12
26
13
27
14
28
设穗长为x,穗粒数为y,用列表法计算表10.5有关数据后,代入下列公式:
表10.5 小麦穗长x(cm)与穗粒数y(粒)的相关计算表序号
x
y
y2
y2
xy
1
2
3
4
5
6
7
8
9
10
8
9
9
10
10
11
11
12
13
14
16
19
18
20
22
23
23
26
27
28
64
81
81
100
100
121
121
144
169
196
256
361
324
400
484
529
529
676
729
784
128
171
162
200
220
253
253
312
351
392
Σ
107
222
1177
5072
2442
二、相关系数的假设测验
1.相关关系的假设测验样本相关系数r是总体相关系数的估计值,由于抽样误差,并不一定,因此必须须经过假设测验才能判断时,是否也不为0,即总体相关关系是否存在,测验方法有以下两种。
(1)t测验在=0的总体中抽样,r本身并不服从某个已知的理论分布,但是,当n≥5、=0时,如取
(10.23)
则此t值服从v=n-2的分布,由之可测验。其r的抽样标准误Sr为:
(10.24)
[例10.9]试测验例10.8所得r=0.9646的显著性。
由(10.24)可得:
代入(10.23)得:
查附表11,t0.01,8=3.355,现实得,表明在=0的总体里,抽得r=0.9646的样本概率小于0.01,所以此r相关关系极显著,即该小麦穗长和穗粒数确有相关关系。
(2)查表法
由于相关系数的抽样标准误仅取决于相关系及其自由度,因而将(10.23)公式移项得(10.25)式。
(10.25)
据(10.25)式有人已将不同自由度=(n-2)下,达到0.05和0.01显著水平的临界r值编成附表11。因此,当算得r值后,只要查出相应的值与之比较,就可以确定接受还是否定。如例10.9可以从附11中查得r0.01,8=0.765,现实算得,因此否定,即该样本相关关系极显著。
实际对r进行测验中,一般都用查表法而不必直接用t测验。前所提及的回归关系假设测验,就可通过计算r,并用此法测验来实现。
2.样本相关系数与不等于0的总体相关系数的假设测验。 图10.6 不同时r的抽样分布(n=8)
这是测验一个实得的相关系数r与某一指定的或理论的相关系数C是否有显著差异,其统计假设为:对。
在时,r的抽样分布具有很大的偏态(图10.6),且随n和的取值而异,类似(10.23)的转换已不再能由t分布逼近。但是,如将r转换为z值:
(10.26)
则z近似于正态分布,具有平均数和标准差:
(10.27)
和 (10.28)
因此,由
(10.29)
可测验。
附表12为r和z的转换表,可供查用;如不敷需要,可作插值或直接由(10.26)、(10.27)计算。
[例10.10] 已算得表9.1资料的r=-0.8371,试测验其与的差异显著性。
根据(10.26)~(10.29)得:
已知=1.96,现,所以应接受,即r=-0.8371可能取自的总体。
2.两个样本相关系数的差异假设测验这是测验两个样本相关系数的差异是否显著,因此对。这一测验也要先把r1和r2转换为z1和z2,然后用下式计算两个z值的差数标准误
(10.30)
并用
(10.31)
测验两个相关系数间的差异显著性
[例10.11]黑龙江省一些地方多年资料分析表明,5月中旬降水量(mm)与6月1日-20日粘虫成虫发生量(头/皿)有关,其中佳木斯的r1和双鸭山的r2分别计算为:
试测验两地降水量与粘虫发生量的相关是否不同。
由(9.26)式先将r1、r2转换
r1=0.946时,
r2=0.955时,
再由(10.30)得
因此
现实得不显著,接受,即两地降水量与粘成虫发生相关程度一致。
当两个样本的相关系数经测验差异不显著时,可将r1和r2合并成一个r来表示整个资料的相关情况,合并的方法是将两样本的乘积和与平方和分别相加后代入r值合并式。r值合并及本例合并的r值计算如下:
即两地降水量与粘虫成虫发生量的关系,有共同的相关系数r=0.950。
四、决定系数决定系数(determination coefficient)定义为由x不同而引起的y的平方和占y总平方和的比率;或定义为由y不同而引起的x的平方和占x总平方和的比率,其值为:
(10.32)
决定系数也是相关系数的平方值。
决定系数优于相关系数之处在于更客观实际,因为除和0外,r所表示的相关程度有所夸大,例10.9中r1=0.946,实际上由降水量x引起的粘虫成虫y变异平方和仅占y总变异平方和的r2=0.895,即89.5%,而不是94.6%。但r2只取正值,无法表示负相关,因此,一般在相关分析中将两者同时使用,即由r的正负表示相关的性质,由r2的大小表示相关的程度。
第四节 直线回归和相关的应用要点
直线回归和相关分析由于方法简单、结果直观,在科学研究乃至社会生活的各个方面都得到了广泛的应用,是普及和应用最广的统计方法之一。但实践中也出现了不少的误用,或者对结果的不恰当的解释与推断。为了正确应用这一工具,特提出以下应用要点:
(1)回归和相关分析要有学科专业知识指导。变数间是否存在相关以及在什么条件下会发生什么相关等问题,都必须由各具体学科本身来决定。客观规律要由各具体学科根据自己的理论和实践去发现,回归和相关分析只是作为一种工具,帮助完成有关的认识和解释。如果不以一定的科学依据为前提,把风马牛不相及的资料随意地凑到一起作回归或相关分析,那是根本性的错误。
(2)要严格控制研究对象(X和Y)以外的有关因素,即要在X和Y的变化过程中尽量使其它因素保持稳定一致。由于自然界各种事物间的相互联系和相互制约,一事物的变化通常都会受到许多其他事物的影响。因此,如果仅研究该事物(Y)和另一事物(X)的关系,则要求其余事物的均匀性必须得到尽可能严格的控制。否则,回归和相关分析有可能导致完全虚假的结果。例如研究种植密度和产量的关系,由于品种、播期、肥水条件等的不同也影响产量,所以这些条件必须尽可能地控制一致,才能比较真实地反映出密度和产量的关系。
(3)直线回归和相关分析结果不显著,并不意味着X和Y没有关系,而只说明X和Y没有显著的线性关系,它并不能排除两变数间存在非线性线关系的可能性。
(4)一个显著的r或b并不代表X和Y的关系就一定是线性的,因为它并不排斥能够更好地描述X和Y的各种曲线的存在。一般地说,如X和Y的真实关系是抛物线、双曲线或指数曲线等,当仅仅观察(X、Y)的某一区间时,完全有可能给出一个极显著的线性关系。对这一问题的正确认识亦有赖于专业知识的支持。
(5)虽然显著的线性相关和回归并不意味着X和Y的真实关系就是线性,但在农学和生物学研究中发生X和Y的真实曲线关系又是相当困难的。因此,在X和Y的一定区间内,用线性关系作近似描述是允许的,它的精确度至少要比仅用描述y变数有显著提高。但是,研究结果的适用范围应加以限制,一般应以观察区间为准。例如例10.1资料,3月下旬至4月中旬旬平均温度积值的观察区间是[31.7,44.2],用线性方程预测一代三化螟的盛发期,须限制x的取值区间为[31.7,44.2]。外推到这一区间之外是危险的,因为该区外的X和Y的关系是否仍为线性,试验未给出任何信息。
(6)一个显著的相关或回归并不一定具有实践上的预测意义。例如由附表11可知,当时,即显著,但这表明X和Y可用线性关系说明的部分仅占总变异的7.4%,未被说明的部分高达92.6%,显然由X预测Y可并不可靠。一般而言,当需要由X和Y时,必须在0.7以上,此时Y的变异将有49%以上可以为X的变异说明。
(7)为了提高回归和相关分析的准确性,两个变数的样本容量n(观察值对数)要尽可能大一些,至少应有5对以上。同时,X变数的取值范围也应尽可能宽些,这样一方面可降低回归方程的误差[见(10.10)],另一方面也能及时发现X和Y间可能存在的曲线关系。
第五节 可化为一元直线回归的非线性回归分析
在生物学和农业科学研究中,大量的双变数资料并非都是简单的线性关系,而是存在着各种各样的非线性关系。例如种植密度(x)与作物产量(y)、光照强度(x)和光合作用效率(y)、药剂浓度(x)和害虫死亡率(y)等。这些双变数的资料虽然在某一区间段上x、y两变数近似于线性关系,但就整个x的可能取值区间而言,则呈明显的非线性关系。因此,有必要在线性回归分析的基础上进一步讨论非线性回归分析问题。
非线性回归分析的主要目的一般在于:①确定两个变数数量变化中存在着的某种特定规律,并将这一规律用回归方程的形式较为准确的描述它;②估计该种非线性关系特点的一些重要参数,如回归参数、回归方程F值、极值点、渐近线;③为生产预测或试验控制而进行内插,或在论据充足时作出理论上的外推。
曲线的直线化是非线性回归分析最常用的一种方法,即通过某些变量变换把非线性的函数关系化为线性关系,然后,按线性回归的分析方法加以处理,最后还原成非线性关系。下面分别介绍几种可线性化的非线性回归。
对数曲线
对数函数型曲线为
= (10.33)
这里表示是以10为底的对数。
该方程具有如下特性,
的取值范围(0,+∞),
故曲线以轴为竖直渐近线。
对10.33式求导数得
故知,在b>0时,y随的增大而增大,曲线单调逆增凸向上;在b<0时,y
随的增大而减少,曲线单调逆减凹向上。
如图10.7所示。 图10.7 方程的图象将曲线进行直线化处理,令=lg,则10.33式变为
(10.34)
此时,与呈直线回归关系,按直线回归的方法求出、的值,其回归统计数的计算式为
(10.35)
([例10.12]棉花塑料大棚育苗的小气候研究中,测得大棚内空气最高温度(,℃)与棚外空气最高温度(,℃)的资料如表10.6。试拟合其曲线回归方程。
制散点图,拟合适宜的曲线方程利用表10.6的原始资料,绘制与的相关散点图(图10.8)。根据散点图分布所描绘的轨迹与基本图形对照,选配对数曲线(b>0)。也可直接绘出与的散点图,明显地看出与呈直线关系(图10.9)。
表10.6 大棚内空气最高气温(,℃)与棚外空气最高气温(,℃)的关系编号
1
3.4
4.5
0.53
0.2809
2.385
2.9304
2
7.2
13.8
0.86
0.7396
11.868
14.9615
3
16.9
25.7
1.23
1.5129
31.611
28.6430
4
11.8
23.0
1.07
1.1449
24.610
22.8830
5
18.5
30.1
1.27
1.6129
38.227
30.0934
6
17.0
25.8
1.23
1.5129
31.734
28.7376
7
19.3
31.7
1.29
1.6641
40.893
30.7723
8
20.4
32.5
1.31
1.7161
42.575
31.6611
9
22.3
34.2
1.35
1.8225
46.170
33.0890
10
24.1
35.3
1.38
1.9044
48.714
34.3337
11
25.4
36.1
1.40
1.9600
50.540
35.1761
12
27.2
36.8
1.43
2.0449
52.624
36.2740
总和
213.5
329.5
14.35
17.9161
421.951
329.5551
棚外空气最高气温(℃) 棚外空气最高气温的对数(℃)
图10.8 棚内空气最高气温与棚外 图10.9 棚内空气最高气温与棚外
空气最高气温的关系 空气最高气温的对数关系
2、回归统计数的计算
(1)根据表10.6资料算出6个一级数据
=12
(2)由上一级数据计算5个二级数据
(3)将以上二级数据代入10.35式,求得
因此,其回归方程为
或
3、回归方程显著性测验
以上回归方程是按各对和求得,故需根据和测验回归关系的显著性。首先计算各项平方和与自由度,列于表10.7,然后进行方差分析。
总平方和
总自由度
回归平方和
回归自由度
离回归平方和
离回归自由度
表10.7 和的回归关系方差分析表变异来源
DF
SS
MS
F
F0.05
F0.01
回 归
1
1031.5462
1031.5462
380.88**
4.96
10.04
离回归
10
27.0830
2.7083
总变异
11
1058.6292
由表10.7得出,F=380.88>F0.01= 10.04,说明该对数曲线回归关系达极显著水平,同时表明该双变数资料拟合对数曲线方程比较合适。
指数曲线
图10.10 指数曲线
可知绝对生长速度是越来越快,而绝对衰减速度是越来越慢。再取二阶导数
因此,β是生长或衰减的加速度,又称相对生长率或相对衰减率。
指数曲线的回归分析模型为
(10.37)
要求ε相互独立且服从同一对数正态分布。
令
,, (10.38)
可将其转换为线性回归模型
并解得α和β的估计值
, (10.39)
从而建立回归方程
(10.40)
[例10.13]棉花红铃虫卵数与温度有关,调查结果见表10.8,试作回归分析。
表10.8 棉花红铃虫温度(℃)与产卵数(个/头)的调查结果
21
7
1.9459
441
40.8639
3.7856
6.5
23
11
2.3979
529
55.1517
5.7499
11.2
25
21
3.0445
625
76.1125
9.2690
19.3
27
24
3.1781
729
85.8087
10.1003
33.2
29
66
4.1897
841
121.5013
17.5536
57.2
32
115
4.7449
1024
151.8368
22.5141
129.4
35
325
5.7838
1225
202.4330
33.4523
292.7
∑192
25.2848
5414
733.7079
102.4257
图10.11 例12.2数据的图示
=exp(3.6121 – 0.0721×27.4) = 0.0214
并可建立指数回归方程
回归方程的显著性测验也采用线性回归的方法。这里有
查r0.01,5=0.874,因此,回归极为显著。回归曲线也示于图10.11,代入不同求得的见表10.8,其与的差异很小。
幂函数曲线
图10.12 幂函数曲线
即可将幂函数曲线线性化,并解出α和β的
, = exp
=exp(3.6121 – 0.0721×27.4) = 0.0214
即可将幂函数曲线线性化,并解出α和β的估计值。
=exp(– b) (10.43)
= (10.44)
[例10.14]某玉米杂交种果穗直径与穗粒重间的关系如表10.9,试作回归分析。
表10.9 玉米果穗直径x(㎝)与穗粒重y(g)的调查数据
4.6
130
1.5261
4.8675
2.3290
23.6926
7.4283
4.7
145
1.5476
4.9767
2.3951
24.7675
7.7109
4.8
161
1.5686
5.0814
2.4605
25.8206
7.9709
4.9
178
1.5892
5.1818
2.5265
26.8510
8.2349
5.0
197
1.6094
5.2832
2.5902
27.9122
8.5028
5.1
218
1.6292
5.3845
2.6543
28.9928
8.7724
5.2
240
1.6486
5.4806
2.7179
30.0370
9.0353
5.3
264
1.6677
5.5759
2.7812
31.0907
9.2989
∑
12.7864
41.8316
20.4538
219.1644
66.9452
图10.13 例10.14数据的图示
查r0.01,6=0.834,因此,回归极为显著,可建立幂函数回归方程
其图形和不同的值对应的值见图10.13和表10.9。
本例也可作直线回归和指数曲线回归分析,结果均极为显著(r=0.9967和0.9998)。此外,还可能求出其它也显著的曲线形式。实践中通常不存在支持某种曲线形式的绝对依据,选择合适的曲线形式的考虑之一是所研究问题的生物学意义。如温度或时间与生长量的关系一般应选用指数曲线,而直径或长度与重量或体积的关系一般可选用幂函数曲线等。考虑之二是曲线的显著性,可根据散点图的特征试配几种不同的曲线,从中选择显著程度最高或较高的。本例从散点图看可配合直线、指数曲线和幂函数曲线,显著程度相差不多,但以幂函数和生物学意义最为吻合,因此较合适。
四、对称S形曲线
许多害虫的日发生量在暴发期以前逐日增加,过了暴发期又逐日减少,基本上是对称的,接近正态分布。因此,其累积发生量就成为上下对称的S形曲线,与正态累积函数曲线差不多,见图10.14。
图10.14 对称S形曲线
[例10.15]江苏东台县测定了1972年越冬代棉红铃虫不同时期的化蛹进度,结果见表10.10,试作回归分析。
表10.10 棉红铃虫不同时期(以5月31日为0)的化蛹进度(%)
5
3.5
3.1881
25
15.940
10.1640
3.1264
3.1
10
6.4
3.4780
100
34.780
12.0965
3.5627
7.5
15
14.6
3.9463
225
59.195
15.5733
3.9991
15.8
20
31.4
4.5155
400
90.310
20.3897
4.4354
28.6
25
45.6
4.8895
625
122.238
23.9072
4.8718
44.9
30
60.4
5.2637
900
157.911
27.7065
5.3082
62.1
35
75.2
5.6808
1225
198.828
32.2715
5.7445
77.2
40
90.2
6.2930
1600
251.720
39.6019
6.1809
88.1
45
95.4
6.6849
2025
300.820
44.6879
6.6172
94.7
50
97.5
6.9600
2500
348.000
48.4416
7.0536
98.0
∑275
50.8998
9635
1579.742
274.8401
一般称为概率单位,可由概率单位表中查出。由回归方程求得后也从该表中反查出。
图10.15 例10.15数据的图示
查r0.01,8=0.765,因此,回归关系极为显著,也即有概率单位与日期间的回归方程
成立。将各值代入回归方程求出,并反查出值列于表的最后的两列,可见吻合得相当好。
五、不对称S形曲线
动植物生长的普遍规律是先越来越快,过了生长高峰以后,由于内外条件的限制则生长越来越慢,直至停止。生长速度的变化呈一不对称的单峰曲线,而累积生长量则呈不对称的S形曲线。
图10.16 Logistic曲线
这里为环境限制的最大生长量,β仍是相对生长率。对取导数
可知当时,绝对生长速度趋近,而当接近时,绝对生长速度趋近于0。再根据二阶导数
可求出拐点为
,
此时的生长速度最快,为
生长速度在此之前逐渐加快,在此之后逐渐下降,直至时为0。
令 ,,α′= lnα (10.48)
可将Logistic曲线转换为线性。可由相距尽可能大,且等距的3个值所对应的值来估计
(10.49)
然后解得 , (10.50)
即可求出Logistic曲线回归方程
(10.51)
[例10.16]表10.11为冬小麦品种苏引2号在长春种植时开花天数()与100粒子粒的调查结果,试作Logistic曲线回归分析。
表10.11 冬小麦品种苏引2号在长春种植时开花天数(d)与100粒子粒重(g)
5
0.41
2.4664
25
12.3322
6.0831
2.6999
0.33
10
0.85
1.6418
100
16.4185
2.6955
1.4948
0.96
15
2.02
0.4663
225
6.9943
0.2174
0.2843
2.25
20
3.37
-0.5890
400
-11.7795
0.3469
-0.9230
3.75
25
4.56
-1.9030
625
-47.5746
3.6214
-2.1232
4.68
30
5.20
-4.8675
900
-146.0260
23.6926
-3.3362
5.06
35
5.11
-3.6714
1225
-128.4997
13.4792
-4.4582
5.18
Σ140
-6.4564
3500
-298.1348
50.1361
查r0.01,5=0.874,回归显著,因此,得Logistic回归方程
成立。将各值代入回归方程求出,并计算出值列于表的最后的两列。
习 题
10.1 什么是回归分析?回归分析中变数间是什么关系?
10.2 什么是相关分析?相关分析中变数间是什么关系?
10.3 什么是回归方程?a和b各有什么意义?如何测验样本回归方程的显著性?
10.4 什么是回归预测?什么是回归控制?
10.5 什么是相关系数?它有哪些特性?如何测验样本相关系数的显著性?
10.6 什么是决定系数?它有什么意义?
10.7 测得不同浓度的葡萄糖溶液(x,mg/l)在某光电比色计上的消光度y如下。试计算:(1)直线回归方程并作图;(2)对回归方程做显著性测验;(3)测得一样品的消光度为0.60,试估计其葡萄糖浓度。
x:0,5,10,15,20,25,30
y:0.00,11.0,0.23,0.34,0.46,0.57,0.71
10.8 测得广东阳江≤25℃的始日(x)与粘虫幼虫暴食高峰期(y)的关系如表(x和y皆以8月31日为0)。试分析:(1)≤25℃的始日可否用于预测粘虫幼虫的暴食期;(2)回归方程及其估计标准误;(3)若某年9月5日是≤25℃的始日,则有95%可靠度的粘虫暴食期在何期间?
10.9 研究水稻每一单茎蘖的饱粒重(y,单位:g)和单茎蘖(包括谷粒)重(x,单位:g)的关系,测定52个早熟桂花黄茎蘖,得:SSx=234.4183,SSy=65.8386,SP=123.1724,b=0.5254,r=0.99;测定49个金林引茎蘖,得SSx=65.7950,SSy=18.6334,SP=33.5905,b=0.5105,r=0.96。试对两回归系数和相关系数的差异作假设测验,并解释所得结果的意义。
水稻不同密度x和单株受光量(光照度×叶面积)y的试验资料如下表,试作回归分析。
编 号
X
y
x2
1
2
3
4
5
6
7
8
9
10
80
70
60
48
40
32
23
18
13
5
140
160
170
230
320
360
510
510
620
720
2.15
2.20
2.23
2.36
2.51
2.56
2.71
2.71
2.79
2.86
6 400
4 900
3 600
2 304
1 600
1 024
529
324
169
25
4.622 5
4.840 0
4.972 9
5.569 6
6.300 1
6.553 6
7.344 1
7.344 1
7.784 1
8.179 6
172.000 0
154.000 0
133.800 0
113.280 0
100.400 0
81.920 0
62.330 0
48.780 0
36.270 0
14.300 0
总和
389
3 740
25.08
20 875
63.510 6
917.080 0
10.11 Little和Hills观测洋葱鳞茎直径和重量的部分数据列于下表,试配合幂函数曲线方程。
直径x(mm)
重量y(g)
47.9
51.0
53.9
56.9
58.1
60.0
63.0
66.2
67.1
69.5
70.7
73.1
77.4
82.3
83.1
84.6
58.4
63.4
78.7
80.7
80.0
96.2
112.8
115.8
125.6
132.6
142.8
163.2
180.0
1990.8
225.5
237.0
1.680 3
1.707 6
1.731 6
1.755 1
1.764 2
1.778 2
1.799 3
1.820 9
1.826 7
1.842 0
1.849 4
1.863 9
1.888 7
1.915 4
1.919 6
1.927 4
1.766 4
1.802 1
1.896 0
1.906 9
1.903 1
1.983 2
2.052 3
2.063 7
2.099 0
2.122 5
2.154 7
2.212 7
2.255 3
2.280 6
2.353 1
2.374 7
10.12 某药剂不同剂量下某害虫的死亡率试验资料如下,试用剂量对数做对称S形曲线回归分析。
剂量
(mg)
剂量以数
x
死亡率
y(%)
2.51
3.16
3.98
5.01
6.31
7.94
10.00
12.59
15.85
19.95
25.12
31.62
0.40
0.50
0.60
0.70
0.80
0.90
1.00
1.10
1.20
1.30
1.40
1.50
0
1
3
7
16
30
50
70
84
93
97
99
-2.326 3
-1.880 8
-1.475 8
-0.994 5
-0.524 4
0
0.524 4
0.994 5
1.475 8
1.880 8
2.326 3
2.673 7
3.119 2
3.524 2
4.005 5
4.475 6
5.000 0
5.524 4
5.994 5
6.475 8
6.880 8
7.326 3
10.13 大豆叶面积指数增长与生育天数的相关资料如下表,试以Logistic方程描述之。
大豆生育天数()与叶面积指数()
生育天数
叶面积指数
生育天数
叶面积指数
20
0.5
50
4.0
25
0.9
55
4.2
30
1.5
60
4.4
35
2.0
65
4.7
40
2.9
70
4.8
45
3.3
75
4.8
注:生育天数指从六月一日开始算起。