第八章 直线回归与相关前面各章我们讨论的问题,都只涉及到一个变量,如体重,日增重、产仔数、体温、血糖浓度,产奶量,产毛量或孵化率,发病率等。 但是,由于客观事物在发展过程中相互联系、相互影响,因而在畜牧、水产等试验研究中常常要研究两个或两个以上变量间的关系。
下一张 主 页 退 出上一张
1x最高月产、
猪瘦肉率与背膘厚度、眼肌面积、胴体长;
绵羊产毛量与体重、胸围、体长 ;
3x
黑白花奶牛的一胎 305天产奶量与
、最高日产天数;
90天产奶量、
最高日产猪的增重与饲料消耗;
雏鹅重与 70日龄重;
绵羊胸围与体 长 ;
仔猪初生重与断奶重;
例如变量间的关系有两类:
一类是变量间存在着完全确定性的关系,
可以用精确的数学表达式来表示。
如长方形的面积 ( S) 与 长( a)和 宽
( b)的关系可以表达为,S=ab。它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确地计算出另一个变量的值,这类变量间的关系称为 函数关系 。
下一张 主 页 退 出上一张另一类是 变 量 间不存在完全的确定性关系,不能用精确的数学公式来表示。
如黄牛的体长与体重的关系;仔猪初生重与断奶重的关系;猪瘦肉率与背膘厚度、眼肌面积、胴体长等的关系等等,这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。 像这样一类关系在生物界中是大量存在的,统计学中把这些变量间的关系称为 相关关系,把存在相关关系的变量称为 相关变量 。
下一张 主 页 退 出上一张相关变量间的关系一般分为两种,
一种是 因果关系,即一个变量的变化受另一个或几个变量的影响。如仔猪的生长速度受遗传特性、营养水平、饲养管理条件等因素的影响,子代的体高受亲本体高的影响;
另一种是 平行关系,它们互为因果或共同受到另外因素的影响。如黄牛的体长和胸围之间的关系,猪的背膘厚度和眼肌面积之间的关系等都属于平行关系。
下一张 主 页 退 出上一张统计学上采用回归分析 ( regression
analysis)研究呈因果关系的相关变量间的关系。 表示原因的变量称为自变量,表示结果的变量称为依变量。
研究,一因一果,,即一个自变量与一个依变量的回归分析称为 一元回归分析 ;
研究,多因一果,,即多个自变量与一个依变量的回归分析称为 多元回归分析 。
一元回归分析又分为 直线回归分析 与 曲线回归分析 两种;多元回归分析又分为 多元线性回归分析 与 多元非线性回归分析 两种。
下一张 主 页 退 出上一张回归分析的任务是揭示出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,
利用所建立的回归方程,由自变量(原因)来预测、控制依变量
(结果)。
统计学上采用相关分析 ( correlation
analysis)研究呈平行关系的相关变量之间的关系。
对两个变量间的直线关系进行相关分析称为简单相关分析 (也叫 直线相关分析 );
对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为 复相关分析 ;研究其余变量保持不变的情况下两个变量间的线性相关称为 偏相关分析 。
下一张 主 页 退 出上一张第一节 直线回归一、直线回归方程的建立对于两个相关变量,一个变量用 x表示,另一个变量用 y表示,如果通过试验或调查获得两个变量的 n对观测值:
( x1,y1),( x2,y2),……,( xn,yn)
下一张 主 页 退 出上一张为了直观地看出 x和 y间的变化趋势,可将每一对 观 测 值 在 平 面直角坐标系描点,作出散点图 ( 见图 8-1) 。
从散点图( 图 8-1)可以看出:
②两个变量间直线关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切);
下一张 主 页 退 出上一张散点图 直观地、定性地 表示了两个变量之间的关系。为了探讨它们之间的规律性,还必须根据观测值将其内在关系 定量地 表达出来。
① 两个变量间有关或无关 ;若有关,两个变量间关系类型,是直线型还是曲线型;
如果呈因果关系的两个相关变量 y(依变量 )
与 x(自变量 )间的关系是直线关系,根据 n对观测值所描出的散点图,如 图 8— 1( b) 和 图
8— 1( e)所示。
由于依变量 y的实际观测值总是带有随机误差,因而依变量 y的实际观测值 yi可用自变量 x的实际观测值 xi表示为:
iii xy
(i=1,2,…,n) ( 8— 1)
其中,
x 为可以观测的一般变量 (也可以是可以观测的随机变量 );
y 为可以观测的随机变量 ;
这就是直线回归的 数学模型 。我们可以根据实际观测值对 α,β以及方差 做出估计。
2?
2?
i为相互独立,且都服从 N( 0,)的随机变量。
在 x,y直角坐标平面上可以作出无数 条直线,我们 把所有直线中最接近散点图中全部散点的直线用来表示 x与 y的直线关系,这条直线称为 回归直线 。
下一张 主 页 退 出上一张设回归直线的方程为,
bxay (8-2)
其中,a是 α的估计值,b是 β的估计值。
a,b应使回归估计值 与实际观测值 y的偏差平方和最小,即:
0)(2 bxayaQ
0)(2 xbxaybQ
y?
根据微积分学中的求极值的方法,令 Q对 a、
b的一阶偏导数等于 0,即:
22 )()?( bxayyyQ 最 小整理得关于 a,b的 正规方程组,
yxban
xyxbxa 2
下一张 主 页 退 出上一张解正规方程组,得:
x
xy
SS
SP
xx
yyxx
nxx
nyxxy
b?

222
)(
))((
/)(
/))((( 8-3)
xbya ( 8-4)
( 8-3)式中的分子是自变量 x的离均差 与 依 变 量 y 的 离 均 差 的 乘 积和,简 称 乘积和,记作,分母是自变量 x的离均差 平方和,记作 SSX。
a叫做样本 回归截距,是回归直线与
y轴交点的纵坐标,当 x=0时,=a;
))(( yyxx
xySP
2)( xx
y?
b叫做样本 回归系数,表 示 x 改 变一个单位,y平均改变的数量; b 的符号反映了 x影响 y的性质,b的绝对值大小反映了 x 影响 y 的 程度 ;
y?
的估计值。
叫做 回归估计值,是当 x在在其研究 范 围 内 取某一个值时,y值平均数
x
回归方程的基本性质:
如果将( 8-4)式代入( 8-2)式,得到回归方程的另一种形式 (中心化形式 ):
下一张 主 页 退 出上一张
2)?( yyQ性质 1 最小;
0)?( yy性质 2 ;
),( yx性质 3 回 归 直 线 通 过 点 。
)(? xxbybxxbyy ( 8-5)
【 例 8.1】 在四川白鹅的生产性能研究中,
得到如下一组关于雏鹅重( g)与 70日龄重 (g)
的数据,试建立 70日龄重 (y)与雏鹅重 (x)的直线回归方程。
表 8-1 四川白鹅雏鹅重与 70日龄重测定结果
(单位,g)
下一张 主 页 退 出上一张
1、作散点图 以雏鹅重( x)为横坐标,70日龄重( y)为纵坐标作散点图,
见 图 8-3。
2、计算回归截距 a,回归系数 b,
建立直线回归方程首先根据实际观测值计算出 下 列数据:
5.9812/1182/ nxx
8 3 3 3.2 7 2 012/3 2 6 5 0/ nyy
00.168512/11821 1 8 1 1 2/ 222 nxxSS x
00.3 6 5 8 512 3 2 6 5 011823 2 5 2 6 1 0))(( n yxxySP xy
67.8 3 1 4 9 112/3 2 6 5 08 9 6 6 6 7 0 0/ 222 nyySS y
下一张 主 页 退 出上一张进而计算出 b,a:
7 1 2 2.2100.1 6 8 53 6 5 8 5
x
xy
SS
SP
b
1816.5825.987122.218333.2720 xbya
xy 7 1 2 2.211 8 1 6.5 8 2
得到四川白鹅的 70日龄重 y对雏鹅重 x的直线回归方程为:
根据直线回归方程可作出回归直线,见图
8-3。从图 8-3看出,并不是所有的散点都恰好落在回归直线上,这说明 用 去估计 y是有偏差的。
y?
下一张 主 页 退 出上一张
3、直线回归的偏离度估计偏差平方和 的大小表示了实测点与回归直线偏离的程度,因而偏差平方和又称为 离回归平方和 。统计学已经证明:在直线回归分析中离回归平方和的自由度为 n-2。于是可求得 离回归均方 为:
离回归均方是模型( 8-1)中 σ2的估计值。
离回归均方的平方根叫 离回归标准误,记为,

2)?( yy
)2/()?( 2 nyy
yxS
( 8-6)
离回归标准误 Syx的大小表示了回归直线与实测点偏差的程度,即回归估测值 与 实际观测值 y偏差的程度,于是我们 把离回归标准误 Syx用来表示回归方程的偏离度。
)2/()?( 2 nyyS yx
y?
下一张 主 页 退 出上一张以后我们将证明:
( 8-7)
利用( 8-7)式先计算出,然后再代入( 8-6)式求 Syx 。
xxyy SSSPSSyy /)?( 22
2)?( yy
07.3 7 1 5 21685/3 6 5 8 58 3 1 4 9 1 6 7/)?( 222 xxyy SSSPSSyy
对于 【 例 8.1】 有
)( gnyyS yx 9525.60)212/(07.37152)2/()?( 2
所以二、直线回归的显著性检验若 x和 y变量间并不存在直线关系,但由 n
对观测值( xi,yi)也可以根据上面介绍的方法求得一个回归方程 =a+bx。 显然,这样的回归方程所反应的两个变量间 的直线关系是不真实的。 如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这取决于变量 x与 y间是否存在直线关系。我们先探讨依变量 y的变异,然后再作出统计推断。
y?
下一张 主 页 退 出上一张
1、直线回归的变异来源图 8-4 的分解图)( yy?
从图 8-4看到:
上式两端平方,然后对所有的 n点求和,则有
)?()?()( yyyyyy
2)( yy 2)]?()?([ yyyy
)?)(?(2)?()?( 22 yyyyyyyy
)]())[(( xxbyyxxb
下一张 主 页 退 出上一张
)(? xxbybxay由 于
)(? xxbyy所 以
)?)(()?)(?( yyxxbyyyy于 是所以有
( 8-8)
反映了 y的总变异程度,称为 y的总平方和,记为 SSy;
反映了由于 y与 x间存在直线关系所引起的 y的变异程度,称为回归平方和,记为 SSR;
)()())(( xxbxxbyyxxb
xxy SSbSPb 2
0
2


x
x
xy
xy
x
xy SS
SS
SP
SP
SS
SP
2)( yy 22 )?()?( yyyy
2)( yy
2)?( yy
反映了除 y与 x存在直线关系以外的原因,包括随机误差所引起的 y的变异程度,称为离回归平方和或剩余平方和,记为 SSr。
( 8-8)式又可表示为:
( 8-9)
这表明 y的总平方和剖分为 回归平方和 与离回归平方和两部分。与此相对应,y的总自由度 dfy也划分为回归自由度 dfr与离回归自由度
dfr两部分,即
2)( yy
rRy SSSSSS
下一张 主 页 退 出上一张
( 8-10)
在直线回归分析中,回归自由度等于自变量的个数,即 ; y 的 总 自 由度 ;离回归自由度 。于是:
离回归均方,回 归 均 方

2、回归关系显著性检验 — F检验
rRy dfdfdf
1?Rdf
1 ndf y 2 ndf r
rrr dfSSMS /?
RRR dfSSMS /?
x与 y两个变量间是否存在直线关系,可用 F
检验法进行检验。
无效假设 HO,?=0,备择假设 HA,?≠0。
在无效假设成立的条件下,回归均方与离回归均方的比值服从 和 的 F分布,
所以可以用
df1=1,df2=n-2 ( 8-11)
11?df 22 ndf
)2/(/
/

nSS
SS
dfSS
dfSS
MS
MSF
r
R
rr
RR
r
R
下一张 主 页 退 出上一张来检验回归关系即回归方程的显著性。
回归平方和还可用下面的公式计算得到:
( 8-12)
(8-13)
根据( 8-9)式,可得到离回归平方和计算公式为:
22 )]([)?( xxbyySS R
xyx b S PSSbxxb 222 )(
x
xy
xy
x
xy
SS
SPSP
SS
SP 2
下一张 主 页 退 出上一张
x
xy
yRyr SS
SP
SSSSSSSS
2

对于 【 例 8.1】 资料,有而 。于是可以列出方差分析表进行回归关系显著性检验。
,67.8 3 1 4 9 1?ySS,00.3 6 5 8 5?xySP 00.1 6 8 5?xSS
60.79433900.1685 00.36585
22

x
xy
R SS
SP
SS
07.3715260.79433967.831491 Ryr SSSSSS
10212,1,111121 rRy dfdfndf
表 8-2 四川白鹅 70日龄重与雏鹅重回归关系方差分析下一张 主 页 退 出上一张因为,表明四川白鹅 70日龄重与雏鹅重间存在极显著的直线关系。
3、回归系数的显著性检验 — t检验采用回归系数的显著性检验 — t检验也可检验 x与 y间是否存在直线关系。回归系数显著性检验的无效假设和备择假设为
HO,β= 0,HA,β≠0。
01.0,04.1081.213 )10,1(01.0 PFF
t 检验的计算公式为:
( 8-14)
( 8-15)
其中,Sb为回归系数标准误。
2, ndf
S
b
t
b
x
yx
b
SS
S
S?
对于 【 例 8.1】 资 料,已计算得故有
9 52 5.60,00.1 68 5 yxx SSS
4849.11685/9525.60/ xyxb SSSS
62.14
4849.1
7122.21
bS
bt
下一张 主 页 退 出上一张当,查 t值表,得因,,
否定 HO,β= 0,接受 HA,β≠0,即直线回归系数 b=21.7122是极显著的,表明四川白鹅 70 日龄重 与雏鹅重间存在极显著的直线关系,可用所建立的直线回归方程来进行 预测和控制。
102122 ndf
228.2)10(05.0?t 169.3)10(01.0?t
)10(01.062.14 tt 01.0?P
F检验的结果与 t检验的结果一致。
事实上,统计学已证明,在直线回归分析中,这二种检验方法是等价的,可任选一种进行检验。
下一张 主 页 退 出上一张特别要指出的是:利用直线回归方程进行预测或控制时,一般 只 适 用于原来研究的范围,
不能随意把范围扩大,因为在研究的范围内两变量是直线关系,这并不能保证在这研究范围之外仍然是直线关系。若需要扩大预测和控制范围,
则要有充分的理论依据或进一步的实验依据。利用直线回归方程进行预测或控制,一 般只能内插,不要轻易外延。
第二节 直线相关进行直线相关分析的基本任务在于根据
x,y的实际观测值,计算表示两个相关变量
x,y间线性相关程度和性质的统计量 —— 相关系数 r并进行显著性检验。
下一张 主 页 退 出上一张一、决定系数和相关系数在上一节中已经证明了等式:
从这个等式不难看到,y与 x直线回归效果的好坏取决于回归平方和 与离回归平方和的大小,或者说取决于回归平方和在 y的总平方和 中所占的比例的大小。这个比例越大,y与 x的直线回归效果就越好,反之则差。
我们把比值叫 做 x 对 y 的 决定系数 ( coefficient of
determination),记为 r2,即
2)( yy 22 )?()?( yyyy
2)?( yy
2)?( yy
2)( yy
/)?( 2 yy 2)( yy
下一张 主 页 退 出上一张
( 8-24)
决定系数的大小表示了回归方程估测可靠程度的高低,或者说表示了回归直线拟合度的高低。显然有 0≤r2≤1。因为
2
2
2
)(
)?(
yy
yy
r
xyyx
y
xy
x
xy
yx
xy bb
SS
SP
SS
SP
SSSS
SP
yy
yy
r
2
2
2
2
)(
)?(
而 SPxy/SSx是以 x为自变量,y为依变量时的回归系数 byx。 若把 y作为自变量,x作为依变量,则回归系数 bxy =SPxy/Ssy,所以决定系数 r2等于 y对 x的回归系数与 x对 y的回归系数的乘积。这就是说,决定系数反应了
x为自变量,y为依变量和 y为自变量,x为依变量时两个相关变量 x与 y直线相关的信息,
即 决定系数表示了 两个互为因果关系的相关变量间直线相关的程度 。但决定系数介于 0和 1之间,不能反应直线关系的性质 —— 是同向增减或是异向增减。
下一张 主 页 退 出上一张若求 r2的平方根,且取平方根的符号与乘积和 SPxy的符号一致,即与 bxy,byx的符号一致,这样求出的平方根 既可表示 y与 x的直线相关的程度,也可表示直线相关的性质 。统计学上把这样计算所得的统计量称为 x与 y的相关系数( coefficient of correlation),记为 r,即
( 8-25)
( 8-26)
yx
xy
SSSS
SP
r?


n
y
y
n
x
x
n
yx
xy
2
2
2
2
)()(
))((
下一张 主 页 退 出上一张二、相关系数的计算
【 例 8.6】 计算 10只绵羊的胸围( cm)
和体重 (kg) 的相关系数。
表 8-3 10只绵羊胸围和体重资料下一张 主 页 退 出上一张根据表 8-3所列数据先计算出:
代入( 8-25)式得:
即绵羊胸围与体重的相关系数为 0.8475。
6410/)720(51904/)( 222 nxxSS x
57810/)680(4 6 8 1 8/)( 222 nyySS y
16310/)680)(720(49123/))(( nyxxySP xy
8475.0
57864
163?
yx
xy
SSSS
SP
r
下一张 主 页 退 出上一张三、相关系数的显著性检验上述根据实际观测值计算得来的相关系数 r
是样本相关系数,它是双变量正态总体中的总体相关系数 ρ的估计值。样本相关系数 r是否来自 ρ≠0的总体,还须对样本相关系数 r 进行显著性检验。 此 时 无 效 假 设、备 择 假 设 为
HO:ρ=0,HA:ρ≠0。 与直线回归关系显著性检验一样,可采用 t检验法与 F检验法对相关系数 r的显著性进行检验。
t 检验的计算公式为:
t=,df=n-2 (8-27)
其中,,叫做相关系数标准误。
F检验的计算公式为:
F=,df1=1,df2=n-2 (8-28)
rS
r
)2()1( 2 nrS r
)2()1( 2
2
nr
r
下一张 主 页 退 出上一张统计学家已根据相关系数 r显著性 t检验法计算出了临界 r值并列出了表格。 所以 可以直接采用查表法对相关系数 r进行显著性检验。
具体作法是:
先 根 据 自 由 度 n-2 查临界 r 值 ( 附 表 8 ),
得,。 若 |r|<,P> 0.05,则相关系数 r不显著,在 r的右上方标记,ns”;若
≤|r|<,0.01< P≤0.05,则相关系数 r 显著,
在 r的右上方标记,*” ;若 |r|≥,P ≤ 0.01,
则相 关 系 数 r 极显著,在 r 的右上方标记,**” 。
)2(01.0?nr)2(05.0?nr )2(05.0?nr
)2(01.0?nr
)2(01.0?nr
)2(05.0?nr
对于 【 例 8-6】,因为 df =n-2=10-2
=8,查附表 8得,=0.632,
=0.765,而 r=0.8475>,P< 0.01,
表明绵羊胸围与体重的相关系数极显著。
四、相关系数与回归系数的关系从相关系数计算公式的导出可以看到:相关变量 x与 y的相关系数 r是 y对 x的回归系数与 x对
y的相关系数 bxv的几何平均数:
)8(05.0r )8(01.0
r
)8(01.0r
xyyx bbr
下一张 主 页 退 出上一张表明直线相关分析与回归分析关系十分密切。事实上,它们的研究对象都是呈直线关系的相关变量。直线回归分析将二个相关变量区分为自变量和依变量,侧重于寻求它们之间的联系形式 —— 直线回归方程;直线相关分析不区分自变量和依变量,侧重于揭示它们之间的联系程度和性质 —— 计算出相关系数。两种分析所进行的显著性检验都是解决 y与 x间是否存在直线关系。因而二者的检验是等价的。即相关系数显著,回归系数亦显著; 相关系数不显著,回归系数也必然不显著。由于利用查表法对相关系数进行检验十分简便,因此 在实际进行直线回归分析时,可用相关系数显著性检验代替直线回归关系显著性检验,即可先计算出相关系数 r并对其进行显著性检验,若检验结果 r不显著,则用不着建立直线回归方程;若 r
显著,再计算回归系数 b、回归截距 a,建立直线回归方程,此时所建立的直线回归方程代表的直线关系是真实的,可利用来进行预测和控制。
下一张 主 页 退 出上一张五、应用直线回归与相关的注意事项直线回归分析与相关分析在生物科学研究领域中已得到了广泛的应用,但在实际工作中却很容易被误用或作出错误的解释。为了正确地应用直线回归分析和相关分析这一工具,必须注意以下几点:
1、变量间是否存在相关直线回归分析和相关分析毕竟是处理变量间关系的数学方法,在将这些方法应用于生物科学研究时要考虑到生物本身的客观实际情况,譬如变量间是否存在直线相关以及在什么条件下会发生直线相关,求出的直线回归方程是否有意义,某性状作为自变量或依变量的确定等等,都必须由生物科学相应的专业知识来决定,并且还要用到生物科学实践中去检验。如果不以一定的生物科学依据为前提,把风马牛不相及的资料随意凑到一块作直线回归分析或相关分析,那将是根本性的错误。
下一张 主 页 退 出上一张
2、其余变量尽量保持一致由于自然界各种事物间的相互联系和相互制约,
一个变量的变化通常会受到许多其它变量的影响,因此,在研究两个变量间关系时,要求其余变量应尽量保持在同一水平,否则,回归分析和相关分析可能会导致完全虚假的结果。例如研究人的身高和胸围之间的关系,如果体重固定,身高越高的人,胸围越小,
但当体重在变化时,其结果也就会变化。
下一张 主 页 退 出上一张
3,观测值要尽可能的多在进行直线回归与相关分析时,两个变量成对观测值应尽可能多一些,这样可提高分析的精确性,一般至少有 5对以上的观测值 。 同时变量 x的取值范围要尽可能大一些,这样才容易发现两个变量间的变化关系 。
4、外推要谨慎直线回归与相关分析一般是在一定取值区间内对两个变量间的关系进行描述,超出这个区间,变量间关系类型可能会发生改变,所以回归预测必须限制在自变量 x的取值区间以内,外推要谨慎,否则会得出错误的结果。
下一张 主 页 退 出上一张
5,正确理解回归或相关显著与否的含义一个不显著的相关系数并不意味着变量 x和
y之间没有关系,而只有能说明两变量间没有显著的直线关系;一个显著的相关系数或回归系数亦并不意味着 x和 y的关系必定为直线,因为并不排除有能够更好地描述它们关系的非线性方程的存在 。
6、一个显著的回归方程并不一定具有实践上的预测意义如 一 个 资 料 x,y 两 个变量间的相关系数 r
=0.5,在 df = 2 4 时,r0.01(24) = 0,4 9 6,
r>r0.01(24),表明相关系数极显著。而 r2=0.25,即 x
变量或 y变量的总变异能够通过 y变量或 x变量以直线回归的关系来估计的比重只占 25%,其余的 75% 的变异无法借助直线回归来估计。
下一张 主 页 退 出上一张