主讲教师,刘泽仁
制作,刘泽仁
第八章 § 1.相关关系
相
关
与
回
归
分
析 一、相关关系的概念
现象之间的数量关系存在着两
种不同的类型:一种是函数关系,
另一种是相关关系。
函数关系指的是变量之间存在着的严格的依
存关系,它们之间的关系值是固定的,对于某
一变量的每一个值,都 有另一个变量的完全
确定的值与之相对应。
例如,圆的面积等于圆周率乘以半径的平方。
相关关系是指变量之间确实存在的但关系值
不固定的相互依存关系 。 在这种关系中, 当一个
(或几个 )变量的值确定以后, 另一个变量的值虽
与它 (或它们 )有关, 但却不能完全确定 。 这是一
种非确定性的关系 。
例如, 电视机的拥有率与人均收入水平有关,
但对于人均收入水平相同的地区, 其电视机的拥
有率可能不尽相同 。
在客观事物中,尤其是在经济现象中,相关关
系普遍存在。统计很有必要对这种关系进行研究。
在相关关系中,通常,在相互联系的现象之
间存在着一定的因果关系,这时就把其中的起着
影响作用的现象具体化,通过一定的变量反映出
来,这样的变量称为自变量。
由于受到自变量变动的影响而发生变动的变
量称为因变量。
在相关关系中,有时两个变量之间只存在
相互联系而并不存在明显的因果关系。确定哪
一个是自变量,哪一个是因变量,主要决定于
研究的目的。
例如,在粮食亩产量与施肥量之间,施肥量
这一变量是自变量,亩产量这一变量是因变量。
当研究的是两个变量之间的关系时,通常以
符号 X表示自变量,以符号 Y表示因变量。
二、相关关系的种类
相关关系从不同的角度可以划分成不同
的类型。
(一 ) 正相关与负相关
从相关的方向看,相关关系可以分为正相
关和负相关。
负相关是指相关变量之间的变化趋势相反,
即当自变量的值增加,因变量的值随之减少;
当自变量的值减少,因变量的值随之增加。
例如,产品产量与单位产品成本之间的关系。
正相关是指相关变量之间的变化趋势相同,
即当自变量的值增加,因变量的值也随之增加;
当自变量的值减少,因变量的值也随之减少。
例如,汽车的使用年限与汽车的修理费用
之间的关系。
(二 ) 线性相关与非线性相关
从相关的形式上来看,相关关系可分为线
性相关和非线性相关。
线性相关也称直线相关,是指相关的两个
变量之间变化的趋势呈线性或近似于线性。即
自变量发生变动,因变量随之发生变动,其增
加或减少量是大致均等的,从图形上看,其观
察点的分布近似表现为直线形式。
非线性相关也称曲线相关,是指相关的两
个变量之间变化的趋势呈非线性。即自变量发
生变动,因变量随之发生变动,但其增加或减
少量不是均等的,从图形上看,其观察点的分
布表现为各种曲线形式。
(三 ) 单相关和复相关
从相关变量的个数来看,相关关系可分为单
相关和复相关。
单相关是指两个变量之间的相关关系。
复相关是三个或三个以上变量之间的相关关系。
例如,仅仅考虑施肥量对产量的影响,这就
是一种单相关;如果除了施肥量之外,再考虑降
雨量及深耕程度对产量的影响,则这种相关关系
就是一种复相关。
三、回归与相关分析的概念
在对变量之间存在的相关关系进行分析研究
时,最常用的方法就是回归分析和相关分析。回
归分析和相关分析是相互联系的,它们从不同方
面研究变量之间相关关系的本质。
回归分析是用来研究变量之间关系的可能形
式的统计方法。它把两个或两个以上变量之间的
变动关系加以模型化,用数学函数表达变量之间
的关系。运用这种方法时,最终的目的通常在于
预测或估计与某一个或某几个变量的给定值相对
应的另一变量的数值。
相关分析是研究如何计量变量之间关系强度
的统计方法。它能确定变量之间相关的程度,即
变量之间某种关系的确切程度有多大。
回归分析和相关分析既有联系,又有区别。
就其研究对象来说,两者都是研究变量之间的相
关关系。但就彼此研究变量之间关系的性质来看,
两者存在明显的区别。回归分析中,必须将相关
变量区分为自变量和因变量,以确定其关系的可
能形式,所研究变量属于非对等关系。相关分析
中,计量变量之间关系的强度,不必区分自变量
与因变量,所研究变量属于对等的关系。
四、相关图表
对现象变量之间是否存在相关关系以及存
在怎样的相关关系进行分析、作出判断,这是进
行回归和相关分析的前提。通过编制相关表和相
关图,可以直观地、大致地判断现象变量之间是
否存在相关关系以及关系的类型。
(一 ) 相关表
相关表是表现现象变量之间相关关系的
表格。
例如,为研究商店人均月销售额和利润
率的关系,调查 10家商店取得 10对数据,以人
均销售额为自变量,利润率为因变量,编制简
单相关表如下表。
人均销售额与和利润率相关表
编号 人均月销售额 (千元 ) 利润率 (% )
1
2
3
4
5
6
7
8
9
10
1
3
3
4
5
6
6
7
7
8
3.0
6.2
6.6
8.1
10.4
12.6
12.3
16.3
16.8
18.5
(二 ) 相关图
所谓相关图, 是把相关的两个变量之间
的关系在平面直角坐标 (第一象限 )中反映出来 。
通常将自变量 (x)置于横轴上, 因变量 (y)置于
纵轴上, 而将两个变量相对应的变量值用坐标
点形式描绘出来 。 相关图就是用相关点的分布
状况来描述相关关系的, 所以又称为散点图 。
根据相关图, 可以直观地看出变量之间相关关
系的模式 。
例如,前述人均月销售额与利润率的关系,
可用相关图表示如下,
利润率 (%)
人均销售额 (千元 )
1
20
人均销售额与利润率相关图
5
10
15
2 3 8 4 5 6 7
?
? ?
?
? ?
?
? ?
?
从图中,我们可以清楚地看出,这两个变
量之间相关的方向 (即正相关 ) 以及相关的具体
形式 (直线相关 )
(a)直线关系 (b)反直线关系 (c)正曲线关系
(e)较分散的
反直线关系
(d)反曲线关系 (f )没有关系
x与 y的一些可能关系的散点图
上图说明了相关图中的一些可能关系 。 图
(a)和 (b)表示的是正的和反的直线关系, 即正线
性相关和负线性相关 。 图 (c)和 (d)分别表示的是
正的和反的曲线关系, 即正非线性相关和负非
线性相关 。 图 (e)中是散布域很宽的反直线关系 。
散布域越宽, 则表明变量之间的联系程度越差 。
图 ( f )中的图象表明两个变量之间没有什么关系 。
§ 2.简单线性回归
一、回归直线的确定
如果变量 x和 y相关,并且从相关图表中
可以看出它们之间大致形成一种直线关系,
我们就可在相关图上求出一条与各点最相配
合的直线。
由于这些点所代表的若干对数据 —— 观察
值,只是相互有一定关系的变量 x,y的总体中
的一个样本,故这样求出的直线是总体回归直
线的估计线。在估计线上的点的纵坐标是相应
于 x的 y的估计值。
y = a + bx ?
如果这个 y的估计值用 y 表示,则估计线的
方程可写为
?
这叫做样本回归直线。它是 y对 x的回归线,
表明 y对 x的平均关系。
式中 x为受控制的自变量,通常由研究者事先
选定数值。
a为样本回归直线 y的截距,它是样本回归直
线通过纵轴的点的 y坐标;
b为样本回归直线的斜率,它表示当 x增加一
个单位时 y的平均增加数量,b又称回归系数。
如何确定回归直线方程呢?也就是说怎样确
定方程中的参数 a,b呢?
若用 (xi,yi) (i=1,2,… n)表示 n组观察值,则对
任意给定的 xi,可得 y的估计值为
这些数值同实际值 yi之间存在着误差;
yi=a+bxi ?
?i= yi? yi= yi ? a ? bxi ?
Q(a,b)=?? 2=?(y?a?bx)2
为最小。这样便把寻找适当直线问题转化为使
Q(a,b)达到最小条件下求出 a,b的问题。
在回归分析中, 人们普遍采用的是最小二乘
法原则 。 根据最小二乘法的原则, 欲使所求回
归直线 y=a+bx最适合于实际资料, 必须使每个 xi
对应的指标实测值 yi与回归直线确定的估计值 yi
的离差平方之和为最小, 即必须使
?
?
因为 Q(a,b)是 a,b的非负二元函数,所以其最
小值无疑是存在的。根据数学中的极值原理,令,
0 0 ?????? bQ aQ 和
满足上述条件的 a,b即为所求的未知参数。
?
?
? ?
?
?????
?
?
?????
?
?
0)1)((2
0))((2
bxay
a
Q
xbxay
b
Q
由
化简得
?(y?a?bx)=0
?(y?a?bx)x=0
即,?y=na+b?x
?xy=a?x+b?x2
上述方程组称为标准方程组。解之,得,
,
)(
1
1
22 ??
? ? ?
?
?
x
n
x
yx
n
xy-
b
a = y ? bx
?? ?? ynyxnx 1,1,其中
因此即可确定回归方程式为,
y = a + bx ?
这个方程称为在给定样本条件下的一元线性
回归方程,对应的直线称为样本回归直线。显然,
回归方程对于不同的样本是有差别的,因而,它
具有经验的特征,所以在实用上,也将它叫做经
验公式。
为了简化上述回归系数 b的 表达形式,引入
如下离差乘积的和式,
? ?? ?? yxnxy 1Lxy=? (x?x)(y?y)
22 )(1 ?? ?? x
nx
Lxx=? (x?x)2
于是,回归系数可简化为
xx
xy
L
Lb ?
为了相关性检验的需要,顺便引入关于 y
的离差平方和,
22 )(1 ?? ?? y
nyLyy=? (y? y )
2
求回归方程式的系数往往是通过列表进行的。
这里,我们以下表资料为倒,通过求某钢铁厂炼
钢精炼时间对含碳量的回归方程,说明回归方程
的确定。
1
0.9
100
炉次
含碳量 (%)
(x)
精炼时间 (分 )
(y)
某钢铁厂十个炉次钢液含碳量和精炼时间
10 2 3 4 5 6 7 8 9
2.0 1.0 1.2 1.4 1.5 1.6 1.7 1.8 1.9
105 235 130 145 170 175 190 190 220
可以看出,x与 y之间的关系近似为直线
关系。我们可以对其配合一条回归直线。
为计算回归方程的系数 a,b,我们先对
原始数据进行加工。
y x2 y2 xy
100
105
130
145
170
175
190
190
220
235
0.81
1.00
1.44
1.96
2.25
2.56
2.89
3.24
3.61
4.00
10000
11025
16900
21025
28900
30625
36100
36100
48400
55225
90
105
156
203
255
280
323
342
418
470
1660 23.76 294300 2642
炉次 x
1
2
3
4
5
6
7
8
9
10
?
0.9
1.0
1.2
1.4
1.5
1.6
1.7
1.8
1.9
2.0
15.0
原始数据加工表
于是,??? ?? yxnxyL xy 1
1 5 21 6 6 0151012 6 4 2 ?????
?? ?? 22 )(1 xnxL xx
26.1)15(10176.23 2 ????
?? ?? 22 )(1 ynyL yy
1 8 7 4 0)1 6 6 0(1012 9 4 3 0 0 2 ????
51151011,xnx ???? ?
1661 6 6 01011 ???? ? yny
63512261152,.LLb
xx
xy ???
9 5 2 514516 3 51 2 01 6 6,..xbya ???????
所以,
故精炼时间关于含碳量的回归方程为,
y= ?14.9525+120.635x ?
计算结果表明,这个方程显示着钢水溶液的
含碳量每增加 0.1%,则精炼时间平均来说大约要
延长 12.06分。
根据回归方程,可以给出自变量的任一数值
估计或预测因变量的平均可能值。
y=?14.9525+120.635?2.2=150.4445(分 ) ?
例如,求含碳量 2.2%所需的精炼时间,
二、估计平均误差
回归方程的一个重要作用在于根据自变量的
已知值估计因变量的可能值 。 这个估计值和真正
的实际值可能一致, 也可能不一致 。 例如, 当含
碳量为 1.8%时, 推算的炼钢时间为 202.19分钟,
而实际为 190分钟, 相差 12.19分钟 。 这就产生了估
计公式即回归方程的可靠性问题, 也就是说, 根
据回归方程计算的估计值, 其代表性如何?
为了度量估计公式即回归方程的可靠性, 通
常计算估计平均误差 。 估计平均误差度量观察值
回绕着回归直线的变化程度或分散程度 。 通常用 Sy
代表估计平均误差, 其计算公式为,
2
2
?
?
? ?
?
n
)y(y
S y
注意,公式中根号内的分母是 n?2,而不是 n。
这是由于 Q=?(y?y)2有两个线性关系的约束,一
是,一是,因而,Q=?(y?y)2的自
由度为 n?2。
?
?
0???aQ 0???bQ
当实际观测值很多,而且数值较大时,根据上
述公式计算估计平均误差十分麻烦。借助下列公式,
可以简化计算步骤,所得计算结果也相一致。
估计平均误差是一个衡量回归方程代表性大小
的分析指标。估计平均误差愈大,则数据点围绕回
归直线的分散程度就愈大,回归方程的代表性愈小。
估计平均误差愈小,则数据点围绕回归直线的分散
程度愈小,回归方程的代表愈大,其可靠性愈高。
2
2
?
??? ? ? ?
n
xybyayS
y
§ 3.相关系数
相关分析是用以说明变量之间相关程度的
统计工具 。 相关分析常常与回归分析联合使用,
以衡量回归方程所表示的因变量变化的精确度
如何 。 相关分析也可单独用于衡量变量之间的
联系程度 。 本节我们讨论两个变量之间线性相
关程度问题 。 两个变量之间线性相关程度的描
述通常采用相关系数 。
一、相关系数的意义
我们回过头来考察一下线性回归中指标 y
的值 yi与回归估计值 yi 的离差平方和。 ?
2
)(? ??? yyQ
yyxx
xy
LL
L
r ?记
于是有,Q=Lyy(1?r2)
r称为相关系数。它是在线性相关条件下用
来说明两个变量之间相关关系密切程度的指标。
)1(
2
yyxx
xy
yy LL
LL ??
因为 Q≥0,Lyy≥0,故相关系数有一个重要性质,
| r| ≤1
r= ? 1
(1)
?1< r =0
(2)
r=0
(3)
r=0
(4)
0<r<1
(5)
r=1
(6)
相关图与相关系数经验关系
由于 Lyy对于一组实测数据来讲是定值, 故
由 Q= Lyy(1?r2)可知, 当| r|较大接近于 1时, 离
差平方和 Q就较小而接近于 0,此时, y与 x高度相
关 。 特别当| r| =1时, 称它们是完全相关的,
上图 (1),(6)所示 。 当| r|较小而接近于 0时, Q
就大, y与 x的相关关系很弱, 特别当 r=0时, 称
它们线性无关 。 如上图 (3),(4)所示
由于 Lxy可正可负,所以相关系数 r也可正可
负。若 r> 0则称 y与 x正相关,如上图 (5),(6)所示。
此时,随着 x的增大 (或减小 ),y将呈现增大 (或减
小 )的趋势。特别对于上图 (6)的情形,由于 r=1,
故称完全正相关。若 r<0,则称 y与 x负相关,如
上图 (1),(2)所示。此时,随着 x的增大 (或减小 ),
y将呈现减小 (或增大 )的趋势。特别对于图 (1)的情
形。由于 r= ?1,故称为完全负相关。
应当注意,相关系数 r只表明 x与 y之间的线性
关系的密切程度和方向。当 r很小甚至为 0时,只
表明 x与 y之间的线性关系不密切,或不存在线性
关系,并不表示 x与 y之间就没有关系,可能二者
之间有非线性关系。如上图 (4)所示,x与 y之间就
存在着曲线关系。
二、相关系数的计算
我们已经知道,相关系数的公式为,
第二节中我们介绍了离差乘积的和式,
yyxx
xy
LL
L
r ?
? ?? ? ????? yxnxyyyxxL xy 1))((
222 )(1)( ?? ? ???? x
nxxxL xx
222 )(1)( ?? ? ???? y
nyyyL yy
于是有,
22 )()(
))((
yyxx
yyxxr
?????
????
2222
)(
1
)(
1
1
y
n
yx
n
x
yx
n
xy
r
???????
????
?
如果将分子分母同乘以 n,又可得,
2222 )()( yynxxn
yxxynr
???????
?????
根据第二节中炼钢厂钢液含碳量与精炼时间资
料,可计算相关系数。那里,我们已经求得,
1 5 21 ?????? yxnxyL xy
26.1)(1 22 ????? xnxL xx
1 8 7 4 0)(1 22 ????? ynyL yy
于是其相关系数为,
计算得出 r=0.9892,表明精炼时间和含
碳量之间为正相关关系。而且 r值接近于 1,
表示两者关系很密切。
98920
18740261
152,
.LL
L
r
yyxx
xy ?
?
?
?
?
三、线性相关的显著性检验
回归方程在一定程度上揭示了变量之间的
内在联系,但它所揭示的规律性是否显著?只
有当相关系数 r的绝对值大到一定程度时,用回
归直线表示 x与 y之间的关系,并说明相关系数 r
显著,配置回归直线才有意义。
那么| r|究竟大到多大时,x与 y之间才存
在线性关系,配置回归直线才有意义呢?
为了给出相关系数的定量刻划, 相关系数
显著性检验表给出了显著性水平 a为 0.10,0.05,
0.02,0.01,0.001时的临界值 。 如果相关系数观
测值 r大于相应的临界值, 则认为 y与 x的线性相
关关系是显著的, 配置回归直线有意义 。 否则
便认为 y与 x的线性相关关系不显著 。
查表时,使用的自由度为 n?m?1。其中 n为
样本容量,m为参与试验的因素个数,因而,
在一元回归场合下查表用自由度为 n?2。
对于第二节中的资料,我们算得相关系数
r=0.9892。
若 a=0.01,查表得临界值,
r(0.01; 10?2)=0.7646
| 0.9892| >r(0.01; 10 ?2)
所以,第二节中求得的回归方程所表达的
精炼时间 y与钢液含碳百分比之间的线性关系对
于 a=0.01是显著的,也就是说配置的回归方程有
意义。这种显著性通常称为高度显著。
制作,刘泽仁
第八章 § 1.相关关系
相
关
与
回
归
分
析 一、相关关系的概念
现象之间的数量关系存在着两
种不同的类型:一种是函数关系,
另一种是相关关系。
函数关系指的是变量之间存在着的严格的依
存关系,它们之间的关系值是固定的,对于某
一变量的每一个值,都 有另一个变量的完全
确定的值与之相对应。
例如,圆的面积等于圆周率乘以半径的平方。
相关关系是指变量之间确实存在的但关系值
不固定的相互依存关系 。 在这种关系中, 当一个
(或几个 )变量的值确定以后, 另一个变量的值虽
与它 (或它们 )有关, 但却不能完全确定 。 这是一
种非确定性的关系 。
例如, 电视机的拥有率与人均收入水平有关,
但对于人均收入水平相同的地区, 其电视机的拥
有率可能不尽相同 。
在客观事物中,尤其是在经济现象中,相关关
系普遍存在。统计很有必要对这种关系进行研究。
在相关关系中,通常,在相互联系的现象之
间存在着一定的因果关系,这时就把其中的起着
影响作用的现象具体化,通过一定的变量反映出
来,这样的变量称为自变量。
由于受到自变量变动的影响而发生变动的变
量称为因变量。
在相关关系中,有时两个变量之间只存在
相互联系而并不存在明显的因果关系。确定哪
一个是自变量,哪一个是因变量,主要决定于
研究的目的。
例如,在粮食亩产量与施肥量之间,施肥量
这一变量是自变量,亩产量这一变量是因变量。
当研究的是两个变量之间的关系时,通常以
符号 X表示自变量,以符号 Y表示因变量。
二、相关关系的种类
相关关系从不同的角度可以划分成不同
的类型。
(一 ) 正相关与负相关
从相关的方向看,相关关系可以分为正相
关和负相关。
负相关是指相关变量之间的变化趋势相反,
即当自变量的值增加,因变量的值随之减少;
当自变量的值减少,因变量的值随之增加。
例如,产品产量与单位产品成本之间的关系。
正相关是指相关变量之间的变化趋势相同,
即当自变量的值增加,因变量的值也随之增加;
当自变量的值减少,因变量的值也随之减少。
例如,汽车的使用年限与汽车的修理费用
之间的关系。
(二 ) 线性相关与非线性相关
从相关的形式上来看,相关关系可分为线
性相关和非线性相关。
线性相关也称直线相关,是指相关的两个
变量之间变化的趋势呈线性或近似于线性。即
自变量发生变动,因变量随之发生变动,其增
加或减少量是大致均等的,从图形上看,其观
察点的分布近似表现为直线形式。
非线性相关也称曲线相关,是指相关的两
个变量之间变化的趋势呈非线性。即自变量发
生变动,因变量随之发生变动,但其增加或减
少量不是均等的,从图形上看,其观察点的分
布表现为各种曲线形式。
(三 ) 单相关和复相关
从相关变量的个数来看,相关关系可分为单
相关和复相关。
单相关是指两个变量之间的相关关系。
复相关是三个或三个以上变量之间的相关关系。
例如,仅仅考虑施肥量对产量的影响,这就
是一种单相关;如果除了施肥量之外,再考虑降
雨量及深耕程度对产量的影响,则这种相关关系
就是一种复相关。
三、回归与相关分析的概念
在对变量之间存在的相关关系进行分析研究
时,最常用的方法就是回归分析和相关分析。回
归分析和相关分析是相互联系的,它们从不同方
面研究变量之间相关关系的本质。
回归分析是用来研究变量之间关系的可能形
式的统计方法。它把两个或两个以上变量之间的
变动关系加以模型化,用数学函数表达变量之间
的关系。运用这种方法时,最终的目的通常在于
预测或估计与某一个或某几个变量的给定值相对
应的另一变量的数值。
相关分析是研究如何计量变量之间关系强度
的统计方法。它能确定变量之间相关的程度,即
变量之间某种关系的确切程度有多大。
回归分析和相关分析既有联系,又有区别。
就其研究对象来说,两者都是研究变量之间的相
关关系。但就彼此研究变量之间关系的性质来看,
两者存在明显的区别。回归分析中,必须将相关
变量区分为自变量和因变量,以确定其关系的可
能形式,所研究变量属于非对等关系。相关分析
中,计量变量之间关系的强度,不必区分自变量
与因变量,所研究变量属于对等的关系。
四、相关图表
对现象变量之间是否存在相关关系以及存
在怎样的相关关系进行分析、作出判断,这是进
行回归和相关分析的前提。通过编制相关表和相
关图,可以直观地、大致地判断现象变量之间是
否存在相关关系以及关系的类型。
(一 ) 相关表
相关表是表现现象变量之间相关关系的
表格。
例如,为研究商店人均月销售额和利润
率的关系,调查 10家商店取得 10对数据,以人
均销售额为自变量,利润率为因变量,编制简
单相关表如下表。
人均销售额与和利润率相关表
编号 人均月销售额 (千元 ) 利润率 (% )
1
2
3
4
5
6
7
8
9
10
1
3
3
4
5
6
6
7
7
8
3.0
6.2
6.6
8.1
10.4
12.6
12.3
16.3
16.8
18.5
(二 ) 相关图
所谓相关图, 是把相关的两个变量之间
的关系在平面直角坐标 (第一象限 )中反映出来 。
通常将自变量 (x)置于横轴上, 因变量 (y)置于
纵轴上, 而将两个变量相对应的变量值用坐标
点形式描绘出来 。 相关图就是用相关点的分布
状况来描述相关关系的, 所以又称为散点图 。
根据相关图, 可以直观地看出变量之间相关关
系的模式 。
例如,前述人均月销售额与利润率的关系,
可用相关图表示如下,
利润率 (%)
人均销售额 (千元 )
1
20
人均销售额与利润率相关图
5
10
15
2 3 8 4 5 6 7
?
? ?
?
? ?
?
? ?
?
从图中,我们可以清楚地看出,这两个变
量之间相关的方向 (即正相关 ) 以及相关的具体
形式 (直线相关 )
(a)直线关系 (b)反直线关系 (c)正曲线关系
(e)较分散的
反直线关系
(d)反曲线关系 (f )没有关系
x与 y的一些可能关系的散点图
上图说明了相关图中的一些可能关系 。 图
(a)和 (b)表示的是正的和反的直线关系, 即正线
性相关和负线性相关 。 图 (c)和 (d)分别表示的是
正的和反的曲线关系, 即正非线性相关和负非
线性相关 。 图 (e)中是散布域很宽的反直线关系 。
散布域越宽, 则表明变量之间的联系程度越差 。
图 ( f )中的图象表明两个变量之间没有什么关系 。
§ 2.简单线性回归
一、回归直线的确定
如果变量 x和 y相关,并且从相关图表中
可以看出它们之间大致形成一种直线关系,
我们就可在相关图上求出一条与各点最相配
合的直线。
由于这些点所代表的若干对数据 —— 观察
值,只是相互有一定关系的变量 x,y的总体中
的一个样本,故这样求出的直线是总体回归直
线的估计线。在估计线上的点的纵坐标是相应
于 x的 y的估计值。
y = a + bx ?
如果这个 y的估计值用 y 表示,则估计线的
方程可写为
?
这叫做样本回归直线。它是 y对 x的回归线,
表明 y对 x的平均关系。
式中 x为受控制的自变量,通常由研究者事先
选定数值。
a为样本回归直线 y的截距,它是样本回归直
线通过纵轴的点的 y坐标;
b为样本回归直线的斜率,它表示当 x增加一
个单位时 y的平均增加数量,b又称回归系数。
如何确定回归直线方程呢?也就是说怎样确
定方程中的参数 a,b呢?
若用 (xi,yi) (i=1,2,… n)表示 n组观察值,则对
任意给定的 xi,可得 y的估计值为
这些数值同实际值 yi之间存在着误差;
yi=a+bxi ?
?i= yi? yi= yi ? a ? bxi ?
Q(a,b)=?? 2=?(y?a?bx)2
为最小。这样便把寻找适当直线问题转化为使
Q(a,b)达到最小条件下求出 a,b的问题。
在回归分析中, 人们普遍采用的是最小二乘
法原则 。 根据最小二乘法的原则, 欲使所求回
归直线 y=a+bx最适合于实际资料, 必须使每个 xi
对应的指标实测值 yi与回归直线确定的估计值 yi
的离差平方之和为最小, 即必须使
?
?
因为 Q(a,b)是 a,b的非负二元函数,所以其最
小值无疑是存在的。根据数学中的极值原理,令,
0 0 ?????? bQ aQ 和
满足上述条件的 a,b即为所求的未知参数。
?
?
? ?
?
?????
?
?
?????
?
?
0)1)((2
0))((2
bxay
a
Q
xbxay
b
Q
由
化简得
?(y?a?bx)=0
?(y?a?bx)x=0
即,?y=na+b?x
?xy=a?x+b?x2
上述方程组称为标准方程组。解之,得,
,
)(
1
1
22 ??
? ? ?
?
?
x
n
x
yx
n
xy-
b
a = y ? bx
?? ?? ynyxnx 1,1,其中
因此即可确定回归方程式为,
y = a + bx ?
这个方程称为在给定样本条件下的一元线性
回归方程,对应的直线称为样本回归直线。显然,
回归方程对于不同的样本是有差别的,因而,它
具有经验的特征,所以在实用上,也将它叫做经
验公式。
为了简化上述回归系数 b的 表达形式,引入
如下离差乘积的和式,
? ?? ?? yxnxy 1Lxy=? (x?x)(y?y)
22 )(1 ?? ?? x
nx
Lxx=? (x?x)2
于是,回归系数可简化为
xx
xy
L
Lb ?
为了相关性检验的需要,顺便引入关于 y
的离差平方和,
22 )(1 ?? ?? y
nyLyy=? (y? y )
2
求回归方程式的系数往往是通过列表进行的。
这里,我们以下表资料为倒,通过求某钢铁厂炼
钢精炼时间对含碳量的回归方程,说明回归方程
的确定。
1
0.9
100
炉次
含碳量 (%)
(x)
精炼时间 (分 )
(y)
某钢铁厂十个炉次钢液含碳量和精炼时间
10 2 3 4 5 6 7 8 9
2.0 1.0 1.2 1.4 1.5 1.6 1.7 1.8 1.9
105 235 130 145 170 175 190 190 220
可以看出,x与 y之间的关系近似为直线
关系。我们可以对其配合一条回归直线。
为计算回归方程的系数 a,b,我们先对
原始数据进行加工。
y x2 y2 xy
100
105
130
145
170
175
190
190
220
235
0.81
1.00
1.44
1.96
2.25
2.56
2.89
3.24
3.61
4.00
10000
11025
16900
21025
28900
30625
36100
36100
48400
55225
90
105
156
203
255
280
323
342
418
470
1660 23.76 294300 2642
炉次 x
1
2
3
4
5
6
7
8
9
10
?
0.9
1.0
1.2
1.4
1.5
1.6
1.7
1.8
1.9
2.0
15.0
原始数据加工表
于是,??? ?? yxnxyL xy 1
1 5 21 6 6 0151012 6 4 2 ?????
?? ?? 22 )(1 xnxL xx
26.1)15(10176.23 2 ????
?? ?? 22 )(1 ynyL yy
1 8 7 4 0)1 6 6 0(1012 9 4 3 0 0 2 ????
51151011,xnx ???? ?
1661 6 6 01011 ???? ? yny
63512261152,.LLb
xx
xy ???
9 5 2 514516 3 51 2 01 6 6,..xbya ???????
所以,
故精炼时间关于含碳量的回归方程为,
y= ?14.9525+120.635x ?
计算结果表明,这个方程显示着钢水溶液的
含碳量每增加 0.1%,则精炼时间平均来说大约要
延长 12.06分。
根据回归方程,可以给出自变量的任一数值
估计或预测因变量的平均可能值。
y=?14.9525+120.635?2.2=150.4445(分 ) ?
例如,求含碳量 2.2%所需的精炼时间,
二、估计平均误差
回归方程的一个重要作用在于根据自变量的
已知值估计因变量的可能值 。 这个估计值和真正
的实际值可能一致, 也可能不一致 。 例如, 当含
碳量为 1.8%时, 推算的炼钢时间为 202.19分钟,
而实际为 190分钟, 相差 12.19分钟 。 这就产生了估
计公式即回归方程的可靠性问题, 也就是说, 根
据回归方程计算的估计值, 其代表性如何?
为了度量估计公式即回归方程的可靠性, 通
常计算估计平均误差 。 估计平均误差度量观察值
回绕着回归直线的变化程度或分散程度 。 通常用 Sy
代表估计平均误差, 其计算公式为,
2
2
?
?
? ?
?
n
)y(y
S y
注意,公式中根号内的分母是 n?2,而不是 n。
这是由于 Q=?(y?y)2有两个线性关系的约束,一
是,一是,因而,Q=?(y?y)2的自
由度为 n?2。
?
?
0???aQ 0???bQ
当实际观测值很多,而且数值较大时,根据上
述公式计算估计平均误差十分麻烦。借助下列公式,
可以简化计算步骤,所得计算结果也相一致。
估计平均误差是一个衡量回归方程代表性大小
的分析指标。估计平均误差愈大,则数据点围绕回
归直线的分散程度就愈大,回归方程的代表性愈小。
估计平均误差愈小,则数据点围绕回归直线的分散
程度愈小,回归方程的代表愈大,其可靠性愈高。
2
2
?
??? ? ? ?
n
xybyayS
y
§ 3.相关系数
相关分析是用以说明变量之间相关程度的
统计工具 。 相关分析常常与回归分析联合使用,
以衡量回归方程所表示的因变量变化的精确度
如何 。 相关分析也可单独用于衡量变量之间的
联系程度 。 本节我们讨论两个变量之间线性相
关程度问题 。 两个变量之间线性相关程度的描
述通常采用相关系数 。
一、相关系数的意义
我们回过头来考察一下线性回归中指标 y
的值 yi与回归估计值 yi 的离差平方和。 ?
2
)(? ??? yyQ
yyxx
xy
LL
L
r ?记
于是有,Q=Lyy(1?r2)
r称为相关系数。它是在线性相关条件下用
来说明两个变量之间相关关系密切程度的指标。
)1(
2
yyxx
xy
yy LL
LL ??
因为 Q≥0,Lyy≥0,故相关系数有一个重要性质,
| r| ≤1
r= ? 1
(1)
?1< r =0
(2)
r=0
(3)
r=0
(4)
0<r<1
(5)
r=1
(6)
相关图与相关系数经验关系
由于 Lyy对于一组实测数据来讲是定值, 故
由 Q= Lyy(1?r2)可知, 当| r|较大接近于 1时, 离
差平方和 Q就较小而接近于 0,此时, y与 x高度相
关 。 特别当| r| =1时, 称它们是完全相关的,
上图 (1),(6)所示 。 当| r|较小而接近于 0时, Q
就大, y与 x的相关关系很弱, 特别当 r=0时, 称
它们线性无关 。 如上图 (3),(4)所示
由于 Lxy可正可负,所以相关系数 r也可正可
负。若 r> 0则称 y与 x正相关,如上图 (5),(6)所示。
此时,随着 x的增大 (或减小 ),y将呈现增大 (或减
小 )的趋势。特别对于上图 (6)的情形,由于 r=1,
故称完全正相关。若 r<0,则称 y与 x负相关,如
上图 (1),(2)所示。此时,随着 x的增大 (或减小 ),
y将呈现减小 (或增大 )的趋势。特别对于图 (1)的情
形。由于 r= ?1,故称为完全负相关。
应当注意,相关系数 r只表明 x与 y之间的线性
关系的密切程度和方向。当 r很小甚至为 0时,只
表明 x与 y之间的线性关系不密切,或不存在线性
关系,并不表示 x与 y之间就没有关系,可能二者
之间有非线性关系。如上图 (4)所示,x与 y之间就
存在着曲线关系。
二、相关系数的计算
我们已经知道,相关系数的公式为,
第二节中我们介绍了离差乘积的和式,
yyxx
xy
LL
L
r ?
? ?? ? ????? yxnxyyyxxL xy 1))((
222 )(1)( ?? ? ???? x
nxxxL xx
222 )(1)( ?? ? ???? y
nyyyL yy
于是有,
22 )()(
))((
yyxx
yyxxr
?????
????
2222
)(
1
)(
1
1
y
n
yx
n
x
yx
n
xy
r
???????
????
?
如果将分子分母同乘以 n,又可得,
2222 )()( yynxxn
yxxynr
???????
?????
根据第二节中炼钢厂钢液含碳量与精炼时间资
料,可计算相关系数。那里,我们已经求得,
1 5 21 ?????? yxnxyL xy
26.1)(1 22 ????? xnxL xx
1 8 7 4 0)(1 22 ????? ynyL yy
于是其相关系数为,
计算得出 r=0.9892,表明精炼时间和含
碳量之间为正相关关系。而且 r值接近于 1,
表示两者关系很密切。
98920
18740261
152,
.LL
L
r
yyxx
xy ?
?
?
?
?
三、线性相关的显著性检验
回归方程在一定程度上揭示了变量之间的
内在联系,但它所揭示的规律性是否显著?只
有当相关系数 r的绝对值大到一定程度时,用回
归直线表示 x与 y之间的关系,并说明相关系数 r
显著,配置回归直线才有意义。
那么| r|究竟大到多大时,x与 y之间才存
在线性关系,配置回归直线才有意义呢?
为了给出相关系数的定量刻划, 相关系数
显著性检验表给出了显著性水平 a为 0.10,0.05,
0.02,0.01,0.001时的临界值 。 如果相关系数观
测值 r大于相应的临界值, 则认为 y与 x的线性相
关关系是显著的, 配置回归直线有意义 。 否则
便认为 y与 x的线性相关关系不显著 。
查表时,使用的自由度为 n?m?1。其中 n为
样本容量,m为参与试验的因素个数,因而,
在一元回归场合下查表用自由度为 n?2。
对于第二节中的资料,我们算得相关系数
r=0.9892。
若 a=0.01,查表得临界值,
r(0.01; 10?2)=0.7646
| 0.9892| >r(0.01; 10 ?2)
所以,第二节中求得的回归方程所表达的
精炼时间 y与钢液含碳百分比之间的线性关系对
于 a=0.01是显著的,也就是说配置的回归方程有
意义。这种显著性通常称为高度显著。