第八章 相关与回归分析
第一节 相关分析的意义和任务
一、相关关系的概念 (注意相关关系与函数关系的区别 )
(一 ) 函数关系
它 反映着现象之间存在着严格的依存关系,
也就是具有确定性的对应关系,这种关系可用一
个数学表达式反映出来。
例 如某种商品的销售额和销售量之间,由于
价格因素,所以两者可表现为严格的依存关系。
(二 ) 相关关系
它 反映着现象之间的数量上不严格的依存关系,
也就是说两者之间不具有确定性的对应关系,这种关
系有二个明显特点:
1.现 象之间确实存在数量上的依存关系,即某一社
会经济现象变化要引起另一社会经济现象的变化;
2.现 象之间的这种依存关系是不严格的,即无法用
数学公式表示。
商品价格和商品销售量之间,存在着一
定的依存关系,即商品价格发生变动,商品
的销售量也会随之发生变动。
在 具有相互依存关系的两个变量中,作为
根据的变量称自变量,一般用 X表示;发生对
应变化的变量称因变量,一般用 y表示。

二、相关关系的种类
1.按 相关关系涉及的因素多少来分,可分为:
单相关和复相关。
在实际工作中,如存在多个自变量,可抓住
其中主要的自变量,研究其相关关系,而保持另
一些因素不变,这时复相关可转化为 偏相关 。
二因素之间的相关关系称 单相关,即只涉
及一个自变量和一个因变量。
三个或三个以上因素的相关关系称 复相关,
或多元相关,即涉及二个或二个以上的自变量和
因变量。
2.按 相关关系的性质来分,可分为,
正相关和负相关
正相关 是指两相关现象变化的方向是一致的。
负相关 是指两相关现象变化的方向是相反的。
3,按 相关关系的形式来分,可分为:
直线相关和曲线相关
直线相关 是指两个相关现象之间,当自变量 X
的数值发生变动时,因变量 y随之发生近似于固定比
例的变动,在相关图上的散点近似地表现为直线形式,
因此称其为直线相关关系。
曲线相关 是指两个相关现象之间,当自变量 X
的数值发生变动时,因变量 y也随之发生变动,但这
种变动在数值上不成固定比例,在相关图上的散点可
表现为抛物线、指数曲线、双曲线等形式,因此称其
为曲线相关关系。
4,按 相关程度分,可分为:
完全相关、不完全相关和不相关
完全相关 就是相关现象之间的关系是完全确定
的关系,因而完全相关关系就是函数关系。
不相关 是指两现象之间在数量上的变化上各自
独立,互不影响。
不完全相关 就是介于完全相关和不相关之间的
一种相关关系。相关分析的对象主要是不完全相关
关系。
三、相关分析的任务和内容
相关分析的主要任务,概括起来是两个方面:
一方面,研究现象之间关系的密切程度,即相
关分析;
另一方面,研究自变量与因变量之间的变动关
系,即回归分析。
相关分析的主要内容包括以下五个方面:
1,判 断社会经济现象之间是否存在相互依存
的关系,是直线相关,还是曲线相关,这
是相关分析的出发点;
2,确 定相关关系的密切程度;
3,测 定两个变量之间的一般关系值;
4,测 定因变量估计值和实际值之间的差异,
用以反映因变量估计值的可靠程度;
5,相 关系数的显著性检验。
第二节 简单线性相关分析
一、相关表和相关图
相关图,也称散布图 (或散点图 )。
?
?
?
?
?
?
简 单 相 关 表 — 根 据 总 体 单 位 的 原 始 资 料 汇 编 的 相 关 表
分 组 相 关 表 — 将 原 始 资 料 进 行 分 组 而 编 制 的 相 关 表
单 变 量 分 组 表 — 按 自 变 量 分 组
双 变 量 分 组 表 — 按 自 变 量 和 因 变 量 均 分 组
某市 1996年 — 2003年的工资性现金支出与城镇储蓄存款余额的资料,
说明简单相关表和相关图的编制方法。
从表可看出,随着工资性现金支出的增加,城镇储蓄存款余额有明显
的增长趋势。所以,资料表明 (如图 )有明显的直线相关趋势。
序号 年份
工资性
现金支出
(万元 )x
城镇储蓄
存款余额
(万元 )y
1 1996 500 120
2 1997 540 140
3 1998 620 150
4 1999 730 200
5 2000 900 280
6 2001 970 350
7 2002 1050 450
8 2003 1170 510
50
100
150
200
250
300
350
400
450
500
550
400 500 600 700 800 900 1000 1100 1200
1¤×ê D? ?? ?e ?§3? ( íò ?a )
3?

′¢
D?
′?
??
óà
??
(
íò
?a
)
例 1
企业按销售额分组
(万元 )
流通费用率
(%)
4以下 9.65
4 ~ 8 7.68
8 ~ 12 7.25
12 ~ 16 7.00
16 ~ 20 6.86
20 ~ 24 6.73
24 ~ 28 6.64
28 ~ 32 6.60
32 ~ 36 6.58
6
6.5
7
7.5
8
8.5
9
9.5
10
0 4 8 12 16 20 24 28 32 36
销售额( 万元)
流通费用率(
%
)
例 2
二、相关系数
相 关系数是在直线相关条件下,表明两
个现象之间相关关系的方向和密切程度的综
合性指标。一般用符号 r表示。
r的测定方法:
2
2
22
22
1
( ) ( )
11
( ) ( )
( ) ( )
( ) ( )
1.
xy
xy
xy
xy
r x x y y
n
x x y y
nn
x x y y
r
x x y y
?
?
??
??
? ? ? ??
?
? ? ? ???
???
??
? ? ???
积 差 法,
仍以上例 1资料计算:




x
(万元 )
y
(万元 )
1 1996 500 120 -310 -155 96100 24025 48050
2 1997 540 140 -270 -135 72900 18225 36450
3 1998 620 150 -190 -125 36100 15625 23750
4 1999 730 200 -80 -75 6400 5625 6000
5 2000 900 280 90 5 8100 25 450
6 2001 970 350 160 75 25600 5625 12000
7 2002 1050 450 240 175 57600 30625 42000
8 2003 1170 510 360 235 129600 55225 84600
合计 6480 2200 - - 432400 155000 253300
? ?? ?yyxx ??? ?2yy?? ?2xx?yy?xx?
经过计算,表明该市工资性现金支出与城镇储蓄存款余额之间存
在着高度正相关。
98.0
1 5 5 0 0 04 3 2 4 0 0
2 5 3 3 0 0
)()(
))((
)(275
8
2200
),(810
8
6480
22
??
???
??
??
??
?
???
?
?
??
?
yyxx
yyxx
r
n
y
y
n
x
x 万元万元
r
r
r
r
< 0, 3 时, 没 有 关 系 ;
0, 3 ≤ < 0, 5 时, 称 低 度 相 关 ;
0, 5 ≤ < 0, 8 时, 称 显 著 相 关 ( 或 中 度 相 关 ) ;
≥ 0, 8 时, 称 高 度 相 关 ;
一 般 标 准 如 下,
对 r的解释如下,(即 r的特点 )
(1) r取正值或负值决定于分子协方差;
(2) r的绝对值,在 0与 1之间;
(3) r的绝对值大小,可说明现象之间相关关系的紧
密程度。
积差法公式进一步化简如下:
? ?
? ? ? ? ? ?
? ?
? ?
? ? ? ?
? ? ? ?
? ? ? ?
? ? ? ?
2
2 2
22
2 2 2
22
2
2
2
22
22
22
2
xx
x x x x x x x x
nn
x x x
xx
n n n
y
y y y
n
xy
x x y y xy
n
xy
xy
n
r
xy
xy
nn
????
??
? ? ? ? ? ? ? ?? ? ? ? ?
????
??
??
? ? ?
? ? ? ? ???
?
? ? ???
??
? ? ? ???
??
??
??
??
????
同 理,
Q
2.简捷法
? ? ? ?
? ? ? ?
? ? ? ?
? ? ? ?
22
22
22
22
xy
xy
n
r
xy
xy
nn
n xy x y
n x x n y y
??
??
?
??
????
?? ? ?
?
??? ? ? ?
资料计算如下:
? ?? ?
? ? ? ?
98.0
11141859
2 0 2 6 4 0 0
22007 6 0 0 0 0864805 6 8 1 2 0 08
220064802 0 3 5 3 0 08
22
2222
?
?
?
????
???
?
??????
????
?
yynxxn
yxxyn
r
序号 年份 x(万元 ) y(万元 ) x2 y2 xy
1 1996 500 120 250000 14400 60000
2 1997 540 140 291600 19600 75000
3 1998 620 150 384400 22500 93000
4 1999 730 200 532900 40000 146000
5 2000 900 280 810000 78400 252000
6 2001 970 350 940900 122500 339500
7 2002 1050 450 1102500 202500 472500
8 2003 1170 510 1368900 260100 596700
合计 6480 2200 5681200 760000 2035300
3.从单变量分组表计算相关系数
22
( ) ( )
( ) ( )
,
x x y y f
r
x x f y y f
x f y f
xy
ff
???
?
????
????
??
积 差 法,
其 中,
? ? ? ?
? ? ? ?2222
f x y f x f y fr
f x f x f f y f y f
?? ? ? ??
??? ? ? ? ? ?
简 捷 法,
三、简单线性相关分析的特点
通过对 r的计算方法的讨论,可看出二个明显特点:
2,相 关关系中只能计算出一个相关系数 r。
1,相 关关系中,两个变量不必定出哪个是自变量,哪
个是因变量,因此,相关的两个变量都是随机变量;
第三节 回归分析
在 回归分析中,两个变量之间的回归称
为简单回归,两个以上变量之间的回归称为
复回归。无论是简单回归还是复回归,数学
模型均有线性 (直线 )回归和非线性 (曲线 )回
归之分。
一、直线回归
(一 ) 简单直线回归分析
简 单直线回归方程的一般形式为:
yc=a+bx
yc —— 因变量的估计值;
x —— 自变量;
a —— 回归直线在 y轴上的截距;
b —— 回归直线的斜率,称回归系数,表明 x每增加
一个单位,因变量 yc的平均变化值
b>0,x与 y为正相关
b<0,x与 y为负相关
a,b的确定:
在 简单直线回归方程中,a,b为待定系数,常用
最小平方法来确定,即 ∑ (y-yc)2=最小值。
2
y na b x
x y a x b x
?
?
?
????
??? ? ?

22 ()
n xy x y
b
n x x
y x
ab
nn
?
??
?
?
??
?? ? ?
?
???
? ???
简单直线回归方程建立的步骤为:
① 确 定自变量 x和因变量 y;
② 计 算 x2,xy,Σx, Σy, Σx 2,Σxy ;
③ 代 入公式,先求 b,再求 a。
仍用上例 1资料得到:
yc = -199.5 + 0.5858x
表明该市工资性现金支出每增加 1万元,储
蓄存款余额就增加 0.5858万元。
举例说明 b(回归系数 )在经济管理中的作用:
某企业的某种产品月产量与单位成本的关系呈
直线关系,用直线回归方程表示是:
yc=77.36-1.818x,其中,
x表示月产量 (千件 )
y表示单位成本 (元 );
a=77.36(元 ),表示生产这种产品在单位
成本方面的条件;
b=-1.818,表示月产品每增加 1000件,
单位成本平均降低 1.818元。
从单变量分组表配合回归直线:
? ? ? ?
? ?
2
2
2
c
y a bx
y f a f b xf
xy f a xf b x f
f xy f xf y f
b
f x f xf
y f xf
a y b x b
ff
?
?
?
?
?
?
?
?
?
?
??
??? ? ?
??? ? ?
?? ? ? ?
?
?? ? ?
??
? ? ? ?
??
方 法 基 本 上 与 上 述 相 同, 只 是 在 计 算 过 程 中
要 采 用 加 权 方 法,
简单直线回归分析的主要特点:
1.直 线回归分析时,要根据研究目的,在两
个变量之间确定哪个是自变量,哪个是因变量。
2.在 两个现象互为根据的情况下,可以有两
个回归方程:
yc=a+bx 称 y倚 x回归直线
xc=c+dy 称 x倚 y回归直线
(二 ) 多元线性回归分析
多 元线性回归分析可以看作是一元线
性回归分析的扩展。现以二元线性回归模
型进行回归分析,其方程式为:
为 因 变 量 估 计 值
、, 为 参 数
确 定,, 的 数 值, 也 要 用 最 小 平 方 法, 使 为
最 小 值, 根 据 微 分 学 中 求 极 值 的 原 理, 对,, 分 别 求
偏 导 数 并 令 其 为 零, 便 可 求 得 如 下 三 个 规 范 方 程,
1 1 2 2
12
2
12
12
1 1 2 2
2
1 1 1 1 2 1 2
2 2 1 1 2 2
()
c
c
c
y a b x b x
y
a b b
a b b y y
a b b
y n a b x b x
x y a x b x b x x
x y a x b x x b
? ? ?
??
? ? ?? ? ?
? ? ?? ? ? ?
? ? ?? ? ?
2
2
x
?
?
?
?
? ?
以我国 1973- 1983年 11年手表价格和手表销售量
的实际资料为例,拟合一元线性回归方程为:
yc= 9643 - 65x
此时,回归系数 b表明,手表平均价格每降低 1元 /只,
销售量约平均增长 65万只。一元线性回归模型只列入
了手表平均价格对销售量的影响,而忽略了居民收入
这一很重要的因素,因此,现对此资料补入同期居民
人均货币收入资料,将原来的一元线性回归模型扩展
为二元线性回归模型进行回归分析。

列成计算表如下:
年份
(n=11)
手表销售量
y(万只 )
人均货
币收入
x1(元 )
手表平
均价格
x2(元 /只 )
x1y x2y x1x2
1973 650.4 102.1 134 66405.84 87153.6 13681.4
1974 758.4 105.3 134 79859.52 101625.6 14110.2
1975 819.9 110.1 129 90270.99 105767.1 14202.9
1976 1051.7 113.9 131 119788.63 137772.7 14920.9
1977 1149.7 120.4 127 148423.88 146011.9 15290.8
1978 1388.1 131.0 125 181841.10 173512.5 16375.0
1979 1944.4 157.0 123 305270.80 239161.2 19311.0
1980 2534.0 193.5 123 490329.00 311682.0 23800.5
1981 2890.0 210.2 114 607478.00 329460.0 23962.8
1982 3576.0 228.7 89 817831.20 318264.0 20354.3
1983 3898.0 258.7 86 1008412.6
0
335228.0 22248.2
合计 20660.6 1730.9 1315 3905911.5
6
2285638.
6
198258.
0
年份
(n=11)
1973 10 424.41 17 956
1974 11 088.09 17 956
1975 12 122.01 16 641
1976 12 973.21 17 161
1977 14 496.16 16 129
1978 17 161.00 15 625
1979 24 649.00 15 129
1980 37 442.25 15 129
1981 44 184.04 12 996
1982 52 303.69 7 921
1983 66 925.69 7 396
合计 303 769.55 160 039
21x 22x
续表
21
2
1
21
21
21
0328.86368.180641.94
0328.8
6368.18
0641.94
1 6 0 0 3 91 9 8 2 5 813156.2 2 8 5 6 3 8
1 9 8 2 5 855.3 0 3 7 6 99.173056.3 9 0 5 9 1 1
13159.1730116.2 0 6 6 0
xxy
b
b
a
bba
bba
bba
c
?????
??
?
??
?
???
???
???
?
?
?
?
?
?
?
?
?
?
?
21 0328.86368.180641.94 xxy c ????
b1表明在手表平均价格固定时,人均货币收入每增加
1元,手表销售量平均增长 18.6368万只;
b2表明在人均货币收入固定时,手表平均价格每
上升1元 /只,手表销售量平均减少 8.0328万只。
这里的 b2比原一元线性回归模型中的同一回归系
数 b=-65要大得多,是因为一元线性回归模型只列入了
手表平均价格对销售量的影响而忽略了居民收入这一
很重要的因素,在手表平均价格的影响中渗入了居民
收入的影响。
上面的方法推广到多个自变量,其回归方程为:
2
1 1 2 2 3 3
1 1 2 2
2
1 1 1 1 2 1 2 1
2
2 2 1 1 2 2 2
2
1 1 2 2
11
c n n
nn
nn
nn
n n n n n n
y a b x b x b x b x
nn
y n a b x b x b x
x y a x b x b x x b x x
x y a x b x x b x b x x
x y a x b x x b x x b x
?
?
?
?
?
?
?
?
?
? ? ? ? ? ?
??
? ? ? ? ?? ? ? ?
? ? ? ? ?? ? ? ? ?
? ? ? ? ?? ? ? ? ?
? ? ? ? ?? ? ? ? ?
L
L
L
L
M
L
因 有 个 参 数, 应 确 定 个 方 程 式,
二、曲线回归
拟合方法,统计上通常采用变量代换法把
非线性形式转换为线性形式处理,使线性回
归分析的方法也能适用于非线性回归问题的
研究。
某商店各个时期的商品流通费率和商品零售额资料如下:
x商品零售额 (万元 ) 9.5 11.5 13.5 15.5 17.5 19.5 21.5 23.5 25.5 27.5
y商品流通费率 (%) 6.0 4.6 4.0 3.2 2.8 2.5 2.4 2.3 2.2 2.10
2
4
6
8
8 10 12 14 16 18 20 22 24 26 28
x ( 万元)
y(%)
散点图显示出 x与 y的变动关系为一条递减的双曲线。
经济理论和实际经验都可说明,流通费率决定于商品
零售额,体现着经营的规模效益。

双曲线方程为:
11 ' '
ccy a b x y a b xxx? ? ? ?令 =, 则,
然 后 用 最 小 平 方 法 解 出 参 数 如 下 计 算 表,
9.5 6.0 0.105 0.01103 0.63
11.5 4.6 0.087 0.00756 0.40
13.5 4.0 0.074 0.00549 0.30
15.5 3.2 0.065 0.00416 0.21
17.5 2.8 0.057 0.00327 0.16
19.5 2.5 0.051 0.00263 0.13
21.5 2.4 0.047 0.00216 0.11
23.5 2.3 0.043 0.00181 0.10
25.5 2.2 0.039 0.00154 0.09
27.5 2.1 0.036 0.00132 0.08
合计 32.1 0.604 0.04097 2.21
xx 1'? ? ?2'x 'yx(%)y)(万元x
? ?
%72.1
28
1
4.604377.028
1
4.604377.0
1
'
'4.604377.0
4.60
- 0.4377a
04097.0604.021.2
604.0101.32
'''
'
2
??????
???
?
????
?
?
?
?
?
?
?
?
?
??
??
?
?
?
?
?????
????
c
c
c
yx
x
y
x
x
xy
bba
ba
xbxayx
xbnay
万时,当
代入:?
?
第四节 估计标准误差
一、估计标准误差的概念和作用
估计标准误差 就是用来说明回归方程
推算结果的准确程度的统计分析指标。以绝
对值表示,其数值越小,说明推算结果的准
确程度越高,回归直线的代表性也越大。
用 Syx表示,也可用 Sy表示。
二、估计标准误差的计算方法
2
y
y
()
S
2
1,
c
c
yy
y
n
n
??
?
?
— 因 变 量 实 际 观 察 值
— 因 变 量 理 论 估 计 值
— 因 变 量 项 数
义 公 式,定
2
yS
.
2
2
y a y b xy
n
??? ? ??
?
捷 法 公 式,简
仍用前例资料计算 Sy:
)(22.33
28
2 0 3 5 3 0 05 8 5 8.02 2 0 0)5.199(7 6 0 0 0 0
万元?
?
??????
yS
计算结果表明,城镇储蓄存款余额的实际值和估
计值是有差距的,这个差距有的大,有的小,平
均起来是 33.22万元。
%08.12275 22.33 ??误差率
三、回归方差,即 Sy2
2
2
y21 S 1
y
y
y
S
rr ?
?
? ? ? ? ?
Sy和 r的异同点:
相同点,都具有说明相关关系密切程度的作用;
不同点, (1)r越大越好,而 Sy越小越好;
(2)r用相对数表现,密切程度的概念比较明确
Sy用绝对数表现,关系密切的程度表示得
不那么明显;
(3)r能说明正、负相关,Sy不能说明。
多元线性回归估计标准差的测定公式见教材 351页。
阅读材料
? 阅读材料六,doc
End of Chapter 8