精品课程
,统计基础,
经济管理系课题组
版权所有:马如武
? 第 7章 相关与回归分析
? 【 学习目标 】
? 本章主要介绍了相关分析和回归分析的基本理
论。包括确定相关关系的判别方法以及配合回归
直线及曲线的条件,掌握建立回归方程和相关回
归分析需要注意的问题,达到学会预测的目的等。
? 【 基本要求 】
? 通过本章的学习,使学习者理解相关分析和回
归分析的概念,明确相关关系的判别方法:定性
判断和定量判断;掌握配合回归直线方程的条件
建立回归方程的方法,学会预测,为经济管理服
务等。
一、相关的概念
? (一)相关分析
? 从数量上分析现象之间相关关系的理论和方法。
? (二)函数关系(确定性关系)
? 对于某一变量的每个数值都有另一变量的完全确
定的值与之对应。
? (三)相关关系(非确定性关系)
? 现象之间存在一定的依存关系,但不是一一对应
的关系,即相随变动关系。
二、相关关系的种类
(一)按变量之间相关的程度
1、完全相关 2、完全不相关 3、不完全相

(二)按相关关系涉及变量的多少
1、单相关 2、复相关
(三)按变量之间相关关系的表现形式
1、线性相关 2、非线性相关
(四)对线性相关,按相关的方向
1、正相关 2、负相关
三、相关分析的主要内容
? (一)确定变量之间有无相关关系及呈现的形态
? 用定性分析、相关表或相关图。
? (二)确定变量之间相关关系的密切程度
? 用相关系数。
? (三)建立变量之间变动关系的方程式
? 用最小平方法建立变量之间的回归方程。
? (四)测定因变量估计值的可靠性
? 计算估计标准误差。
?
?
第二节 简单线性相关分析
? 一、相关表
? (一 )简单相关表
? (二 )单变量分组相关表
? (三 )双变量分组相关表
? 二、相关图
? 三、相关系数
? (一)基本公式
? (二)性质
? (三)其它计算公式
? (四)例题
?
一、相关表(一)简单相关表


1 2 3 4 5 6 7 8 9 10 11
使



2 2 3 4 4 5 5 6 6 6 8






元)
400 540 520 640 740 600 800 700 760 900 840
(二 )单变量分组相关表
使用年限 机床数 (台 ) 平均维修费用
( )
2 2 470
3 1 520
4 2 690
5 2 700
6 3 787
8 1 840
9 1 1080
合计 12 __
年元
(三 )双变量分组相关表
年维修费用
(元)
机床使用年限 (年 ) 合计
2 3 4 5 6 8 9
1000— 1100 1 1
900— 1000 1 1
800— 900 1 1 2
700— 800 1 2 3
600— 700 1 1 2
500— 600 1 1 2
400— 500 1 1
合计 2 1 2 2 3 1 1 12
二、相关图
0
200
400
600
800
1000
1200
0 2 4 6 8 10
年维修费
使用
年限
三、相关系数
(一)基本公式
? 1、基本公式
yx
xy
2
22 )yy(
n
1
)xx(
n
1
)yy)(xx(
n
1
r
??
?
?
??
??
?
??
?
2,的作用与不足
? (1)说明相关的方向 (2)显示相关程度
? y
)yy)(xx( ???
xy x
0)xx( ??
0)yy( ??
0)xx( ??
0)yy( ??
0)xx( ??
0)yy( ??
0)xx( ??
0)yy( ??
( 3)不足:受变量值个数、变量值大小和计量单位的
影响
? ( 1)作用:消除了变量值个数的影响。
? ( 2)不足,协方差数值受变量值大小和计量单位的
影响。例:
3,的作用与不足 )yy)(xx(n1 ???
人均销售额
(千元)
利润率 % 人均销售额
(元)
利润率 %
6 12.6 6000 12.6
5 10.4 5000 10.4
8 18.5 8000 18.5
1 3.0 1000 3.0
4 8.1 4000 8.1
1x 1y 2x 2y
4,的作用
? 同协方差相比,相关系数有两个作用;
? ( 1)它是一个系数,不受变量值水平和计量单位的
影响,可以在不同资料之间对相关程度进行对比。
? ( 2)相关系数的数值有一定范围即
x? y?
1r ?
yx
xy
2
22 )yy(
n
1
)xx(
n
1
)yy)(xx(
n
1
r
??
?
?
??
??
?
??
?
(二 )相关系数的性质
? 1、当 时,x与 y为完全线性相关,即 x 与 y之间
存在着函数关系。
? 2、当 时,表示 x与 y之间存在一定的线性相
关。 的数值愈接近于 1,表示 x与 y之间直线相关程
度愈高;反之 的数值愈接近于 0,表示 x与 y之间直
线相关程度愈低。通常判断的标准是:
? 微弱相关 低度相关
? 显著相关 高度相关
? 3、当 r﹥0 时,为正相关,当 r﹤0 时,为负相关。
? 4、当 时,表示 y的变化与 x无关,即 x与 y完全
没有直线相关。
1r ?
1r0 ??
r
r
30r ?? 50r30 ?? ??
80r50 ?? ?? 1r80 ???
0r ?
(三)相关系数的其它计算公式
? ?? ?
? ? ?
??
?
?
2222 )y(
n
1
y)x(
n
1
x
yx
n
1
xy
r
设 ? ??? ????? xylyxn1xy)yy)(xx(
??? ???? xx222 l)x(n1x)xx( yy222 l)y(n1y)yy( ???? ? ??

yyxx
xy
ll
lr ?
举例
使用年限 x 维修费用(元) y xy
2 540 4 291600 1080
3 520 9 270400 1560
4 640 16 409600 2560
4 740 16 547600 2960
5 600 25 360000 3000
5 800 25 640000 4000
6 700 36 490000 4200
6 760 36 577600 4560
6 900 36 810000 5400
8 840 64 705600 6720
9 1080 81 116400 9720
合计 58 8120 348 6268800 45760
2x 2y
2 9 4 58 1 2 0581114 5 7 6 0l xy ?????
42)58(111348l 2xx ????
2 7 4 7 6 4)8 1 2 0(1116 2 6 8 8 0 0l 2yy ????
8702 7 4 7 6 442 2945r ????
?计算结果表明,机床使用年限与维修费用之间为
高度正相关。
第三节 一元线性回归分析
? 一、相关分析与回归分析的关系
? (一)区别
? (二)联系
? 二、一元线性回归方程的建立
? (一)回归方程的建立
? (二) r与 b的关系
? 三、估计标准误差
? (一)基本公式
? (二)计算公式
? (三) 与 b的关系yxs
一、相关分析与回归分析的关系
? (一)区别
? 1、相关分析的任务是确定两个变量之间相关的方向
和密切程度。回归分析的任务是寻找因变量对自变量
依赖关系的数学表达式。
? 2、相关分析不必确定两变量中哪个是自变量,哪个
是因变量,而回归分析中必须区分因变量与自变量。
? 3、相关分析中两变量是对等的改变两者的地位,并
不影响相关系数的数值,只有一个相关系数。而在回
归分析中,互为因果关系的两个变量可以编制两个独
立的回归方程。
? 4、相关分析中两变量可以都是随机的,而回归分析
中因变量是随机的,自变量不是随机的。
(二)联系
? 1、相关分析是回归分析的基础和前提。只有
在相关分析确定了变量之间存在一定相关关系
的基础上建立的回归方程才有意义。
? 2、回归分析是相关分析的继续和深化。只有
建立了回归方程才能表明变量之间的依赖关系,
并进一步进行预测。
二、一元线性回归方程的建立
? (一)回归方程的建立
? 1、假设回归方程
? 2、计算 a,b两个参数(最小平方法)
? 从 出发,得到
? 前例
bxay? ??
最小值??? 2)y?y(
? ? ?
? ?
??
??
2xbxaxy
xbnay
xx
xy
22 l
l
)x(
n
1
x
yx
n
1
xy
b
xbya
?
?
?
?
??
? ?
? ? ?
42l
2 9 4 5l
xx
xy
?
?
?
?
?
?
8 1 2 0y
58x
27.51158x ??
a=738.18-70.12× 5.72=368.65
18.738118 1 2 0y ??
1270422 9 4 5b ???
x12.7065.3 6 8y? ??
(二) b与 r的关系
? 例:
y
x
yy
xx
yy
xx
xx
xy
yyxx
xy
b
l
l
b
l
l
l
l
ll
l
r
?
?
??
???
x
yrb
?
??
252x ?? 362y ??
r=0.9 a=2.8
08.1569.0b ???
x08.18.2y? ??
三、估计标准误差
? (一)定义公式
? (二)计算公式
2n
)y?y(s 2
yx ?
?? ?
2n
xybyayy 2
yx ?
??? ? ? ?
? ?
? ??
? ? ? ??
? ? ? ? ? ?
? ?? ? ?
??
???
?????
???????
??????
????
xybyay
xybyaxyb2ya2y
)xbxa(b)xbna(axyb2ya2y
xbxab2naxyb2ya2y
)bxa(y)y?y(
2
2
22
2222
22
?(三 )意义 估计标准误差是说明回归方程代表性大
小的统计分析指标。其值小,表明方程代表性大;反
之亦然。
?用上例
?
?
?
?
?
?
4 5 7 6 0xy
6 2 6 8 8 0 0y
8 1 2 0y
2
元)(07.86
211
4 5 7 6 012.70812065.3686 2 6 8 8 0 0
2n
xybyay
S
2
yx
?
?
????
?
?
??
?
? ? ?
?a=368.65
?b=70.12
2
y
2
yx
2
y Sr
?
??
? 2
yyx r1S ???
可见,当 r越大时,越小,这时相关密切程度较
高,回归直线的代表性就大;反之亦然。
实际中,一般不常用这种方法计算 r,因为,( 1)
需要先求出回归直线方程,计算出估计标准误差,
才能求得 r。不符合一般程序。( 2)以这种方法计
算的 r难以判断是正相关还是负相关。
yxS
x
y
y
y?
? y
y
yy? y?y?
yy? ?
)yy?()y?y(yy ?????
? ?
)yy?)(y?y(2)yy?()y?y(
)yy?()y?y()yy(
22
22
???
??
???????
?????
? ?
? ? 0xbnayxb
xbxaxyb
)bxay(xbx)bxay(b
)xx)(bxay(b
)xbabxa)(bxay(
)yy?)(y?y(
2
????
???
??????
????
??????
??
? ?
? ? ?
??
?
?
?
)r1(l
l
ll
l
l
l
l
l
l
lbl
)xx(bl
)xbabxa(l
)yy?()yy(
)y?y(
2
yy
yy
yyxx
2
xy
yy
xx2
xx
2
xy
yy
xx
2
yy
22
yy
2
yy
22
2
??
???
???
??
???
?????
????
?
?
?
??
?
)r1(S
)r1(
n
l
n
)y?y(
2
y
22
yx
2yy
2
???
??
??
2
y
2
yxS1r
?
??
? 实训练习
? 【 基本练习 】
? 单项选择
? 1.现象之间相互依存关系的程度越高,则相关系数值( )
? ①越接近于 ∞ ②越接近于- 1
? ③ 越接近于 1 ④ 越接近于- 1或 1
? 2.已知变量 x与 y之间存在着负相关,指出下列回归方程中哪一个肯定是错误的( )
? ①= –10- 0.8x ② = 100- 1.5x
? ③ = –150+0.9x ④ = 25- 0.7x
? 3.当所有观察值 y都落在回归直线= a+bx上,则 x与 y之间的相关系数( )
? ① r=1 ② –1<r<0 ③ r=1或 r=–1 ④ 0<r<1
? 4.相关系数 r=0,说明两个变量之间( )
? ①相关程度很低 ②不存在任何相关关系
? ③完全负相关 ④不存在直线相关关系
? 5.在回归方程= a+bx中,回归系数 b表示( )
? ①当 x= 0时 y的期望值
? ② x变动一个单位时 y的变动总额
? ③ y变动一个单位时 x的平均变动量
? ④ x变动一个单位时 y的平均变动量
? 多项选择
? 1.下列现象中属于相关关系的有( )
? ①压力与压强 ②现代化水平与劳动生产率
? ③圆的半径与圆的面积 ④身高与体重
? ⑤机械化程度与农业人口
? 2.销售额与流通费用率,在一定条件下存在相关关系,这种相关关系属于( )
? ①正相关 ②单相关 ③负相关
? ④复相关 ⑤完全相关
? 3.在直线相关和回归分析中( )
? ①据同一资料,相关系数只能计算一个
? ②据同一资料,相关系数可以计算两个
? ③据同一资料,回归方程只能配合一个
? ④据同一资料,回归方程随自变量与因变量的确定不同,可能配合两个
? ⑤回归方程和相关系数均与自变量和因变量的确定无关
? 4.确定直线回归方程必须满足的条件是( )
? ①现象间确实存在数量上的相互依存关系
? ②相关系数 r必须等于 1
? ③ 相关现象必须均属于随机现象
? ④现象间存在着较密切的直线相关关系
? ⑤相关数列的项数必须足够多
? 5.在回归分析中,确定直线回归方程的两个变量必须是( )
? ①一个自变量,一个因变量 ②均为随机变量
? ③对等关系 ④一个是随机变量,一个是可控变量
? ⑤不对等关系
? 【 讨论与思考 】
? 1.相关分析与回归分析的区别和联系。
? 2.相关关系与函数关系的区别与联系。