商学系 Business Depart,
主讲,
内 容 目 录
第一章 统计学导论 第二章 统计调查
第三章 统计整理
第四章 综合指标
第五章 动态数列
第六章 统计指数
第七章 抽样推断
第八章 相关回归分析
第八章
相关回归分析
内 容 提 要
?本章内容
第一节 相关分析
第二节 回归分析
?本章重点
相关系数的计算及回归方程的建立
?本章难点
相关系数的计算及回归方程的建立
?具体要求
理解-相关分析的有关概念、特点等。
掌握-相关系数的计算及回归方程的建立
内 容 提 要
6
单击此处编辑母版副标题样式
第一节 相 关 分 析
一、相关分析概述
(一)相关关系的概念
※ 广义的相关关系 就是指社会经济现象中普遍存
在的依存关系和制约关系。这一点可以从唯物辩证法
的高度去理解。而且社会经济现象之间的这种依存制
约关系通常都可以通过 数量关系 表现出来。但统计所
指的不是广义的相关关系,而是 狭义的相关关系 。
※ 狭义的相关关系 是指现象之间确实存在的,而
关系数值不固定的相互依存关系。
※ 从广义的相关关系概念出发,社会经济现象
普遍存在的依存制约关系可以区分为两大类型。
一是函数关系,即现象之间存在着严格的关系
值确定的依存关系。
函数关系的特点如下,
1,在这种关系中,对于某一变量的每一个数
值,都有另一个变量的确定值与之相对应。
2,这种关系一般都可以用一个数学表达式反
映出来。
【 参书中 169面例子 】
二是相关关系,即前面所指的 狭义相关关系 。这
种关系也就包括书中 170面所讲到的 因果关系 (单向
因果和双向因果)和 关联关系 (同因异果和异果同
因)。此相关关系才是统计上所指的相关关系。
相关关系的特点如下,
1,它是指现象之间确实存在着数量上的相互依
存关系。对具有这样关系的两个变量,要能区分 自变
量和因变量 。
2,现象之间的数量依存关系的具体关系值不是
固定的,即 自变量与因变量之间并非 一一对应。
【 参书中例子 】
※ 相关关系和函数关系有区别也有联系,
1、实际现象中,函数关系往往通过相关关系表现
出来。
2,在研究相关关系时,常常使用函数关系的形式
来表现,它是相关分析的工具。
(二)相关关系的种类
1、按相关关系涉及的因素多少划分
( 1)一元(单)相关,两个因素之间的相关。
( 2)多元(复)相关,三个及三个以上因素之间
的相关。
2、按相关关系变化的方向划分
( 1)正相关,变量的变动方向一致( 同增同
减 )。
( 2)负相关,变量的变动方向相反( 一增一
减 )。
3、按相关关系的表现形态划分
( 1)线性 (直线 )相关,在坐标图上两个变量对
应的散布点近似地呈直线形式。
( 2)非线性 (曲线 )相关,在坐标图上两个变量
对应的散布点近似地呈某种曲线形式。
x
?
?
?
?
?
y
?
?
? ?
?
?
?
? ?
?
?
y
x
例,
线




线



4、按相关的程度划分
( 1)完全相关,即变量之间存在函数关系。
( 2)不完全相关,即狭义上的相关关系。
( 3)不相关,即变量相互独立,互不影响。
(三)相关分析的主要内容
相关分析亦可从广义和狭义两方面理解,从广
义上来说,相关分析包括,
1、狭义相关分析,仅研究变量或现象之间关
系的紧密程度及方向。
2、回归分析,即用数学式子表现自变量和因
变量之间的相关关系。
相关和回归既有区别又有联系,本节上述内容
是把二者合在一起讨论,下面将分开讨论。
二、简单线性相关分析
即:线性单相关分析或直线相关分析
(一)相关关系的一般判断,即初步定性分析现
象之间有无相关关系。若有,即可采用相关表、相关
图和计算相关系数的方法进一步精确定量分析。
(二)相关 了解相关关系的形式和程度。 表, 用
于初步
1、简单相关表
2、分组相关表
( 1)单变量分组相关表
( 2)双变量分组相关表
(二)相关图,相关表上资料的图示化。其图形的
表现形式有很多种。
以上相关表和相关图对相关关系的分析是初步的,
不精确的,没有也不能从数量上表现相关关系的密切程
度。
(三)相关系数的计算和应用
1、含义,相关系数是一个用于从定量方面测定 两
个变量 之间 线性相关 程度和方向的最重要的指标。即用
于 线性单相关(简单线性相关或直线相关) 的测定。
2、相关系数的计算,
( 1)基本计算公式(“积差法”公式)
yx
xyr
??
? 2?
两个变量数列的协方差
自变量y 数列的标准差
自变量x数 列的标准差
相关系数式中:
?
?
?
?
xy
y
x
r
2
?
?
?

n
yyxx
n
yy
n
xx
xy
y
x
))((
)(
)(
2
2
2
???
?
??
?
??
?
?
?
?
22
2
)()(
))((
yyxx
yyxx
r
yx
xy
????
???
??
??
?
相关系数的基本计算公式可变化为,
( 2)积差法相关系数的简捷计算公式
)())(( yxyxyxxyyyxx ?????????
yxyxxyxy ?????????
n
y
n
xn
n
yx
n
yxxy ?????????????
yxny
n
xx
n
yxy ????????????
22
2
)()(
))((
yyxx
yyxx
r
yx
xy
????
???
??
??
?
...,①
已知,
因为,
n
yxxy ?????,..,② 即,))(( yyxx ???
22 2 xxxx ??????
)2()( 222 xxxxxx ??????
22
2
)(2
?
?
?
?
?
? ???????
n
x
n
n
x
x
n
x
x
2
2 )( ????
n
x
xxx
2
22 )()(,??????即
n
y
yyy
2
22 )()( ??????
同理,
...,④
...,③
把②③④式代入①式,即可得到 积差法相关系数
的简捷计算公式,
22 )()(
))((
yyxx
yyxx
r
yx
xy
????
???
??
??
?
n
y
y
n
x
x
n
yx
xy
2
2
2
2 )()( ?
??
?
??
??
??
?
2222 )()( yynxxn
yxxyn
??????
????
?
利用此公式不用计算 x和 y的平均值,直接用 x和 y的值计算即可
3、相关系数的特点及应用
( 1) 相关系数的取值范围为,
( 2) 当 γ为正值时,两变量呈正相关;当 γ为负值
时,两变量呈负相关。
( 3) 相关系数 γ的绝对值愈大,表示两变量之间
相关程度愈密切; γ= ﹢ 1为完全正相关; γ= ﹣ 1为
完全负相关。
( 4) 相关系数 γ的绝对值愈小,愈接近 0,表示两
变量之间相关程度愈低,当 γ= 0时,两变量完全没
有直线相关。
111 ????? rr
( 5) 线性相关的一般判断准则,
低度相关微弱相关 ????? 5.03.03.0 rr
高度相关显著相关 ?????? 18.08.05.0 rr
使用此原则的前提条件是计算相关系数的原始根据
要比较多,否则相关系数的可信程度会降低。
※ 以上相关系数的计算等内容可参书 181-
182页的例子或下面的例子。
[例 ]
为了解营业员每人月平均销售额(万元)和利润
率( %)之间的关系,特从 100家商店中随机抽取 10
家,得到如下资料,试计算样本相关系数。
商店 A
1
A
2
A
3
A
4
A
5
A
6
A
7
A
8
A
9
A
10
平均
销售额
6 5 8 1 4 7 6 3 3 7
利润率 1 2, 6 1 0, 4 1 8, 5 3, 0 8, 1 1 6, 3 1 2, 3 6, 2 6, 6 1 6, 8
计算过程如下,
人均销售额 x 利润率 ( % ) y x
2
y
2
xy
6
5
8
1
4
7
6
3
3
7
1 2, 6
1 0, 4
1 8, 5
3.0
8.1
1 6, 3
1 2, 3
6.2
6.6
1 6, 8
36
25
64
1
16
49
36
9
9
49
1 5 8, 7 6
1 0 8, 1 6
3 4 2, 2 5
9, 0 0
6 5, 6 1
2 6 5, 6 9
1 5 1, 2 9
3 8, 4 4
4 3, 5 6
2 8 2, 2 4
7 5, 6
5 2, 0
1 4 8, 0
3.0
3 2, 4
1 1 4, 1
7 3, 8
1 8, 6
1 9, 8
1 1 7, 6
50 1 1 0, 8 294 1 4 6 5, 0 0 6 5 4, 9
因此,
22 8.1101 4 6 5105029410
8.110509.65410
????
???
?
2222 )()( yynxxn
yxxyn
r
??????
????
?
987.0
36.2373440
1009
??
※ 人均销售额与利润率之间存在着高度的正相关关系。
10,9.6 5 4,1 4 6 5
2 9 4,8.1 1 0,50
2
2
?????
??????
nxyy
xyx
25
单击此处编辑母版副标题样式
第二节 回 归 分 析
一、回归分析概述
1,概念,回归分析就是对具有相关关系的两个或
两个以上变量之间数量变化的一般关系进行测定, 确
定一个相应的数学表达式, 以便从一个已知量来推测
另一个未知量, 为估计预测提供一个重要的方法 。
※ 关于回归方程 (回归模型 )和回归曲线 (配合曲线 )
回归方程,回归分析中建立的反映变量间相关关
系的数学表达式 。
回归曲线,根据回归方程配合得到的曲线, 其表现
形式有直线和曲线等 。
2、回归分析与相关分析的比较
( 1) 回归和相关都是研究两个变量相互关系的分
析方法 。
但 相关分析 是研究两个变量之间相关的方向和相关
的密切程度, 它不能指出两变量相互关系的具体形式,
也无法从一个变量的变化来推测另一个变量的变化关
系 。
而 回归分析 则是通过一定的数学方程来反映变量之
间相互关系的具体形式, 以便从一个已知量来推测另
一个未知量, 为估算预测提供一个重要的方法 。
( 2) 相关分析 既可以研究因果关系的现象也可以
研究共变的现象, 不必确定两变量中谁是自变量, 谁
是因变量 。 而 回归分析 是研究两变量具有因果关系的
数学形式, 因此必须事先确定变量中自变量与因变量
的地位 。
( 3) 在 相关分析 中计算相关系数的两变量是对等
的, 改变两变量的地位并不影响相关系数的数值 。 在
回归分析 中因变量是随机的, 自变量是可控制的解释
变量, 不是随机变量, 二者地位不对等 。 因此回归分
析只能用自变量来估计因变量, 而不允许由因变量来
推测自变量 。
( 4) 回归分析和相关分析都属于广义的相关分
析, 二者是互相补充, 密切联系的 。 相关分析需要
回归分析来表明现象数量相关的具体形式, 而回归
分析则应该建立在相关分析的基础上 。
依靠相关分析表明现象的数量变化具有密切相关
,进行回归分析求其相关的具体形式才有意义 。 在
相关程度很低的情况下, 回归函数的表达式代表性
就很差 。
3、回归分析的种类
( 1)按自变量的多少分
①简单(一元)回归,自变量只有一个 。
[例 ] y = a+bx ?一元回归方程
②复(多元)回归,自变量为 2个或 2个以上。
[例 ] y=?0+ ?1x1+ ?2x2+… + ?nxn
( 2)按回归方程式的特征分
①线性回归,因变量为自变量的线性函数。
[例 ] y = a+bx ? 一元线性回归方程 ※
② 非线性回归,因变量为自变量的非线性函数。
[例 ]
指数函数回归方程 aey bx ??
4、回归分析的步骤(内容)
( 1)确定自变量和因变量;
[例 ]粮食产量( y) ? 施肥量( x);
消费支出( y ) ? 国民收入( x );
( 2)确定回归方程; ※
( 3)统计检验;
( 4)预测或控制。
[例 ] 消费与收入的回归方程,y= a+bx= 200+0.15x
? 已知 x确定 y:估计或预测
已知 y确定 x,控制
二、简单线性回归分析
即:一元线性回归分析或直线回归分析
(一)简单线性回归分析的特点
简单线性回归分析 是回归分析中最简单最基本
的一种,因此前面“回归分析与相关分析的比较”
中涉及到的回归分析的特点同样适用于它。
其它的特点有,
1,在简单回归分析中,自变量只有一个,所拟
合的回归方程实际上就是直线方程。
2,在现象互为根据的情况下,可以有两个回归
方程-- y倚 x的方程和 x倚 y的方程。
(二)直线回归方程的确定
※ 建立直线回归方程是直线回归分析中最为关键
最为重要的事情,其根本的任务就是设法在分散的具
有线性关系的相关点之间配合一条最优的直线,以表
明两变量之间具体的变动关系,并可以据以进行预测
等。
那么如何来建立或者说找到一条这样的直线呢?
首先,用作相关图或计算相关系数的办法确定变
量间是不是确实存在大致的线性相关关系。
【 参下面例子 】
假如有以下资料,
某企业上半年产品产量与单位成本的资料
月 份 产 量(千件) 单位成本(元)
1
2
3
4
5
6
2
3
4
3
4
5
73
72
71
73
69
68
※ 以产量为自变量,单位成本为因变量拟合
直线回归方程。
作相关图,
75
70
65
60
x产量
y




1 3 2 6 5 4
※ 从相关图上可以看出产量与单位
成本间存在相关关系
计算相关系数,
月份 产量(千 件) x 单位成本 (元) y x2 y2 xy
1
2
3
4
5
6
2
3
4
3
4
5
73
72
71
73
69
68
4
9
16
9
16
25
5329
5184
5041
5329
4761
4624
146
216
284
219
276
340
合计 21 426 79 30268 1481
因此,
90 91.0
)42 630 26 86)(21796(
42 62114 816
??
????
???
?
显然说明产量和单位成本之间存在 高度负相关 。
2222 )()( yynxxn
yxxyn
r
??????
????
?
第二步就是拟合直线方程,
已知产量和单位成本之间存在高度的相关关系,
那么我们完全可以先把直线回归方程的一般形式写
出来,即
bxay c ??
式中,a是直线的截距;
b是直线的斜率,即回归系数;
yc表示因变量 y的估计值。
※ a和 b是方程中待定的参数,只要确定了参数就
可确定方程的具体形式,因此参数的确定是关键的关
键。确定参数的方法主要用的是, 最小二乘法, 。
最小二乘法(最小平方法)求参数 ab,
1、最小二乘法的原理, 使拟合的直线上的点到
实际值点的距离平方和最小,即所谓的 yc到 y的, 离差
平方和最小,, yc为拟合曲线上据以推算的估计值,
y为实际值。
75
70
65
60
x产量
y




1 3 2 6 5 4
例如,
拟合直线
实际值
2、参数计算公式的具体推导过程
( 离差平方和最小) 由 m i n)( 2 ???? cyyQ
?
?
?
??
?
?
???????
?
?
??????
?
?
0)()(2
0)1)((2
xbxay
b
Q
bxay
a
Q
?
?
?
?????
????
?
( 2 )
( 1 )
整理得
2xbxaxy
xbnay
m i n)()( 22 ????????? bxayyyQ c
由极值定理,令,
xbyna ?????式由 )1(
n
xb
n
ya ??????
将 a代入( 2)式得,
2xbx
n
xb
n
yxy ????
?
?
?
?
?
? ??????
??
?
??
? ?????????
n
x
xb
n
yx
xy
2
2 )(
2
2)(
xb
n
xb
n
yx ????????
n
x
x
n
yx
xy
b
2
2 )( ?
??
??
??
??
22 )( xxn
yxxyn
???
????
?
由 b可得 a为,
22
2
)( xxn
xyxyx
a
???
?????
?
或者用公式
n
xb
n
ya ????? 求 a的值也可。
由前面的例子,
月份 产量(千 件) x 单位成本 (元) y x2 y2 xy
1
2
3
4
5
6
2
3
4
3
4
5
73
72
71
73
69
68
4
9
16
9
16
25
5329
5184
5041
5329
4761
4624
146
216
284
219
276
340
合计 21 426 79 30268 1481
82.1
)( 22
??
?
??
? ?
? ? ?
xxn
yxxynb
37.77??????
n
xb
n
ya
回归方程为,y= 77.37- 1.82x
75
70
65
60
x产量
y




1 3 2 6 5 4
y= 77.37- 1.82x
a=77.37即是回归方程与 y轴的纵截距; b=-
1.82,即回归系数为负值,表明产量和单位成本呈
负相关,回归直线向右下倾斜;它也表明产量每增
加 1千件,单位成本降低 1.82元,即产量越大单位
成本越低。
77.37 看图,
理解,
※ 当然由回归方程,我们即可预测当产量变化时,
相对应的单位成本的值 。
假定产量为 6千件时, 单位成本为多少元?
已知,x=6,代入回归方程
y= 77.37- 1.82x 中, 得
y= 77.37- 1.82× 6= 66.45( 元 )
即:产量为 6千件时, 单位成本为 66.45元 。
同理, 可以预测当产量为 6.5,8,8.2千件等等
时的单位成本 。