7-1
第七章 相关与回归分析
? 第一节 相关与回归分析的基本概念
? 第二节 简单线性相关与回归分析
? 第三节 多元线性相关与回归分析
? 第四节 非线性相关与回归分析
7-2
第一节 相关与回归分析的基本概念
一、函数关系与相关关系
1.函数关系
当一个或几个变量取一定的值
时,另一个变量有确定值与之
相对应,我们称这种关系为确
定性的函数关系。
7-3
(函数关系)
( 1) 是一一对应的确定关系
( 2) 设有两个变量 x 和 y,
变量 y 随变量 x 一起变化,
并完全依赖于 x, 当变量
x 取某个数值时, y 依确
定的关系取相应的值, 则
称 y 是 x 的函数, 记为 y
= f (x),其中 x 称为自变
量, y 称为因变量
( 3) 各观测点落在一条线上
?
?
???
??
??
x
y
7-4
变量间的关系
(函数关系)
?函数关系的例子
? 某种商品的销售额 (y)与销售量 (x)之间的关
系可表示为 y = p x (p 为单价 )
? 圆的面积 (S)与半径之间的关系可表示为 S =
? r2
? 企业的原材料消耗额 (y)与产量 (x1), 单位产
量消耗 (x2), 原材料价格 (x3)之间的关系可
表示为 y = x1 x2 x3
7-5
2,相关关系,当一个或几个相互联系的
变量取一定数值时,与之相对应的另一
变量的值虽然不确定,但它仍按某种规
律在一定的范围内变化。
现象之间客观存在的不严格、不确
定的数量依存关系。
7-6
变量间的关系
(相关关系)
( 1) 变量间关系不能用函数关
系精确表达;
( 2) 一个变量的取值不能由另
一个变量唯一确定;
( 3) 当变量 x 取某个值时, 变
量 y 的取值可能有几个;
( 4) 各观测点分布在直线周围 。 ?
?
? ???
???
x
y
7-7
(相关关系)
?相关关系的例子
? 商品的消费量 (y)与居民收入 (x)之间的关系
? 商品的消费量 (y)与物价 (x)之间的关系
? 商品销售额 (y)与广告费支出 (x)之间的关系
? 粮食亩产量 (y)与施肥量 (x1), 降雨量 (x2),
温度 (x3)之间的关系
? 收入水平 (y)与受教育程度 (x)之间的关系
? 父亲身高 (y)与子女身高 (x)之间的关系
7-8
二、相关关系的种类
? 1.按相关关系的程度划分可分为完全相关,不完
全相关和不相关。
? 2.按相关形式划分可以分为线性相关和非线性相
关。
)1( )2( )3( )4(
)为非线性相关。)、()为线性相关,()、(图中( 4321
7-9
( 1)正相关:两个相关现象间,当一个变量
的数值增加(或减少)时,另一个变量的数
值也随之增加(或减少),即同方向变化。
例如收入与消费的关系。
( 2)负相关:当一个变量的数值增加(或减
少)时,而另一个变量的数值相反地呈减少
(或增加)趋势变化,即反方向变化。
例如物价与消费的关系。
3.按相关的方向划分可分为正相关和负相关
7-10
4.按相关关系涉及的变量多少划分分为单相关、
复相关和偏相关。
? 两个变量之间的相关,称为单相关。
? 当所研究的是一个变量对两个或两个以上其他变量
的相关关系时,称为复相关。例如,某种商品的需
求与其价格水平以及收入水平之间的相关关系便是
一种复相关。
? 在某一现象与多种现象相关的场合,假定其他变量
不变,专门考察其中两个变量的相关关系称为偏相
关。例如,在假定人们的收入水平不变的条件下,
某种商品的需求与其价格水平的关系就是一种偏相
关。
消费 物价 收入
7-11
三、相关分析与回归分析
(一)概念:
1.相关分析
就是用一个指标来表明现象间相互
依存关系的密切程度。广义的相关
分析包括相关关系的分析(狭义的
相关分析)和回归分析。
2.回归分析
是指对具有相关关系的现象,根据
其相关关系的具体形态,选择一个
合适的数学模型(称为回归方程
式),用来近似地表达变量间的平
均变化关系的一种统计分析方法。
7-12
(二)相关分析与回归分析的 区别
? 1.在相关分析中,不必确定自变量和因变量;
而在回归分析中,必须事先确定哪个为自变
量,哪个为因变量,而且只能从自变量去推
测因变量,而不能从因变量去推断自变量。
? 2.相关分析不能指出变量间相互关系的具体
形式;而回归分析能确切的指出变量之间相
互关系的具体形式,它可根据回归模型从已
知量估计和预测未知量。
? 3.相关分析所涉及的变量一般都是随机变量,
而回归分析中因变量是随机的,自变量则作
为研究时给定的非随机变量。
7-13
(三)相关分析与回归分析的联系
? 相关分析和回归分析有着密切的联系,它们
不仅具有共同的研究对象,而且在具体应用
时,常常必须互相补充。相关分析需要依靠
回归分析来表明现象数量相关的具体形式,
而回归分析则需要依靠相关分析来表明现象
数量变化的相关程度。只有当变量之间存在
着高度相关时,进行回归分析寻求其相关的
具体形式才有意义。
? 简单说,1,相关分析是回归分析的基础和前
提 ; 2,回归分析是相关分析的深入和继续 。
7-14
定性分析
是依据研究者的理论知识和实践经
验,对客观现象之间是否存在相关
关系,以及何种关系作出判断。
定量分析
在定性分析的基础上,通过编制 相
关表,绘制 相关图,计算 相关系数
等方法,来判断现象之间相关的方
向、形态及密切程度。
四、相关关系的判断
7-15
(一 )相关表,将自变量 x的数值按照从小到大的顺序,
并配合因变量 y的数值一一对应而平行排列的表。
例:为了研究分析某种劳务产品完成量与其单位产品成本之
间的关系,调查 30个同类服务公司得到的原始数据如表。
完成量 (小时) 20 30 20 20 40 30 40 80 80 50 40 30 20 80 50
单位成本 (元 / 小时) 18 16 16 15 16 15 15 14 14 15 15 16 18 14 14
完成量 (小时) 20 50 20 30 50 20 50 40 20 80 40 20 50 80 30
单位成本 (元 / 小时) 16 16 18 16 15 18 15 14 16 14 15 16 14 15 15
整理后有
完成量 (小时) 20 2 0 20 20 2 0 2 0 2 0 2 0 2 0 30 3 0 30 3 0 3 0 4 0
单位成本 (元 / 小时) 1 5 16 16 1 6 16 1 8 1 8 18 1 8 15 15 15 1 6 1 6 14
完成量 (小时) 4 0 4 0 4 0 4 0 5 0 5 0 5 0 5 0 5 0 5 0 8 0 8 0 8 0 8 0 8 0
单位成本 (元 / 小时) 1 5 1 5 1 5 1 6 1 4 1 4 1 5 1 5 1 5 1 6 1 4 1 4 1 4 1 4 1 5
7-16
( 二 )相关图:又称散点图。将 x置于横轴上,y置于
纵轴上,将( x,y) 绘于坐标图上。 用来反映两变
量之间相关关系的图形。
广告费 (万元) 30 33 33 40 56 58 65 72 80 80 90
年销售收入 (百万元) 12 12 12 13 14 14 20 22 26 26 30
0
10
20
30
40
0 20 40 60 80 100
广告费 (万元)
销售收入
(百万元)
7-17
第二节 简单线性相关与回归分析
一、相关系数及其检验
(一 )相关系数的定义
1.简单相关系数:在线性条件下说明两个变
量之间相关关系密切程度的统计分析指标,
简称相关系数。
? 若相关系数是根据总体全部数据计算的,
称为总体相关系数, 记为 ?
? 若是根据样本数据计算的, 则称为样本相
关系数, 记为 r
7-18
总体相关系数的定义式是,
ρ =
)()(
),(
YV a rXV a r
YXC o v ( 7.1 )
式中,Cov ( X, Y )是变量 X 和 Y 的协方差;
V a r ( X ) 和 V a r ( Y ) 分别为变量 X 和 Y 的方差。
总体相关系数是反映两变量之间线性相关程度的一种特征值,
表现为一个常数。
7-19
样本相关系数的定义公式是,
? ? ??
? ??
?
22
)()(
))((
YYXX
YYXX
r
tt
tt
( 7, 2 )
上式中,X 和 Y 分别是 X 和 Y 的样本平均数。
样本相关系数是根据样本观测值计算的,抽取的样本不同,
其具体的数值也会有所差异。
容易证明,样本相关系数是总体相关系数的一致估计量。
7-20
yx
xyr
??
? 2
?
式中:
n
yyxx
xy
))((2 ?? ?
??
,是变量 x 和 y
的协方差。
n
xx
x
? ?
?
2
)(
?,是变量 x 的标准差。
n
yy
y
? ?
?
2
)(
?,是变量 y 的标准差。
样本相关系数的定义公式实质
7-21
(二 )相关系数的特点
1.r 的取值介于-1与1之间,r 的取值范围是 [-1,1]
2.在大多数情况下,0< |r |<1,即 X 与 Y 的样本
观测值之间存在着一定的线性关系,当 r >0时,
X与Y为正相关,当 r <0时,X 与 Y 为负相关。
|r |的数值愈接近于 1,表示 x与 y直线相关程度愈
高;反之,|r |的数值愈接近于 0,表示 x与 y直
线相关程度愈低。通常判断的标准是, |r |< 0.3
称为微弱相关,0.3≤ |r |< 0.5称为低度相关,
0.5 ≤ |r |< 0.8称为显著相关, 0.8≤ |r |<
1称为高度相关或强相关。
7-22
3.如果 |r |=1,则表明 X 与 Y 完全线性相关,
当 r =1时,称为完全正相关,
而 r =-1时,称为完全负相关。
4.r 是对变量之间线性相关关系的度量。
r =0只是表明两个变量之间不存在线性关系,
它并不意味着 X 与 Y 之间不存在其他类型的
关系。
7-23
相关关系的测度
(相关系数取值及其意义)
-1.0 +1.00-0.5 +0.5
完全负相关 无线性相关 完全正相关
负相关程度增加
r
正相关程度增加
7-24
? ? ??
? ???
22 )()(
))((
yyxx
yyxxr ? ? ? ????? yxnxyyyxx
1))((
? ? ???? 222 )(1)( xnxxx
? ? ???? 222 )(1)( ynyyy
计算相关系数
的, 积差法”
(三 )相关系数的计算
yyLxxL
xyLr ? )()( yxxynxyL ??????
2)(2 xxnxxL ????
2)(2 yynyyL ????
7-25


人口增长
量(千人)
x
年 需 求
量(十吨)
y
2
x
2
y
xy
1 2 7 4 1 6 2 7 5 0 7 6 2 6 2 4 4 4 4 3 8 8
2 1 8 0 1 2 0 3 2 4 0 0 1 4 4 0 0 2 1 6 0 0
3 3 7 5 2 2 3 1 4 0 6 2 5 4 9 7 2 9 8 3 6 2 5
4 2 0 5 1 3 1 4 2 0 2 5 17 1 6 1 2 6 8 5 5
5 86 67 7 3 9 6 4 4 8 9 5 7 6 2
6 2 6 5 1 6 9 7 0 2 2 5 2 8 5 6 1 4 4 7 8 5
7 98 81 9 6 0 4 6 5 6 1 7 9 3 8
8 3 3 0 1 9 2 1 0 8 9 0 0 3 6 8 6 4 6 3 3 6 0
9 1 9 5 1 1 6 3 8 0 2 5 1 3 4 5 6 2 2 6 2 0
10 53 55 2 8 0 9 3 0 2 5 2 9 1 5
11 4 3 0 2 5 2 1 8 4 9 0 0 6 3 5 0 4 1 0 8 3 6 0
12 3 7 2 2 3 4 1 3 8 3 8 4 5 4 7 5 6 8 7 0 4 8
13 2 3 6 1 4 4 5 5 6 9 6 2 0 7 3 6 3 3 9 8 4
14 1 5 7 1 0 3 2 4 6 4 9 1 0 6 0 9 1 6 1 7 1
15 3 7 0 2 1 2 1 3 6 9 0 0 4 4 9 4 4 7 8 4 4 0
合计 3 6 2 6 2 2 6 1 1 0 6 7 6 1 4 3 9 5 0 3 9 6 4 7 8 5 1
例:下表是有关 15个地区某种食物需求量和地区人口
增加量的资料。
7-26


人口增长
量(千人)
x
年 需 求
量(十吨)
y
2x 2y xy
合计 3 6 2 6 2 2 6 1 1 0 6 7 6 1 4 3 9 5 0 3 9 6 4 7 8 5 1
? ???? yxxynL xy? 226136266 4 7 8 5 115 ????
1 5 1 9 3 7 9?
2 8 6 6 3 3 4? 23 6 2 61 0 6 7 6 1 415 ???? ??? 22 )( xxnL xx
2226139503915 ???? ??? 22 )( yynL yy 8 1 3 4 6 4?
81 34 6428 66 33 4
15 19 37 9
??
yyxx
xy
LL
L
r
?
?? 9 9 5 0.0?
7-27
计算公式还可以有:
yx
n
y
n
x
n
xy
??
?????
?
? ? ??
? ???
22 )()(
))((
yyxx
yyxxr
nyyxx
nyyxx
/])()([
/)])(([
22? ? ??
? ???
yx
yxxy
??
???
n
yy
n
xx
n
yyxx
??
?
?
?
?
??
?
2
)(
2
)(
))((
7-28
(四)相关系数的显著性检验
? 1、检验两个变量之间是否存在线性相关
关系
? 2、采用 t 检验
? 3、检验的步骤为
? 提出假设,H0,?? ? ; H1,? ? 0
)2(~
1
2
2
?
?
?? nt
r
nrt? 计算检验的统计量:
? 确定显著性水平 ?,并作出决策
? 若 ?t?>t???,拒绝 H0
? 若 ?t?<t???,接受 H0
7-29
相关系数的显著性检验 (实例)
? ?对前例计算的相关系数进行显著性检
(??0.05)
1,提出假设,H0,??? ; H1,?? 0
2,计算检验的统计量
385.48
9950.01
2159950.0
2
?
?
???t
3,根据显著性水平 ?= 0.05,查 t分布表得
t???(n-2)=2.160
? 由于 ?t?=48.385>t???(15-2)=2.160,拒绝 H0,该
种食物需求量和地区人口增加量 之间的相关
关系显著。
7-30
什么是回归分析?
(内容)
1,从一组样本数据出发, 确定变量之间的数学
关系式
2,对这些关系式的可信程度进行各种统计检验,
并从影响某一特定变量的诸多变量中找出哪
些变量的影响显著, 哪些不显著
3,利用所求的关系式, 根据一个或几个变量的
取值来预测或控制另一个特定变量的取值,
并给出这种预测或控制的精确程度
二、简单线性回归分析
回归模型与回归方程
7-32
回归模型
1,回答, 变量之间是什么样的关系?,
2,方程中运用
? 1 个数字的因变量 (响应变量 )
? 被预测的变量
? 1 个或多个数字的或分类的自变量 (解释变量 )
? 用于预测的变量
3,主要用于预测和估计
7-33
回归模型的类型
一个自变量 两个及两个以上自变量回归模型
多元回归一元回归
线性
回归
非线性
回归
线性
回归
非线性
回归
7-34
一元线性回归模型
(概念要点)
1,当只涉及一个自变量时称为 一元回归, 若因变
量 y 与自变量 x 之间为线性关系时称为 一元线
性回归 。
2,对于具有线性关系的两个变量, 可以用一条线
性方程来表示它们之间的关系 。
3,描述因变量 y 如何依赖于自变量 x 和误差项 ?
的方程称为 回归模型 。
7-35
标准的一元线性回归模型
? (一 )总体回归函数
Y t= β0+ β1X t+ ut ( 7.5)
u t是随机误差项,又称随机干扰项,它
是一个特殊的随机变量,反映未列入方程式
的其他各种因素对Y的影响。
? (二 )样本回归函数,
( t=1,2,..,n)
e t称为残差,在概念上,e t与总体误差
项 ut相互对应;n是样本的容量。
tt eXY ??? 10 ?? ??
7-36
一元线性回归模型
(概念要点)
? 对于只涉及一个自变量的简单线性回归模型可表
示为 yt = ?????x ???
? 模型中, y 是 x 的线性函数 (部分 )加上误差项
? 线性部分反映了由于 x 的变化而引起的 y 的变化
? 误差项 ?t 是随机变量
? 反映了除 x 和 y 之间的线性关系之外的随机因
素对 y 的影响
? 是不能由 x 和 y 之间的线性关系所解释的变异

? ?0和 ?1称为模型的参数
7-37
样本回归函数与总体回归函数区别
1、总体回归线是未知的,只有一条。样本回归线是根据样本数
据拟合的,每抽取一组样本,便可以拟合一条样本回归线。
2、总体回归函数中的 β1和 β2是未知的参数,表现为常数。而样
本回归函数中的 是随机变量,其具体数值随所抽取
的样本观测值不同而变动。
3、总体回归函数中的 ut是Y t与未知的总体回归线之间的纵向
距离,它是不可直接观测的。而样本回归函数中的e t是Y t
与样本回归线之间的纵向距离,当根据样本观测值拟合出
样本回归线之后,可以计算出e t的具体数值。
21 ?? ?? 和
7-38
(三) 误差项 的 基本标准假定
1,误差项 ut是一个期望值为 0的随机变量, 即
E(ut)=0。 对于一个给定的 x 值, y 的期望值为
E ( yt ) =? 0+ ? 1 xt
2,对于所有的 x 值, ut的方差 σ2 都相同
3,误差项 ut是一个服从正态分布的随机变量, 且
相互独立 。 即 u~N( 0,σ2 )
? 独立性意味着对于一个特定的 x值, 它所
对应的 u与其他 x 值所对应的 u不相关
? 对于一个特定的 x 值, 它所对应的 yt值与
其他 xt所对应的 y 值也不相关
7-39
总体回归线与随机误差项 P168
E ( Y t) = β1+ β2X t
X
Yt
Y
。。 。


ut
7-40
(四)回归方程 (概念要点)
1,描述 y 的平均值或期望值如何依赖于 x 的
方程称为 回归方程 。
2,简单线性回归方程的形式如下
E( y ) = ?0+ ?1x?
方程的图示是一条直线, 因此也称为直线回归
方程
? ?0是回归直线在 y 轴上的截距, 是当 x=0 时 y
的期望值
? ?1是直线的斜率, 称为回归系数, 表示当 x 每
变动一个单位时, y的平均变动值
7-41
估计 (经验 )的回归 方程
3,简单线性回归中估计的回归方程为
其中,是估计的回归直线在 y 轴上的截距, 是直线
的斜率, 它表示对于一个给定的 x 的值, 是 y 的估计
值, 也表示 x 每变动一个单位时, y 的平均变动值 。
0?? 1??
2,用样本统计量 和 代替回归方程中的未知参
数 和, 就得到了 估计的回归方程 。0
?? 1??
0? 1?
1,总体回归参数 和 是未知的, 必需利用样
本数据去估计 0? 1?
xy 10 ??? ?? ??
三、参数 ?0 和 ?1 的最小二乘
估计
7-43
(一)最小二乘法
(概念要点)
最小???? ??
??
n
i
i
n
i
i eyyQ
1
2
1
2
10 )?()
?,?( ??
1,使因变量的观察值与估计值之间的离差平方和达
到最小来求得 和 的方法。即
2,用最小二乘法拟合的直线来代表 x与 y之间的关
系与实际数据的误差比其他任何直线都小 。
0?? 1??
7-44
最小二乘法 (图示)
x
y (x
n,yn)
(x1,y1)?
?
?
?
?
?
?
?
?(x2,y2)
(xi,yi)
} ei = yi-yi^
xy 10 ??? ?? ??
7-45
3、回归系数的估计的最小二乘法公式

将Q对求偏导数,并令其等于零,可得,
? 加以整理后有:
? ? ??? 22 )?( ttt YYeQ 210 )??( tt XY ?? ?? ??
0)??(2? 10
0
=- tt XYQ ??
?
?? ??
?
?
0)??(2? 10
1
??? ???? ttt XYXQ ??? -
???? tt YXn 10 ?? ??
????? tttt YXXX 210 ?? ??
7-46
最小二乘法
( 和 的计算公式 )
?解方程组 可得求解 和 的标准方程如下:
1??0??
0?? 1??
7-47
例:现以前例的资料配合回归直线,计算如下:


人口增长量
(千人) x
年 需 求
量(十吨)
y
1 274 162
2 180 120
3 375 223
4 205 131
5 86 67
6 265 169
7 98 81
8 330 192
9 195 116
10 53 55
11 430 252
12 372 234
13 236 144
14 157 103
15 370 212
合计 3626 2261
7-48


人口增长
量(千人)
x
年 需 求
量(十吨)
y
2x 2y xy
合计 3 6 2 6 2 2 6 1 1 0 6 7 6 1 4 3 9 5 0 3 9 6 4 7 8 5 1
? ???? yxxynL xy? 226136266 4 7 8 5 115 ????
1 5 1 9 3 7 9?
2 8 6 6 3 3 4? 23 6 2 61 0 6 7 6 1 415 ???? ???
22 )( xxnL xx
5 3 0 1.0
2 8 6 6 3 3 4
1 5 1 9 3 7 9
1
? ???
xxL
xyL?
5905.2216362605301.01522611?0? ??????? xy ??
15?n
7-49
xxy 5 3 0 1.05 9 0 5.221?0?? ???? ??所以
上式中 b表示人口增加量每增加(或减少) 1千
人,该种食品的年需求量平均来说增加(或减少)
0.5301十吨即 5.301吨。
7-50
估计方程的求法
( Excel的输出结果)
SUMMARY OUTPUT
回归统计
Multiple R 0.995024
R Square 0.990073
Adjusted R Square 0.989309
标准误差 6.435265
观测值 15
Coefficients 标准误差 t Stat P-value Lower 95% Upper 95%
Intercept 22.59595 3.927445 5.753344 6.67E-05 14.11122 31.08067
X Variable 1 0.530077 0.014721 36.00731 2.08E-14 0.498274 0.561881
1
??
0
??
7-51
(二)估计标准误差 Sy
1,实际观察值与回归估计值离差平方和的均方根 。
2,反映实际观察值在回归直线周围的分散状况 。
3,从另一个角度说明了回归直线的拟合程度 。
4,计算公式为
由样本资料计算
由总体资料计算或
在大样本情况下
7-52
编号
x y
?y?
2 2, 5 9 0 5 + 0, 5 3 0 1 x
2)?( yy ?
1 274 162 1 6 7, 8 3 7 9 3 3, 9 2 7 2
2 180 120 1 1 8, 0 0 8 5 3, 8 1 2 2
3 375 223 2 2 1, 3 7 8 0 2, 4 8 4 9
4 205 131 1 3 1, 2 6 1 0 0, 0 6 8 1
5 86 67 6 8, 1 7 9 1 1, 2 3 6 4
6 265 169 1 6 3, 0 6 7 0 3 5, 0 4 6 6
7 98 81 7 4, 5 4 0 3 4 1, 4 9 6 9
8 330 192 1 9 7, 5 2 3 5 3 0, 3 5 5 1
9 195 116 1 2 5, 9 6 00 9 8, 9 7 0 7
10 53 55 5 0, 6 8 5 8 1 8, 4 5 8 4
11 430 252 2 5 0, 5 3 3 5 1, 9 9 6 7
12 372 234 2 1 9, 7 8 7 7 2 0 1, 8 3 6 2
13 236 144 1 4 7, 6 9 4 7 1 3, 4 9 2 5
14 157 103 1 0 5, 8 1 6 2 7, 7 7 7 1
15 370 212 2 1 8, 7 2 7 5 4 5, 1 0 5 4
合计 3626 2261 — 5 3 6, 0 6 4 4
)(4 2 1 5.6215 0 6 4 4.5362 2)?( 十吨????? ?? n yyQS




7-53
可得简化式,( P172)
上式的推导证明( P172)
7-54
了 解
(三)最小二乘估计量的性质
(四)回归系数的区间估计
四、一元线性回归模型的检验
7-56
(一) 回归模型检验的种类
回归模型的检验包括理论意义检验、一级检
验和二级检验。
(二)拟合程度的评价
? 所谓拟合程度,是指样本观测值聚集在样本
回归线周围的紧密程度。判断回归模型拟合
程度优劣最常用的数量尺度是样本决定系数
(又称决定系数)。它是建立在对总离差平
方和进行分解的基础之上的。
7-57
总离差平方和的分解
1,因变量 y 的取值是不同的, y 取值的这种
波动称为 变差 。 变差来源于两个方面:
? 由于自变量 x 的取值不同造成的;
? 除 x 以外的其他因素 (如 x对 y的非线性影响,
测量误差等 )的影响 。
2,对一个具体的观测值来说, 变差的大小可
以通过该实际观测值与其均值之差 来
表示 。 yy?
7-58
离差平方和的分解
(图示)
x
y
y
xy 10 ??? ?? ??
yy? {
}
}
yy ??
yy??
? ),( ii yx
离差分解图
7-59
离差平方和的分解
(三个平方和的关系)
2,两端平方后求和有
? ? ? ?yyyyyy ????? ??
1,从图上看有
SST = SSR + SSE
? ? ? ? ? ????
???
?????
n
i
i
n
i
i
n
i
i yyyyyy
1
2
1
2
1
2 ??
总变差平方和
( SST)
{
回归平方和
( SSR)
{
残差平方和
( SSE)
{
7-60
离差平方和的分解
(三个平方和的意义)
1,总平方和 (SST)
? 反映因变量的 n 个观察值与其均值的总离差
2,回归平方和 (SSR)
? 反映自变量 x 的变化对因变量 y 取值变化的
影响, 或者说, 是由于 x 与 y 之间的线性关
系引起的 y 的取值变化, 也称为可解释的平
方和 。
3,残差平方和 (SSE)
? 反映除 x 以外的其他因素对 y 取值的影响,
也称为不可解释的平方和或剩余平方和 。
7-61
样本决定系数
(判定系数 r2 )
1,回归平方和占总离差平方和的比例:
2,反映回归直线的拟合程度
3,取值范围在 [ 0,1 ] 之间
4,r2 ?1,说明回归方程拟合的越好; r2?0
,说明回归方程拟合的越差
5,判定系数等于相关系数的平方,即 r2= (r)2
7-62
(三)回归方程的显著性检验
( 线性关系的检验 )
1,检验自变量和因变量之间的线性关系是否
显著
2,具体方法是将回归离差平方和 (SSR)同剩余
离差平方和 (SSE)加以比较, 应用 F检验来
分析二者之间的差别是否显著
? 如果是显著的, 两个变量之间存在线性关系
? 如果不显著, 两个变量之间不存在线性关系
7-63
回归方程的显著性检验
( 检验 的步骤)
1,提出假设
? H0:线性关系不显著
2,计算检验统计量 F
3,确定显著性水平 ?,并根据分子自由度 1和分
母自由度 n-2找出临界值 F?
4,作出决策:若 F?F?,拒绝 H0; 若 F<F?,接受 H0
7-64
回归方程的显著性检验
( 方差分析表 )
(续前例) Excel 输出的方差分析表
方差分析
df SS MS F Significance F
回归分析 1 189191.9 189191.9 1296.526 2.08E-14
残差 13 1896.988 145.9222
总计 14 191088.9
平方和 均方
1296.526
7-65
回归系数的显著性检验
(要点)
3,在一元线性回归中, 等价于回归方程的
显著性检验
1,检验 x 与 y 之间是否具有线性关系, 或
者说, 检验自变量 x 对因变量 y 的影响
是否显著
2,理论基础是回归系数 的抽样分布
1??
7-66
1,是根据最小二乘法求出的样本统计量, 它
有自己的分布
2,的分布具有如下性质
? 分布形式:正态分布
? 数学期望:
? 标准差:
? 由于 ?无未知, 需用其估计量 Sy来代替得到
的估计的标准差
回归系数的显著性检验
(样本统计量 的分布)
11 )?( ?? ?E
? ?
?
2? )(1 xx
i
??
?
? ?
?
2? )(1 xx
S
S
i
y
?
7-67
回归系数的显著性检验
(样本统计量 的分布)
? ?
?
2? )(1 xx
S
S
i
y
?
的抽样分布
11 )?( ?? ?E
7-68
回归系数的显著性检验
(步骤)
1,提出假设
? H0,?1 = 0 (没有线性关系 )
? H1,?1 ? 0 (有线性关系 )
2,计算检验的统计量
3,确定显著性水平 ?,并进行决策
? ? t?>t???,拒绝 H0; ?t?<t???,接受 H0
7-69
回归系数的显著性检验
(实例)
1,提出假设
? H0,?1 = 0 人均收入与人均消费之间无线性关系
? H1,?1 ? 0 人均收入与人均消费之间有线性关系
2,计算检验的统计量
3,t=65.0758>t???=2.201,拒绝 H0,表明 人均收入
与人均消费之间有线性关系
?对前例的回归系数进行显著性检验 (?= 0.05)
7-70
回归系数的显著性检验
(Excel输出的结果)
0 5 1 8 7 2.0
8 6 7 7 8 9.1?
1
1
?
1
? ??
?
?
?
S
t
4 1 8 0 4 9.8
8 0 4 7.39?
0
0
?
0
?
???
?
?
?
S
t
? ?
??
?
n
i
i
y
xx
x
n
SS
1
2
2
?
)(
)(1
0?
? ?
?
?
n
i
i
y
xx
S
S
1
2
?
)(
1?
Coefficients 标准误差 t Stat P-value 下限 9 5, 0 % 上限 9 5, 0 %
Intercept -39.8047 8.418049 -4.7285 0.000394 -57.9908 -21.6186
X Variable 1 1.867789 0.051872 36.00731 2.08E-14 1.755725 1.979853
预测及应用
7-72
利用回归方程进行估计和预测
1,根据自变量 x 的取值估计或预测因变量 y
的取值
2,估计或预测的类型
? 点估计
? y 的平均值的点估计
? y 的个别值的点估计
? 区间估计
? y 的平均值的 置信区间 估计
? y 的个别值的 预测区间 估计
7-73
利用回归方程进行估计和预测
(点估计)
2,点估计值
3,在点估计条件下,平均值的点估计和个别值
的的点估计是一样的,但在区间估计中则不同
1,对于自变量 x 的一个给定值 x0, 根据回归方程
得到因变量 y 的一个估计值
0?y
7-74
利用回归方程进行估计和预测
(点估计)
? ? y 的平均值的点估计
1,利用估计的回归方程,对于自变量 x
的一个给定值 x0,求出因变量 y 的平
均值的一个估计值 E(y0),就是平均值
的点估计。
7-75
根据回归方程,可以给出自变量的某一数值
来估计或预测因变量平均可能值。例如,前例中当
人口增长量为 400千人时,该食品的年需求量为
吨。即
十吨
6 3 0 5.234
)(6 3 0 5.2344005 3 0 1.05 9 0 5.22? ????y
7-76
利用回归方程进行估计和预测
(区间估计)
1,点估计不能给出估计的精度, 点估计值与
实际值之间是有误差的, 因此需要进行区
间估计
2,对于自变量 x 的一个给定值 x0,根据回归
方程得到因变量 y 的一个估计区间
3,区间估计有两种类型
? 置信区间估计
? 预测区间估计
7-77
利用回归方程进行估计和预测
(置信区间估计)
? ? y 的平均值的置信区间估计
1,利用估计的回归方程,对于自变量 x 的一个
给定值 x0,求出因变量 y 的平均值 E(y0)的
估计区间,这一估计区间称为 置信区间
2,E(y0)在 1-?置信水平下的置信区间为
? ?
? ??
?
?
?
???
n
i
i
y
xx
xx
n
Snty
1
2
2
0
20
1
)2(? ? 式中,S
y为
估计标准误

7-78
影响区间宽度的因素
? 1.置信水平 (1 - ?)
? 区间宽度随置信水平的增大而增大
? 2.数据的离散程度 (s)
? 区间宽度随离散程度的增大而增大
? 3.样本容量
? 区间宽度随样本容量的增大而减小
? 4.用于预测的 xp与 ?x的差异程度
? 区间宽度随 xp与 ?x 的差异程度的增大而增大
7-79
置信区间, 预测区间, 回归方程
xp
xy 10 ??? ?? ??
y
x
?x
7-80
第三节 多元线性相关与回归分析
? 一、多元线性回归模型
? 一个因变量与两个及两个以上自变量之间的回归
? 描述因变量 y 如何依赖于自变量 x1, x2, …, xp 和
误差项 ? 的方程称为多元线性回归模型
? 涉及 p 个自变量的多元线性回归模型可表示为
? ?0,??,??,?,?p是参数
? ? 是被称为误差项的随机变量
? y 是 x1,,x2, ?,xp 的线性函数加上误差项 ?
?? 说明了包含在 y里面但不能被 p个自变量的线
性关系所解释的变异性
ipipii xxxy ????? ?????? ?22110
7-81
多元线性回归模型
? ? 对于 n 组实际观察数据 (yi ; xi1,,xi2,
?, xip ),(i=1,2,…,n),多元线性回归模
型可表示为
y1 = ?? ? ?? x11? ?? x12????px1p? ??
y2= ?? ? ?? x21? ?? x22????px2p? ??
yn= ?? ? ?? xn1 ? ?? xn2 ????pxnp? ?n{
……
7-82
二、参数的最小二乘法
2,根据最小二乘法的要求, 可得求解 各回归参数
的标准方程如下
?
?
?
?
?
?
?
??
?
?
?
?
?
?
?
),,2,1(0
0
?
?0
00
pi
Q
Q
ii
i
?
??
??
?
?
1,使因变量的观察值与估计值之间的离差平方和
达到最小来求得 。 即
p???? ?,,?,?,? 210 ?
7-83
三、回归方程的显著性检验
( 线性关系的检验 )
1,检验因变量与所有的自变量和之间的是否存
在一个显著的线性关系, 也被称为 总体的显
著性 检验
2,检验方法是将回归离差平方和 (SSR)同剩余离
差平方和 (SSE)加以比较, 应用 F 检验 来分
析二者之间的差别是否显著
? 如果是显著的, 因变量与自变量之间存在线性
关系
? 如果不显著, 因变量与自变量之间不存在线性
关系
7-84
回归方程的显著性检验
(步骤)
1,提出假设
? H0,?1??2????p=0 线性关系不显著
? H1,?1,?2,?,?p至少有一个不等于 0
2,计算检验统计量 F
3,确定显著性水平 ?和分子自由度 p、分母自由度 n-
p-1找出临界值 F?
4,作出决策:若 F?F?,拒绝 H0; 若 F<F?,接受 H0
7-85
回归系数的显著性检验
(要点)
1,如果 F检验已经表明了回归模型总体上是显著
的, 那么回归系数的检验就是用来确定每一个
单个的自变量 xi 对因变量 y 的影响是否显著
2,对每一个自变量都要单独进行检验
3,应用 t 检验
4,在多元线性回归中,回归方程的显著性检验 不
再等价于 回归系数的显著性检验。
7-86
回归系数的显著性检验 (步骤)
1,提出假设
? H0,?i = 0 (自变量 xi 与 因变量 y 没有线性关
系 )
? H1,?i ? 0 (自变量 xi 与 因变量 y有线性关系 )
2,计算检验的统计量 t
3,确定显著性水平 ?,并进行决策
? ? t??t???,拒绝 H0; ? t?<t???,接受 H0
7-87
第四节 非线性相关与回归分析
? 一、非线性函数形式的确定
? 在对实际的客观现象进行定量分析时,选择回归方
程的具体形式应遵循以下原则:
? 首先,方程形式应与有关实质性科学的基本理论相一致。
例如,采用幂函数的形式,能够较好地表现生产函数;采
用多项式方程能够较好地反映总成本与总产量之间的关系
等等。
? 其次,方程有较高的拟合程度。因为只有这样,才能说明
回归方程可以较好地反映现实经济的运行情况。
? 最后,方程的数学形式要尽可能简单。如果几种形式都能
基本符合上述两项要求,则应该选择其中数学形式较简单
的一种。一般来说,数学形式越简单,其可操作性就越强。
7-88
? (一)抛物线函数
? (二)双曲线函数
? (三)幂函数
? (四)指数函数
? (五)对数函数
? (六)S形曲线函数
? (七)多项式方程
7-89
几种常见的非线性模型
? ?指数函数
2,线性化方法
? 两端取对数得,lny = ln? + ? x
? 令,y' = lny,则有 y' = ln? + ? x
1,基本形式,
3,图像
??? ???
7-90
几种常见的非线性模型
? ?幂函数
2,线性化方法
? 两端取对数得,lg y = lg? + ? lg x
? 令,y' = lgy,x'= lg x,则 y' = lg? + ? x'
1,基本形式:
3,图像
0<?< 1
?? 1 ? = 1
-1<?<0
? <-1
? =-1
7-91
几种常见的非线性模型
? ?双曲线函数
2,线性化方法
? 令,y' = 1/y,x'= 1/x,则有 y' = ? + ? x'
1,基本形式:
3,图像
? < 0 ? > 0
7-92
几种常见的非线性模型
? ?对数函数
2,线性化方法
? x'= lgx,则有 y' = ? + ? x'
1,基本形式:
3,图像
?? 0 ? <0
7-93
几种常见的非线性模型
? ? S 型曲线
2,线性化方法
? 令,y' = 1/y,x'= e-x,则有 y' = ? + ? x'
1,基本形式:
3,图像
7-94
非线性回归 (实例)
【 例 】 为研究生产率与废品率之间的关系, 记
录数据如下表 。 试拟合适当的模型 。
废品率与生产率的关系
生产率(周 /单位 )
x 1000 2000 3000 3500 4000 4500 5000
废品率( %)
y 5.2 6.5 6.8 8.1 10.2 10.3 13.0
7-95
非线性回归 (实例)
0
4
8
12
16
0 2000 4000 6000
éú 2ú ?ê
·?


生产率与废品率的散点图
7-96
非线性回归 (实例)
1,用线性模型,y =?0??1x+?, 有
y = 2.671+0.0018x
2,用指数模型,y = ?? x, 有
y =4.05?(1.0002)x
3,比较
直线的残差平方和= 5.3371<指数模型的
残差平方和= 6.11。 直线模型略好于指数模型
7-97
结 束