经济预测与决策经济预测与决策第三章 回归分析预测法本章学习目的与要求通过本章的学习,了解回归分析预测法的概念;掌握回归分析中各系数的计算方法及回归预测方法。
本章学习重点和难点重点是一元线性回归预测法。
难点是区间估计。
本章内容提示第一节 回归分析概述一、回归的定义二、回归模型的分类第二节 一元线性回归预测法一、一元线性回归模型二、最小二乘估计三、拟合优度的度量四、相关系数检验法五、最小二乘估计式的标准误差六、回归预测第三章 回归分析预测法
回归分析预测法就是从各种经济现象之间的相互关系出发,通过对与预测对象有联系的现象的变动趋势的回归分析,
推算出预测对象未来状态数量表现的一种预测方法。
第一节 回归分析概述
一、回归的定义
二、回归模型的分类一、回归的定义
回归是研究自变量与因变量之间的关系形式的分析方法,其目的在于根据已知自变量值来估计因变量的总体平均值。
在研究某一社会经济现象的发展变化规律时,
经过分析可以找到影响这一现象变化的原因。
在回归分析中,把某一现象称为因变量,它是预测的对象,把引起这一现象变化的因素称为自变量,它是引起这一现象变化的原因。而因变量则反映了自变量变化的结果。
回归
自变量与因变量之间的因果关系可以通过函数形式来表现,用数学模型来体现两者之间的数量关系。自变量的值是确定的,而因变量的值是随机的。
回归函数中,确定的自变量值所对应的是随机的因变量值的总体平均值。
二、回归模型的分类
1.按模型中自变量的多少,分为一元回归模型和多元回归模型 。
一元回归模型是指只包含一个自变量的回归模型;
多元回归模型是指包含两个或两个以上自变量的回归模型 。
1.按模型中自变量的多少
分为一元回归模型和多元回归模型。
一元回归模型是指只包含一个自变量的回归模型;
多元回归模型是指包含两个或两个以上自变量的回归模型。
2.按模型中自变量与因变量之间是否线性
分为线性回归模型和非线性回归模型。
线性回归模型是指自变量与因变量之间呈线性关系;
非线性回归模型是指自变量与因变量之间呈非线性关系。
3.按模型中方程数目的多少
分为单一方程模型和联立方程模型。
单一方程模型是指只包含一个方程的回归模型;联立方程模型是指包含两个或两个以上方程的回归模型。
单一方程的一元线性回归分析是其它回归分析的基础,本章将主要介绍一元线性回归预测法。
第二节 一元线性回归预测法
一元线性回归预测法是根据一元线性回归模型中单一自变量的变动来预测因变量平均发展趋势的方法。
一、一元线性回归模型
若用 X代表自变量,Y代表因变量。则给定一个自变量的值 Xi时,对于一元线性回归模型就有一个因变量的总体平均值
E(Yi)与它对应,其函数关系可写成
E(Yi)=f(Xi),它表明 Y的总体平均值是随着 X的变化而变化的。该函数亦称为总体回归函数。
一元线性回归模型的基本形式为:
E(Yi)=β0+?1Xi ( 3-1)
或 Yi=E (Yi)+ui=β0+?1Xi+ui ( 3-2)
其中 β0,?1是未知而固定的参数,称为回归系数,ui称为随机扰动项。
在回归分析中,我们要根据 Y和 X的观测值来估计未知的 β0和?1的值,进而建立回归模型。
回归模型
通常我们是通过 Y和 X的样本观测值建立样本回归函数来估计参数的。
一元线性回归样本函数 17页 (3-3)
的估计式。为的估计式;为
)的估计式;(为式中
11
00
ii
i10i
YEY
,
3)-(3 X

Y



回归模型
对于样本中每一个与 Xi相对的观测值 Yi与由样本回归函数得到的估计值有一随机偏差,这个偏差称为样本剩余,记为 ei。
样本回归函数
eXeY?Y ii10iii
回归模型
回归分析就是要根据样本回归函数来估计总体回归函数。
在这里需要解决的问题主要有两个:
其一是估计参数 ;
其二是“接近”的程度有多大。
二、最小二乘估计
建立样本回归函数的方法有许多,其中最流行的是最小二乘法( OLS)。
1.最小二乘准则
2.最小二乘估计式
1.最小二乘准则
,当给定样本 X和 Y的 N对观测值时,我们希望据此建立的样本回归函数值应尽可能接近观测值 Yi,使其样本剩余的平方和尽可能地小,即?ei2?min。 这一准则就是最小二乘准则。
图 3-1
Y
Yi,e
.,
,
,
0 Xi X
2.最小二乘估计式
根据最小二乘准则建立样本回归函数的过程为最小二乘估计,简记 OLS估计。
由此得到的估计值得计算式称为最小二乘估计式。
双变量线性回归模型的最小二乘估计
XY? i10i
eY?Y iii
XYY?Ye i10iiii
)XY(e 2i10i2i
双变量线性回归模型的最小二乘估计
由最小二乘准则,?ei2?min
有:
0
)XY(
0
)XY(
1
2
i10i
1
2
i
0
2
i10i
0
2
i
e
e








0X)XY(2
0)XY(2
ii10i
i10i


0Xe
0e
ii
i


双变量线性回归模型的最小二乘估计式
6)-(3
N
X
N
Y
5)-(3
)X(XN
YXYXN
i
1
i
0
2
i
2
i
iiii
1





双变量线性回归模型的最小二乘估计式
8)-(3 X?Y?
7)-(3
)XX(
)YY)(XX(
10
2
i
ii
1




最小二乘估计式
x
yx?
2
i
ii
1?

X?Y? 10
三、拟合优度的度量
1.拟合优度
2.可决系数
1.拟合优度
拟合优度是指样本回归直线对观测数据拟合的优劣程度。
如果全部观测值都在回归直线上,我们就获得“完全的”拟合,但这是罕见的情况,通常都存在一些正 ei或负 ei。 我们所希望的就是围绕回归直线的剩余尽可能的小。
2.可决系数
拟合优度通常用可决系数来度量。可决系数是样本回归直线对数据拟合程度的综合度量。在双变量的情况下,通常用 r2
表示可决系数。
可决系数
可决系数的计算步骤如下:
17页
r2=( TSS-RSS) /TSS=1-RSS/TSS
可决系数
r2称为(样本)可决系数,它是最常用的回归直线拟合优度的度量,表示由回归模型作出解释的变差在总变差中所占的比重。
可决系数
因为 TSS=RSS+ESS,所以 ESS=TSS-RSS,
上式表明,若样本剩余 RSS越小,r2的值就越大,拟和优度越好;反之,RSS越大,
r2的值就越小,拟和优度越差。
r2具有以下两个性质:
( 1) r2是一个非负数。
( 2) r2的取值范围是,0?r2?1。 r2=1意味着完全拟合,r2=0意味着因变量与自变量之间没有关系。
r2还可以按以下推导出的公式求得:
y
x?
y
)x?(
y
y?
T S S
E S S
r
2
i
2
i2
12
i
2
i1
2
i
2
i2



四、相关系数检验法
1.相关系数
2.相关系数检验法
1.相关系数
与可决系数密切有关而在概念上又有很大差异的量就是相关系数,它是两个变量之间的相关程度的度量。可以根据下式计算:
2rr
根据其定义计算:
)y)(x(
yx
r
2
i
2
i
ii

r具有以下性质:
( 1)它可以是正值也可以是负值,其符号取决于上式中分子的符号。
( 2)它的取值范围在 -1和 +1之间,即 –1
r? +1。
( 3) 它的性质是对称的,X与 Y的相关系数 rxy和 Y与 X的相关系数 ryx是相同的,
都是 r。
( 4) 它只是线性联系或线性相关的度量,
用来描述非线性关系是没有意义的。
2.相关系数检验法
建立一元线性回归模型之后,若要考察两个变量之间是否具有显著的线性相关关系,就需要对模型进行显著性检验。
一元线性回归模型常用的线性相关关系的显著性检验方法是相关系数检验法。
相关系数检验法的步骤如下:
( 1)根据相关系数的计算公式计算相关系数 r。
( 2) 给定显著性水平?,根据?和 N-2的值,从相关系数临界值表中查出相关系数临界值 r?,N-
2。
( 3) 比较与的值,若? r r?,N-2,表明两变量之间线性关系在显著性水平?时相关关系显著;否则? r r?,N-2,表明两变量之间线性关系在显著性水平?时相关关系不显著,该模型不宜用来预测 。
五、最小二乘估计式的标准误差
用样本函数的系数去估计总体参数需要有某种精度或者可靠性度量。
目前常用的的衡量估计值精度的指标是标准误差( se)。
标准误差
x
)?(se
2
i
1

xN
X
)?(se
2
i
2
i
0

2N
e
2
i2

标准误差六、回归预测
根据样本数据,利用最小二乘法,可以得到最小二乘估计值,建立一元回归的预测模型。根据预测模型可以在给定 X的条件下,求得 Y的估计值,并进行预测。
回归预测有两类:
预测对应于给定 X条件下的 Y的总体均值。这类预测我们称为均值预测。
预测对应于给定 X条件下的个别 Y值。这类预测我们称为个别值预测。
1.均值预测
其中,
1]P r [ 0
2
000
2
0 )()()( YsetYYEYsetY
x
)XX(
N
1)Y?s e (
2
i
2
0
0?

均值预测
上式表明,在重复抽样中,若构造 100个这样的区间,将会有( 1) 100以上的区间包含个别?值。
2.个别值预测
x
XX
N
1
1?ese
2
i
2
0
0

)(
)(
1]P r [ 0
2
000
2
0 )()( esetYYesetY
其中,
个别值预测
上式表明,在重复抽样中,若构造 100个这样的区间,将会有 ( 1) 100以上的区间包含个别?值 。
七、回归预测例题
例 3-1 为了研究家庭消费支出与家庭收入的关系,对某地区进行了抽样调查。获得每月家庭消费支出和家庭收入的数据如下表:
表 3-1
家庭收入(元) 家庭消费(元)
800 700
1000 650
1200 900
1400 950
1600 1100
1800 1150
2000 1200
2200 1400
2400 1550
2600 1500
表 3-2 计算各参数的基础数据表序号 Xi Yi xi yi xi2 yi2 xiyi Xi2
1 800 700 -900 -410 810000 168100 369000 640000
2 1000 650 -700 -460 490000 211600 322000 1000000
3 1200 900 -500 -210 250000 44100 105000 1440000
4 1400 950 -300 -160 90000 25600 48000 1960000
5 1600 1100 -100 -10 10000 100 1000 2560000
6 1800 1150 100 40 10000 1600 4000 3240000
7 2000 1200 300 90 90000 8100 27000 4000000
8 2200 1400 500 290 250000 84100 145000 4840000
9 2400 1550 700 440 490000 193600 308000 5760000
10 2600 1500 900 390 810000 152100 351000 6760000
合计 17000 11100 0 0 3300000 8890000 1680000 32200000
平均 1700 1110
计算
9 8 0 8.0rr
9 6 2 1.0
8 8 9 0 0 03 3 0 0 0 0 0
1 6 8 0 0 0 0
)y)(x(
)yx(
r
5 4 5 5.2 4 41 7 0 05 0 9 1.01 1 1 0X
Y
5 0 9 1.0
3 3 0 0 0 0 0
1 6 8 0 0 0 0
x
yx
2
2
2
i
2
i
2
ii2
10
2
i
ii
1





查相关系数检验表,当 N-2=8时,?=0?01
的 rN-2=0?765,?rrN-2,X与 Y相关极显著。
所建立的回归模型为:
8df
9 6 2 1.0r
( 0,0 3 5 7 ) ( 6 4,1 0 9 1 )
X5 0 9 1.05 4 5 5.2 4 4Y
2
ii

预测
根据以上计算结果,该模型可用于预测 。
若要预测家庭收入为 1600元时,家庭消费的情况 。 即当 Xi=X0=1600元时:
)(1 0 5 5.1 0 5 91 6 0 05 0 9 1.05 4 5 5.2 4 4Y? 0 元
八、计算器的使用
以上繁琐的计算可以借助计算工具完成。现以 fx-3600pv型电子计算器为例,介绍有关的计算技术。
对于例 3-1可按以下程序完成主要计算:
MODE 2 S KAC
800 xDyD 700 DATA
1000 xDyD 650 DATA
1200 xDyD 900 DATA
1400 xDyD 950 DATA
1600 xDyD 1100 DATA
1800 xDyD 1150 DATA
2000 xDyD 1200 DATA
2200 xDyD 1400 DATA
2400 xDyD 1550 DATA
2600 xDyD 1500 DATA
计算器的使用
S A ( 显示?0值,?0 =244.5454545)
S B ( 显示?1值,?1 =0.509090909)
S r ( 显示 r值,r =0.980847368)
S x2 ( 显示 r2值,r2 =0.96206156)
的计算
10? 2 = S Min
Kout?y2? S A? Kout?y? S B? Kout?xy =?
MR = S Min
2
2
2N
YX?Y?Y ii1i02i

9 0 9 1 2 5.4215? 2
Kout?x2? S?x? Kout? x = Kin 5 S 1/x?
MR =?ˉ
的计算
0.03574281 )?se( 1
)?se( 1?
的计算
S x2? Kout?x2? 10 =
46 4,1 3 8 1 7 3 2)?s e ( 0
)?s e ( 0?
的计算
1600? S?x = S x2? Kout 5 = + 10 S
1/x =? MR =
)Y?se( 0
52 0,8 4 1 4 5 8 5)Y?s e ( 0?
se(e0)的计算
S x2 + MR =
Se( e0) =68.19292866