计量经济学第 二 章简单线性回归模型
2
从 2004中国国际旅游交易会上获悉,到 2020年,中国旅游业总收入将超过 3000亿美元,相当于国内生产总值的
8%至 11%。(资料来源:国际金融报 2004年 11月 25日第二版)
◆ 是什么决定性的因素能使中国旅游业总收入到 2020年达到
3000亿美元?
◆ 旅游业的发展与这种决定性因素的数量关系究竟是什么?
◆ 怎样具体测定旅游业发展与这种决定性因素的数量关系?
引子,中国旅游业总收入将超过 3000
亿美元吗?
3
第二章 简单线性回归模型本章主要讨论,
● 回归分析与回归函数
●简单线性回归模型参数的估计
●拟合优度的度量
●回归系数的区间估计和假设检验
●回归模型预测
4
第一节 回归分析与回归方程本节基本内容,
● 回归与相关
● 总体回归函数
●随机扰动项
●样本回归函数
5
1,经济变量间的相互关系
◆确定性的函数关系
◆不确定性的统计关系 — 相关关系
(ε为随机变量 )
◆ 没有关系一、回归与相关
(对统计学的回顾)
()Y f X
()Y f X?
6
2.相关关系
◆ 相关关系的描述相关关系最直观的描述方式 ——坐标图 ( 散布图 )
Y
X
7
◆ 相关关系的类型
● 从涉及的变量数量看简单相关多重相关 ( 复相关 )
● 从变量相关关系的表现形式看线性相关 ——散布图接近一条直线非线性相关 ——散布图接近一条曲线
● 从变量相关关系变化的方向看正相关 ——变量同方向变化,同增同减负相关 ——变量反方向变化,一增一减不相关
8
3.相关程度的度量 — 相关系数总体线性相关系数,
其中,—— X 的方差; —— Y的方差
—— X和 Y的协方差样本线性相关系数,
其中,和 分别是变量 和 的样本观测值和 分别是变量 和 样本值的平均值
C o v(,)
V a r ( ) V a r ( )
XY
XY
Var( )X Var( )Y
C o v(,)XY
_ _ _ _
_ _ _ _
22
( ) ( )
( ) ( )
ii
XY
ii
X X Y Y
X X Y Y
__Y
iX iY
X
X Y
X Y
9
● 和 都是相互对称的随机变量
● 线性 相关系数只反映变量间的线性相关程度,不能说明非 线性相关关系
● 样本相关系数是总体相关系数的样本估计值,由于抽样波动,样本相关系数是个随机变量,其统计显著性有待检验
● 相关系数只能反映线性相关程度,不能确定因果关系,不能说明相关关系具体接近哪条直线计量经济学关心,变量间的因果关系及隐藏在随机性后面的统计规律性,这有赖于回归分析方法使用相关系数时应注意
X Y
10
4,回归分析回归的 古典意义,
高尔顿遗传学的回归概念
( 父母身高与子女身高的关系 )
回归的 现代意义,
一个应变量对若干解释变量依存关系 的研究回归的 目的(实质),
由固定的解释变量去估计应变量的平均值
11
● 的 条件分布当解释变量 取某固定值时 ( 条件 ),的值不确定,的不同取值形成一定的分布,即 的条件分布 。
● 的 条件期望对于 的每一个取值,
对 所形成的分布确定其期望或均值,称为 的条件期望或条件均值注意几个概念
iX
X
Y
Y
Y
Y Y
Y
Y
X
Y
X
E( )iYX
12
iX
Y
X
● 回归线,
对于每一个 的取值,
都有 的条件期望与之对应,
代表这些 的条件期望的点的轨迹所形成的直线或曲线,称为回归线。
回归线与回归函数
X
Y
Y
E( )iYX
13
回归函数,应变量 的条件期望 随解释变量 的的变化而有规律的变化,如果把的条件期望 表现为 的某种函数这个函数称为回归函数。
回归函数分为,总体回归函数和样本回归函数举例:假如已知 100个家庭构成的总体。
回归线与回归函数
YX
X
E( ) ( )iiY X f X?
Y E( )iYX
E( )iYX
14
每 月 家 庭 可 支 配 收 入 X
1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
820 962 1108 1329 1632 1842 2037 2275 2464 2824
888 1024 1201 1365 1726 1874 2110 2388 2589 3038
932 1121 1264 1410 1786 1906 2225 2426 2790 3150
每 960 1210 1310 1432 1835 1068 2319 2488 2856 3201
月 1259 1340 1520 1885 2066 2321 2587 2900 3288
家 1324 1400 1615 1943 2185 2365 2650 3021 3399
庭 1448 1650 2037 2210 2398 2789 3064
消 1489 1712 2078 2289 2487 2853 3142
费 1538 1778 2179 2313 2513 2934 3274
支 1600 1841 2298 2398 2538 3110
出 1702 1886 2316 2423 2567
Y 1900 2387 2453 2610
2012 2498 2487 2710
2589 2586
900 1150 1400 1650 1900 2150 2400 2650 2900 3150E( )
iYX
例,100个家庭构成的总体 (单位,元 )
15
1,总体回归函数的概念前提,假如已知所研究的经济现象的总体应变量 和解释变量 的每个观测值,可以计算出总体应变量 的条件均值,并将其表现为解释变量 的某种函数这个函数称为总体回归函数 ( PRF)
二、总体回归函数 ( PRF)
E ( ) ( )iiY X = f X
Y
Y
X
X
E( )iYX
16
iu
iX
X
Y
)( iXYE
iY
( 1) 条件均值 表现形式假如 的条件均值 是解释变量 的线性函数,可表示为:
( 2) 个别值 表现形式对于一定的,的各个别值 分布在 的周围,若令各个 与条件均值 的偏差为,显然 是随机变量,则有或
2.总体回归函数的表现形式
iX
E( )iYX
12E ( ) ( )i i i iY X f X X
iY
E( )iYX iY
E( )iYX iu iu
12E ( )i i i i i iu Y Y X Y X
12i i iY X u
Y
Y
X
17
● 实际的经济研究中总体回归函数通常是 未知 的,
只能根据经济理论和实践经验去 设定 。,计量,
的目的就是寻求 PRF。
● 总体回归函数中 与 的关系可是 线性 的,也可是非线性 的 。
对线性回归模型的,线性,有两种解释就变量而言 是线性的
—— 的条件均值是 的线性函数就参数而言 是线性的
—— 的条件均值是参数 的线性函数
3.如何理解总体回归函数
Y X
Y
Y X
18
变量、参数均为“线性”
参数“线性”,变量”非线性”
变量“线性”,参数”非线性”
计量经济学中,
线性回归模型主要指就参数而言是,线性,,
因为只要对参数而言是线性的,都可以用类似的方法估计其参数。
12E ( )i i iY X X
2
12E ( )i i iY X X
12E ( )i i iY X X
“线性,的判断
19
三、随机扰动项
◆ 概念,
各个 值与条件均值的偏差 代表排除在模型以外的所有因素对 的影响。
◆ 性质,是期望为 0有一定分布的随机变量重要性,随机扰动项的性质决定着计量经济方法的选择
u
iY
iu
Y
X
iX
u
E( )iYX
Y
iu
20
● 未知 影响因素的代表
● 无法取得数据 的已知影响因素的代表
● 众多细小影响因素 的综合代表
● 模型的 设定误差
● 变量的 观测误差
● 变量内在 随机性引入随机扰动项的原因
21
四、样本回归函数 ( SRF)
X
样本回归线,
对于 的一定值,取得 的样本观测值,可计算其条件均值,样本观测值条件均值的轨迹称为样本回归线。
样本回归函数:
如果把应变量 的样本条件均值表示为解释变量 的某种函数,这个函数称为样本回归函数( SRF)。
X Y
Y
Y
X
22
SRF 的特点
● 每次抽样都能获得一个样本,就可以拟合一条样本回 归线,所以样本回归线随抽样波动而变化,可以有许多条 ( SRF不唯一)。
SRF2
SRF1Y
X
23
● 样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。
●样本回归线还不是总体回归线,至多只是未知总体回归线的近似表现。
24
12iiYX
样本回归函数如果为线性函数,可表示为其中,是与 相对应的 的样本条件均值和 分别是样本回归函数的参数应变量 的实际观测值 不完全等于样本条件均值,二者之差用 表示,称为 剩余项 或 残差项,
或者样本回归函数的表现形式
21i i iY X e
iiie Y Y
ie
iX
iY
iY
1 2
ie
Y
Y
25
对样本回归的理解如果能够获得 和 的数值,显然,
● 和 是对总体回归函数参数 和 的估计
● 是对总体条件期望 的估计
● 在概念上类似总体回归函数中的,可视为对 的估计。
ie
iY
iu
E( )iYX
12i i iY X e
1 2
21 1? 2?
iu
26
iY
样本回归函数与总体回归函数的关系
SRF
PRF
A
iu
ie
iY
()iiE Y X
iY
Y
iX X
27
1
回归分析的目的用样本回归函数 SRF去估计总体回归函数 PRF。
由于样本对总体总是存在代表性误差,SRF总会过高或过低估计 PRF。
要解决的问题:
寻求一种规则和方法,使得到的 SRF的参数 和尽可能,接近,总体回归函数中的参数 和 。
这样的“规则和方法”有多种,最常用的是最小二乘法
2
1? 2?
28
第二节简单线性回归模型的最小二乘估计本节基本内容,
● 简单线性回归的基本假定
● 普通最小二乘法
● OLS回归线的性质
● 参数估计式的统计性质
29
一,简单线性回归的基本假定
1,为什么要作基本假定?
● 模型中有随机扰动,估计的参数是随机变量,
只有对随机扰动的分布作出假定,才能确定所估计参数的分布性质,也才可能进行假设检验和区间估计
● 只有具备一定的假定条件,所作出的估计才具有较好的统计性质 。
30
( 1) 对模型和变量的假定如假定解释变量 是非随机的,或者虽然是随机的,但与扰动项 是不相关的假定解释变量 在重复抽样中为固定值假定变量和模型无设定误差
2、基本假定的内容
12i i iY X u
X
u
X
31
又称高斯假定,古典假定假定 1,零均值假定在给定 的条件下,的条件期望为零假定 2,同方差假定在给定 的条件下,的条件方差为某个常数
iu
iu
( 2)对随机扰动项 的假定u
iu
X
X
E ( ) 0iiuX?
2?
iu
22V a r ( ) E [ E ( ) ]
i i i i iu X u u X
32
假定 3,无自相关假定随机扰动项 的逐次值互不相关假定 4,随机扰动 与解释变量 不相关
iu
iu
X
(,) [ ( ) ] [ ( ) ]i j i i j jC ov u u E u E u u E u
( ) 0 ( )ijE u u i j
(,) [ ( ) ] [ ( ) ] 0i i i i i iC o v u X E u E u X E X
33
假定 5,对随机扰动项分布的正态性假定即假定 服从均值为零,方差为 的正态分布
( 说明:正态性假定不影响对参数的点估计,但对确定所估计参数的分布性质是需要的 。 且根据中心极限定理,当样本容量趋于无穷大时,的分布会趋近于正态分布 。 所以正态性假定是合理的 )
iu
2( 0,)iuN?
iu
2?
iu
34
的分布性质由于的分布性质决定了 的分布性质。
对 的一些假定可以等价地表示为对 的假定:
假定 1:零均值假定假定 2:同方差假定假定 3:无自相关假定假定 5:正态性假定
iY
C o v (,) 0 ( )ijY Y i j
iii uXY 21
iu
iu iY
12E ( )i i iY X X
2V a r ( )iYX
212(,)iiY N X
Y
35
◆ OLS的基本思想
● 不同的估计方法可得到不同的样本回归参数和,所估计的 也不同。
●理想的估计方法应使 与 的差即剩余越小越好
●因 可正可负,所以可以取 最小即二、普通最小二乘法
(O rdinary Least Squares )
1
2iY
iYiY ie
ie
2ie?
22
12m i n ( ) m i n ( )i i ie Y X
36
正规方程和估计式用克莱姆法则求解得观测值形式的 OLS估计式:
2^
1 22 ()
i i i i i
ii
X Y X X Y
n X X
取偏导数为 0,得正规方程
^
2 22 ()
i i i i
ii
n X Y X Y
n X X
12iiY n X
212i i i iX Y X X
37
为表达得更简洁,或者用离差形式 OLS估计式,
注意 其中:
而且样本回归函数可写为
2
2
__
____
2
^
)(
))((
i
ii
i
ii
x
yx
XX
YYXX
XY 2__1^
XXx ii
YYy ii
用离差表现的 OLS估计式
iii xy
38
三,OLS回归线的性质可以证明,
●回归线通过样本均值
●估计值 的均值等于实际观测值 的均值
X
Y
X
Y
iY
iY
12YX
iY Y
n
39
● 剩余项 的均值为零
●应变量估计值 与剩余项 不 相关
● 解释变量 与剩余项 不相关
ie
0
n
e
e i
C o v (,) 0iiYe?
iY
ie
ieiX
C ov (,) 0iiXe?
40
四,参数估计式的统计性质
(一 )参数估计式的评价标准
1,无偏性前提,重复抽样中估计方法固定、样本数不变、经重复抽样的观测值,可得一系列参数估计值参数估计值 的分布称为 的抽样分布,密度函数记为如果,称 是参数 的无偏估计式,否则称 是有偏的,其偏倚为
(见图 1.2)
()f?
E ( )
E ( )
41
*()?f
图 1,2
*()?E
()?f
估计值偏倚概率密度
42
前提,样本相同、用不同的方法估计参数,
可以找到若干个不同的估计式目标,努力寻求其抽样分布具有最小方差的估计式 —— 最小方差准则,或称最佳性准则 ( 见图 1.3)
既是无偏的同时又具有最小方差的估计式,称为最佳无偏估计式。
2,最小方差性
43
概率密度图 1,3
*()f?
()f?
估计值
44
4,渐近性质 (大样本性质)
n
P )?lim (
思想,当样本容量较小时,有时很难找到最佳无偏估计,需要考虑样本扩大后的性质一致性:
当样本容量 n 趋于无穷大时,如果估计式 依概率收敛于总体参数的真实值,就称这个估计式 是 的一致估计式。即或渐近有效性,当样本容量 n 趋于无穷大时,在所有的一致估计式中,具有最小的渐近方差。
(见图 1.4)
1)?(limP
45
概率密度估计值图 1,4
100?()?f
80?()?f
40?()?f
20?()?f
46
(二) OLS估计式的统计性质
● 由 OLS估计式可以看出由可观测的样本值 和 唯一表示。
● 因存在抽样波动,OLS估计 是随机变量
● OLS估计式是点估计式
iYi
X
2
1 22
()
i i i i i
ii
X Y X X Y
n X X
2 22
()
i i i i
ii
n X Y X Y
n X X
k
k
47
1,线性特征 是 的线性函数
2,无偏特性
( 证明见教材 P37)
3,最小方差特性 ( 证明见教材 P68附录 2·1)
在所有的线性无偏估计中,OLS估计 具有最小方差结论:在古典假定条件下,OLS估计式是最佳线性无偏估计式 ( BLUE)
k
OLS估计式的统计性质 ——高斯定理
kkE)?(
ii
i
ii
i
ii yk
x
yx
XX
YYXX
22
^
2 )(
))((? 2ii
i
xk
x
k
Y
48
第三节 拟合优度的度量本节基本内容,
● 什么是拟合优度
● 总变差的分解
● 可决系数
49
一,什么是拟合优度?
概念,
样本回归线是对样本数据的一种拟合,不同估计方法可拟合出不同的回归线,
拟合的回归线与样本观测值总有偏离 。
样本回归线对样本观测数据拟合的优劣程度
—— 拟合优度拟合优度的度量建立在对总变差分解的基础上
X
Y
50
二、总变差的分解分析 Y 的观测值、估计值与平均值的关系将上式两边平方加总,可证得
( TSS) ( ESS) ( RSS)
^^ )()(
iiii YYYYYY
2^2^2 )()()( i
iii YYYYYY
51
总变差 ( TSS):应变量 Y的观测值与其平均值的离差平方和(总平方和)
解释了的变差 ( ESS):应变量 Y的估计值与其平均值的离差平方和(回归平方和)
剩余平方和 ( RSS):应变量观测值与估计值之差的平方和(未解释的平方和)
2iy
2^ iy
2ie
52
iY
总 变 差^ i( Y - Y )?
SRF
^ i( Y - Y )? 来 自 回 归
ie 来自残差
iX
Y
变差分解的图示
Y
X
53
三、可决系数以 TSS同除总变差等式两边:
或定义,回归平方和(解释了的变差 ESS) 在总变差( TSS) 中所占的比重称为可决系数,用 表示,
或
2
2
2?
iy
yr
T S S
R S S
T S S
E S S
T S S
T S S
2iy 2r
2?iy
2
2
2 1
i
i
y
e
r
2
2
2
2?
1
i
i
i y
e
y
y
54
作用,可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,模型拟合优度越好。
反之可决系数小,说明模型对样本观测值的拟合程度越差。
特点,●可决系数取值范围:
●随抽样波动,样本可决系数 是随抽样而变动的随机变量
●可决系数是非负的统计可决系数的作用和特点
10 2 r
2r
55
可决系数与相关系数的关系
( 1)联系数值上,可决系数等于应变量与解释变量之间简单相关系数的平方,
2 2 2 2 2
22
2 2 2 2 2
2
22
()
()
( ) ( )
i i i i i
i i i i
ii
ii
y x x y x
R
y y x y
xy
r
xy
56
可决系数与相关系数的关系可决系数 相关系数就模型而言 就两个变量而言说明解释变量对应变量的解释程度度量两个变量线性依存程度。
度量不对称的因果关系 度量不含因果关系的对称相关关系取值,[0,1] 取值,[- 1,1]
( 2)区别
57
运用可决系数时应注意
● 可决系数只是说明列入模型的所有解释变量对因变量的联合的影响程度,不说明模型中每个解释变量的影响程度(在多元中)
● 回归的主要目的如果是经济结构分析,不能只追求高的可决系数,而是要得到总体回归系数可信的估计量,可决系数高并不表示每个回归系数都可信任
● 如果建模的目的只是为了预测因变量值,不是为了正确估计回归系数,一般可考虑有较高的可决系数
58
第四节回归系数的区间估计和假设检验本节基本内容:
● OLS估计的分布性质
● 回归系数的区间估计
● 回归系数的假设检验
59
问题的提出为什么要作区间估计?
OLS估计只是通过样本得到的点估计,不一定等于真实参数,还需要找到真实参数的可能范围,并说明其可靠性为什么要作假设检验?
OLS 估计只是用样本估计的结果,是否可靠?
是否抽样的偶然结果?还有待统计检验。
区间估计和假设检验都是建立在确定参数估计值概率分布性质的基础上。
60
一,OLS估计的分布性质基本思想是随机变量,必须确定其分布性质才可能进行区间估计和假设检验是服从正态分布的随机变量,决定了 也是服从正态分布的随机变量,是 的线性函数,决定了 也是服从正态分布的随机变量,
只要确定 的期望和方差,即可确定的分布性质
iY
k
k
k
iu
k
k
iY
iY
61
● 的期望,(无偏估计 )
● 的方差和标准误差
(标准误差是方差的算术平方根 )
注意,以上各式中 未知,其余均是样本观测值的期望和方差
2
2
1 2
V a r ( ) i
i
X
Nx
2?
β
E ( )kk
2
2 2
V a r ( )
ix
2 2
SE ( )
ix
2
1 2
S E ( ) i
i
X
Nx
62
可以证明(见教材 P70附录 2.2)
的无偏估计为
(n-2为自由度,即可自由变化的样本观测值个数 )
2?对随机扰动项方差 的估计
2?
2
2?
2
ie
n
63
●在 已知时将 作标准化变换
2?
)1,0(~
)(
2
2
11
^
1
^
11
^
1
N
xn
X
SE
z
i
i
)1,0(~
)(
2
22
^
2
^
22
^
2
N
x
SE
z
i?
64
( 1)当样本为大样本时,用估计的参数标准误差对作标准化变换,所得 Z 统计量仍可视为标准正态变量(根据中心极限定理)
( 2)当样本为小样本时,可用 代替,去估计参数的标准误差,用估计的参数标准误差对作标准化变换,所得的 t 统计量不再服从正态分布
(这时分母也是随机变量),而是服从 t 分布:
2?
^
~ ( 2)
()
kk
k
t t n
SE
2?2
● 当 未知时
65
二、回归系数的区间估计概念:
对参数作出的点估计是随机变量,虽然是无偏估计,但还不能说明估计的可靠性和精确性,需要找到包含真实参数的一个范围,并确定这个范围包含参数真实值的可靠程度。
在确定参数估计式概率分布性质的基础上,可找到两个正数 δ和 α( ),使得区间包含真实 的概率为,即这样的区间称为所估计参数的置信区间。
k? 1)?,?(
kk
1)( kkkP
01
66
一般情况下,总体方差 未知,用无偏估计去代替,由于样本容量较小,统计量 t 不再服从正态分布,而服从 t 分布。可用 t 分布去建立参数估计的置信区间。
回归系数区间估计的方法
2? 2
* 22
^
2
~ ( 2)
()
t t n
SE
67
选定 α,查 t 分布表得显著性水平为,自由度为 的临界值,则有即
2?
2n?
1]
)(
[
2
2
^^
22
^
2
t
SE
tP
1)]()([ 2^^
22
^
22
^^
22
^ SEtSEtP
68
三、回归系数的假设检验
1,假设检验的基本思想为什么要作假设检验?
所估计的回归系数,和方差 都是通过样本估计的,都是随抽样而变动的随机变量,
它们是否可靠? 是否抽样的偶然结果呢? 还需要加以检验 。
2
1 2
69
对回归系数假设检验的方式计量经济学中,主要是针对变量的参数真值是否为零来进行显著性检验的。
目的,对简单线性回归,判断解释变量 是否是被解释变量 的显著影响因素。在一元线性模型中,
就是要判断 是否对 具有显著的线性影响。这就需要进行变量的显著性检验。
X
Y
X Y
70
一般情况下,总体方差 未知,只能用 去代替,可利用 t 分布作 t 检验给定,查 t 分布表得
▼ 如果 或者 则拒绝原假设,而接受备择假设
▼ 如果则接受原假设
α
* 2 ( 2 )t t n * 2 ( 2 )t t n
*α 2 α 2- t ( n - 2 ) ≤ t ≤ t ( n - 2 )
α 2t ( n - 2 )
2? 2
* 2 2 2
^^
22
~ ( 2)
( ) ( )
t t n
SE SE
02H,0 12
H,0
02H,0
2,回归系数的检验方法
71
P
用 P 值判断参数的显著性假设检验的 p 值:
p 值是基于 既定的样本数据 所计算的统计量,是拒绝原假设的最低显著性水平。
统计分析软件中通常都给出了检验的 p 值
统计量 t
由样本计算的统计量为,
相对于显著性水平 的临界值,或t?
2t?
2t?2t
*t
*t*t?
注意:
t检验是比较 和
P值检验是比较 和 p
*t
2t?
与 相对应与 P 相对应*t
2t
72
用 P 值判断参数的显著性假设检验的 p 值:
p 值是根据既定的样本数据所计算的统计量,
拒绝原假设的最小显著性水平。
统计分析软件中通常都给出了检验的 p 值。
73
方法,将给定的显著性水平 与 值比较:
若 值,则在显著性水平 下拒绝原假设
,即认为 对 有显著影响
若 值,则在显著性水平 下接受原假设
,即认为 对 没有显著影响规则,当 时,值越小,越能拒绝原假设
0H
p< α/2
α /2 p≤
α/2 > p
0H k,β =0
用 P 值判断参数的显著性的方法
0H k,β =0
p
p
X
X
Y
Y
74
本节主要内容:
● 回归分析结果的报告
● 被解释变量平均值预测
● 被解释变量个别值预测第五节 回归模型预测
75
一、回归分析结果的报告经过模型的估计、检验,得到一系列重要的数据,为了简明、清晰、规范地表述这些数据,计量经济学通常采用了以下规范化的方式:
例如:回归结果为
( 2 4,5 9 0 2 )
3 5 2,0 0 0,5 3 0 0iiYX
( 7 6,5 8 2 6 ) (0,0 2 1 6 )
( 4,5 9 6 3 )t?
2 0,98 69 8r df
标准误差 SE
t 统计量可决系数和自由度
76
二、被解释变量平均值预测
1.基本思想
● 运用计量经济模型作预测,指利用所估计的样本回归函数,用解释变量的已知值或预测值,对 预测期或样本以外 的被解释变量数值作出定量的估计 。
● 计量经济预测是一种 条件预测,
条件,◆ 模型 设定的关系 式 不变
◆ 所估计的 参数不变
◆ 解释变量 在预测期的 取值已作出预测对应变量的预测分为平均值预测和个别值预测对应变量的预测又分为点预测和区间预测
77
预测值、平均值、个别值的相互关系是真实平均值的点估计,也是对个别值的点估计个别值?
真实平均值点预测值
SRF
FFE(Y X )
Fu
FY
FY
Fe
FX X
FY
PRF
Y
78
2,Y 平均值的点预测将解释变量预测值直接代入估计的方程这样计算的 是一个点估计值
12 FFYX
FY
79
3,Y 平均值的区间预测基本思想:
由于存在抽样波动,预测的平均值 不一定等于真实平均值,还需要对 作区间估计。
为对 Y 作区间预测,必须确定平均值预测值的抽样分布,必须找出与 和 都有关的统计量
E ( )FFYX
E ( )FFYX
FY
E ( )FFYX
FY
80
2
2
2
()1?( ) [ ]F
F
i
XXV a r Y
nx?
具体作法 (从 的分布分析)
已知可以证明服从正态分布,将其标准化,
12?( ) ( )F F F FE Y E Y X X
2
2
()1?() F
F
i
XXSE Y
nx?
当 未知 时,只得用 代替,这时有2? )2(? 22 ne
i?
FY
^
FY
^
2
2
()
~ ( 2 )
()1
F F F
F
i
Y E Y X
t t n
XX
nx
81
显然这样的 t 统计量与 和 都有关 。
给定显著性水平 α,查 t分布表,得自由度 n- 2的临界值 则有
Y平均值的置信度为 的预测区间为
)2(2?nt?
1) ] }([)()]({[ ^^2^^^2^ FFFFFF YSEtYXYEYSEtYp
])(1,)(1[ 2
2^
2
^
2
2^
2
^
i
F
F
i
F
F x
XX
n
tY
x
XX
n
tY
1
构建平均值的预测区间
FY
^
)( FF XYE
1)
)?(
)(?(
2^2 t
YSE
XYEYttP
F
FFF
82
三、应变量个别值预测基本思想:
◆ 既是对 平均值的点预测,也是对 个别值的点预测
◆ 由于存在随机扰动 的影响,的平均值并不等于 的个别值
◆ 为了对 的个别值 作区间预测,需要寻找与预测值 和个别值 有关的统计量,并要明确其概率分布
FY
iu
FY
FY
FY
FY Y Y
Y
Y
Y
83
具体作法:
已知剩余项 是与预测值 及个别值都有关的变量,并且已知 服从正态分布,且可证明当用 代替 时,对 标准化的变量
t 为
)2(~
)(1
1?(
)(
2
2
^
^
nt
x
XX
n
YY
eSE
eEe
t
i
F
FF
F
FF
)
FFF YYe
^
FY
^
FY
Fe
0)(?FeE
2? Fe
2^
22
2
1 ( )( ) ( ) [ 1 ]F
FFF
i
XXV a r e E Y Y
nx?
)2(? 22 ne i?
84
构建个别值的预测区间给定显著性水平,查 t 分布表得自由度为的临界值,则有因此,一元回归时 的个别值的置信度为 的预测区间上下限为
2
2 2
()1 1 F
FF
i
XXY Y t
nx?
)2(2?nt?
^^
22{[ ( ) ] [ ( ) ] } 1F F F F FP Y t S E e Y Y t S E e
2n?
1Y
85
应变量 Y 区间预测的特点
1,平均值的预测值与真实平均值有误差,主要是受抽样波动影响个别值的预测值与真实个别值的差异,不仅受抽样波动影响,而且还受随机扰动项的影响
Y
Y
2
2^
2
^ )(1
i
FF
F x
XX
ntYY
2
2 2
()1 1 F
FF
i
XXY Y t
nx?
86
2,平均值和个别值预测区间都不是常数,是随的变化而变化的
3、预测区间上下限与样本容量有关,当样本容量 时个别值的预测误差只决定于随机扰动的方差
FX
n
87
SRF
各种预测值的关系
Y的个别值的置信区间
FX
Y均值的置信区间
X
时,置信区间最小当 XX F?
X
Y
88
第六节 案例分析提出问题,改革开放以来随着中国经济的快速发展,
居民的消费水平也不断增长。但全国各地区经济发展速度不同,居民消费水平也有明显差异。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。
研究范围,全国各省市 2002年城市居民家庭平均每人每年消费截面数据模型。
89
理论分析,影响各地区城市居民人均消费支出的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入。从理论上说可支配收入越高,居民消费越多,但边际消费倾向大于 0,小于 1。
建立模型:
其中,Y— 城市居民家庭平均每人每年消费支出 (元 )
X— 城市居民人均年可支配收入 (元 )
i 1 2 iY= β + β X + u
90
数据,从 2002年,中国统计年鉴,中得到地 区 城市居民家庭平均每人每年消费支出
(元 ) Y
城市居民人均年可支配收入 (元 )
X
北京天津河北山西内蒙古辽宁吉林黑龙江上海江苏浙江安徽福建江西山东河南湖北
10284.60
7191.96
5069.28
4710.96
4859.88
5342.64
4973.88
4462.08
10464.00
6042.60
8713.08
4736.52
6631.68
4549.32
5596.32
4504.68
5608.92
12463.92
9337.56
6679.68
5234.35
6051.06
6524.52
6260.16
6100.56
13249.80
8177.64
11715.60
6032.40
9189.36
6334.64
7614.36
6245.40
6788.52
91
(接上页数据表)
地 区 城市居民家庭平均每人每年消费支出 (元 )
Y
城市居民人均年可支配收入 (元 )
X
湖南广东广西海南重庆四川贵州云南西藏陕西甘肃青海宁夏新疆
5574.72
8988.48
5413.44
5459.64
6360.24
5413.08
4598.28
5827.92
6952.44
5278.04
5064.24
5042.52
6104.92
5636.40
6958.56
11137.20
7315.32
6822.72
7238.04
6610.80
5944.08
7240.56
8079.12
6330.84
6151.44
6170.52
6067.44
6899.64
92
估计参数具体操作:使用 EViews 软件包。估计结果:
假定模型中随机扰动满足基本假定,可用 OLS法。
93
表示为
^ 2 8 2,2 4 3 4 0,7 5 8 5 1 1
iiYX
( 2 8 7,2 6 4 9 ) (0,0 3 6 9 2 8 )
( 0,9 8 2 5 2 0 )t? ( 2 0,5 4 0 2 6 )
2 0,9 3 5 6 8 5 4 2 1,9 0 2 3 2 9r F d f
94
1,可决系数,模型整体上拟合好。
2,系数显著性检验,给定,查 t 分布表,
在自由度为 n-2=29时临界值为因为 t = 20.44023 >
说明“城镇人均可支配收入”对“城镇人均消费支出”有显著影响。
3,用 P值检验 >> p=0.0000
模型检验
0.05α =
0.025 ( 29) = 2.045t
= 0,9 3 5 6 8 52r
0.025 ( 29) 2.045?t
0.05α =
95
4,经济意义检验:
估计的解释变量的系数为 0·758511,说明城镇居民人均可支配收入每增加 1元,人均年消费支出平均将增加 0·758511元。这符合经济理论对边际消费倾向的界定。
96
点预测:
西部地区的城市居民人均年可支配收入第一步争取达到 1000美元 (按现有汇率即人民币 8270元 ),
代入估计的模型得第二步再争取达到 1500美元 (即人民币 12405
元 ),利用所估计的模型可预测这时城市居民可能达到的人均年消费支出水平
f1? 28 2.2 43 4 0.7 58 51 1 82 70 65 55,13 2Y
f2? 2 8 2,2 4 3 4 0,7 5 8 5 1 1 1 2 4 0 5 9 6 9 1,5 7 7Y
经济预测
97
2^^
FF
F α 2 2
i
( X - X )1Y = Y t σ +
nx?
平均值区间预测上下限,
区间预测
8270f1X? 时
1 56 99 85,7465 55,13 2.0 45 41 3.1 59 3
31 12 51 76 49 2.5 9f1Y
6 5 5 5,1 3 1 6 2,1 0?
2 12405 时?fX
2
1 23911845.729691.58 2.045 413.1593
31 125176492.59fY
9 6 9 1,5 8 4 9 9,2 5?
98
8270 时,?f1X
即是说,
平均值置信度 95%的预测区间为( 6393.03,6717.23)元 。
12405 时,?f2X
平均值置信度 95%的预测区间为( 9292.33,10090.83)元 。
个别值区间预测(略)
99
第二章 小 结
1、变量间的关系,函数关系 —— 相关关系相关系数 —— 对变量间线性相关程度的度量
2、现代意义的回归,一个被解释变量对若干个解释变量依存关系的研究实质,由固定的解释变量去估计被解释变量的平均值
100
3、总体回归函数( PRF),将总体被解释变量 Y
的条件均值表现为解释变量 X 的某种函数样本回归函数( SRF),将被解释变量 Y 的样本条件均值表示为解释变量 X 的某种函数。
总体回归函数与样本回归函数的区别与联系
4、随机扰动项,被解释变量实际值与条件均值的偏差,代表排除在模型以外的所有因素对 Y的影响。
101
5、简单线性回归的基本假定:
对模型和变量的假定对随机扰动项 u的假定零均值假定,
同方差假定,
无自相关假定,
随机扰动与解释变量不相关假定,
正态性假定,
),0(~ 2?Nu i
0)(?iuE
2)()( ii YV a ruV a r
0)(),( jiji uuEuuCo v
0),(?ii XuC o v
ii XYE 21)(
102
6、普通最小二乘法( OLS) 估计参数的基本思想及估计式;
2
1 22
()
i i i i i
ii
X Y X X Y
N X X
2 22
()
i i i i
ii
N X Y X Y
N X X
2
i
ii
x
yx
12YX
103
期望,
方差:
标准差:
OLS估计式是最佳线性无偏估计式。
OLS 估计式的分布性质
2
2
1 2
() i
i
XV a r
Nx
()kkE
2
2 2
()
i
V a r x
2 2
()
i
SE
x
2
1 2
() i
i
X
SE
Nx
104
7,的无偏估计
8、对回归系数区间估计的思想和方法
2?
2
2^
2
n
e i?
^^
2 2 2 2 222
[ ( ) ( ) ] 1P t S E t S E
105
9、拟合优度,样本回归线对样本观测数据拟合的优劣程度,
可决系数,在总变差分解基础上确定的,模型解释了的变差在总变差中的比重可决系数的计算方法、特点与作用。
2
2
2
^
2
1
i
i
i y
e
y
y
2
2^
2
iy
y
r
2
2
2 1
i
i
y
e
r
106
10、对回归系数的假设检验假设检验的基本思想对回归系数 t 检验的思想与方法用 P 值判断参数的显著性
* 2 2 2
^^
22
~ ( 2)
( ) ( )
t t n
SE SE
107
11、对被解释变量的预测被解释变量平均值预测与个别值预测的关系被解释变量平均值的点预测和区间预测的方法
22
22 22
( ) ( )11[,]FF
FF
ii
X X X XY t Y t
n x n x
108
被解释变量个别值区间预测的方法
12,运用 EViews软件对简单的线性回归模型进行估计和检验
2
2 2
()1 1 F
FF
i
XXY Y t
nx?
109
第 二 章 结 束
2
从 2004中国国际旅游交易会上获悉,到 2020年,中国旅游业总收入将超过 3000亿美元,相当于国内生产总值的
8%至 11%。(资料来源:国际金融报 2004年 11月 25日第二版)
◆ 是什么决定性的因素能使中国旅游业总收入到 2020年达到
3000亿美元?
◆ 旅游业的发展与这种决定性因素的数量关系究竟是什么?
◆ 怎样具体测定旅游业发展与这种决定性因素的数量关系?
引子,中国旅游业总收入将超过 3000
亿美元吗?
3
第二章 简单线性回归模型本章主要讨论,
● 回归分析与回归函数
●简单线性回归模型参数的估计
●拟合优度的度量
●回归系数的区间估计和假设检验
●回归模型预测
4
第一节 回归分析与回归方程本节基本内容,
● 回归与相关
● 总体回归函数
●随机扰动项
●样本回归函数
5
1,经济变量间的相互关系
◆确定性的函数关系
◆不确定性的统计关系 — 相关关系
(ε为随机变量 )
◆ 没有关系一、回归与相关
(对统计学的回顾)
()Y f X
()Y f X?
6
2.相关关系
◆ 相关关系的描述相关关系最直观的描述方式 ——坐标图 ( 散布图 )
Y
X
7
◆ 相关关系的类型
● 从涉及的变量数量看简单相关多重相关 ( 复相关 )
● 从变量相关关系的表现形式看线性相关 ——散布图接近一条直线非线性相关 ——散布图接近一条曲线
● 从变量相关关系变化的方向看正相关 ——变量同方向变化,同增同减负相关 ——变量反方向变化,一增一减不相关
8
3.相关程度的度量 — 相关系数总体线性相关系数,
其中,—— X 的方差; —— Y的方差
—— X和 Y的协方差样本线性相关系数,
其中,和 分别是变量 和 的样本观测值和 分别是变量 和 样本值的平均值
C o v(,)
V a r ( ) V a r ( )
XY
XY
Var( )X Var( )Y
C o v(,)XY
_ _ _ _
_ _ _ _
22
( ) ( )
( ) ( )
ii
XY
ii
X X Y Y
X X Y Y
__Y
iX iY
X
X Y
X Y
9
● 和 都是相互对称的随机变量
● 线性 相关系数只反映变量间的线性相关程度,不能说明非 线性相关关系
● 样本相关系数是总体相关系数的样本估计值,由于抽样波动,样本相关系数是个随机变量,其统计显著性有待检验
● 相关系数只能反映线性相关程度,不能确定因果关系,不能说明相关关系具体接近哪条直线计量经济学关心,变量间的因果关系及隐藏在随机性后面的统计规律性,这有赖于回归分析方法使用相关系数时应注意
X Y
10
4,回归分析回归的 古典意义,
高尔顿遗传学的回归概念
( 父母身高与子女身高的关系 )
回归的 现代意义,
一个应变量对若干解释变量依存关系 的研究回归的 目的(实质),
由固定的解释变量去估计应变量的平均值
11
● 的 条件分布当解释变量 取某固定值时 ( 条件 ),的值不确定,的不同取值形成一定的分布,即 的条件分布 。
● 的 条件期望对于 的每一个取值,
对 所形成的分布确定其期望或均值,称为 的条件期望或条件均值注意几个概念
iX
X
Y
Y
Y
Y Y
Y
Y
X
Y
X
E( )iYX
12
iX
Y
X
● 回归线,
对于每一个 的取值,
都有 的条件期望与之对应,
代表这些 的条件期望的点的轨迹所形成的直线或曲线,称为回归线。
回归线与回归函数
X
Y
Y
E( )iYX
13
回归函数,应变量 的条件期望 随解释变量 的的变化而有规律的变化,如果把的条件期望 表现为 的某种函数这个函数称为回归函数。
回归函数分为,总体回归函数和样本回归函数举例:假如已知 100个家庭构成的总体。
回归线与回归函数
YX
X
E( ) ( )iiY X f X?
Y E( )iYX
E( )iYX
14
每 月 家 庭 可 支 配 收 入 X
1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
820 962 1108 1329 1632 1842 2037 2275 2464 2824
888 1024 1201 1365 1726 1874 2110 2388 2589 3038
932 1121 1264 1410 1786 1906 2225 2426 2790 3150
每 960 1210 1310 1432 1835 1068 2319 2488 2856 3201
月 1259 1340 1520 1885 2066 2321 2587 2900 3288
家 1324 1400 1615 1943 2185 2365 2650 3021 3399
庭 1448 1650 2037 2210 2398 2789 3064
消 1489 1712 2078 2289 2487 2853 3142
费 1538 1778 2179 2313 2513 2934 3274
支 1600 1841 2298 2398 2538 3110
出 1702 1886 2316 2423 2567
Y 1900 2387 2453 2610
2012 2498 2487 2710
2589 2586
900 1150 1400 1650 1900 2150 2400 2650 2900 3150E( )
iYX
例,100个家庭构成的总体 (单位,元 )
15
1,总体回归函数的概念前提,假如已知所研究的经济现象的总体应变量 和解释变量 的每个观测值,可以计算出总体应变量 的条件均值,并将其表现为解释变量 的某种函数这个函数称为总体回归函数 ( PRF)
二、总体回归函数 ( PRF)
E ( ) ( )iiY X = f X
Y
Y
X
X
E( )iYX
16
iu
iX
X
Y
)( iXYE
iY
( 1) 条件均值 表现形式假如 的条件均值 是解释变量 的线性函数,可表示为:
( 2) 个别值 表现形式对于一定的,的各个别值 分布在 的周围,若令各个 与条件均值 的偏差为,显然 是随机变量,则有或
2.总体回归函数的表现形式
iX
E( )iYX
12E ( ) ( )i i i iY X f X X
iY
E( )iYX iY
E( )iYX iu iu
12E ( )i i i i i iu Y Y X Y X
12i i iY X u
Y
Y
X
17
● 实际的经济研究中总体回归函数通常是 未知 的,
只能根据经济理论和实践经验去 设定 。,计量,
的目的就是寻求 PRF。
● 总体回归函数中 与 的关系可是 线性 的,也可是非线性 的 。
对线性回归模型的,线性,有两种解释就变量而言 是线性的
—— 的条件均值是 的线性函数就参数而言 是线性的
—— 的条件均值是参数 的线性函数
3.如何理解总体回归函数
Y X
Y
Y X
18
变量、参数均为“线性”
参数“线性”,变量”非线性”
变量“线性”,参数”非线性”
计量经济学中,
线性回归模型主要指就参数而言是,线性,,
因为只要对参数而言是线性的,都可以用类似的方法估计其参数。
12E ( )i i iY X X
2
12E ( )i i iY X X
12E ( )i i iY X X
“线性,的判断
19
三、随机扰动项
◆ 概念,
各个 值与条件均值的偏差 代表排除在模型以外的所有因素对 的影响。
◆ 性质,是期望为 0有一定分布的随机变量重要性,随机扰动项的性质决定着计量经济方法的选择
u
iY
iu
Y
X
iX
u
E( )iYX
Y
iu
20
● 未知 影响因素的代表
● 无法取得数据 的已知影响因素的代表
● 众多细小影响因素 的综合代表
● 模型的 设定误差
● 变量的 观测误差
● 变量内在 随机性引入随机扰动项的原因
21
四、样本回归函数 ( SRF)
X
样本回归线,
对于 的一定值,取得 的样本观测值,可计算其条件均值,样本观测值条件均值的轨迹称为样本回归线。
样本回归函数:
如果把应变量 的样本条件均值表示为解释变量 的某种函数,这个函数称为样本回归函数( SRF)。
X Y
Y
Y
X
22
SRF 的特点
● 每次抽样都能获得一个样本,就可以拟合一条样本回 归线,所以样本回归线随抽样波动而变化,可以有许多条 ( SRF不唯一)。
SRF2
SRF1Y
X
23
● 样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。
●样本回归线还不是总体回归线,至多只是未知总体回归线的近似表现。
24
12iiYX
样本回归函数如果为线性函数,可表示为其中,是与 相对应的 的样本条件均值和 分别是样本回归函数的参数应变量 的实际观测值 不完全等于样本条件均值,二者之差用 表示,称为 剩余项 或 残差项,
或者样本回归函数的表现形式
21i i iY X e
iiie Y Y
ie
iX
iY
iY
1 2
ie
Y
Y
25
对样本回归的理解如果能够获得 和 的数值,显然,
● 和 是对总体回归函数参数 和 的估计
● 是对总体条件期望 的估计
● 在概念上类似总体回归函数中的,可视为对 的估计。
ie
iY
iu
E( )iYX
12i i iY X e
1 2
21 1? 2?
iu
26
iY
样本回归函数与总体回归函数的关系
SRF
PRF
A
iu
ie
iY
()iiE Y X
iY
Y
iX X
27
1
回归分析的目的用样本回归函数 SRF去估计总体回归函数 PRF。
由于样本对总体总是存在代表性误差,SRF总会过高或过低估计 PRF。
要解决的问题:
寻求一种规则和方法,使得到的 SRF的参数 和尽可能,接近,总体回归函数中的参数 和 。
这样的“规则和方法”有多种,最常用的是最小二乘法
2
1? 2?
28
第二节简单线性回归模型的最小二乘估计本节基本内容,
● 简单线性回归的基本假定
● 普通最小二乘法
● OLS回归线的性质
● 参数估计式的统计性质
29
一,简单线性回归的基本假定
1,为什么要作基本假定?
● 模型中有随机扰动,估计的参数是随机变量,
只有对随机扰动的分布作出假定,才能确定所估计参数的分布性质,也才可能进行假设检验和区间估计
● 只有具备一定的假定条件,所作出的估计才具有较好的统计性质 。
30
( 1) 对模型和变量的假定如假定解释变量 是非随机的,或者虽然是随机的,但与扰动项 是不相关的假定解释变量 在重复抽样中为固定值假定变量和模型无设定误差
2、基本假定的内容
12i i iY X u
X
u
X
31
又称高斯假定,古典假定假定 1,零均值假定在给定 的条件下,的条件期望为零假定 2,同方差假定在给定 的条件下,的条件方差为某个常数
iu
iu
( 2)对随机扰动项 的假定u
iu
X
X
E ( ) 0iiuX?
2?
iu
22V a r ( ) E [ E ( ) ]
i i i i iu X u u X
32
假定 3,无自相关假定随机扰动项 的逐次值互不相关假定 4,随机扰动 与解释变量 不相关
iu
iu
X
(,) [ ( ) ] [ ( ) ]i j i i j jC ov u u E u E u u E u
( ) 0 ( )ijE u u i j
(,) [ ( ) ] [ ( ) ] 0i i i i i iC o v u X E u E u X E X
33
假定 5,对随机扰动项分布的正态性假定即假定 服从均值为零,方差为 的正态分布
( 说明:正态性假定不影响对参数的点估计,但对确定所估计参数的分布性质是需要的 。 且根据中心极限定理,当样本容量趋于无穷大时,的分布会趋近于正态分布 。 所以正态性假定是合理的 )
iu
2( 0,)iuN?
iu
2?
iu
34
的分布性质由于的分布性质决定了 的分布性质。
对 的一些假定可以等价地表示为对 的假定:
假定 1:零均值假定假定 2:同方差假定假定 3:无自相关假定假定 5:正态性假定
iY
C o v (,) 0 ( )ijY Y i j
iii uXY 21
iu
iu iY
12E ( )i i iY X X
2V a r ( )iYX
212(,)iiY N X
Y
35
◆ OLS的基本思想
● 不同的估计方法可得到不同的样本回归参数和,所估计的 也不同。
●理想的估计方法应使 与 的差即剩余越小越好
●因 可正可负,所以可以取 最小即二、普通最小二乘法
(O rdinary Least Squares )
1
2iY
iYiY ie
ie
2ie?
22
12m i n ( ) m i n ( )i i ie Y X
36
正规方程和估计式用克莱姆法则求解得观测值形式的 OLS估计式:
2^
1 22 ()
i i i i i
ii
X Y X X Y
n X X
取偏导数为 0,得正规方程
^
2 22 ()
i i i i
ii
n X Y X Y
n X X
12iiY n X
212i i i iX Y X X
37
为表达得更简洁,或者用离差形式 OLS估计式,
注意 其中:
而且样本回归函数可写为
2
2
__
____
2
^
)(
))((
i
ii
i
ii
x
yx
XX
YYXX
XY 2__1^
XXx ii
YYy ii
用离差表现的 OLS估计式
iii xy
38
三,OLS回归线的性质可以证明,
●回归线通过样本均值
●估计值 的均值等于实际观测值 的均值
X
Y
X
Y
iY
iY
12YX
iY Y
n
39
● 剩余项 的均值为零
●应变量估计值 与剩余项 不 相关
● 解释变量 与剩余项 不相关
ie
0
n
e
e i
C o v (,) 0iiYe?
iY
ie
ieiX
C ov (,) 0iiXe?
40
四,参数估计式的统计性质
(一 )参数估计式的评价标准
1,无偏性前提,重复抽样中估计方法固定、样本数不变、经重复抽样的观测值,可得一系列参数估计值参数估计值 的分布称为 的抽样分布,密度函数记为如果,称 是参数 的无偏估计式,否则称 是有偏的,其偏倚为
(见图 1.2)
()f?
E ( )
E ( )
41
*()?f
图 1,2
*()?E
()?f
估计值偏倚概率密度
42
前提,样本相同、用不同的方法估计参数,
可以找到若干个不同的估计式目标,努力寻求其抽样分布具有最小方差的估计式 —— 最小方差准则,或称最佳性准则 ( 见图 1.3)
既是无偏的同时又具有最小方差的估计式,称为最佳无偏估计式。
2,最小方差性
43
概率密度图 1,3
*()f?
()f?
估计值
44
4,渐近性质 (大样本性质)
n
P )?lim (
思想,当样本容量较小时,有时很难找到最佳无偏估计,需要考虑样本扩大后的性质一致性:
当样本容量 n 趋于无穷大时,如果估计式 依概率收敛于总体参数的真实值,就称这个估计式 是 的一致估计式。即或渐近有效性,当样本容量 n 趋于无穷大时,在所有的一致估计式中,具有最小的渐近方差。
(见图 1.4)
1)?(limP
45
概率密度估计值图 1,4
100?()?f
80?()?f
40?()?f
20?()?f
46
(二) OLS估计式的统计性质
● 由 OLS估计式可以看出由可观测的样本值 和 唯一表示。
● 因存在抽样波动,OLS估计 是随机变量
● OLS估计式是点估计式
iYi
X
2
1 22
()
i i i i i
ii
X Y X X Y
n X X
2 22
()
i i i i
ii
n X Y X Y
n X X
k
k
47
1,线性特征 是 的线性函数
2,无偏特性
( 证明见教材 P37)
3,最小方差特性 ( 证明见教材 P68附录 2·1)
在所有的线性无偏估计中,OLS估计 具有最小方差结论:在古典假定条件下,OLS估计式是最佳线性无偏估计式 ( BLUE)
k
OLS估计式的统计性质 ——高斯定理
kkE)?(
ii
i
ii
i
ii yk
x
yx
XX
YYXX
22
^
2 )(
))((? 2ii
i
xk
x
k
Y
48
第三节 拟合优度的度量本节基本内容,
● 什么是拟合优度
● 总变差的分解
● 可决系数
49
一,什么是拟合优度?
概念,
样本回归线是对样本数据的一种拟合,不同估计方法可拟合出不同的回归线,
拟合的回归线与样本观测值总有偏离 。
样本回归线对样本观测数据拟合的优劣程度
—— 拟合优度拟合优度的度量建立在对总变差分解的基础上
X
Y
50
二、总变差的分解分析 Y 的观测值、估计值与平均值的关系将上式两边平方加总,可证得
( TSS) ( ESS) ( RSS)
^^ )()(
iiii YYYYYY
2^2^2 )()()( i
iii YYYYYY
51
总变差 ( TSS):应变量 Y的观测值与其平均值的离差平方和(总平方和)
解释了的变差 ( ESS):应变量 Y的估计值与其平均值的离差平方和(回归平方和)
剩余平方和 ( RSS):应变量观测值与估计值之差的平方和(未解释的平方和)
2iy
2^ iy
2ie
52
iY
总 变 差^ i( Y - Y )?
SRF
^ i( Y - Y )? 来 自 回 归
ie 来自残差
iX
Y
变差分解的图示
Y
X
53
三、可决系数以 TSS同除总变差等式两边:
或定义,回归平方和(解释了的变差 ESS) 在总变差( TSS) 中所占的比重称为可决系数,用 表示,
或
2
2
2?
iy
yr
T S S
R S S
T S S
E S S
T S S
T S S
2iy 2r
2?iy
2
2
2 1
i
i
y
e
r
2
2
2
2?
1
i
i
i y
e
y
y
54
作用,可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,模型拟合优度越好。
反之可决系数小,说明模型对样本观测值的拟合程度越差。
特点,●可决系数取值范围:
●随抽样波动,样本可决系数 是随抽样而变动的随机变量
●可决系数是非负的统计可决系数的作用和特点
10 2 r
2r
55
可决系数与相关系数的关系
( 1)联系数值上,可决系数等于应变量与解释变量之间简单相关系数的平方,
2 2 2 2 2
22
2 2 2 2 2
2
22
()
()
( ) ( )
i i i i i
i i i i
ii
ii
y x x y x
R
y y x y
xy
r
xy
56
可决系数与相关系数的关系可决系数 相关系数就模型而言 就两个变量而言说明解释变量对应变量的解释程度度量两个变量线性依存程度。
度量不对称的因果关系 度量不含因果关系的对称相关关系取值,[0,1] 取值,[- 1,1]
( 2)区别
57
运用可决系数时应注意
● 可决系数只是说明列入模型的所有解释变量对因变量的联合的影响程度,不说明模型中每个解释变量的影响程度(在多元中)
● 回归的主要目的如果是经济结构分析,不能只追求高的可决系数,而是要得到总体回归系数可信的估计量,可决系数高并不表示每个回归系数都可信任
● 如果建模的目的只是为了预测因变量值,不是为了正确估计回归系数,一般可考虑有较高的可决系数
58
第四节回归系数的区间估计和假设检验本节基本内容:
● OLS估计的分布性质
● 回归系数的区间估计
● 回归系数的假设检验
59
问题的提出为什么要作区间估计?
OLS估计只是通过样本得到的点估计,不一定等于真实参数,还需要找到真实参数的可能范围,并说明其可靠性为什么要作假设检验?
OLS 估计只是用样本估计的结果,是否可靠?
是否抽样的偶然结果?还有待统计检验。
区间估计和假设检验都是建立在确定参数估计值概率分布性质的基础上。
60
一,OLS估计的分布性质基本思想是随机变量,必须确定其分布性质才可能进行区间估计和假设检验是服从正态分布的随机变量,决定了 也是服从正态分布的随机变量,是 的线性函数,决定了 也是服从正态分布的随机变量,
只要确定 的期望和方差,即可确定的分布性质
iY
k
k
k
iu
k
k
iY
iY
61
● 的期望,(无偏估计 )
● 的方差和标准误差
(标准误差是方差的算术平方根 )
注意,以上各式中 未知,其余均是样本观测值的期望和方差
2
2
1 2
V a r ( ) i
i
X
Nx
2?
β
E ( )kk
2
2 2
V a r ( )
ix
2 2
SE ( )
ix
2
1 2
S E ( ) i
i
X
Nx
62
可以证明(见教材 P70附录 2.2)
的无偏估计为
(n-2为自由度,即可自由变化的样本观测值个数 )
2?对随机扰动项方差 的估计
2?
2
2?
2
ie
n
63
●在 已知时将 作标准化变换
2?
)1,0(~
)(
2
2
11
^
1
^
11
^
1
N
xn
X
SE
z
i
i
)1,0(~
)(
2
22
^
2
^
22
^
2
N
x
SE
z
i?
64
( 1)当样本为大样本时,用估计的参数标准误差对作标准化变换,所得 Z 统计量仍可视为标准正态变量(根据中心极限定理)
( 2)当样本为小样本时,可用 代替,去估计参数的标准误差,用估计的参数标准误差对作标准化变换,所得的 t 统计量不再服从正态分布
(这时分母也是随机变量),而是服从 t 分布:
2?
^
~ ( 2)
()
kk
k
t t n
SE
2?2
● 当 未知时
65
二、回归系数的区间估计概念:
对参数作出的点估计是随机变量,虽然是无偏估计,但还不能说明估计的可靠性和精确性,需要找到包含真实参数的一个范围,并确定这个范围包含参数真实值的可靠程度。
在确定参数估计式概率分布性质的基础上,可找到两个正数 δ和 α( ),使得区间包含真实 的概率为,即这样的区间称为所估计参数的置信区间。
k? 1)?,?(
kk
1)( kkkP
01
66
一般情况下,总体方差 未知,用无偏估计去代替,由于样本容量较小,统计量 t 不再服从正态分布,而服从 t 分布。可用 t 分布去建立参数估计的置信区间。
回归系数区间估计的方法
2? 2
* 22
^
2
~ ( 2)
()
t t n
SE
67
选定 α,查 t 分布表得显著性水平为,自由度为 的临界值,则有即
2?
2n?
1]
)(
[
2
2
^^
22
^
2
t
SE
tP
1)]()([ 2^^
22
^
22
^^
22
^ SEtSEtP
68
三、回归系数的假设检验
1,假设检验的基本思想为什么要作假设检验?
所估计的回归系数,和方差 都是通过样本估计的,都是随抽样而变动的随机变量,
它们是否可靠? 是否抽样的偶然结果呢? 还需要加以检验 。
2
1 2
69
对回归系数假设检验的方式计量经济学中,主要是针对变量的参数真值是否为零来进行显著性检验的。
目的,对简单线性回归,判断解释变量 是否是被解释变量 的显著影响因素。在一元线性模型中,
就是要判断 是否对 具有显著的线性影响。这就需要进行变量的显著性检验。
X
Y
X Y
70
一般情况下,总体方差 未知,只能用 去代替,可利用 t 分布作 t 检验给定,查 t 分布表得
▼ 如果 或者 则拒绝原假设,而接受备择假设
▼ 如果则接受原假设
α
* 2 ( 2 )t t n * 2 ( 2 )t t n
*α 2 α 2- t ( n - 2 ) ≤ t ≤ t ( n - 2 )
α 2t ( n - 2 )
2? 2
* 2 2 2
^^
22
~ ( 2)
( ) ( )
t t n
SE SE
02H,0 12
H,0
02H,0
2,回归系数的检验方法
71
P
用 P 值判断参数的显著性假设检验的 p 值:
p 值是基于 既定的样本数据 所计算的统计量,是拒绝原假设的最低显著性水平。
统计分析软件中通常都给出了检验的 p 值
统计量 t
由样本计算的统计量为,
相对于显著性水平 的临界值,或t?
2t?
2t?2t
*t
*t*t?
注意:
t检验是比较 和
P值检验是比较 和 p
*t
2t?
与 相对应与 P 相对应*t
2t
72
用 P 值判断参数的显著性假设检验的 p 值:
p 值是根据既定的样本数据所计算的统计量,
拒绝原假设的最小显著性水平。
统计分析软件中通常都给出了检验的 p 值。
73
方法,将给定的显著性水平 与 值比较:
若 值,则在显著性水平 下拒绝原假设
,即认为 对 有显著影响
若 值,则在显著性水平 下接受原假设
,即认为 对 没有显著影响规则,当 时,值越小,越能拒绝原假设
0H
p< α/2
α /2 p≤
α/2 > p
0H k,β =0
用 P 值判断参数的显著性的方法
0H k,β =0
p
p
X
X
Y
Y
74
本节主要内容:
● 回归分析结果的报告
● 被解释变量平均值预测
● 被解释变量个别值预测第五节 回归模型预测
75
一、回归分析结果的报告经过模型的估计、检验,得到一系列重要的数据,为了简明、清晰、规范地表述这些数据,计量经济学通常采用了以下规范化的方式:
例如:回归结果为
( 2 4,5 9 0 2 )
3 5 2,0 0 0,5 3 0 0iiYX
( 7 6,5 8 2 6 ) (0,0 2 1 6 )
( 4,5 9 6 3 )t?
2 0,98 69 8r df
标准误差 SE
t 统计量可决系数和自由度
76
二、被解释变量平均值预测
1.基本思想
● 运用计量经济模型作预测,指利用所估计的样本回归函数,用解释变量的已知值或预测值,对 预测期或样本以外 的被解释变量数值作出定量的估计 。
● 计量经济预测是一种 条件预测,
条件,◆ 模型 设定的关系 式 不变
◆ 所估计的 参数不变
◆ 解释变量 在预测期的 取值已作出预测对应变量的预测分为平均值预测和个别值预测对应变量的预测又分为点预测和区间预测
77
预测值、平均值、个别值的相互关系是真实平均值的点估计,也是对个别值的点估计个别值?
真实平均值点预测值
SRF
FFE(Y X )
Fu
FY
FY
Fe
FX X
FY
PRF
Y
78
2,Y 平均值的点预测将解释变量预测值直接代入估计的方程这样计算的 是一个点估计值
12 FFYX
FY
79
3,Y 平均值的区间预测基本思想:
由于存在抽样波动,预测的平均值 不一定等于真实平均值,还需要对 作区间估计。
为对 Y 作区间预测,必须确定平均值预测值的抽样分布,必须找出与 和 都有关的统计量
E ( )FFYX
E ( )FFYX
FY
E ( )FFYX
FY
80
2
2
2
()1?( ) [ ]F
F
i
XXV a r Y
nx?
具体作法 (从 的分布分析)
已知可以证明服从正态分布,将其标准化,
12?( ) ( )F F F FE Y E Y X X
2
2
()1?() F
F
i
XXSE Y
nx?
当 未知 时,只得用 代替,这时有2? )2(? 22 ne
i?
FY
^
FY
^
2
2
()
~ ( 2 )
()1
F F F
F
i
Y E Y X
t t n
XX
nx
81
显然这样的 t 统计量与 和 都有关 。
给定显著性水平 α,查 t分布表,得自由度 n- 2的临界值 则有
Y平均值的置信度为 的预测区间为
)2(2?nt?
1) ] }([)()]({[ ^^2^^^2^ FFFFFF YSEtYXYEYSEtYp
])(1,)(1[ 2
2^
2
^
2
2^
2
^
i
F
F
i
F
F x
XX
n
tY
x
XX
n
tY
1
构建平均值的预测区间
FY
^
)( FF XYE
1)
)?(
)(?(
2^2 t
YSE
XYEYttP
F
FFF
82
三、应变量个别值预测基本思想:
◆ 既是对 平均值的点预测,也是对 个别值的点预测
◆ 由于存在随机扰动 的影响,的平均值并不等于 的个别值
◆ 为了对 的个别值 作区间预测,需要寻找与预测值 和个别值 有关的统计量,并要明确其概率分布
FY
iu
FY
FY
FY
FY Y Y
Y
Y
Y
83
具体作法:
已知剩余项 是与预测值 及个别值都有关的变量,并且已知 服从正态分布,且可证明当用 代替 时,对 标准化的变量
t 为
)2(~
)(1
1?(
)(
2
2
^
^
nt
x
XX
n
YY
eSE
eEe
t
i
F
FF
F
FF
)
FFF YYe
^
FY
^
FY
Fe
0)(?FeE
2? Fe
2^
22
2
1 ( )( ) ( ) [ 1 ]F
FFF
i
XXV a r e E Y Y
nx?
)2(? 22 ne i?
84
构建个别值的预测区间给定显著性水平,查 t 分布表得自由度为的临界值,则有因此,一元回归时 的个别值的置信度为 的预测区间上下限为
2
2 2
()1 1 F
FF
i
XXY Y t
nx?
)2(2?nt?
^^
22{[ ( ) ] [ ( ) ] } 1F F F F FP Y t S E e Y Y t S E e
2n?
1Y
85
应变量 Y 区间预测的特点
1,平均值的预测值与真实平均值有误差,主要是受抽样波动影响个别值的预测值与真实个别值的差异,不仅受抽样波动影响,而且还受随机扰动项的影响
Y
Y
2
2^
2
^ )(1
i
FF
F x
XX
ntYY
2
2 2
()1 1 F
FF
i
XXY Y t
nx?
86
2,平均值和个别值预测区间都不是常数,是随的变化而变化的
3、预测区间上下限与样本容量有关,当样本容量 时个别值的预测误差只决定于随机扰动的方差
FX
n
87
SRF
各种预测值的关系
Y的个别值的置信区间
FX
Y均值的置信区间
X
时,置信区间最小当 XX F?
X
Y
88
第六节 案例分析提出问题,改革开放以来随着中国经济的快速发展,
居民的消费水平也不断增长。但全国各地区经济发展速度不同,居民消费水平也有明显差异。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。
研究范围,全国各省市 2002年城市居民家庭平均每人每年消费截面数据模型。
89
理论分析,影响各地区城市居民人均消费支出的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入。从理论上说可支配收入越高,居民消费越多,但边际消费倾向大于 0,小于 1。
建立模型:
其中,Y— 城市居民家庭平均每人每年消费支出 (元 )
X— 城市居民人均年可支配收入 (元 )
i 1 2 iY= β + β X + u
90
数据,从 2002年,中国统计年鉴,中得到地 区 城市居民家庭平均每人每年消费支出
(元 ) Y
城市居民人均年可支配收入 (元 )
X
北京天津河北山西内蒙古辽宁吉林黑龙江上海江苏浙江安徽福建江西山东河南湖北
10284.60
7191.96
5069.28
4710.96
4859.88
5342.64
4973.88
4462.08
10464.00
6042.60
8713.08
4736.52
6631.68
4549.32
5596.32
4504.68
5608.92
12463.92
9337.56
6679.68
5234.35
6051.06
6524.52
6260.16
6100.56
13249.80
8177.64
11715.60
6032.40
9189.36
6334.64
7614.36
6245.40
6788.52
91
(接上页数据表)
地 区 城市居民家庭平均每人每年消费支出 (元 )
Y
城市居民人均年可支配收入 (元 )
X
湖南广东广西海南重庆四川贵州云南西藏陕西甘肃青海宁夏新疆
5574.72
8988.48
5413.44
5459.64
6360.24
5413.08
4598.28
5827.92
6952.44
5278.04
5064.24
5042.52
6104.92
5636.40
6958.56
11137.20
7315.32
6822.72
7238.04
6610.80
5944.08
7240.56
8079.12
6330.84
6151.44
6170.52
6067.44
6899.64
92
估计参数具体操作:使用 EViews 软件包。估计结果:
假定模型中随机扰动满足基本假定,可用 OLS法。
93
表示为
^ 2 8 2,2 4 3 4 0,7 5 8 5 1 1
iiYX
( 2 8 7,2 6 4 9 ) (0,0 3 6 9 2 8 )
( 0,9 8 2 5 2 0 )t? ( 2 0,5 4 0 2 6 )
2 0,9 3 5 6 8 5 4 2 1,9 0 2 3 2 9r F d f
94
1,可决系数,模型整体上拟合好。
2,系数显著性检验,给定,查 t 分布表,
在自由度为 n-2=29时临界值为因为 t = 20.44023 >
说明“城镇人均可支配收入”对“城镇人均消费支出”有显著影响。
3,用 P值检验 >> p=0.0000
模型检验
0.05α =
0.025 ( 29) = 2.045t
= 0,9 3 5 6 8 52r
0.025 ( 29) 2.045?t
0.05α =
95
4,经济意义检验:
估计的解释变量的系数为 0·758511,说明城镇居民人均可支配收入每增加 1元,人均年消费支出平均将增加 0·758511元。这符合经济理论对边际消费倾向的界定。
96
点预测:
西部地区的城市居民人均年可支配收入第一步争取达到 1000美元 (按现有汇率即人民币 8270元 ),
代入估计的模型得第二步再争取达到 1500美元 (即人民币 12405
元 ),利用所估计的模型可预测这时城市居民可能达到的人均年消费支出水平
f1? 28 2.2 43 4 0.7 58 51 1 82 70 65 55,13 2Y
f2? 2 8 2,2 4 3 4 0,7 5 8 5 1 1 1 2 4 0 5 9 6 9 1,5 7 7Y
经济预测
97
2^^
FF
F α 2 2
i
( X - X )1Y = Y t σ +
nx?
平均值区间预测上下限,
区间预测
8270f1X? 时
1 56 99 85,7465 55,13 2.0 45 41 3.1 59 3
31 12 51 76 49 2.5 9f1Y
6 5 5 5,1 3 1 6 2,1 0?
2 12405 时?fX
2
1 23911845.729691.58 2.045 413.1593
31 125176492.59fY
9 6 9 1,5 8 4 9 9,2 5?
98
8270 时,?f1X
即是说,
平均值置信度 95%的预测区间为( 6393.03,6717.23)元 。
12405 时,?f2X
平均值置信度 95%的预测区间为( 9292.33,10090.83)元 。
个别值区间预测(略)
99
第二章 小 结
1、变量间的关系,函数关系 —— 相关关系相关系数 —— 对变量间线性相关程度的度量
2、现代意义的回归,一个被解释变量对若干个解释变量依存关系的研究实质,由固定的解释变量去估计被解释变量的平均值
100
3、总体回归函数( PRF),将总体被解释变量 Y
的条件均值表现为解释变量 X 的某种函数样本回归函数( SRF),将被解释变量 Y 的样本条件均值表示为解释变量 X 的某种函数。
总体回归函数与样本回归函数的区别与联系
4、随机扰动项,被解释变量实际值与条件均值的偏差,代表排除在模型以外的所有因素对 Y的影响。
101
5、简单线性回归的基本假定:
对模型和变量的假定对随机扰动项 u的假定零均值假定,
同方差假定,
无自相关假定,
随机扰动与解释变量不相关假定,
正态性假定,
),0(~ 2?Nu i
0)(?iuE
2)()( ii YV a ruV a r
0)(),( jiji uuEuuCo v
0),(?ii XuC o v
ii XYE 21)(
102
6、普通最小二乘法( OLS) 估计参数的基本思想及估计式;
2
1 22
()
i i i i i
ii
X Y X X Y
N X X
2 22
()
i i i i
ii
N X Y X Y
N X X
2
i
ii
x
yx
12YX
103
期望,
方差:
标准差:
OLS估计式是最佳线性无偏估计式。
OLS 估计式的分布性质
2
2
1 2
() i
i
XV a r
Nx
()kkE
2
2 2
()
i
V a r x
2 2
()
i
SE
x
2
1 2
() i
i
X
SE
Nx
104
7,的无偏估计
8、对回归系数区间估计的思想和方法
2?
2
2^
2
n
e i?
^^
2 2 2 2 222
[ ( ) ( ) ] 1P t S E t S E
105
9、拟合优度,样本回归线对样本观测数据拟合的优劣程度,
可决系数,在总变差分解基础上确定的,模型解释了的变差在总变差中的比重可决系数的计算方法、特点与作用。
2
2
2
^
2
1
i
i
i y
e
y
y
2
2^
2
iy
y
r
2
2
2 1
i
i
y
e
r
106
10、对回归系数的假设检验假设检验的基本思想对回归系数 t 检验的思想与方法用 P 值判断参数的显著性
* 2 2 2
^^
22
~ ( 2)
( ) ( )
t t n
SE SE
107
11、对被解释变量的预测被解释变量平均值预测与个别值预测的关系被解释变量平均值的点预测和区间预测的方法
22
22 22
( ) ( )11[,]FF
FF
ii
X X X XY t Y t
n x n x
108
被解释变量个别值区间预测的方法
12,运用 EViews软件对简单的线性回归模型进行估计和检验
2
2 2
()1 1 F
FF
i
XXY Y t
nx?
109
第 二 章 结 束