1
多元线性回归模型计量经济学第三章
2
引子,
中国汽车的保有量会达到 1.4亿辆吗?
中国经济的快速发展,使居民收入不断增加,数以百万计的中国人开始得以实现拥有汽车的梦想,中国也成为世界上成长最快的汽车市场。
中国交通部副部长在中国交通可持续发展论坛上做出预测,“2020年,中国的民用汽车保有量将比 2003年的数字增长6倍,达到 1.4亿辆左右,。
是什么因素导致中国汽车数量的增长?
影响中国汽车行业发展的因素并不是单一的,经济增长、
消费趋势、市场行情、业界心态、能源价格、道路发展、内外环境,都会使中国汽车行业面临机遇和挑战。
3
分析中国汽车行业未来的趋势,应具体分析这样一些问题:
中国汽车市场发展的状况如何? (用销售量观测)
影响中国汽车销量的主要因素是什么?
(如收入、价格、费用、道路状况、能源、政策环境等)
各种因素对汽车销量影响的性质怎样? (正、负)
各种因素影响汽车销量的具体数量关系是什么?
所得到的数量结论是否可靠?
中国汽车行业今后的发展前景怎样?应当如何制定汽车的产业政策?
很明显,只用一个解释变量已很难分析汽车产业的发展,
还需要寻求有更多个解释变量情况的回归分析方法。
怎样分析多种因素的影响?
4
第三章 多元线性回归模型本章主要讨论,
● 多元线性回归模型及古典假定
●多元线性回归模型的估计
●多元线性回归模型的检验
●多元线性回归模型的预测
5
第一节多元线性回归模型及古典假定本节基本内容,
一、多元线性回归模型的意义二、多元线性回归模型的矩阵表示三、多元线性回归中的基本假定
6
一、多元线性回归模型的意义例如,有两个解释变量的电力消费模型其中,为各地区电力消费量;
为各地区国内生产总值 ( GDP) ;
为各地区电力价格变动 。
模型中参数的意义是什么呢?
1 2 2 3 3iiY X X u
2X
3X
iY
7
多元线性回归模型的一般形式一般形式:对于有 个解释变量的线性回归模型模型中参数 是偏回归系数,样本容量为偏回归系数,控制其它解释量不变的条件下,第个解释变量的单位变动对应变量平均值的影响 。
k
1 2 2 3 3,..i i i k k i iY X X X u
( 1,2,...,)j jk
j
n
8
指对各个回归系数而言是,线性,的,对变量则可是线性的,也可是非线性的例如:生产函数取自然对数
l n l n l n l n l nY A L K u
Y A L K u
多元线性回归
9
的总体条件均值表示为多个解释变量的函数总体回归函数也可表示为,
2 3 1 2 2 3 3E (,,.,,,),,,i i i k i i i k k iY X X X X X X
1 2 2 3 3,..i i i k k i iY X X X u
Y
多元总体回归函数
10
的样本条件均值表示为多个解释变量的函数或其中回归剩余(残差):
-i i ie Y Y?
多元样本回归函数
1 2 2 3 3Y,,,i i i k k iX X X
1 2 2 3 3...i i i k k i iY X X X e
Y
ni,,2,1
11
二、多元线性回归模型的矩阵表示个解释变量的多元线性回归模型的 个观测样本,可表示为
1 1 2 2 1 3 3 1 1 1..,kkY X X X u
2 1 2 2 2 3 3 2 2 2..,kkY X X X u
1 2 2 3 3,..n n n k k n nY X X X u
nk
12
Y
1n?
用矩阵表示
1n? 1?k?nk
1 2 1 1 1 1
2 2 2 2 2 2
2
1
1
1
k
k
n n k n k n
Y X X β u
Y X X β u
Y X X β u
XY uβ
13
总体回归函数 或样本回归函数 或其中,都是有 个元素的列向量是有 个元素的列向量是第一列为 1的 阶解释变量数据矩阵 (截距项可视为解释变量取值为 1)
nk
k
n
E (Y ) = X β Y = X β +u
Y = X β?Y = X β +e
Y,Y,u,e
X
β,β
14
三、多元线性回归中的基本假定假定 1,零均值假定或假定 2和假定 3:同方差和无自相关假定假定 4:随机扰动项与解释变量不相关
E ( ) 0 ( 1,2,,)iu i n
C o v (,) 0 2,3,,j i iX u j k
C o v (,) E [ ( - E ) ( - E ) ] E ( )i j i i j j i ju u u u u u u u
2?
0 ( )?ij
i=j
(E u ) = 0
15
假定 5:无多重共线性假定 (多元中 )
假定各解释变量之间不存在线性关系,或各个解释变量观测值之间线性无关。或解释变量观测值矩阵 列满秩 ( 列 )。
即 可逆假定 6,正态性假定
X
2~ ( 0,)iuN σ
k
()R a n k k?X ()R a n k KXX
XX
16
第二节多元线性回归模型的估计本节基本内容,
● 普通最小二乘法( OLS)
● OLS估计式的性质
● OLS估计的分布性质
● 随机扰动项方差 的估计
● 回归系数的区间估计
2?
17
一、普通最小二乘法 ( OLS)
最小二乘原则剩余平方和最小:
求偏导,令其为 0:
22?m i n ( - )i i ie Y Y
22 1 2 2 3 3m i n [ - (,,,) ]i i i i k k ie Y X X X
2()
0?
i
j
e
18
即注意到
1 2 2 3 3- (,,,)i i i k i k i iY X X X e
0ie1 2 2 3 3- 2 - (,,,) 0 i i i k i k iY X X X
1 2 2 3 3- 2 - (,,,) 0 k i i i i k i k iX Y X X X
2 1 2 2 3 3- 2 - (,,,) 0 i i i i k i k iX Y X X X2
0iiXe
0k i iXe
19
用矩阵表示因为样本回归函数为两边乘 有:
因为,则正规方程为:
X
X e = 0
21 22 22
2
1 1 1 0
0
0
1i
n2ii
k 1 k k n nk i i
ee
X X X eXe
= = =
...
X X X eXe
Xe
XX β = X Y
X Y = X X β + X e
Y = X β +e
X e
20
由正规方程多元回归中二元回归中注意,和 为 的离差
-1β = ( X X ) X Y
( ),kk 是 满 秩 矩 阵 其 逆 存 在XXXX β = X Y
1 2 2 3 3 Y- β X- β X
2
3 2 2 2 3
3 2 2 2
2 3 2 3
( ) ( ) - ( ) ( )?
( ) ( ) - ( )
i i i i i i i
i i i i
y x x y x x x
x x x x
2
2 3 3 2 3
2 2 2 2
2 3 2 3
( ) ( ) - ( ) ( )?
( ) ( ) - ( )
i i i i i i i
i i i i
y x x y x x x
x x x x
x y X,Y
OLS估计式
21
二,OLS估计式的性质
OLS估计式
1.线性特征,
是 的线性函数,因 是非随机或取固定值的矩阵
2.无偏特性,?
E ( )kkβ β?
( -1X X ) X
-1β = ( X X ) X Y
β Y
22
3,最小方差特性在 所有的线性无偏估计中,OLS估计 具有最小方差结论,在古典假定下,多元线性回归的 OLS估计式是最佳线性无偏估计式( BLUE)
kβ?kβ
23
三,OLS估计的分布性质基本思想
● 是随机变量,必须确定其分布性质才可能进行区间估计和假设检验
● 是服从正态分布的随机变量,决定了 也是服从正态分布的随机变量
● 是 的线性函数,决定了 也是服从正态分布的随机变量
iu
iβ
iY
iβiY?iβ
24
的期望 (由无偏性 )
的方差和标准误差:
可以证明 的方差 -协方差矩阵为这里 是 矩阵 中第 行第 列的元素
2 - 1?Va r - C ov ( ) ( )σβ XX
β?E ( )?β β
S E( )j j jβ σ c?2?V a r ( )j jjβ σ c?
β
β
jjc -1()?XX j j
2? ~ (,) 1,2,.,,,j j j j β N β σ c j k?故 有,
25
四、随机扰动项方差 的估计多元回归中 的无偏估计为:
或表示为将 作标准化变换:
2?
kβ
--
~ ( 0,1 )?
S E ( )
k k k k
k
jjk
β β β βzN
σ cβ
2
2?
-
ieσ
nk?
2?
-σ nk
ee
2σ
26
因 是未知的,可用 代替 去估计参数 的标准误差,
● 当为大样本时,用估计的参数标准误差对 作标准化变换,所得 Z统计量仍可视为服从正态分布
●当为小样本时,用估计的参数标准误差对 作标准化变换,所得的 t统计量服从 t分布:
2? 2β
^
-
~ ( - )
S E ( )
kk
k
β β
t t n k
β
β
2?
β
27
五、回归系数的区间估计由于给定,查 t分布表的自由度为 的临界值或,
或表示为,
*
22 ^
-
P [ - ( - ) ( - ) ] 1 -
SE ( )
jj
α α
j
β β
t n k t t n k α
β
2 ( - ) 2 ( - )( -,)j j n k j j j n k j jβ β t σ c β t σ c
22
P [ - ] 1 -j α j j j j α jjβ t σ c β β t σ c α
^^
22
P [ - ( ) ( ) ] 1 -j α j j j α jβ t S E β β β t S E β α
()
S E ( )
j j j j*
^
jjj
β - β β - β
t = = ~ t n - k
σ cβ
2 (-)t n k?
( 1,...,)jk?
nk?
28
第三节多元线性回归模型的检验本节基本内容,
● 多元回归的拟合优度检验
●回归方程的显著性检验( F检验)
●各回归系数的显著性检验( t检验)
29
一、多元回归的拟合优度检验多重可决系数,在多元回归模型中,由各个解释变量联合解释了的 的变差,在 的总变差中占的比重,用 表示与简单线性回归中可决系数 的区别只是 不同,多元回归中多重可决系数也可表示为
2 2 313 i i i k ikY= β + β X+ β X +,.,+ β X
22
2
( - )E SS T SS - R SS
1-
T SS ( - ) T SS
iiY Y eR
Y Y y
iY2R
2RYY
30
2?ES S - nY β XY
特点,
多重可决系数是模型中解释变量个数的 不减函数,
这给对比不同模型的多重可决系数带来缺陷,所以需要修正 。
2T S S nYYY
2
2
2
E S S -
TS S -
nY
R
nY
β XY
YY
23232
2
...
i i i i k i ik
i
β xy β xy β xy
R
y
可 以 证 明,
多重可决系数的矩阵表示
31
思想可决系数只涉及变差,没有考虑 自由度 。如果用自由度去校正所计算的变差,可纠正解释变量个数不同引起的对比困难。
自由度统计量的自由度指可自由变化的样本观测值个数,
它等于所用样本观测值的个数减去对观测值的约束个数。
修正的可决系数
32
可决系数的修正方法
22
11
T S S ( )
nn
ii
ii
Y Y Y
总变差 自由度为解释了的变差 自由度为剩余平方和 自由度为修正的可决系数 为
22
2 (-) -1
1 - 1 -
( - 1 ) -
iie n k enR
y n n k y
22?R S S ( - )i
iiY Y e
22?E S S ( - )i
iY Y y =
1n-
1k-
n-k
33
特点可决系数 必定非负,但修正的可决系数可能为负值,这时规定修正的可决系数 与可决系数 的关系:
2 2 -11 - ( 1 - ) nRR
n - k
2R2R
2R2R
2 0R?
34
二、回归方程显著性检验( F检验 )
基本思想在多元回归中有多个解释变量,需要说明所有解释变量联合起来对应变量影响的总显著性,或整个方程总的联合显著性。对方程总显著性检验需要在方差分析的基础上进行 F检验。
35
总变差 自由度模型解释了的变差 自由度剩余变差 自由度变差来源 平方和 自由度 方差归于回归模型归于剩余总变差方差分析表
22T S S ( - )iiY Y y
2?E S S ( - )iYY
2?R S S ( - )i
iYY
2?E S S ( - )iYY
1n-
1k-
n-k
2T S S ( - )iYY
2?R S S ( - )i
iYY
T S S / -1n
E S S / -1k
R S S / n - k
1n-
1k-
n-k
36
原假设备择假设 不全为 0
建立统计量 (可以证明 ):
给定显著性水平,查 F分布表得临界值并通过样本观测值计算 值
F检验
F
E S S ( - 1 ) ~ F ( - 1,)
RS S ( - )
kF k n - k
nk?
( - 1,- )F k n k?
1H,( 1 2 )jβ j =,,.,,,k
0 2 3H,0kβ = β =,.,= β =
37
▼ 如果 (小概率事件发生了 )
则拒绝,说明回归模型有显著意义,即所有解释变量联合起来对有显著影响 。
▼ 如果 (大概率事件发生了 )
则接受,说明回归模型没有显著意义,即所有解释变量联合起来对没有显著影响 。
( - 1,- )F F k n k
( - 1,- )F < F k n k?
0 2 3H,0kβ = β =,.,= β =
Y
Y
0 2 3H,0kβ = β =,.,= β =
38
可决系数与 F检验由方差分析可以看出,F检验与可决系数有密切联系,二者都建立在对应变量变差分解的基础上 。 F统计量也可通过可决系数计算:
可看出:当 时,
越大,值也越大当 时,
结论,对方程联合显著性检验的 F检验,实际上也是对 的显著性检验 。
2
2
( - 1 )
( 1 - ) ( - )
RkF
R n k
2 0R?
2R
2 1R? F
0F=
F
2R
39
三、各回归系数的显著性检验
( t 检验)
目的:
在多元回归中,分别检验当其他解释变量保持不变时,各个解释变量 对应变量 是否有显著影响 。
方法:
原假设备择假设统计量为:
*
^
-
~ ( - )
SE ( )
jj j
jjj
β β β
t t n k
cβ?
0H,0 = 1 2jβ j,...,k?,
1H,0jβ?
X Y
40
t检验的方法给定显著性水平,查自由度为 时 t分布表的临界值为如果就不拒绝 而拒绝即认为 所对应的解释变量 对应变量 的影响不显著 。
*22- ( - ) ( - )t n k t t n k
1H,0jβ?0H,0jβ?
2 (-)t n k?
jX
jβ
n-k
Y
41
如果就拒绝 而不拒绝即认为 所对应的解释变量 对应变量 的影响是显著的 。
在多元回归中,可分别对每个回归系数逐个地进行 t检验 。
注意,在一元回归中 F检验与 t检验等价,且但在多元回归中 F检验与 t检验作用不同。
0H
**22- ( - ) ( - )t t n k t t n k 或
jX
jβ
2Ft?
1H0jβ,≠
Y
42
第四节 多元线性回归模型的预测本节基本内容,
● 应变量平均值预测
●应变量个别值预测
43
一、应变量平均值预测
1,平均值的点预测将解释变量预测值代入估计的方程:
多元回归时:
或注意,预测期的 是第一个元素为 1的行向量,
不是矩阵,也不是列向量
FY? FX β
2 2 3 31,..F F F k FkY β β X β X β X
FX
Y
44
基本思想:
由于存在抽样波动,预测的平均值 不一定等于真实平均值,还需要对作区间估计 。
为对 作区间预测,必须确定平均值预测值的抽样分布 。 必须找出与 和 都有关的统计量 。
2,平均值的区间预测
E ( )FFY X
FY
FY
E ( )FFY X
FY E ( )FFY X
Y
Y
45
具体作法 (回顾一元回归 )
当 未知 时,只得用 代替,
这时一元中已知
2? 22? ( - 2 )ien
12?E ( ) E ( )F F F FY Y X β β X
2
2
( - )1?S E ( ) F
F
i
XXY σ
nx
2
2
2
( - )1?V a r ( ) [ ]F
F
i
XXY σ
nx
2
2
2
( - )1V a r ( ) F
F
i
XXY σ
nx
46
多元回归时,与 和 都有关的是偏差从正态分布,可证明用 代替,可构造 t统计量
^
*
^
- E ( )- E ( )
~ ( - )
S E ( )
FFFF
F
YYww
t t n k
w?
F
-1
FF
X
X ( X X) X
2V a r ( )Fw σ -1FFX ( X X ) X
- E ( )F F Fw Y Y? FX
2σ
E ( )FY FX
22? (-)
ie n k
E ( ) 0Fw?
Fw?FY
Fw
47
则给定显著性水平,查 t分布表,得自由度的临界值,则或
2
2
{ [ - ] E ( )
[ ] } 1
FF
F
P Y t σ Y
Yt σ
-1
FF
-1
FF
X ( X ` X ) X
X ( X ` X ) X
^^
22P { [ ( - S E( ) ] E( ) [ ( S E( ) ] }F F F F FY t Y Y Y t Y
2 ()t n k
1-
n-k
48
二、应变量个别值预测基本思想:
● 既是对 平均值的点预测,也是对 个别值的点预测。
●由于存在随机扰动 的影响,的平均值并不等于 的个别值
●为了对 的个别值 作区间预测,需要寻找与预测值 和个别值 有关的统计量,并要明确其概率分布
Y
iu
FY
FY
FYFY
Y
Y
Y
Y
49
22? (-)
iσ e n k
已知剩余项 是与预测值 和个别值 都有关的变量,并且已知 服从正态分布,且可证明当用 代替 时,对 标准化的变量为:
FY
E ( ) 0Fe? 2Va r ( ) [ 1 ]Fe σ -1FFX ( X X ) X
^
- E ( ) -
~ ( - )
S E ( ) 1
F F F F
F
e e Y Y
t t n k
e σ
-1FFX ( X X ) X
2σ
Fe FY
Fe
Fe
具体作法
50
^^
22( { [ - S E( ) ] [ S E( ) ] } 1 -F F F F FP Y t e Y Y t e
给定显著性水平,查 t 分布表得自由度为 的临界值 则因此,多元回归时 的个别值的置信度 的预测区间的上下限为:
2 1FFY Y t σ
-1
FFX ( X X ) X
2 (-)t n k?
Y1
-nk
51
第五节 案例分析案例,中国税收增长的分析提出问题改革开放以来,随着经济体制改革的深化和经济的快速增长,中国的财政收支状况发生很大变化,
为了研究影响中国税收收入增长的主要原因,分析中央和地方税收收入的增长规律,预测中国税收未来的增长趋势,需要建立计量经济模型。
52
理论分析影响中国税收收入增长的主要因素可能有:
( 1)从宏观经济看,经济整体增长是税收增长的基本源泉。
( 2)社会经济的发展和社会保障等都对公共财政提出要求,公共财政的需求对当年的税收收入可能会有一定的影响。
( 3)物价水平。中国的税制结构以流转税为主,
以现行价格计算的 GDP和经营者的收入水平都与物价水平有关。
( 4)税收政策因素。
53
以 各项税收收入 Y 作为被解释变量以 GDP表示经济整体增长水平以财政支出表示公共财政的需求以 商品零售价格指数 表示物价水平税收政策因素较难用数量表示,暂时不予考虑建立模型
54
模型设定为,
其中:
— 各项税收收入(亿元)
— 国内生产总值(亿元)
— 财政支出(亿元)
— 商品零售价格指数( %)
1 2 2 2 3 3 4t t t t tY β β X β X β Xu
Y
2X
3X
4X
55
数据来源:
,中国统计年鉴,
其中,
—— 各项税收收入(亿元)
—— 国内生产总值(亿元)
—— 财政支出(亿元)
—— 商品零售价格指数( %)3X
Y
2X
4X
数据收集
56
假定模型中随机项满足基本假定,可用 OLS法估计其参数。 具体操作,用 EViews软件,估计结果为:
参数估计
57
模型估计的结果可表示为
2 3 4? - 2582.791 0.022067 0.702104 23.98541iY X X X
(940.6128) (0.0056) (0.0332) (8.7363)
t= (-2.7459) (3.9566) (21.1247) (2.7449)
2 0,9 9 7 4R? 2 0,9 9 7 1R?
拟合优度,可决系数 较高,
修正的可决系数 也较高,
表明模型拟合较好。
模型检验:
2 0,9 9 7 4R?
2 0,9 9 7 1R?
d f =F? 2717.238 21
58
显著性检验
F检验,针对,取查自由度为 和 的临界值 。
由于,应拒绝,
说明回归方程显著,即“国内生产总值”、“财政支出”、“商品零售物价指数”等变量联合起来确实对“税收收入”有显著影响。
0 2 3 4H,0β β β
(3,21)F?
0.05
F ( 3,2 12717.238 ) 3,0 7 5F
-1=3k =21n - k
0H
59
t检验,给定,查 t分布表,在自由度为时临界值为,因为的参数对应的 t统计量均大于 2.080,这说明在 5%的显著性水平下,斜率系数均显著不为零,表明国内生产总值、财政支出、商品零售价格指数对财政收入分别都有显著影响。
0.025 ( 21 ) 2.080t?
0.05
234,,X X X
-n 3 = 25 - 4 = 21
60
本模型中所估计的参数的符号与经济理论分析一致,说明在其他因素不变的情况下,国内生产总值每增加 1
亿元,平均说来财政收入将增加 220.67万元;财政支出每增加 1亿元,平均说来财政收入将增加
7021.04万元 ;商品零售物价指数每增加 1%,平均说来财政收入将增加 23.98541亿元 。
3420.0 22 06 7,0.7 02 10 4,23,98 54 1β β β
经济意义检验
61
1.多元线性回归模型是将总体回归函数描述为一个被解释变量与多个解释变量之间线性关系的模型。
通常多元线性回归模型可以用矩阵形式表示:
2.多元线性回归模型中对随机扰动项 u的假定,零均值假定、同方差假定、无自相关假定、随机扰动与解释变量不相关假定、正态性假定、无多重共线性假定。
0 1 1 2 2,..i i i p pi iY β β X β X β Xu
第三章 小结
Y = X β +u
62
3.多元线性回归模型参数的最小二乘估计式及期望、方差和标准误差:
4.在基本假定满足的条件下,多元线性回归模型最小二乘估计式是最佳线性无偏估计式。
-1β = ( X X ) X Y?E( β )= β
S E( ) jjjβ σ C? 22V a r ( ) ( )
-
i
j jj jj
eβ σ CC
nk
63
5,多元线性回归模型中参数区间估计的方法。
6,多重可决系数的意义和计算方法:
修正可决系数的作用和方法:
2
2
2
R S S1 - 1 -
TS S ( - )
i
i
eR
YY
22
2
22
(-) -11 - 1 -
( - ) ( - 1 ) - ( - )
iie n k enR
Y Y n n k Y Y
22
[ - ] 1 -j α j j j j α jjP β t σ c β β t σ c
64
7,F检验是对多元线性回归模型中所有解释变量联合显著性的检验,F检验是在方差分析基础上进行的。
ES S ( - 1 ) ~ ( - 1,- )
R S S ( - )
kF F k n k
nk?
65
8,多元回归分析中,为了分别检验当其它解释变量不变时,各个解释变量是否对被解释变量有显著影响,需要分别对所估计的各个回归系数作 t检验。
*
^
- -
~ ( - )
SE ( )
jj jj
j jj
β β β β
t t n k
β σ c
66
9.利用多元线性回归模型作被解释变量平均值预测与个别值预测的方法。
点预测:
平均值:
个别值:
fY? FX β
22- E ( )F F FYt σ Y Y t σ
- 1 - 1
F F F FX ( X X ) X X ( X X ) X
22- 1 1F F FYt σ Y Y t σ
-1
FFX ( X X ) X
-1
FFX ( X X ) X
67
第 三 章 结 束
多元线性回归模型计量经济学第三章
2
引子,
中国汽车的保有量会达到 1.4亿辆吗?
中国经济的快速发展,使居民收入不断增加,数以百万计的中国人开始得以实现拥有汽车的梦想,中国也成为世界上成长最快的汽车市场。
中国交通部副部长在中国交通可持续发展论坛上做出预测,“2020年,中国的民用汽车保有量将比 2003年的数字增长6倍,达到 1.4亿辆左右,。
是什么因素导致中国汽车数量的增长?
影响中国汽车行业发展的因素并不是单一的,经济增长、
消费趋势、市场行情、业界心态、能源价格、道路发展、内外环境,都会使中国汽车行业面临机遇和挑战。
3
分析中国汽车行业未来的趋势,应具体分析这样一些问题:
中国汽车市场发展的状况如何? (用销售量观测)
影响中国汽车销量的主要因素是什么?
(如收入、价格、费用、道路状况、能源、政策环境等)
各种因素对汽车销量影响的性质怎样? (正、负)
各种因素影响汽车销量的具体数量关系是什么?
所得到的数量结论是否可靠?
中国汽车行业今后的发展前景怎样?应当如何制定汽车的产业政策?
很明显,只用一个解释变量已很难分析汽车产业的发展,
还需要寻求有更多个解释变量情况的回归分析方法。
怎样分析多种因素的影响?
4
第三章 多元线性回归模型本章主要讨论,
● 多元线性回归模型及古典假定
●多元线性回归模型的估计
●多元线性回归模型的检验
●多元线性回归模型的预测
5
第一节多元线性回归模型及古典假定本节基本内容,
一、多元线性回归模型的意义二、多元线性回归模型的矩阵表示三、多元线性回归中的基本假定
6
一、多元线性回归模型的意义例如,有两个解释变量的电力消费模型其中,为各地区电力消费量;
为各地区国内生产总值 ( GDP) ;
为各地区电力价格变动 。
模型中参数的意义是什么呢?
1 2 2 3 3iiY X X u
2X
3X
iY
7
多元线性回归模型的一般形式一般形式:对于有 个解释变量的线性回归模型模型中参数 是偏回归系数,样本容量为偏回归系数,控制其它解释量不变的条件下,第个解释变量的单位变动对应变量平均值的影响 。
k
1 2 2 3 3,..i i i k k i iY X X X u
( 1,2,...,)j jk
j
n
8
指对各个回归系数而言是,线性,的,对变量则可是线性的,也可是非线性的例如:生产函数取自然对数
l n l n l n l n l nY A L K u
Y A L K u
多元线性回归
9
的总体条件均值表示为多个解释变量的函数总体回归函数也可表示为,
2 3 1 2 2 3 3E (,,.,,,),,,i i i k i i i k k iY X X X X X X
1 2 2 3 3,..i i i k k i iY X X X u
Y
多元总体回归函数
10
的样本条件均值表示为多个解释变量的函数或其中回归剩余(残差):
-i i ie Y Y?
多元样本回归函数
1 2 2 3 3Y,,,i i i k k iX X X
1 2 2 3 3...i i i k k i iY X X X e
Y
ni,,2,1
11
二、多元线性回归模型的矩阵表示个解释变量的多元线性回归模型的 个观测样本,可表示为
1 1 2 2 1 3 3 1 1 1..,kkY X X X u
2 1 2 2 2 3 3 2 2 2..,kkY X X X u
1 2 2 3 3,..n n n k k n nY X X X u
nk
12
Y
1n?
用矩阵表示
1n? 1?k?nk
1 2 1 1 1 1
2 2 2 2 2 2
2
1
1
1
k
k
n n k n k n
Y X X β u
Y X X β u
Y X X β u
XY uβ
13
总体回归函数 或样本回归函数 或其中,都是有 个元素的列向量是有 个元素的列向量是第一列为 1的 阶解释变量数据矩阵 (截距项可视为解释变量取值为 1)
nk
k
n
E (Y ) = X β Y = X β +u
Y = X β?Y = X β +e
Y,Y,u,e
X
β,β
14
三、多元线性回归中的基本假定假定 1,零均值假定或假定 2和假定 3:同方差和无自相关假定假定 4:随机扰动项与解释变量不相关
E ( ) 0 ( 1,2,,)iu i n
C o v (,) 0 2,3,,j i iX u j k
C o v (,) E [ ( - E ) ( - E ) ] E ( )i j i i j j i ju u u u u u u u
2?
0 ( )?ij
i=j
(E u ) = 0
15
假定 5:无多重共线性假定 (多元中 )
假定各解释变量之间不存在线性关系,或各个解释变量观测值之间线性无关。或解释变量观测值矩阵 列满秩 ( 列 )。
即 可逆假定 6,正态性假定
X
2~ ( 0,)iuN σ
k
()R a n k k?X ()R a n k KXX
XX
16
第二节多元线性回归模型的估计本节基本内容,
● 普通最小二乘法( OLS)
● OLS估计式的性质
● OLS估计的分布性质
● 随机扰动项方差 的估计
● 回归系数的区间估计
2?
17
一、普通最小二乘法 ( OLS)
最小二乘原则剩余平方和最小:
求偏导,令其为 0:
22?m i n ( - )i i ie Y Y
22 1 2 2 3 3m i n [ - (,,,) ]i i i i k k ie Y X X X
2()
0?
i
j
e
18
即注意到
1 2 2 3 3- (,,,)i i i k i k i iY X X X e
0ie1 2 2 3 3- 2 - (,,,) 0 i i i k i k iY X X X
1 2 2 3 3- 2 - (,,,) 0 k i i i i k i k iX Y X X X
2 1 2 2 3 3- 2 - (,,,) 0 i i i i k i k iX Y X X X2
0iiXe
0k i iXe
19
用矩阵表示因为样本回归函数为两边乘 有:
因为,则正规方程为:
X
X e = 0
21 22 22
2
1 1 1 0
0
0
1i
n2ii
k 1 k k n nk i i
ee
X X X eXe
= = =
...
X X X eXe
Xe
XX β = X Y
X Y = X X β + X e
Y = X β +e
X e
20
由正规方程多元回归中二元回归中注意,和 为 的离差
-1β = ( X X ) X Y
( ),kk 是 满 秩 矩 阵 其 逆 存 在XXXX β = X Y
1 2 2 3 3 Y- β X- β X
2
3 2 2 2 3
3 2 2 2
2 3 2 3
( ) ( ) - ( ) ( )?
( ) ( ) - ( )
i i i i i i i
i i i i
y x x y x x x
x x x x
2
2 3 3 2 3
2 2 2 2
2 3 2 3
( ) ( ) - ( ) ( )?
( ) ( ) - ( )
i i i i i i i
i i i i
y x x y x x x
x x x x
x y X,Y
OLS估计式
21
二,OLS估计式的性质
OLS估计式
1.线性特征,
是 的线性函数,因 是非随机或取固定值的矩阵
2.无偏特性,?
E ( )kkβ β?
( -1X X ) X
-1β = ( X X ) X Y
β Y
22
3,最小方差特性在 所有的线性无偏估计中,OLS估计 具有最小方差结论,在古典假定下,多元线性回归的 OLS估计式是最佳线性无偏估计式( BLUE)
kβ?kβ
23
三,OLS估计的分布性质基本思想
● 是随机变量,必须确定其分布性质才可能进行区间估计和假设检验
● 是服从正态分布的随机变量,决定了 也是服从正态分布的随机变量
● 是 的线性函数,决定了 也是服从正态分布的随机变量
iu
iβ
iY
iβiY?iβ
24
的期望 (由无偏性 )
的方差和标准误差:
可以证明 的方差 -协方差矩阵为这里 是 矩阵 中第 行第 列的元素
2 - 1?Va r - C ov ( ) ( )σβ XX
β?E ( )?β β
S E( )j j jβ σ c?2?V a r ( )j jjβ σ c?
β
β
jjc -1()?XX j j
2? ~ (,) 1,2,.,,,j j j j β N β σ c j k?故 有,
25
四、随机扰动项方差 的估计多元回归中 的无偏估计为:
或表示为将 作标准化变换:
2?
kβ
--
~ ( 0,1 )?
S E ( )
k k k k
k
jjk
β β β βzN
σ cβ
2
2?
-
ieσ
nk?
2?
-σ nk
ee
2σ
26
因 是未知的,可用 代替 去估计参数 的标准误差,
● 当为大样本时,用估计的参数标准误差对 作标准化变换,所得 Z统计量仍可视为服从正态分布
●当为小样本时,用估计的参数标准误差对 作标准化变换,所得的 t统计量服从 t分布:
2? 2β
^
-
~ ( - )
S E ( )
kk
k
β β
t t n k
β
β
2?
β
27
五、回归系数的区间估计由于给定,查 t分布表的自由度为 的临界值或,
或表示为,
*
22 ^
-
P [ - ( - ) ( - ) ] 1 -
SE ( )
jj
α α
j
β β
t n k t t n k α
β
2 ( - ) 2 ( - )( -,)j j n k j j j n k j jβ β t σ c β t σ c
22
P [ - ] 1 -j α j j j j α jjβ t σ c β β t σ c α
^^
22
P [ - ( ) ( ) ] 1 -j α j j j α jβ t S E β β β t S E β α
()
S E ( )
j j j j*
^
jjj
β - β β - β
t = = ~ t n - k
σ cβ
2 (-)t n k?
( 1,...,)jk?
nk?
28
第三节多元线性回归模型的检验本节基本内容,
● 多元回归的拟合优度检验
●回归方程的显著性检验( F检验)
●各回归系数的显著性检验( t检验)
29
一、多元回归的拟合优度检验多重可决系数,在多元回归模型中,由各个解释变量联合解释了的 的变差,在 的总变差中占的比重,用 表示与简单线性回归中可决系数 的区别只是 不同,多元回归中多重可决系数也可表示为
2 2 313 i i i k ikY= β + β X+ β X +,.,+ β X
22
2
( - )E SS T SS - R SS
1-
T SS ( - ) T SS
iiY Y eR
Y Y y
iY2R
2RYY
30
2?ES S - nY β XY
特点,
多重可决系数是模型中解释变量个数的 不减函数,
这给对比不同模型的多重可决系数带来缺陷,所以需要修正 。
2T S S nYYY
2
2
2
E S S -
TS S -
nY
R
nY
β XY
YY
23232
2
...
i i i i k i ik
i
β xy β xy β xy
R
y
可 以 证 明,
多重可决系数的矩阵表示
31
思想可决系数只涉及变差,没有考虑 自由度 。如果用自由度去校正所计算的变差,可纠正解释变量个数不同引起的对比困难。
自由度统计量的自由度指可自由变化的样本观测值个数,
它等于所用样本观测值的个数减去对观测值的约束个数。
修正的可决系数
32
可决系数的修正方法
22
11
T S S ( )
nn
ii
ii
Y Y Y
总变差 自由度为解释了的变差 自由度为剩余平方和 自由度为修正的可决系数 为
22
2 (-) -1
1 - 1 -
( - 1 ) -
iie n k enR
y n n k y
22?R S S ( - )i
iiY Y e
22?E S S ( - )i
iY Y y =
1n-
1k-
n-k
33
特点可决系数 必定非负,但修正的可决系数可能为负值,这时规定修正的可决系数 与可决系数 的关系:
2 2 -11 - ( 1 - ) nRR
n - k
2R2R
2R2R
2 0R?
34
二、回归方程显著性检验( F检验 )
基本思想在多元回归中有多个解释变量,需要说明所有解释变量联合起来对应变量影响的总显著性,或整个方程总的联合显著性。对方程总显著性检验需要在方差分析的基础上进行 F检验。
35
总变差 自由度模型解释了的变差 自由度剩余变差 自由度变差来源 平方和 自由度 方差归于回归模型归于剩余总变差方差分析表
22T S S ( - )iiY Y y
2?E S S ( - )iYY
2?R S S ( - )i
iYY
2?E S S ( - )iYY
1n-
1k-
n-k
2T S S ( - )iYY
2?R S S ( - )i
iYY
T S S / -1n
E S S / -1k
R S S / n - k
1n-
1k-
n-k
36
原假设备择假设 不全为 0
建立统计量 (可以证明 ):
给定显著性水平,查 F分布表得临界值并通过样本观测值计算 值
F检验
F
E S S ( - 1 ) ~ F ( - 1,)
RS S ( - )
kF k n - k
nk?
( - 1,- )F k n k?
1H,( 1 2 )jβ j =,,.,,,k
0 2 3H,0kβ = β =,.,= β =
37
▼ 如果 (小概率事件发生了 )
则拒绝,说明回归模型有显著意义,即所有解释变量联合起来对有显著影响 。
▼ 如果 (大概率事件发生了 )
则接受,说明回归模型没有显著意义,即所有解释变量联合起来对没有显著影响 。
( - 1,- )F F k n k
( - 1,- )F < F k n k?
0 2 3H,0kβ = β =,.,= β =
Y
Y
0 2 3H,0kβ = β =,.,= β =
38
可决系数与 F检验由方差分析可以看出,F检验与可决系数有密切联系,二者都建立在对应变量变差分解的基础上 。 F统计量也可通过可决系数计算:
可看出:当 时,
越大,值也越大当 时,
结论,对方程联合显著性检验的 F检验,实际上也是对 的显著性检验 。
2
2
( - 1 )
( 1 - ) ( - )
RkF
R n k
2 0R?
2R
2 1R? F
0F=
F
2R
39
三、各回归系数的显著性检验
( t 检验)
目的:
在多元回归中,分别检验当其他解释变量保持不变时,各个解释变量 对应变量 是否有显著影响 。
方法:
原假设备择假设统计量为:
*
^
-
~ ( - )
SE ( )
jj j
jjj
β β β
t t n k
cβ?
0H,0 = 1 2jβ j,...,k?,
1H,0jβ?
X Y
40
t检验的方法给定显著性水平,查自由度为 时 t分布表的临界值为如果就不拒绝 而拒绝即认为 所对应的解释变量 对应变量 的影响不显著 。
*22- ( - ) ( - )t n k t t n k
1H,0jβ?0H,0jβ?
2 (-)t n k?
jX
jβ
n-k
Y
41
如果就拒绝 而不拒绝即认为 所对应的解释变量 对应变量 的影响是显著的 。
在多元回归中,可分别对每个回归系数逐个地进行 t检验 。
注意,在一元回归中 F检验与 t检验等价,且但在多元回归中 F检验与 t检验作用不同。
0H
**22- ( - ) ( - )t t n k t t n k 或
jX
jβ
2Ft?
1H0jβ,≠
Y
42
第四节 多元线性回归模型的预测本节基本内容,
● 应变量平均值预测
●应变量个别值预测
43
一、应变量平均值预测
1,平均值的点预测将解释变量预测值代入估计的方程:
多元回归时:
或注意,预测期的 是第一个元素为 1的行向量,
不是矩阵,也不是列向量
FY? FX β
2 2 3 31,..F F F k FkY β β X β X β X
FX
Y
44
基本思想:
由于存在抽样波动,预测的平均值 不一定等于真实平均值,还需要对作区间估计 。
为对 作区间预测,必须确定平均值预测值的抽样分布 。 必须找出与 和 都有关的统计量 。
2,平均值的区间预测
E ( )FFY X
FY
FY
E ( )FFY X
FY E ( )FFY X
Y
Y
45
具体作法 (回顾一元回归 )
当 未知 时,只得用 代替,
这时一元中已知
2? 22? ( - 2 )ien
12?E ( ) E ( )F F F FY Y X β β X
2
2
( - )1?S E ( ) F
F
i
XXY σ
nx
2
2
2
( - )1?V a r ( ) [ ]F
F
i
XXY σ
nx
2
2
2
( - )1V a r ( ) F
F
i
XXY σ
nx
46
多元回归时,与 和 都有关的是偏差从正态分布,可证明用 代替,可构造 t统计量
^
*
^
- E ( )- E ( )
~ ( - )
S E ( )
FFFF
F
YYww
t t n k
w?
F
-1
FF
X
X ( X X) X
2V a r ( )Fw σ -1FFX ( X X ) X
- E ( )F F Fw Y Y? FX
2σ
E ( )FY FX
22? (-)
ie n k
E ( ) 0Fw?
Fw?FY
Fw
47
则给定显著性水平,查 t分布表,得自由度的临界值,则或
2
2
{ [ - ] E ( )
[ ] } 1
FF
F
P Y t σ Y
Yt σ
-1
FF
-1
FF
X ( X ` X ) X
X ( X ` X ) X
^^
22P { [ ( - S E( ) ] E( ) [ ( S E( ) ] }F F F F FY t Y Y Y t Y
2 ()t n k
1-
n-k
48
二、应变量个别值预测基本思想:
● 既是对 平均值的点预测,也是对 个别值的点预测。
●由于存在随机扰动 的影响,的平均值并不等于 的个别值
●为了对 的个别值 作区间预测,需要寻找与预测值 和个别值 有关的统计量,并要明确其概率分布
Y
iu
FY
FY
FYFY
Y
Y
Y
Y
49
22? (-)
iσ e n k
已知剩余项 是与预测值 和个别值 都有关的变量,并且已知 服从正态分布,且可证明当用 代替 时,对 标准化的变量为:
FY
E ( ) 0Fe? 2Va r ( ) [ 1 ]Fe σ -1FFX ( X X ) X
^
- E ( ) -
~ ( - )
S E ( ) 1
F F F F
F
e e Y Y
t t n k
e σ
-1FFX ( X X ) X
2σ
Fe FY
Fe
Fe
具体作法
50
^^
22( { [ - S E( ) ] [ S E( ) ] } 1 -F F F F FP Y t e Y Y t e
给定显著性水平,查 t 分布表得自由度为 的临界值 则因此,多元回归时 的个别值的置信度 的预测区间的上下限为:
2 1FFY Y t σ
-1
FFX ( X X ) X
2 (-)t n k?
Y1
-nk
51
第五节 案例分析案例,中国税收增长的分析提出问题改革开放以来,随着经济体制改革的深化和经济的快速增长,中国的财政收支状况发生很大变化,
为了研究影响中国税收收入增长的主要原因,分析中央和地方税收收入的增长规律,预测中国税收未来的增长趋势,需要建立计量经济模型。
52
理论分析影响中国税收收入增长的主要因素可能有:
( 1)从宏观经济看,经济整体增长是税收增长的基本源泉。
( 2)社会经济的发展和社会保障等都对公共财政提出要求,公共财政的需求对当年的税收收入可能会有一定的影响。
( 3)物价水平。中国的税制结构以流转税为主,
以现行价格计算的 GDP和经营者的收入水平都与物价水平有关。
( 4)税收政策因素。
53
以 各项税收收入 Y 作为被解释变量以 GDP表示经济整体增长水平以财政支出表示公共财政的需求以 商品零售价格指数 表示物价水平税收政策因素较难用数量表示,暂时不予考虑建立模型
54
模型设定为,
其中:
— 各项税收收入(亿元)
— 国内生产总值(亿元)
— 财政支出(亿元)
— 商品零售价格指数( %)
1 2 2 2 3 3 4t t t t tY β β X β X β Xu
Y
2X
3X
4X
55
数据来源:
,中国统计年鉴,
其中,
—— 各项税收收入(亿元)
—— 国内生产总值(亿元)
—— 财政支出(亿元)
—— 商品零售价格指数( %)3X
Y
2X
4X
数据收集
56
假定模型中随机项满足基本假定,可用 OLS法估计其参数。 具体操作,用 EViews软件,估计结果为:
参数估计
57
模型估计的结果可表示为
2 3 4? - 2582.791 0.022067 0.702104 23.98541iY X X X
(940.6128) (0.0056) (0.0332) (8.7363)
t= (-2.7459) (3.9566) (21.1247) (2.7449)
2 0,9 9 7 4R? 2 0,9 9 7 1R?
拟合优度,可决系数 较高,
修正的可决系数 也较高,
表明模型拟合较好。
模型检验:
2 0,9 9 7 4R?
2 0,9 9 7 1R?
d f =F? 2717.238 21
58
显著性检验
F检验,针对,取查自由度为 和 的临界值 。
由于,应拒绝,
说明回归方程显著,即“国内生产总值”、“财政支出”、“商品零售物价指数”等变量联合起来确实对“税收收入”有显著影响。
0 2 3 4H,0β β β
(3,21)F?
0.05
F ( 3,2 12717.238 ) 3,0 7 5F
-1=3k =21n - k
0H
59
t检验,给定,查 t分布表,在自由度为时临界值为,因为的参数对应的 t统计量均大于 2.080,这说明在 5%的显著性水平下,斜率系数均显著不为零,表明国内生产总值、财政支出、商品零售价格指数对财政收入分别都有显著影响。
0.025 ( 21 ) 2.080t?
0.05
234,,X X X
-n 3 = 25 - 4 = 21
60
本模型中所估计的参数的符号与经济理论分析一致,说明在其他因素不变的情况下,国内生产总值每增加 1
亿元,平均说来财政收入将增加 220.67万元;财政支出每增加 1亿元,平均说来财政收入将增加
7021.04万元 ;商品零售物价指数每增加 1%,平均说来财政收入将增加 23.98541亿元 。
3420.0 22 06 7,0.7 02 10 4,23,98 54 1β β β
经济意义检验
61
1.多元线性回归模型是将总体回归函数描述为一个被解释变量与多个解释变量之间线性关系的模型。
通常多元线性回归模型可以用矩阵形式表示:
2.多元线性回归模型中对随机扰动项 u的假定,零均值假定、同方差假定、无自相关假定、随机扰动与解释变量不相关假定、正态性假定、无多重共线性假定。
0 1 1 2 2,..i i i p pi iY β β X β X β Xu
第三章 小结
Y = X β +u
62
3.多元线性回归模型参数的最小二乘估计式及期望、方差和标准误差:
4.在基本假定满足的条件下,多元线性回归模型最小二乘估计式是最佳线性无偏估计式。
-1β = ( X X ) X Y?E( β )= β
S E( ) jjjβ σ C? 22V a r ( ) ( )
-
i
j jj jj
eβ σ CC
nk
63
5,多元线性回归模型中参数区间估计的方法。
6,多重可决系数的意义和计算方法:
修正可决系数的作用和方法:
2
2
2
R S S1 - 1 -
TS S ( - )
i
i
eR
YY
22
2
22
(-) -11 - 1 -
( - ) ( - 1 ) - ( - )
iie n k enR
Y Y n n k Y Y
22
[ - ] 1 -j α j j j j α jjP β t σ c β β t σ c
64
7,F检验是对多元线性回归模型中所有解释变量联合显著性的检验,F检验是在方差分析基础上进行的。
ES S ( - 1 ) ~ ( - 1,- )
R S S ( - )
kF F k n k
nk?
65
8,多元回归分析中,为了分别检验当其它解释变量不变时,各个解释变量是否对被解释变量有显著影响,需要分别对所估计的各个回归系数作 t检验。
*
^
- -
~ ( - )
SE ( )
jj jj
j jj
β β β β
t t n k
β σ c
66
9.利用多元线性回归模型作被解释变量平均值预测与个别值预测的方法。
点预测:
平均值:
个别值:
fY? FX β
22- E ( )F F FYt σ Y Y t σ
- 1 - 1
F F F FX ( X X ) X X ( X X ) X
22- 1 1F F FYt σ Y Y t σ
-1
FFX ( X X ) X
-1
FFX ( X X ) X
67
第 三 章 结 束