1
计量经济学
2
引 言一、计量经济学
1、计量经济学( Econometrics)
利用数学和统计推断为工具,在经济理论指导下对经济现象进行分析,
并对经济理论进行检验和发展的一门学科。
其内容涉及经济理论、数理经济、经济统计和数理统计等。
2、计量经济学与经济理论经济理论:定性计量经济学:数值估计,检验
3、计量经济学与数理经济学数理经济学:以数学形式表述经济理论,不涉及理论的可度量性和经验方面的可论证性。
计量经济学:利用数理经济学的数学方程式,并把之改造成适合于经验检验的形式。
3
4、计量经济学与经济统计学经济统计:经济数据的收集、加工,不利用数据来检验经济理论。
计量经济学:以经济统计数据为原始资料进行分析。
5、计量经济学与数理统计数理统计:是计量经济学的基本工具,但由于经济数据的特殊性,
力量经济学需要特殊的处理方法。
4
二、计量经济学的方法基本过程:
①经济理论
②理论的数学模型
③理论的计量经济学模型
④数据的收集整理
⑤计量经济模型的参数估计
⑥假设检验
⑦预报和预测
⑧控制或政策制定
5
例,检验凯恩斯关于边际消费倾向理论,或利用该理论进行经济控制或经济政策制定。
① 理论人们的消费支出随收入的增加而增加,但消费支出的增加小于收入的增加。即边际消费倾向 MPC大于零而小于 1。(定性)
②建立数学模型假定消费支出 Y与收入 X之间有如下关系:
10, XbXaY
其中,Y为消费支出,X为收入,a和 b为模型参数。 B就是 MPC。
这里 Y为因变量,X为自变量 /解释变量。假定两者之间存在先行关系。
(在不同情况下,数学模型的形式不一样,也可能是多个方程连立,
有多个解释变量)
6
③ 建立计量经济学模型由于经济变量之间的关系不是确定的(以函数形式准确表达),必须修改数理模型,建立计量模型:
u为误差项,代表了影响变量间非确定关系的其他因素的影响。
这是一个线性回归模型。
ubXaY
O X
Y
斜率为 b
数理模型
O X
Y
斜率为 b
计量模型
a a
7
④ 数据的收集整理如果 1980分析一国的消费情况,要收集该国的总消费支出数据和总收入数据。
年份 Y X 年份 Y X
1980 2447 3776 1986 2969 4405
1981 2477 3843 1987 3052 4540
1982 2504 3760 1988 3162 4719
1983 2619 3907 1989 3223 4838
1984 2746 4149 1990 3260 4878
1985 2866 4280 1991 3240 4821
(选择、加工)
美国 1980-1991年个人消费支出与 GDP(10亿美元,1987年不变价格 )
8
⑤ 计量经济模型的参数估计采用回归技术,利用统计数据估计出参数 a和 b的经验值。
根据估计结果,美国 1980-1991年的 MPC约为 0.72。
⑥假设检验以一定的标准,对参数的估计结果进行检验。如果在统计意义上,
b小于 1,说明结果是可接受的。
XY 7 1 9 4.08.231
⑦ 预报和预测如果计量模型可以接受,就可用来对因变量进行预测。假定 1994年,
美国的 GDP预计为 6万亿美元,则该年的消费支出预计为
4 0 8 5
6 0 0 07 1 9 4.08.2 3 1

Y
9
⑧ 控制或政策制定如果希望 1994年的消费支出达到 4万亿美元,则政府必须通过政策来保证收入水平为:
5 8 8 27 1 9 4.0 8.2314 0 0 0X
三、计量经济学的内容可分为理论和应用两大类。
理论计量经济学:研究适当的方法,来测度有计量经济模型设定的经济关系式。
应用计量经济学:以理论计量经济学为工具,研究经济学或商业中的各领域。
10
四、计量经济学的应用软件包有很多种。常用的有,TSP,SPSS,SAS等。
11
第一章 回归分析一、回归分析分析因变量与解释变量之间的统计依赖关系,目的在于通过后者的已知或设定值去估计或预测前者的均值。
假定一个国家的所有家庭的收入( X)和消费支出( Y)统计如下,希望知道家庭消费支出与家庭收入之间的关系,Y=F( X)。
X
Y 80 100 120 140 160 180 200 220 240 260
55 65 79 80 102 110 120 135 137 150
60 70 84 93 107 115 136 137 145 152
65 74 90 95 110 120 140 140 155 175
70 80 94 103 116 130 144 152 165 178
75 85 98 108 118 135 145 157 175 180
- 88 - 113 125 140 - 160 189 185
- - - 115 - - - 162 - 191
户数 5 6 5 7 6 6 5 7 6 5
总支出 325 462 445 707 678 750 685 1043 966 1211
12
Y
X
55
100 120140 16080
根据每个家庭的收入和支出绘出散点图,大致可看出二者间的关系:在统计意义上,
二者成正比。
由对全体居民的收入和支出的调查结果,我们知道处于不同收入阶层的居民有一个平均的支出水平,这一支出水平与收入大致呈线性关系。
图中的这条通过各收入阶层平均支出额的直线,描述了这一依赖关系。我们把这条线称为回归线。
13
二、统计关系与确定关系在回归分析中,得到因变量与自变量之间的依赖关系是统计依赖关系,
而不是确定关系或函数关系。
三、回归与因果关系回归分析得到的变量间的统计依赖关系,统计关系式自身不代表任何确定的因果关系。
四、计量经济分析使用的数据有三类。
( 1)时间序列数据。一个时间序列是对一个变量在不同时间取的一组观测结果。这些数据可以按固定的时间间隔收集。
收集的数据可以是定量的,也可以是定性的(虚拟变量)。
中国 1993年 —1998年的 GDP增长率 ( %)
1993 1994 1995 1996 1997 1998
14.2 13.5 10.5 9.6 8.8 7.8
14
( 2)横截面数据。一个或多个变量在同一时点上收集的数据。
1992年实际 GDP增长
( 3)混合数据。
国家和地区实际 GDP增长率
1992年 1993年 1994年 1995年 1996年 1997年 1998年加拿大 0.9 2.5 3.9 2.2 1.2 4.0 3.1
智利 12.3 7.0 5.7 10.6 7.4 7.1 3.4
墨西哥 3.6 2.0 4.4 -6.2 5.2 7.0 4.8
秘鲁 -1.7 6.4 13.1 7.4 2.5 6.9 0.3
美国 2.7 2.3 3.5 2.0 2.8 3.9 3.9
中国 14.2 13.5 12.6 10.5 9.6 8.8 7.8
香港 6.3 6.1 5.4 3.9 4.6 5.3 -5.1
日本 1.0 0.3 0.6 1.5 3.9 1.4 -2.8
国家 /地区加拿大 智利 墨西哥 秘鲁 美国 中国 香港 日本
GDP 0.9 12.3 3.6 -1.7 2.7 14.2 6.3 1
15
第二章 双变量回归分析第一节 经典正态线性回归模型( CNLRM)
一、基本概念以下表为例。
X
Y 80 100 120 140 160 180 200 220 240 260
55 65 79 80 102 110 120 135 137 150
60 70 84 93 107 115 136 137 145 152
65 74 90 95 110 120 140 140 155 175
70 80 94 103 116 130 144 152 165 178
75 85 98 108 118 135 145 157 175 180
- 88 - 113 125 140 - 160 189 185
- - - 115 - - - 162 - 191
户数 5 6 5 7 6 6 5 7 6 5
总支出 325 462 445 707 678 750 685 1043 966 1211
16
1、几个概念条件分布( Conditional distribution):以 X取定值为条件的 Y的条件分布条件概率( Conditional probability):给定 X的 Y的概率,记为 P(Y|X)。
例如,P(Y=55|X=80)=1/5; P( Y=150|X=260) =1/7。 (表 )
条件期望( conditional Expectation):给定 X的 Y的期望值,记为 E(Y|X)。
例如,E(Y|X=80)=55× 1/5+ 60× 1/5+ 65× 1/5+ 70× 1/5+ 75× 1/5= 65
总体回归曲线( Popular Regression Curve)(总体回归曲线的几何意义):
当解释变量给定值时因变量的条件期望值的轨迹。
2、总体回归函数( Popular Regression Function,PRF
E(Y|Xi)=f(Xi)
当 PRF的函数形式为线性函数,则有,
E(Y|Xi)=?1+?2Xi
其中?1和?2为未知而固定的参数,称为回归系数。1和?2也分别称为截距和斜率系数。
上述方程也称为线性总体回归函数。
3、“线性”的含义
“线性”可作两种解释:对变量为线性,对参数为线性。一般“线性回归”一词总是指对参数?为线性的一种回归(即参数只以它的 1次方出现)。
17
4,PRF的随机设定将个别的 Yi围绕其期望值的离差 (Deviation)表述如下:
ui=Yi-E(Y|Xi)

Yi=E(Y|Xi)+ui
其中 ui为随机误差项( Stochastic error)或随机干扰项( Stochastic
disturbance)。线性总体回归函数:
PRF,Yi=?1+?2Xi+ui=E(Y|Xi)+ui
5、随机干扰项的意义随机扰动项是从模型中省略下来的而又集体地影响着 Y的全部变量的替代物。显然的问题是:为什么不把这些变量明显地引进到模型中来,
而以随即扰动项来替代?理由是多方面的:
( 1)理论的含糊性:理论不能完全说明影响因变量的所有影响因素。
( 2)数据的欠缺:无法获得有关数据。
( 3)核心变量与周边变量:希望能找到与有较大影响的核心变量的关系。
( 4)内在随机性:因变量具有内在的随机性。
( 5)替代变量:用来代替不可观测变量的替代变量选择,造成一定误差。
( 6)省略原则:研究中尽可能使回归式简单。
( 7)错误的函数形式:回归式的的选择是主观的。
18
6、样本回归函数( SRF)
由于在大多数情况下,我们只知道变量值得一个样本,要用样本信息的基础上估计 PRF。 (表 )
X(收入) 80 100 120 140 160 180 200 220 240 260
Y(支出) 55 65 79 80 102 110 120 135 137 150
样本 1
X(收入) 80 100 120 140 160 180 200 220 240 260
Y(支出) 70 80 94 103 116 130 144 152 165 178
样本 2
iii uXY 21
样本回归函数 SRF:
的估计量为的估计量为的估计量为其中
12211,
,X i )|E ( YY?,

在回归分析中,我们用 SRF估计 PRF。
19
估计量( Estimator):一个估计量又称统计量 (statistic),是指一个规则、公式或方法,以用来根据已知的样本所提供的信息去估计总体参数。
在应用中,由估计量算出的数值称为估计(值)( estimate)。
样本回归函数 SRF的随机形式为:
iiii uYuX Y 21i
其中 表示(样本)残差项( residual)。
iu?
Xi X
PRF:E(Y|Xi)=?1+?2Xi
SRF:
Y
E(Y|Xi)
ii XY 21
iu?
iu
iY
iY?
SRF是 PRF的近似估计。
为了使二者更为接近,即要使
2211, 尽可能接近尽可能接近
20
二、经典线性回归模型( CLRM)的基本假定假定 1:回归模型对参数是线性的假定 2:在重复抽样中 X的值是固定的(非随机)
假定 3:干扰项的均值为零。即,E(ui|Xi)=0
假定 4:同方差性或 ui的方差相等。即
Var(ui|Xi)=E[ui-E(ui)|Xi]2
=E(ui2|Xi]2 =?2
假定 5:各个干扰项无自相关。即
Cov(ui,uj|Xi,Xj)=E[ui-E(ui|Xi) ][uj-E(uj|Xj)]
=E(ui|Xi)(uj|Xj) = 0
假定 6,ui和 Xi的协方差为零。即
Cov(ui,Xi) = E[ui – E(ui)][Xi – E(Xi)]
= E[ui (Xi – E(Xi))]
=E(ui Xi) – E(ui)E(Xi)
= E(ui Xi) = 0
假定 7:观测次数必须大于待估计的参数个数。
假定 8:解释变量 X的只要有变异性。即一个样本中,Xi不能完全相同。
假定 9:模型没有设定误差。
假定 10:没有完全的多重共线性,即解释变量之间没有完全的线性关系。
21
第二节 双变量回归模型:估计一、普通最小二乘法( Ordinary Least Squares,OLS)
基本思路:用样本回归函数估计总体回归函数。以
iii uXYS R F 21,
iii uXYP R F 21,
估计
iiiii uYuXY 21
)( 21 iiiii XYYYu残差估计出的参数
21 和使残差的平方和最小。
2
21
22
21
)()?(?:m in
:,
iiiii XYYYu
要求和即寻找时,真实值
22





ii
ii
ii
i
XnY
XnY
XY
u
21
21
21
1
2

0)(2
)(2
)?(









2
21
2
21
2
21
21
2
2

0(2
)((2
))((2
)?(
iiii
iiii
iiii
iii
i
XXXY
XXXY
XXXY
XXY
u




求解这一最小化问题,根据最大化的一阶条件:
23
可得到以下正规方程( Normal equation),




2
21
21


iiii
ii
XXXY
XnY


二、参数的估计(点估计),OLS估计量
1、解上述正规方程组得到估计值:


222 )(
))((?
i
ii
i
ii
x
yx
XX
YYXX?
XY 2?1
)为离差。()和(
的均值,、分别为和其中
YYyXXx
YXYX
iiii
,
解出 21 和,可得到估计值。
21 和 称为最小二乘估计量( OLS估计)。
24
2,OLS样本回归线的性质:
不相关。与不相关。与
)(
:由方差最小的一阶条件的均值为零。残差
,可得两边求和,并同除的均值:的均值等于实测的的样本均值。和通过
ii
ii
iii
ii
i
i
iii
Xu
Yu
XYu
XY
u
YY
XXY
XXYXY
Y
XY
)5(
)4(
0
0
2
)3(
n
)(
)
(

Y
)2(

XY)1(
21
21
2
2221
21









25
三,?2 的估计真实方差?的估计量:
2
22

n
u i?

2
2
222222 )(?)?(?
i
ii
iiiiiii x
yxyxyYYu?
四,OLS估计的精度或标准误差由于 OLS估计是根据一个样本得到的,需要检验估计量的可靠性
( reliability)或精密度。在统计学中,一个估计量的精密度由它的标准误
( standard error,se)来衡量。





2
22
2
2
2222
2
2
2
2
222
)?()?(
)?(
,)(,)(0)(
][
)]?(?[)?(
i
i
ji
ii
x
V A Rse
x
kukV A R
uEjiuuE
ukE
EEV A R
iii
i



标准误:
方差:
:对于 2
26









2
2
1
2
2
22
2
2
2
1
1
221
221
)
(
)
1
(
])[()
(
)(
1
1

i
ii
xn
X
V A R
xn
X
x
X
n
ukX
n
u
EV A R
ukX
n
u
XuX
n
XY
n
XY
i
i
ii
i
ii
i
ii
i
标准误:
方差:
:对于 1
27
五,OLS 统计量的性质:高斯 -马尔柯夫定理在 CLRM假定下,在所有线性无偏估计量中,OLS估计量有最小方差,
即 OLS是 BLUE( Best Linear Unbiased Estimator)。
iiii
i
ii
i
ii
ii
i
i
i
i
i
i
iii
i
i
i
ii
YkX
n
YkX
n
Y
YkXYXY
x
x
xk
x
x
x
k
x
x
k
x
x
k
YkY
x
x
x
Yx
i
ii
)
1
(

1
1
11
0
1
)(
21
2
2
2
2
2
2
2
2
2
222









其中
( 1)线性:
21 和为 Yi的线性函数
28
11
1
121
21
222
2
21
212
)
(
)()(

)()
(
)(
















E
ukXu
XukuX
XY
uEkE
uk
ukXkk
uXkYk
iii
iiii
ii
ii
iiiii
iiiii
( 2)无偏性:
21 和为
21,
的无偏估计量。
29
( 3)最小方差性:
OLS估计量最小。和 )?()?( 21 V ARV AR
在所有线性无偏估计量中,具有最小方差。即可以证明 OLS估计量具有最小方差。
21 和
30
第三节 拟合优度检验拟合优度检验是指对样本回归线与样本观测值之间拟合程度的检验。
度量拟合程度的指标是判定系数 R2 。
基本思路:因变量 Y的变异,能够被 X的变异解释的比例越大,则 OLS
回归线对总体的解释程度就越好。
Xi X
PRF
SRF
Y
(来自回归)RS SYY )?(
)? R S Su i来自残差(
T S SYY i )(总离差:
iY
iY?
总平方和( TSS):实测的 Y值围绕其均值的总变异,
22 )( YYy ii
Y
31








222
22
22
22


2
)(
2 ii
ii
iiii
iii
ux
uy
uyuy
uyyT S S
222? ixE S S?
2?iuR S S
R S SE S ST S S

2
2
2
2
)()(
)?(1
YY
u
YY
YY
T S S
R S S
T S S
E S S
i
i
i
i
定义判定系数 R2:

2
2
2
)(
)?(
YY
YY
T S S
E S SR
i
i
估计的 Y值围绕其均值的总变异未被解释的围绕回归线的 Y值的变异
32
2
2
2
)(
1:
YY
uR S SR
i
i或
R2 测度了在 Y的总变异中,由回归模型解释的部分所占的比例。 R2 越高,回归模型拟合的程度就越好。
R2 的性质,( 1)非负。( 2) 0≤R2≤1
其它表达方式:

2
2
2
2
2
i
i
y
xR?


22
2
2 )(
ii
ii
yx
yxR
22222 )1( iii yRyRy
33
判定系数与相关系数的关系:
相关系数:表示两个随机变量之间的相关程度。定义为:
YX
XY
XY





22
22
1
)(
1
)(
1
))((
ii
yx
yx
n
YY
n
XX
n
YYXX
SS
S
r
ii
ii
ii
YX
XY
XY
以样本方差和样本协方差估计 X,Y的方差和协方差,样本相关系数为:
样本相关系数的平方与判定系数相等,但二者的意义不同。
34
第四节 区间估计为了判断点估计与真值的接近程度,可以通过构造以估计值为中心的一个区间(随机的),以该区间包括了真值的概率来确定估计值接近真值的把握程度:
1)P r ( 222
上限分别为置信下限和置信))称为显著水平,((
)称为置信系数称为置信区间




22
22
,?;10
1;]?,?[
一,的置信区间
2
也服从正态分布。,服从正态分布,则假定 21iu
))?(,(~? 2
2
222
i
xV A RN
u
)1,0(~
/
)?(
2
22
2
22 N
xSe
i?



35
由于?未知,以其估计值代替,
)2(~)?(
/?
2
22
2
22
nTsext i?


-t?/2 t?/2o
/2?/2

1)]?()?(?P r [ 22/2222/2 setset
下,置信区间为在显著水平
22 /?)?( ixse
给定置信系数 100( 1-?) %,随机的置信区间将有 100( 1-?) %包含真值?2。
)?(?
11 0 0?
12/1
1


set?
)置信区间为(的二,的置信区间
1
36
三,的置信区间
的置信区间为:
分布。的服从

在正态假定下,变量
2
2
2
2
2
2
)2

df
n



2
2/1
2
2
2/
2?
)2,?)2

nn ((
37
第五节 OLS估计量的显著性检验根据样本回归得到的总体参数的估计量,随着选取样本的不同观测值而不同;给定样本观测值时,得到的参数也与总体参数的真值不同。因此,
必须对估计的参数值是否显著成立,做统计检验,即显著性检验。
一,的显著性检验
2
)2(~)?(
/?
2
22
2
22
nTsext i?


原假设 H0,?2 = 0
备择假设 H1,?2? 0
)(||
||
)2
)?(
102/
102/
2
2
显著,接受拒绝
,拒绝接受若分布表(下,查在显著水平计算统计量
HHtt
HHtt
ndft
se
t

-t?/2 t?/2o
/2?/2
38
02
)?(
,220%5
20
2
2
2/



:,即可拒绝若大于统计量因此,时,下,当在显著水平
H
se
t
tdf
102/
102/
2
*
22
(
)2
)?(
HHtt
HHtt
ndft
se
t
,接受拒绝显著),拒绝接受若分布表(下,查在显著水平计算统计量


原假设 H0,?2 =?2*
备择假设 H1,?22*对于:
如果有理由认为?2不能小于零(不能大于零),则在
。:时,拒绝 0)?(?|| 20
2
2
Htset
。:,即可拒绝若大于统计量因此,时,下,当在显著水平
073.1
)?(
,73.120%5
20
2
2


H
se
t
tdf
2倍 t法则
39
二,的显著性检验
`1
原假设 H0,?1 = 0
备择假设 H1,?1? 0
)(||
||
)2
)?(
102/
102/
1
1
显著,接受拒绝
,拒绝接受若分布表(下,查在显著水平计算统计量
HHtt
HHtt
ndft
se
t

三、回归方程的的显著性检验,F 检验从方差分析( analysis of variance,ANOVA)的角度,检验回归方程的显著性。
根据总离查平方和的分解式,TSS = ESS + RSS,
2222222 iiiii uxuyy?
40
总离差( TSS)的自由度为 (n-1),回归平方和( ESS)的自由度为 1,残差平方和( RSS)的自由度为( n-2)。
定义均方差 = 平方和 / 自由度,方差分析表( ANOVA / AOV表 )为:
离差名称 平方和 自由度 均方差
ESS 1
RSS n-2
TSS n-1
2
2
2n u i
2222? ii xy?
2iu
2iy
222 ix?
双变量回归模型 ANOVA表样本决定系数 R2 能够说明样本的拟和优度。但是我们还需要对总体做出推断,检验总体的线性是否成立。
思路:若 ESS / RSS 比较大,则 X对 Y的解释程度就比较高,可以推测总体存在线性。但是 ESS / RSS 样本不同而不同,对于给定的样本,利用 ESS / RSS 对总体进行推断,必须进行统计检验。
41
原假设 H0,?2 = 0
备择假设 H1,?2? 0
若 H0成立,说明回归方程无显著意义,总体不存在线性;若拒绝 H0,
则可认为回归方程显著成立,总体存在线性。因此,定义统计量
)2,1(~
2
2
22
2?
nF
n
u
x
F
i
i
)(||
||
)2,1
102/
102/
21
显著,接受拒绝
,拒绝接受若分布表(下,查在显著水平
HHsFF
HHFF
ndfdfF

42
第六节 利用回归方程预测根据经济理论建立线性回归模型,并利用统计资料对模型参数进行了估计,建立了回归方程。经过显著性检验,判定回归方程能正确反映经济现象时,一个重要目标就是利用回归方程进行预测。
一、均值预测
ii XY 21
假定得到回归方程:
的置信区间。以建立为了评估估计误差,可
。的估计量(为
)|(
))|(?
0
00
XYE
B L U EXYEY
0210 XY
已知 X的一个特定值 X0,要预测 Y0的条件均值(总体回归线上的对应 Y值)
E(Y|X0),
])(1[)?( 2
2
02
0?

ix
XX
nYV A R?
43


2
2
0
2/0
02/021
00
0
000
22
)(1

)
()

(
)|(
)2(~
)
(
))|(
i
x
XX
n
tY
YsetX
XYE
nt
Yse
XYEY
t



):的置信区间(显著水平建立
,变量:代替以显然,当 X0越接近 X 的均值,区间就变得越狭窄。
44




2
2
02
2
2
022
0000
)(1
1
]
)(1
[
)?()()?(
i
i
x
XX
n
x
XX
n
YV A RYV A RYYV A R

而二、个值预测预测给定 X的值 X0,对应的 Y0,仍为 BLUE)。
0210 XY

2
2
0
2/0
00
00
00
)(1
1
|
)2(~
)?(
i
x
XX
n
tY
XY
nt
YYse
YY
t
的置信区间:下的建立显著水平建立统计量:
45
小结:双变量线性回归分析的主要步骤
1、建立回归模型研究某一经济现象,先根据经济理论,选择具有因果关系的两个变量
( Y,X),建立线性回归模型,确定解释变量和被解释变量。 如果不明确两个变量是否为线性关系,也可以根据散点图来分析。
建立回归模型可以是根据经济理论,也可以根据相同或相似经济现象的历史分析经验来建立回归模型。
建立模型时,不仅要考虑理论或经验的依据,同时也要考虑数据的可利用程度。
2、收集数据,并经过适当的加工整理,得到适于回归分析的样本数据集。
3、估计模型参数。利用样本数据,以 OLS得到模型参数的估计值。
4、对回归模型和参数估计值进行检验。
检验回归结果是否正确反映经济现象,是否与理论相符。包括理论检验和统计检验。
经济理论检验:参数的符号,大小是否与理论和实际相符。若不符,
寻找原因(数据?模型设定?理论错误?)
统计检验:拟和优度检验,估计量、回归方程的显著性检验。
46
5、预测对于解释变量的特定值,带入回归方程得到因变量的预测值;在给定的置信水平上,得到因变量预测值的置信区间。
6、回归结果的表述:





FR
se
t
se
t
XY
FR
sese
XY
2
2
2
1
1
21
2
21
21
)
(
)
(

)
()
(




或:
并说明参数的显著水平(?)。
47
以回归分析为工具的实证分析文章的结构一、研究的来源和基础对研究的经济现象的描述;研究该现象的意义;相同或相似的代表性研究的方法、结论,并作总结评价;本研究的出发点;文章的结构介绍。
二、理论分析选择合适的经济理论,利用理论对要研究的经济想象做定性分析,得到大致的结果;建立理论模型。
三、建立回归模型根据理论模型,建立合理、可分析的回归模型。回归模型的形式、解释变量的个数和选择,不一定与数理模型完全相同。
四、对所使用的数据做出说明数据的来源;数据加工的原因和处理方式;替代数据的说明等。
五、回归结果及对结果的分析列出回归的结果(包括参数的估计值和统计检验结果);结合理论分析回归结果六、结论 /总结 /应用
48
X(收入)
Y(支出)
80 100 120 140 160 180 200 220 240 260
55 65 79 80 102 110 120 135 137 150
60 70 84 93 107 115 136 137 145 152
65 74 90 95 110 120 140 140 155 175
70 80 94 103 116 130 144 152 165 178
75 85 98 108 118 135 145 157 175 180
- 88 - 113 125 140 - 160 189 185
- - - 115 - - - 162 - 191
户数 5 6 5 7 6 6 5 7 6 5
既定收入下,每户支出为表中数额的概率
1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/5
49
第三章 多变量回归分析第一节 多变量线性回归模型一,多变量线性回归模型的 PRF
如果假定对因变量 Y 有 k-1个解释变量,X2,X3,…,Xk,k 变量总体回归函数为:
kiuXXXYPRF ikikiii,,2,1,,33221其中?
1为常数项,?2 ~?2 为解释变量 X2 ~ Xk 的系数,u为随机干扰项。
总体回归函数 PRF给出的是给定解释变量 X2 ~ Xk 的值时,Y的期望值:
E ( Y | X2,X3,…,Xk )。
假定有 n组观测值,则可写成矩阵形式:
nnkn
k
k
nnn u
u
u
X
X
X
X
X
X
X
X
X
Y
Y
Y


2
1
2
1
2
1
3
32
31
2
22
21
2
1
1
1
1
uX βY或:
50
为随机扰动项列向量为待估计参数列向量为数据矩阵。
为因变量观测值列向量
u
β
X
Y
中,在 uX βY
二、多 变量线性回归模型的基本假定
0u?E、1
随机干扰项的期望值为 0。

I
u u '
2
2
2
2
2
2
21
2
2
212
121
2
1
21
2
1
000
000
000
000
2
nnn
n
n
n
n
uuuuu
uuuuu
uuuuu
uuu
u
u
u
E


同方差性;无序列相关。
51
为非随机的,X3
),(~5 2 I0u?N、
kr?)(,X4
无多重共线性,即 Xi (i = 2,3,…,k ) 之间不存在线性关系:
成立。
使:数:不存在不全为零的一组
0,
,,,
2211
21
kikii
k
XXX

随机干扰项服从正态分布。
三、多 变量线性回归模型的 SRF
列向量。估计量的列向量和残差分别为回归系数的和其中或
O LS
uXXXYS R F ikikiii

uβXY


,33221


52
根据残差的平方和最小化的原理,解出参数的估计量。
第二节 多变量回归模型的 OLS估计
ikikiii uXXXYS R F,33221
一、参数估计
YXβYYβXXβYXβYY
βXYβXYuu
βXYuuβXY
uu
''?'?''?''?2'
)?()'?('

'?
)(?R S S
2
2
221
2





i
i
uR S S
XXYu
kikii
残差平方和可得到如下正规方程组:
ikikikikikiki
iikiikiiii
iikiikiikii
ikiki
YXXXXXXX
YXXXXXXX
YXXXXXXX
YXXn
ki








2
3221
33
2
3223231
2232
2
2221
221









53
YX'XX'β
YX'βXX'
1
3
2
1
321
3333231
2232221
3
2
1
2
32
3
2
23
3
232
2
2
2
32
)(
)(
1111
3





即:
写成矩阵形式:
n
knkkk
n
n
k
ikiiki
ki
kiiii
i
kiiii
i
i
kiii
Y
Y
Y
Y
XXXX
XXXX
XXXX
XXXXXX
XXXXXX
XXXXXX
XXXn
ki
i


54
YXXXβ
0βXXYX
β
βXXβYXβYY
')'(?
'2'2
''?''?2'?
1
2
2



i
i
u
u
如果直接用矩阵微分,则二,的估计量?
。的无偏估计量:为

]?[?
'
2
E
knkn
u
i uu
三,的方差 -协方差矩阵β?
uXXXββ
uXXXβ
uXXXX βXXX
uX βXXXyXXXβ
')'(?
')'(
')'(')'(
)(')'(')'(?
1
1
11
11






55
1
12
112
121
11
11
11
)'(
)'(
)'(')'(
)'(')'(
)'(]'[')'(
])'('')'[(
}]'')'[(]')'{ [ (
])'
)(
[()
(






XX
XX
XXXXXX
XXXIXXX
XXXuuXXX
XXXuuXXX
uXXXuXXX
βββββ
标准差为
)(
E
E
E
EC o vV a r

''?)?(?
'?)?(
112
12

)()(为的标准差
)(的估计量为:
XXXXββ
XXβ
Se
C o vV a r
,则代替未知,以如果 222
56
四,OLS估计量 的性质:β?
最小。具有估计量
、最小方差性
、无偏性
)(
、线性
)?(?
3
]?[
2
]''[?
1
1
ββ
ββ
YXXXβ
V a rO L S
E?
57
第三节 拟合优度检验:
一、判定系数 R2:
2
222 2)(
Yn
YnYYYYYyTS S iii
i


YY'
总平方和:
22
2
''?''?'
''?'?'
YnYn
E S STS SE S S
uR S S
i



YXβyXβYYYY'
YXβYYuu
回归平方和:
残差平方和:
平方和 df 均方差
ESS k-1
RSS n-k
TSS n-1
方差分析表( ANOVA)
22 '' Ynu
i YXβ
YXβYY' ''?)( 2 YY i
22)( YYY' nYY i
)1/()''?( kYXβYY'
)/()''?( 2 knYnYXβ
58
二、校正的 R2,
由 R2的计算式可看出,R2 随解释变量的增加而可能提高(不可能降低):


2
2
2
2
2
11
''?
i
i
y
u
T S S
R S S
Yn
Yn
T S S
E S S
R
YY'
yXβ
与解释变量 X的个数无关,而 则可能随着解释变量的增加而减少(至少不会下降),因而,不同的 SRF,得到的 R2 就可能不同。
必须消除这种因素,使 R2 即能说明被解释的离差与总离差之间的关系,
又能说明自由度的数目。定义校正的样本决定系数,
2iy? 2?iu
2R
)?(
1
1
)1(1
)1/(
)/(
1
2
22
YSe
kn
n
R
nTS S
knE S S
R



2
22 ''?
Yn
Yn
TS S
E S SR

YY'
yXβ判定系数:
59
三,R2 与 的性质2R
2222
22
,
10,10
RRkRR
RR


时,当第四节 显著性检验一、单参数的显著性检验:
0:
0:
1
0
i
i
H
H
备择假设原假设如果接受 H0,则变量 Xi 对因变量没有影响,而接受 H1,则说明变量 Xi 对因变量有显著影响。
)(~
)?(
))'(,(~?),0(~ 122
knt
Se
t
NN
i
ii



,则统计量代替以
,因此根据假定,XXIu
检验 的显著性,即在一定显著水平下,是否显著不为 0。
i i
60
检验步骤:
0,,
0,
)(
)(
4
)(3
)
(
2
05.0)1(
10
0
2
2
2
不显著异于参数接受则拒绝显著异于参数则接受



)判断:(
。分布表,找出)查(
)计算统计量:(
。,如选择显著水平
i
i
i
i
HH
H
kntt
kntt
kntt
Se
t



如果根据理论或常识,非负,则可做单侧检验,比较 t 与 tα。i?
二、回归的总显著性检验:
检验回归系数全部为零的可能性。
不同时为零备择假设原假设
),,2,1(:
0:
1
210
kiH
H
i
k


0,,
0,
)(
)(
10
0
显著异于参数接受则拒绝不显著异于参数则接受

,若
i
i
HH
H
kntt
kntt


61
平方和 df 均方差
ESS k-1
RSS n-k
TSS n-1
方差分析表( ANOVA)
22 '' Ynu
i YXβ
YXβYY' ''?)( 2 YY i
22)( YYY' nYY i
)1/()''?( kYXβYY'
)/()''?( 2 knYnYXβ
),1(~
)/()''?'(
)1/()''?(
)/(
)1/(
0
2
21
knkF
kn
kYn
knR S S
kE S SF
k





YXβYY
YXβ
,则统计量如果假定,
)/()1(
)1/(
,
)/(
)1/(
2
2
2
knR
kR
F
R S SE S STS S
knR S S
kE S S
F
TS S
E S S
R



可得到
,根据显然,R2 越大,F越大,当 R2 =1时,F
无限大。
显著接受则拒绝不显著则接受

,若
,,
,
),1(
),1(
10
0
HH
H
knkFF
knkFF


选择显著水平 α,计算 F统计量的值,与 F分布表中的临界值进行比较:
62
第五节 解释变量的选择在回归模型中的解释变量,除非由明确的理论指导或其他原因,在选择上具有一定的主观性,如何正确选择解释变量是非常重要的。
一、解释变量的边际贡献分析在建立回归模型时,假定我们顺序引入变量。在建立了 Y与 X2的回归模型,并进行回归分析后,再加入 X2。考虑加入的变量 X2是否有贡献:
能否再加入后显著提高回归的解释程度 ESS或决定系数 R2。 ESS提高的量称为变量 X2的边际贡献。
决定一个变量是否引入回归模型,就要先研究它的边际贡献,以正确地建立模型。如果变量的边际贡献较小,说明改变量没有必要加入模型。
分析变量的编辑贡献,可以使用方差分析表为工具,根据变量引入前、
后的 RSS的变化量及其显著性检验(扣除原来引入模型的解释变量的贡献),确定该变量的边际贡献是否显著。
一个简单的检验方法,就是对引入新变量后的 RSS增量与新的 ESS的比值做显著性检验。
63
可以利用方差分析表来进行分析。
设 ESS为引入变量前的回归平方和,ESS’为引入 m个新变量后,得到的回归平方和,RSS’为引入变量后的残差平方和。
ANOVA表如下:
平方和 自由度 均方差引入变量前的 ESS U1 k-1 U1/(k-1)
引入变量后的 ESS U2 k+m-1 U2/(k+m-1)
添加变量的边际贡献 (U2-U1) m (U2-U1)/m
添加变量后的 RSS Q n-(k+m) Q/( n-k-m)
TSS n-1
并检验其显著性。
定义统计量:
)/('
/)'(
mknR S S
mE S SE S S
F

64
显著则新增变量的边际贡献不显著则新增变量的边际贡献

,若
),(
),(
mknmFF
mknmFF


在新引入变量的系数为 0的原假设下,
),(~)/(' /)'( mknmFmknR S S mE S SE S SF统计量把计算出的该统计量的值与 α 显著水平下的临界值进行比较:
引入的新变量的边际贡献显著,则应该把这些变量纳入回归模型,否则这些变量不应引入回归模型做解释变量。
二、逐步回归法如果根据理论,因变量 Y与 k-1个变量 X2,X2,…,Xk 有因果关系,我们要建立的回归模型要在这些变量中选择正确的解释变量,要根据变量的边际贡献大小,把贡献大的变量纳入回归模型。分析边际贡献并选择变量的过程,实际上是一个逐步回归的过程。
首先,分别建立 Y与 k-1个变量 X2,X2,…,Xk 的回归模型:
65
ikii
iii
iii
uXY
uXY
uXaY



21
321
22



回归后,
得到各回归方程的平方和 )()()(
)()()(
)()()(
333
222
kkk XR S SXE S SXT S S
XR S SXE S SXT S S
XR S SXE S SXT S S




选择其中 ESS最大并通过 F检验的变量作为首选解释变量,假定是 X2 。
此时可确定一个基本的回归方程:
在此基础上进行第二次回归,在剩下的变量中寻找最佳的变量:
建立 k – 2 个回归方程:
ii uXY 221
iiii
iiii
iiii
uXXY
uXXY
uXXaY



43221
43221
3322




66
回归后,得到各回归方程的平方和:
),(),(),(
),(),(),(
),(),(),(
222
424242
323232
kkk XXR S SXXE S SXXT S S
XXR S SXXE S SXXT S S
XXR S SXXE S SXXT S S




同样,选择其中 ESS最大并通过 F检验的变量作为新增解释变量,假定是 X3 。此时可确定一个基本的回归方程:
ii uXXY 33221
重复这一过程,直到所有变量中,边际贡献显著的变量全部引入回归模型中为止,得到最终的回归式:
imimiii uXXXaY3322
也可以采用逐步减少边际贡献不显著的变量的方式,逐步回归确定回归模型包括的变量,方法一样。
67
第六节 利用多元回归模型进行预测对于多元回归模型:
uX βY
通过回归分析,得到回归方程
βXY
后,就可根据给定的解释变量的一组值 X0 =(1,X20,X30,…,Xk0),对因变量 Y的值进行估计。


n
kXXX
1 2
1
0302000
βXY
一、个值预测为 Y0及 的预测值。)|(
00 XYE
68
二、区间预测
]')'(?
,')'(?
[)|(
)|(
)](
),(
[
)(~
)(
')'(1?)(
])')'(1[,0(~
]')'(1[
')'(')
(
)()
(]
[)(
)(

1
2/0
1
2/00
0
02/002/00
0
0
00
1
0
0
22
12
0
12
1222
000
0
0000
00000
0
00
00
00
0000
000
00
00
XXXXXXXXX
X
XXXX
XXXX
XXXX
XXXXXβX
βXβXβX
βXβX
βXβX














tYtYYE
YE
eSetYeSetYY
Y
knt
eSe
YY
t
eSe
e
Ne
V a r
uV a rV a ruV a reV a r
u
uYYe
的置信区间为:同理,可得到均值的置信区间为:,预测值给定显著水平统计量的标准差:,则可得到代替若以预测误差
69
第四章 非线性模型
kiuXXXYPRF ikikiii,,2,1,,33221
因变量和解释变量之间的线性关系,包括 参数线性 和 解释变量线性 两种。前面的分析假定总体回归函数的形式为:
但是根据经济现实或经济理论,变量之间不一定存在这种形式的线性关系。
如参数线性形式的回归函数:
i
i
i uXY
1
21
或参数、变量均为非线性形式的函数关系,如 C-D生产函数:
ueKALY 21
对于这些不符合线性假定的模型进行参数估计,必须加以适当的变换以后,才能用 OLS方法估计模型参数。
70
对于参数线性的模型,可以采用变量的直接代换,转化为参数、变量均为线性的形式进行估计。
一、倒数模型:
函数形式为:
i
i
i uXY
1
21
令变量,则回归函数可变为:
i
i XX
1*?
ii uXY i *21
根据解释变量的观测值,计算出 X*i 的之后进行 OLS估计,得到:
*21
iXY i
因此可得到原模型的估计方程:
i
i XY
1
21
71
二、对数线性模型:
通过对原模型的对数变换,函数形式可变为:
iiii uXXY 32221 lnlnln
令变量,则回归函数可变为:
kii XXYY kii ln,ln **
iuXXY iii *2*21* 32
根据解释变量的观测值,进行 OLS估计,得到:
因此可得到原模型的估计方程:
*2*21*
32 iii XXY
iii XXY 32221 ln?lnln
例如,估计 C-D 函数,ueKALY
21
,两边取对数后:
iiii uKLAK lnlnlnln 22
得到原模型的估计方程:
ii KLY ln?lnln 221
因此,C-D 函数的估计形式为,321 KLeY?
72
二、半对数线性模型:
模型的函数形式可变为:
iii
iii
uXY
uXY


ln
ln
21
21


或令变量,同样可以进行参数的 OLS估计。k
kiki XX?*
iiiii uXYuXY i *2121* 或根据解释变量的观测值,进行 OLS估计,得到:
因此可得到原模型的估计方程:
*2121*
iii XYXY i 或
iiXi XYeY i ln 21 21 或三、多项式模型:
模型的函数为:
kiuXXXY ikkii kii,,2,1,22110 2
73
我们关于经典线性回归模型( CLRM)有如下假定:
假定 1:回归模型对参数是线性的假定 2:在重复抽样中 X的值是固定的(非随机)
假定 3:干扰项的均值为零。即,E(ui|Xi)=0
假定 4:同方差性或 ui的方差相等。即
Var(ui|Xi)=E[ui-E(ui)|Xi]2 = E(ui2|Xi]2 =?2
假定 5:各个干扰项无自相关。即
Cov(ui,uj|Xi,Xj)=E[ui-E(ui|Xi) ][uj-E(uj|Xj)] = E(ui|Xi)(uj|Xj) = 0
假定 6,ui和 Xi的协方差为零。即
Cov(ui,Xi) = E[ui – E(ui)][Xi – E(Xi)] = E[ui (Xi – E(Xi))]
=E(ui Xi) – E(ui)E(Xi) = E(ui Xi) = 0
假定 7:观测次数必须大于待估计的参数个数。
假定 8:解释变量 X的只要有变异性。即一个样本中,Xi不能完全相同。
假定 9:模型没有设定误差。
假定 10:没有完全的多重共线性,即解释变量之间没有完全的线性关系。
在现实中,以上假定不一定得到满足。本章讨论某些假定不成立时的估计问题。
第五章 多重共线性第一节 违背古典假定的估计问题
74
第二节 多重共线性( multi-collinearity)
如果假定 10不成立,即在解释变量 X1,X2,…,Xk中,存在线性关系。
解释变量间的确定线系关系存在时,存在不全为零的常数
02211 kikii XXX
,使k,,21
ki
k
iii XXXX
1
3
1
3
2
1
2
1
1,0

则设这种关系为完全多重共线性,变量间的相关系数为 1。实际上更多的情况是,解释变量间有不完全的线性关系:存在不全为零的数:
02211 ikikii vXXX
,使k,,21
其中 vi 为随机项。我们把这种解释变量间存在的完全或不完全的线性关系称为多重共线性。由于经济变量自身的性质,它们之间这种多重共线性或强或弱,普遍存在的。
11
3
1
32
1
21

i
kikiii
vXXXX
假定 λ1<>0,
75
第三节 多重共线性的影响一、完全多重共线性以两个解释变量的回归模型为例,假定回归模型为:
ii uXXY 33221
如果采用 OLS估计,则有:
2
3322
2
33221
2
33221
)(
)(?m i n

xxy
XXYu
XXY
i
ii







根据最小平方和原则,并求解正规方程组,可得到:
2
32
22
323
2
2
2 )())((
))(())((?
32
3



ii
iiiiii
xxxx
xxxyxxy
ii
i?
2
32
22
322
2
2
3 )())((
))(())((?
32
2



ii
iiiiii
xxxx
xxxyxxy
ii
i?
76
0
0
)())((
))(())((
)())((
))(())((
22
3
222
2
3
2
3
2
32
22
323
2
2
2
33
33
32
3




i
iiii
ii
iiiiii
xxx
xxyxxy
xxxx
xxxyxxy
ii
ii
ii
i


如果 X2与 X3存在完全共线性,即 则:
32 xx
因此,存在完全共线性时,不能利用 OLS估计参数,参数的方差变为无限大。








22222
3
2
2
3
2
232
2
32
2
3
2
2
2
2
2
32
3
)?(
)?(

)()(
时,在
)(
也是不确定的。而方差是不确定的。同样此时,
i
xx
x
V a rxx
xxxx
x
V a r
i
i
iiii
i
77
二、不完全多重共线性假定 X2,X3 间存在不完全多重共线性,以离差形式表示为,。
其中 vi 为随机项。则
ivxx 32?
。式中分母可化简为 0))((
])([)]()([
])()[()]()([?
22
2
33
22
3
333
2
3
2
3
3
3






i
iiiii
iiiiiiii
vx
xvxxvx
xvxxyxvxy
i
i
i?



)1{
)]/(1[
/
)
(

23
2
3
2
2
2
2
2
32
2
3
2
2
2
32
2
3
2
32
2
3
2
2
2
2
2
32
rx
xxxxx
xxxx
xxxx
x
V a r
i
iiiii
iiii
iiii
i


)(
)(
)(
也是可估计的。而方差是可估计的的。同样此时,
78
)1()?( 2232 23rxV a r i

显然,当解释变量 X2,X3 之间的相关系数 r23 的绝对值越大,共线性程度就越高,参数估计值的方差就越大,越不准确,且随着相关系数的增大,
方差以更大的幅度增加。
三、多重共线性的影响
( 1)参数估计值的方差增大,估计量的精度大大降低。影响预测结果(准确度和置信区间)。
( 2)参数估计值的标准差增大,使的 t 检验值变小,增大了接受 H0,舍弃对因变量有显著影响的变量。
( 3)尽管 t 检验不显著,但是 R2仍可能非常高。
( 4) OLS估计量对观测值的轻微变化相当敏感。
一、多重共线性的探查由于多重共线性使一种普遍现象,而多重共线性的程度影响了参数估计结果,因此我们关心的是共线性的程度,而不是共线性是否存在。
第三节 多重共线性的探查和解决
79
在双边量回归模型中,可以直接对解释变量的相关系数进行显著性检验,以确定线性相关的程度(此时相关系数的平方等于样本决定系数)。
而对于多于两个结束变量的回归模型,则不能利用俩俩相关系数来检验。
对于有多个变量的回归模型,可以采用辅助回归的方法,分别以 k-1个解释变量中的第 i个对其他变量进行回归,可得到 k-2个回归方程的判定系数:
R22,R32,…,Rk2。假定这些判定系数中 Rj2最大且接近 1,则变量 Xj 与其他解释变量中的一个或多个有较高相关程度,因此回归方程出现高度多重共线性。 可以进行 F检验确定其显著性:
根据第三章的结果,检验 R2显著性的 F检验值为:
),1(~)/()1( )1/(22 knkFknR kRF
可以采用类似的方法检验:
),1(~)1/()1( )1/(2
2
knkFknR kRF
j
j


选择显著水平 α,计算 F 统计量的值,与 F分布表中的临界值进行比较,若
F检验值小于临界值,则多重共线性不显著,反之,则多重共线性显著。
80
二、解决多重共线性的方法如果发现监视变量之间存在高度得多重共线性,就必须消除这种多重共线性的影响,保证模型的正确性和估计的有效性。有以下几种解决方法。
1、除去不重要的变量把回归模型中引起多重共线性,而对因变量的影响不大的变量。但是变量的剔除可能导致模型的设定偏误。
服从 t (n-k+1)。给定显著水平 α,若统计量大于临界值 tα/2,则说明 Xj 与 Xi引起回归方程的多重共线性。
如果通过前的 F检验得到某解释变量 Xj 与其它解释变量存在多重共线性,则可以通过 t 检验寻找 Xj 与哪些变量引起多重共线性。
首先计算 Xj 与其它每个解释变量的偏相关系数:
)1/()1(
,3,2,,
2
)1)(1()1)(1(2.
)1)(1()1)(1(2.
)1)(1()1)(1(2.





knr
r
t
kijir
kiijjji
kiijjji
kiijjji



定义统计量:
81
已知 X2 和 X3 之间高度共线。根据先验信息,确定 β3=2β2,带入模型后可得:
。和可得到估计方程设变量
232
21
32
3221
32221
2
),2(
)2(
2








iii
iii
iii
iiii
uZY
XXZ
uXX
uXXY
例如,C-D生产函数,K与 L高度相关。已知规模收益不变,则 α+β=1。生产汉数的双对数模型可变为:
KALY?
u
K
LA
K
Y
uKLAY


ln)l n (ln
ln)1(ln)l n (ln

整理,可得:
可以对这一新回归方程进行估计。
2、利用先验信息假定对回归模型:
iiii uXXY 33221
82
3、变换模型的形式如果作为解释变量的某些经济变量间出现高度相关,而进行回归分析的目的是为了预测,不是研究单个经济变量对因变量的影响时,可以根据实际问题,改变模型模型的形式。
4、增加样本容量如果多重共线性是由样本引起,增加样本容量可以减少多重共线性的程度。以二元回归方程为例,根据第二节的结果,参数估计值的方差为:

)1(
)?(
22
3
2
32
2
3
2
2
2
2
2
23
rx
xxxx
x
V a r
i
iiii
i

)(
当样本容量增大时,增大,方差将减小,可以提高参数估计的精度。 2
2ix
5、横截面数据与时间序列数据并用如果时间序列数据中,解释变量间存在高度相关,可以先使用横截面数据估计出存在高度相关解释变量中的一个或多个,然后再在时间序列数据中剔除这些变量,在消除多重共线性影响下估计因变量与剩余变量间的回归式。
83
例如,为了估计汽车需求的价格弹性和收入弹性,得到销售量、平均价格、消费者收入的时间序列数据。设定回归式:
tttt uIPY lnln)l n ( 321
tttt IYYuPY tt ln?ln,ln 3*21* 其中新的回归式中消除了多重共线性的影响。
由于在时间序列数据中价格 Pt、收入 It 一般都具有高度共线的趋势。因此,直接估计上面的回归式将存在问题。由于在同一式点上,价格与收入的相关程度不高,可以先利用截面数据估计出收入弹性,再利用这一估计结果修改原回归式,变为:
3
6、利用时间序列数据的差分或离差进行估计如果时间序列数据中,解释变量间存在高度相关,那么这些变量的差分之间不一定相关。因此利用差分进行回归能降低多重共线性的程度。
84
第六章 异方差第一节 异方差的性质一、异方差在经典线性回归模型( CLRM)中,我们假定随即干扰项具有同方差性,
即:
Var(ui|Xi)=E[ui-E(ui)|Xi]2 = E(ui2|Xi]2 =?2
这实际上是假定了解释变量 Yi 的值围绕其期望值的分散程度相同。实际上,
对应于解释变量的不同取值,方差可能不同,即本假定不成立。
Y1
X1
Y2
X2
Yn
Xn
.,,
Y1
X1 X2
Yn
Xn
.,,
同方差异方差
85
2
2
2
00
00
00
)'( 2
1
n
E

uu
如果保持随机项的协方差为 0,则 的方差、协方差矩阵为:uX βY
或者说,。 )(,0),(,)( 2 jiuuC o vuV a r
jiii 常数?
在这种情况下,称随机项 ui 具有异方差性。
二、异方差的原因
1、因变量与解释变量间相互关系的性质。如“干中学”、经济行为规则等。
2、解释变量的遗漏。
3、异常观测值的出现。
4、时间序列数据中,观测技术的改进引起的观测值的变化。
86
三、异方差的后果由于异方差性,基于 CLRM假定的 OLS估计参数结果将受到影响。
1、考虑异方差性的 OLS估计如果假定,保留其它的 CLRM假定,以双变量回归模型为例,普通 OLS估计为:
常数 iiuE?)( 2
))?((
)(
)?(
)(
2
2
222
22
2
222
21






ii
ii
i
x
V a r
x
x
V a r
XXn
YXYXn
x
yx
uXY
i
iiii
i
ii
iii

同方差假定下,
可以证明该估计量是线性、无偏的(第二章的证明),但是否为最优估计量(具有最小方差性)性,则不一定。可以在考虑异方差性的前提下,
采用适当的 OLS估计方法来分析。
2、存在异方差性的 OLS估计 ——广义最小二乘法( GLS) 估计对于
iiii iuEuXY )(,221
可以进行变量代换,构造满足 CLRM假定的回归方程。
87
的同方差性假定。新模型满足
,此时模型可变为两边同除以在
C L R M
u
EvEuV a r
vXY
uXY
uXY
i
i
ii
ii
i
i
i
i
i
i
i
ii
i
i
iii
1
1
])[()()(
,:
2
2
22*
****
2
1
21
21








2
222
2
2
2*
2
*
1
2
2
)())((
))(())((
)

(
)*

*(m i n
,
1
i
i
i
i
xw
yxw
XwXww
YwXwYXww
G L S
XYw
XYv
w
i
iii
iiii
iiiiiiii
iii
ii
i







估计量为小:新模型的残差平方和最令
88
222
2
21
)())((
)?(
*
iiiii
i
ii
iii
i
ii
i
ii
XwXww
w
V a r
xw
yxw
Y
w
Xw
w
Yw




而在估计过程中,新模型的残差平方和实际上是原模型的残差的加权平方和:
22122 )**(mi n iiiiii XYwuwv
因此,这种 GLS估计,称为加权 最小二乘法( WLS)。显然,在求最小残差的过程中,对于方差较大的观测值赋予的权重较小(不符合“平均”意义上的“异常”观测值),而对于方差较小的观测值赋予较大的权重,使样本回归函数更接近总体回归函数。
这种先将原始变量转换成满足 CLRM假定的转换变量,再利用 OLS进行估计的方法,称为 广义最小二乘法( GLS),得到的估计量称为 GLS估计量。显然,GLS估计量是 BLUE的。
89
3、考虑 OLS估计与 GLS 估计的比较
OLS估计量:
22
22
2
222
)(
)?(
)(


i
ii
i
x
x
V a r
x
yx
XXn
YXYXn
i
ii
i
iiii
2222 )())((
))(())((~
ii xw
yxw
XwXww
YwXwYXww
i
iii
iiii
iiiiiiii



222 )())(()
~(
iiiii
i
XwXww
wV a r


GLS估计量:
1、两种估计量都是无偏的。
2,GLS估计量具有最小方差性,。
3、在假设检验中,OLS估计将降低检验的显著性。
4,OLS估计降低估计的精度。
4、忽略异方差的 OLS估计(同方差假定下的 OLS估计),不仅不具最小方差性,而且估计是有偏的。以此为基础的统计推断将可能产生严重的误导。
)?()~( 22 V a rV a r?
90
第二节 异方差性的探察由于异方差性可能导致的后果,在估计中要考虑如何探察异方差的存在,并采取相应的补救措施。
一、图示法由于在存在异方差的情况下,随机项 ui 的方差与解释变量的取值有关,
因此可以画出因变量 Y与解释变量 X的散点图,或同方差假定下以 OLS估计得到的残差平方与 X或 Y(多变量模型中 )的散点图,据此对异方差做出直观的近似判断。 (P359-360图 11.7,图 11.8)
二、帕克( Pack)检验
,则存在异方差。作显著性检验。若显著进行回归,对代替:估计得到的未知,以同方差假定下由于或有关与某一解释变量假定


iiki
i
iiki
v
i
iki
vXlu
uO L S
vXeX
X
i
i
ik


)l n ()?l n (
)l n ()l n ()l n (,
:
2
22
2222
2
且能确定影响随机项的解释变量。
91
二、格兰奇( Glejser)检验方差。验。若显著,则存在异和回归方程作显著性检进行回归,对形势作回归:有关。可以对以下函数与某一解释变量假定





i
ik
i
i
ik
i
iiki
iiki
iki
v
X
u
v
X
u
vXu
vXu
X




1
|?|
1
|?|
|?|
|?|
:
21
21
21
21
2
如果回归结果表明异方差与多个变量有关,可以引入多个变量进行回归,
并进行检验。
格兰奇( Glejser)检验的优点在于,在检验异方差的同时,可以得到异方差形式的信息(与解释变量的关系),在后续分析中据此处理样本数据和回归模型,以得到 BLUE估计。
92
三、斯皮尔曼( Spearman)等级相关系数检验通过随机项的方差与解释变量的等级相关系数的显著性检验,判断是否存在异方差性。步骤:
。,则说明存在异方差性若显著(超过临界值)
、计算统计量:
的等级差。和组观测值的为第其中关系数:、计算斯皮尔曼等级相
)。,,,值(按升序获降序赋予等级和、把
。估计,得到、作
),2(~
1
2
4
],
)1(
[61
3
212
1
2
2
2

nt
r
nr
t
Xuid
nn
d
r
nXu
uO L S
s
s
iii
i
s
ii
i
这一检验的依据,其实就是检查随着因变量的变化,方差是否随之变化(等级差异意味着变动)。
93
四、戈德菲尔德 —匡特( Goldfied-Quandt)检验
G-Q检验适用于大样本、随机项的方差与某异解释变量存在正相关的情况。检验的前提条件是:随机项服从正态分布;无序列相关。步骤:
。,则说明存在异方差性若显著(超过临界值)
、计算统计量:
:回归,并分别计算出行、分别对两个子样本进为宜)以总样本数的(略去的样本数头的两个子样本。个样本,把样本分为两、略去居中的观测值大小顺序排列。、把样本按解释变量
)
2
,
2
(~
)
2
(
)
2
(
4
,
3
4/1
2
1
1
2
2
21
2
11
k
cn
k
cn
F
k
cn
R S S
k
cn
R S S
F
uR S SuR S S
R S SO L S
c
c
X
ii
i

如果同方差,则 F ≈1 ;如果存在以方差性,根据正相关的假设,F>1。 F
越大(超过临界值),说明存在以方差性的可能性就越大。
94
第三节 异方差模型的处理一、随机项的方差已知的情况估计。已知,可以直接使用如果随机项的方差 W L Si2?
的同方差性假定。新模型满足

模型可变为两边同除以原模型
C L R M
vXXY
uXY
uXXY
ikiki
i
i
i
i
ii
i
i
ikikii
i



**
,
1
:
22
**
21
221
1



对新模型作 OLS回归可以估计出原模型参数的 BLUE估计。
二、随机项的方差未知的情况存在以方差性,则随机项的方差与一个或多个解释变量有关。如:
遍除原模型,以
,设原模型为:
),(
),(
3,2
3,2
22
221
miii
miii
ikikii
XXXf
XXXf
uXXY
i



95
),(),(
),(),(
3,23,2
3,2
2
21
3,2
miii
i
miii
ki
k
miii
i
miii
i
XXXf
u
XXXf
X
XXXf
X
XXXf
Y





可得到满足 CLRM假定的新模型:
,即可进行估计。如果知道 ),( 3,2 miii XXXf?
因此,关键的问题是找出异方差的具体形式。
96
第七章 自相关第一节 自相关一、自相关对于时间序列数据,不同期的样本观测值形成一个序列;横截面数据中按不同空间(省份、厂商、家庭等)排列的样本数据也可看为一个序列,
为了方便,先把横截面数据也视为不同期的数据。对于一个变量 u,可以得到其观测值序列:
u1,u2,…,ut-1,ut
下标 t代表不同时期。
如果在这个序列中,每期的观测值与其前一期或前几期的取值有关,

Cov(ui,uj) <> 0,i <>j
则称该序列存在自相关( Autocorrelation)。
在 CLRM中,假定干扰项 u不存在自相关,即
Cov(ui,uj) = 0,i <>j
如果这一条件被破坏,即干扰项存在自相关,那么使用 OLS估计就可能存在问题。实际上,在经济计量研究中,自相关士一种常见的现象。如,消费支出要受到当期和前几期收入的影响;某一年的 GDP要受到前期的 GDP
水平的影响;某种商品的供给量要受到前一期的其它变量影响,等等。
97
三、自相关的形式如果 u存在自相关,t期的取值与前 p期有关,关系可由:
ut = f (ut-1,…,ut-p ) +vt
决定,其中 vt满足:
即 vt满足 CLRM假定。一般把 f (ut-1,…,ut-p ) 假定为线性形式。
二、产生自相关的原因
( 1)经济变量的惯性 ——时间序列变量的自相关导致干扰项的自相关
( 2)应进入模型的变量未被引入模型,能引起自相关
( 3)回归模型的的形式设定存在错误
( 4)蛛网现象:应变量对子变量的反应滞后
( 5)滞后效应:应变量受其前几期取值的影响
( 6)数据“编造”。数据的加工过程(如季度数据)或推算过程(根据某种假定获得未调查数据)引起自相关
( 7)随机项自身可能存在“真正自相关”性(偶然性冲击对变量的长期影响)
自相关主要出现在世界序列数据中。横截面数据中也可能存在自相关
( spatial autocorrelation,空间自相关)。这种自相关可能来自样本观测值的排序依据 ——逻辑的或经济的排列的理由。
21
2
,0),c o v (
)v a r (
0)(
21
ttvv
v
vE
tt
vt
t

98
如果
1,1 ttt vuu
则称为马尔科夫一阶自回归模式(或简称为一阶自回归模式),记为 AR(1)。
其中 ρ被称为自协方差系数( coefficient of autocovariance),或自相关系数。
如果
tstttt vuuuu21
则称为 s阶自回归模式,记为 AR(s)。
对于 AR( 1),
22
11
111
2
2
22222
222
2
1
2
)(
))[(
])()c o v (
1
)()(
])[()()(
1
1
ut
uuu
tt
t
uE
uvuE
uuEuu
vEuE
vuEuEuV a r
ttt
tttt
v
v
ttt










而即
(同方差假定)

1
1
1
)'(
21
2
1

ss
s
s
u
u
E



Ωuu
这与异方差一样,影响 OLS
估计的结果。
99
第二节 存在自相关的 OLS估计一、考虑自相关的 GLS估计对于二元回归模型:
估计进行可以对可得到:令
,相减,观测值乘以每期观测值与滞后一期其中
O L SntvbXaY
vXY
vXY
XXXYYY
vuu
uXY
uXY
uXY
t
t
tttttt
ttt
ttt
ttt
tt
tt
),3,2(
)1()1(
)1()1(
,*,*
**
1
*
21
*
*
21
*
11
1
11211
11211
21
22
















100
D
xx
C
xx
yyxx
n
t
tt
vG
n
t
tt
n
t
tttt
G


2
2
1
2
2
1
2
11
)(
)?v a r (
)(
))((
2
2

估计系数和方差为:
其中,C和 D未校正因子(关于 ρ的表达式,较小)。
。得到可以利用
1
21

XY
二、忽略自相关使用 OLS估计的后果利用 OLS估计,得到的估计值和方差都与 GLS估计不同。根据前面关于
OLS估计的线性和无偏性的证明,OLS估计是线性无偏的,但是考虑到干扰项的自相关,OLS估计是无效的。
101
D
xx
C
xx
yyxx
n
t
tt
vG
n
t
tt
n
t
tttt
G


2
2
1
2
2
1
2
11
)(
)?v a r (
)(
))((
2
2

2
2
2
22
)?(
t
t
tt
x
V A R
x
yx
如果 ρ=0,估计结果是相同的。在存在自相关的情况下,参数的
GLS估计式和方差估计式中均有自相关系数 ρ,因此,忽略自相关的 OLS
估计值和方差都是不可信的。
102
1、绘制 的散点图第三节 自相关的探察一、图示法
1?,tt uu
首先利用 OLS回归后,求出残差 。
tt uuuu?,?,,?,? 121
的散点图。绘出 )?,?(,),?,?(),?,?( 13221 tt uuuuuu
如果大部分落在第 I、第三象限,则 存在正自相关。
1?,tt uu
如果大部分落在第 II、第 IV象限,则 存在负自相关。
1?,tt uu
tu
1?tu
tu
1?tu
103
2、按时间顺序绘制 图作出 随时间变化的图形,如果 呈由规律的变化,如锯齿形或循环形,则说明干扰项存在自相关。
若 随时间变化不断变换符号,说明存在负相关;若连续几个为正,
后边几个为负,则可能存在正相关。
tu?
tu?
tu?
tu
t
tu
t
tu?
二、杜宾 —瓦特森( Durbin-Watson)检验基本假定:
( 1)回归式中有截距项
( 2)解释变量是非随机的
( 3)干扰项的模式为一阶自回归模式,vuu
tt 1?
104
( 4)回归模型中,物质后因变量被当作解释变量。
( 5)没有缺落数据。
检验方法如下:






n
t
n
t
n
t
t
n
t
tt
n
t
n
t
n
t
t
n
t
tt
ttt
tt
tt
uu
u
uuuu
u
uu
d
d
H
H
vuu
2
2
2
2
2
2
2
1
2
2
2
2
2
2
2
2
1
1
0
1

2
)(
0:
0:
定义检验变量备择假设原假设
1?,4
0?,2
1?,0
401
12


12
2?2
2
2
2
1
2
2
2
1
2
2
2
1
2
2







当当当
)(,而
d
d
d
u
uu
u
uu
u
uuu
d
n
t
t
n
t
tt
n
t
t
n
t
tt
n
t
t
n
t
tt
n
t
t
当 d约接近 2,u的自相关性越小。
105
检验步骤:
( 1)做 OLS回归,得到残差。
( 2)计算统计量 d
( 3)对给定的样本数量和解释变量数目,在给定显著水平下,找出临界值的下界和上界 dL,dU 。
( 4)根据下表的决策规则决定是否接受原假设。
原假设 决策 条件无正自相关 拒绝 0<d<dL
无负自相关 拒绝 4 - dL≤d
无正或负的自相关 接受 dU≤d ≤4 -dL
无正或负的自相关 不能确定 dL<d <Du
4 – dU<d <4 -dL
D-W检验的缺陷是存在两个不确定域。如果统计量落入不确定域中时,
无法判断是否存在自相关。
106
第四节 自相关的解决方法一、差分法若存在一阶自相关,可采用广义差分,利用 GLS得到参数的 BLUE估计量。 对于二元回归模型,
估计进行可以对可得到:令
,相减,观测值乘以每期观测值与滞后一期其中
O L SntvbXaY
XXYY
vXY
vXY
XXXYYY
vuu
uXY
uXY
uXY
t
t
tttttt
ttt
ttt
ttt
tt
tt
),3,2(
1,1
)1()1(
)1()1(
,*,*
**
2
1
*2
1
*
1
*
21
*
*
21
*
11
1
11211
11211
21
11
22


















然后再计算出估计值。
107
二、杜宾两步法把二元回归模型的差分形式写为:
估计进行可以对可得到:令
,对原模型进行差分变换第二步估计出利用令第一步
O L SntvbXaY
XXYY
vXY
XXXYYY
O L S
bba
vXXYY
t
t
tttttt
tt
tt
tt
ttt
),3,2(
1,?1
)?1()?1(
,*,*
,),1(
)1(
**
2
1
*2
1
*
*
21
*
11
22211
2211
11












再计算出 β1,β2。
108
第八章 单方程模型的几个问题第一节 模型的设定误差在建立经济计量模型时,要设定模型的函数形式、模型中的解释变量、
随机项的构成及假定等,并希望设定的模型尽可能反映现实经济问题。如果模型设定不当,可能引起设定误差。设定误差主要包括两种情况:遗漏了必要的解释变量;包含了无关的解释变量。
一、遗漏了必要的解释变量本来模型中应含有 k-1个解释变量,如模型应为:
ikikiii uXXXY33221
但是在建模时,由于数据不易获得或其它原因,使模型中遗漏了一些变量,
如遗漏变量后的模型为:
)(,,2,1,33221 krrivXXXY iririii
此时,遗漏变量后的模型的随机误差项实际为:
kiuXXv ikikirri,,2,1,)1(1
这将对估计结果产生影响。为了分析这种影响,以“正确模型”包括两个解释变量为例,把回归模型改写为离差形式进行分析:
iiii uxxyP R F 3322 iii vxyPRF 22'?和遗漏变量模型
109
把 PRF中的 yi带入,可得到:

22'
i
ii
x
yx?对 PRF`的估计值为:
2332
2322232
2
3
2
2
2
33222
2
32232
2322
)(
)()
)(
()'(
r
x
xx
x
ux
x
xx
E
x
uxxxx
E
x
uxxx
EE
iii
ii
iiii
iiiiii
iiiii








)1(
)?(?)'?(
3
2
22
2
2
22
2
2
2
2
2
2
2
23
rx
V a r
x
V a r
n
u
n
v
i
u
i
vi
u
i
v
,,,
,方差为而根据方差的估计公式这说明遗漏变量模型的估计量是真实模型的有偏估计量,且偏误不随样本容量的增大而消失。只有当遗漏变量与解释变量的相关系数为零时,
偏误才会消失。
这说明方差的估计也是有偏误的。因此,据此作出的统计推断也是不可信的。
110
二、包含了不必要的解释变量。
假定真实模型为:
ikikiii uXXXY33221
但是在建模时,模型中增加了不必要的变量,如遗漏变量后的模型为:
iikkkikiii vXXXXY )1(133221
以双解释变量的模型为例,假定
iiii uxxyPRF 3322'iii vxyP R F 22?
和包含无需变量模型
SRF`中的参数 OLS估计量为:







2
2
2
2
23
2
2
2
32
22
32
2
2
22
2
32
22
2322
2
22
2
32
22
322
2
2
2
2
232
32
2
32
2
)
(
)1()())((
)'
(
)'(
)())((
))(())((
'
)())((
))(())((
'
i
iii
ii
i
ii
i
x
V a r
rxxxxx
xx
V a r
E
xxxx
uxxxuxx
S R F
xxxx
xxyxxyx
u
v
ii
ii
v
ii
iiiiii
ii
iiiiii



,可得到带入
111
通过比较,可看出:
( 1)含不需要解释变量模型的估计是无偏的,但不具备最小方差性:
1)1( 1)?( )
(
232
'
2
rV a r
V a r
( 2)样本方差 σ的估计是正确的;假设检验程序仍然有效。
( 3)含不需要解释变量模型的估计参数的方差增大,精度减少。
三、设定误差的检验
1、检验是否存在无需变量根据回归参数的 t检验值,对参数进行显著性检验。不显著的解释变量可以从模型中删除。
2、对遗漏变量和不正确函数形式的检验各种检验指标(如判定系数)和残差分析。
112
第二节 虚拟变量估计一、虚拟变量的引入在经济分析中,某些特殊因素会影响到变量的取值,如季节对饮料需求的影响,特定时期实施特殊政策对各宏观经济变量产生的影响等。而这些因素属于“定性”的变量,可以通过赋予一个数量值,以虚拟变量(哑变量 Dummy)的形式进入分析模型中。
例如,消费函数模型:
Ct=b0+b1Yt+ut ====〉 Ct=b0+b1Yt+b2Dt+ut
二、虚拟变量的不同形式虚拟变量在模型中可代表对截距的影响,如:
Ct=b0+b1Yt +b2Dt +ut (Dt在正常年份取 1,反常年份取 0)
可利用 OLS估计得到估计结果:
tt
tt
ttt
YbbC
YbbbC
DbYbbC
10
120
210

)(?




在反常年份:
在正常年份:
Ct
Yt0
正常年份反常年份根据回归结果,正常年份的基本支出水平比反常年份小,而边际支出倾向不变。
113
虚拟变量在模型中也可以代表对和参数的全面影响,如:
Ct=( b01+ b02Dt) + ( b11 + b12Dt)Yt+ut
该式可变为,Ct=b01+ b02Dt + b11DtYt + b12DtYt+ut
如果得到估计方程:
tttttktktt
i
it
tktkttt
uDaDaDaDaXbXbbC
iD
uXbXbXbbC



44332211110
1
0
22110
4,3,2,1
:
销售的季节模型可写为拟变量:重要影响,引入四个虚由于季节变化对销售有假定销售方程为季第其它季节
Ct
Yt0
正常年份反常年份二、多个虚拟变量的引入及虚拟变量陷阱问题在模型中,对于一个定性变量可能需要引入多个虚拟变量。典型的例子是季节变化对商品销售的影响。
tt
tt
ttttt
YbbC
YbbbbC
YDbYbDbbC
1101
12110201
12110201

)()(?




在反常年份:
在正常年份:
114
tttttktktt uDaDaDaDaXbXbbC 44332211110?
在该季节模型:
中,有即解释变量间存在完全的共线性,因此模型无法估计。这就是虚拟变量陷阱。
为了解决这以问题,在引入虚拟变量时,对于一个有 m种可能的定性变量,只能引入 m-1个虚拟变量 。如前面的模型:
该方程即可进行估计。
销售的季节模型为引入四个虚拟变量:
销售方程为季第其它季节
ttttktktt
i
it
tktkttt
uDaDaDaXbXbbC
iD
uXbXbXbbC



443322110
1
0
22110
4,3,2
:
43214321 1,1 DDDDDDDD
115
三、引入不同定性变量的多个虚拟变量在模型中,如果有多个定性变量对因变量有影响,可同时把对应于各定性变量的虚拟变量引入模型。如,季节变化和当年是否有重大事件发生对商品的销售都有影响,销售回归方程可写为:
tttttktktt uDaDaDaQcXbXbbC 4433221110?
其中,Qt(取 1获 0)代表正常年份和反常年份,而 D2~ D4代表季节变化。
使用的原则,仍是 对于任一个有 m种可能的定性变量,只能引入 m-1个对应的虚拟变量。
第三节 滞后变量一、滞后变量滞后变量是指在回归模型中,因变量与解释变量的时间滞后量。如:
tttt
tststtt
uYbYbaY
uXbXbXbaY



1100
1100
和第一个模型称作外生滞后变量模型或 分布滞后模型 。第二个模型称为内生滞后变量模型或 自回归模型。
在很多经济分析中,把滞后变量引入模型中是必要的。这里先讨论分布滞后模型。
116
分布滞后模型:
包含了多时期的滞后变量,各时期的滞后变量之间往往存在多重共线性,因此不能用 OLS估计。此外,如果滞后变量较多而样本较小,不仅估计困难,
而且较小的自由度下也难以进行传统的拟和优度检验。
基于以上原因,必须对模型进行变换,以减少被估计参数的数目。可以考虑对滞后变量加以约束,把这些滞后变量组合成新的变量,方法有经验权数法,阿尔蒙多项式法等。
二、经验权数法根据经验为滞后变量制定权数,把滞后变量按权数线性组合成新变量。
1、递减滞后形式假定解释变量的滞后期越长,对因变量的影响越小,滞后变量期数越大则指定的权数越小。如,对于模型:
估计模型。可用模型变为:
,则令新变量,,,,指定递减权数:
O L S,
16
1
8
1
6
1
4
1
2
1
16
1
8
1
6
1
4
1
2
1
10
4321
4433221100
ttt
tttttt
ttttttt
uWaaY
XXXXXW
uXbXbXbXbXbaY





tststttt uXbXbXbXbaY221100
117
三、阿尔蒙多项式法根据一个连续函数为滞后变量制定权数。对于模型:
2、矩形滞后形式假定所有滞后变量对因变量的影响相同,滞后变量的权数相等,
如,前面的模型中,新变量定义为:
。4321 3131313131 tttttt XXXXXW
3、倒,V”型滞后形式假定所有滞后变量对因变量的影响岁滞后时间,先递增,再递减,滞后变量的权数大小成倒,V”型变化,如,前面的模型中,新变量定义为:
。4321 121714161101 tttttt XXXXXW
对经验权数模型进行回归后,根据显著性检验、标准差、样本决定系数及 D-W检验等,选择最优的形式。
tststttt uXbXbXbXbaY22110
118
)()(
)()(
整理得:
型,可得。把该方程组带入原模程组求出
,即可据此方的线性函数。如果知道为后模型的参数该方程组表示了分布滞即:
或一般可取式变换:)对参数作阿尔蒙多项(
步骤是:阿尔蒙多项式法的基本
st
r
t
r
trsttt
stttstttt
str
r
tr
r
ttt
r
r
s
r
r
r
r
rk
XsXXaXsXXa
sXXXaXXXaaY
Xasassaa
XaaaaXaaaaXaaY
asassaab
aaaab
aaaab
ab
sksrkakakaab















21
2
2
2
12
21110
2
2
10
22
2
1012100
2
2
10
2
2
102
2101
00
2
210
22
2
)(
)222()(
222
)2,1,43,(
1
b
aab
119
。、、、方程,即可解出。把这些参数带入前面、、、、可以估计出:
。新模型:
)(
)(
)(
定义变量:
sr
rtrttt
st
r
t
r
tt
stttt
stttt
bbbaaaa
WaWaWaaY
XsXXW
sXXXW
XXXW

2
2
1010
1100
211
211
10








这一方法可以推广到多个滞后变量的情形。
120
第九章 联立方程模型第一节 联立方程模型的概念一、联立方程模型由于经济现象的复杂性,各经济变量间关系是交错复杂的,因而对一些经济现象进行分析时,单一方程模型是不适宜的,需要多个方程联立,
才能正确说明经济现象。
例如,在均衡价格模型中,均衡数量和价格要由供、求双方决定。假定粮食需求量由消费者的收入水平和商品价格决定,供给量由价格和气候条件决定,供、求双方决定了市场均衡数量 Q:
QSD
uWaPaaS
uYaPaaD



2210
1210
这里讨论的局部均衡模型,需要多个单一方程和在一起的联立方程组来描述。这个方程组就是描述这以经济系统的 联立方程模型 。
二、联立方程模型中的变量分类联立方程模型中的变量,可分为内生变量、外生变量和预定变量。
121
1、内生变量指由模型系统内决定的变量,取值在系统内决定,如 D,S,P。
2、外生变量指不由模型系统范围内决定的变量。如 Y,W。政策变量属于外生变量。
3、预定变量指变量的滞后值。内生变量的滞后值称预定内生变量,外生变量的滞后值称预定外内生变量。
三、联立方程模型中方程式的分类
1、行为方程式描述经济系统中个体经济行为的方程。如消费需求方程。
2、技术方程式指基于生产技术关系而建立的函数关系。如生产函数。
3、制度方程式与法律、制度有直接关系的经济数量关系式,如税收方程。
4、衡等式有两种。一种是定义方程式,有经济变量的定义所构成的方程;另一种是平衡方程,表示经济变量之间的平衡关系。
122
四、结构式模型与简化式模型
1、结构式模型体现经济理论中经济变量之间的关系结构的联立方程模型,为结构式模型,如:
QSD
uWaPaaS
uYaPaaD



2210
1210
ttt
tt
ICY
uYC
t

10
结构模型中的每个方程称为结构方程;各结构方程的系数称为结构系数或结构参数。
在结构模型中,结构方程的右边可能出现内生变量。在结构方程中,
把内生变量表示为其它内生变量、前定变量和随机项的函数形式,被称为结构方程的正规形式。以 Y代表内生变量,X代表预定变量,?代表内生变量的结构参数,?代表预定变量的结构参数(对于常数项,可视为观测值为
1的变量 X0),结构模型的一般形式可写为:
gtktgkgggtggtgtg
tktkgtgtt
tktkgtgtt
uXXXYYY
uXXXYYY
uXXXYYY










2222112211
22222221212222121
111121211111212111
123
写成矩阵形式:
如果模型有 g个内生变量,k个预定变量,g个结构方程(内生变量数等于结构方程数),则称模型为完备模型。这里:


gggg
g
g
gggg
g
g
g
2
1
k
2
1
g
2
1
u
u
u
X
X
X
Y
Y
Y








21
22221
11211
21
22221
11211
,
:,:,
参数矩阵:
随机项预定变量内生变量,UXY
称为结构参数矩阵。ΓΒ
UXYΓΒUXY

)(或
111 gkkgggg
124
样本观测值( n个样本):
gng2g1
2n2221
n1211
g
knk2k1
2n2221
n1211
gngg
n
n
uuu
uuu
uuu
ng
XXX
XXX
XXX
nk
YYY
YYY
YYY
ng



u
u
u
U
X
X
X
X
Y
Y
Y
Y
2
1
k
2
1
t
g
2
1
t
:
:
21
22221
11211
而残差矩阵预定变量观测值内生变量观测值:
125
例:
ttt
tt
ICY
uYC
t

10











0110
0
10
1 01 t
t
t
t uI
Y
C
tttt
ttt
tt
GICY
uYYI
uYC
t
t



2
1
1210
10



0
1
100
00
00
111
10
01
2
1
10
0
1
1
t
t
t
t
t
t
t
u
u
G
Y
Y
I
C
(截距项视为观测值为 1的预定变量 )? Y? X U
Y? X U
126
2、简化式模型根据结构式模型推导得到,把内生变量表示为预定变量和随机项的函数形式的方程组,这种模型称为简化式模型,其中的每个方程称为简化式方程:
gkgkgggt
kkt
kkt
vXXXY
vXXXY
vXXXY






2211
222221212
112121111
ttt
tt
ICY
uYC
t

10结构式,简化式:
t
t
uIY
uIC
tt
tt
111
0
11
1
1
0
1
1
1
1
1
1
1
11


显然,简化式模型中,每个内生变量的函数方程都包括了预定变量对其的全部影响。而且,简化式模型中的随机项与各变量不相关。
简化型参数矩阵
VXUBXBYUXY 11
127
3、简化型与结构型的参数关系体系从结构型到简化型,变换过程为:
tttt
ttt
tt
GICY
uYYI
uYC
t
t



2
1
1210
10


11
12
11
1
11
2
11
00
11
21212
11
1
1
11
212
11
10010
11
11211
11
1
1
11
21
11
21110
11
1
11
1111
1111

































tt
ttt
ttt
ttt
ttt
ttt
uu
GYY
uuu
GYI
uuu
GYC
tttt
tttt
tttt
vGYY
vGYI
vGYC
33313231
22312221
11311211






11?12?13
21?22?23
31?
32?33




kgggkg
)( 1
11 VXUBXBYUXY
参数关系:
128
五、联立方程模型与单方程模型以简单的凯恩斯模型为例,
1
2
1
2
111
0
111
0
10
1
)
1
()]}()][({[),c o v (
1
)(
1
1
1
)(
1
1
1
1
1






t
tt
u
EuEuYEYEuY
u
YEYIYE
uIYuIYY
ttttDt
t
ttt
ttttt
这说明作为解释变量的收入 Y与随机项相关,违背了 CLRM的假定。如果采用 OLS逐个对单个结构方程进行估计,将得到有偏估计量:
ttt
tt
ICY
uYC
t

10 其中,0),c o v (,)(,0)( 2
ttt uIuEuE t?





2
2
1
2
1
2
222
2121
1
1)1/(
),c o v (
)/l i m (
)/l i m (
/
/
lim)?l i m (
)()?(,?
YY
tttttt
tttt
Ytt
tt
uY
nyP
nuyP
ny
nuy
PP
y
uy
EE
y
uy



有偏非一致性
129
所以,在考虑到变量间存在“联立”的相互影响时,用 OLS以单方程形式回归得到的估计量是有偏且非一致性的。
第二,以单方程进行估计,将损失变量之间的相关信息,如 I 通过 Y产生的对 C的间接影响。
第三,损失方程之间的相关信息,即不同方程随机项之间的关系。
因此,根据经济系统中变量之间的关系,使用联立方程模型,并利用新的估计方法进行估计是必要的。
从简化模型的推导过程中可看到,简化式方程的有变为前定变量和随机项,而根据假定,前定变量与随机项不相关,因此,对简化方程进行 OLS估计,再利用参数关系体系来解出结构参数的间接最小二乘法( ILS),就成为一种可选择的联立模型估计方法:
显然,能够得到结构参数的条件是,方程组 有唯一解。根据理论建立的联立模型不一定满足该条件,这就是量立方程模型的识别问题。
。和解出再根据参数关系:
,中的简化参数先估计简化模型:


)( 1
VXY
ΓΒΠ 1
130
第二节 联立方程模型的识别一、联立方程模型的识别问题所谓识别问题,其实就是能否唯一地估计出结构参数。例如,对于:
利用 C和 Y的样本数据估计得到的参数,无法确定是( 1)的参数估计量还是( 1`)的参数估计量。这说明消费方程( 1)不可估计,称该方程不可识别。同样,投资方程也是不可识别。
关于识别的定义,主要有:
( 1)如果联立方程模型中某个方程不具有确定的统计形式,则称该方程不可识别。这里,确定的统计形式指变量和方程关系式。 [( 1)与( 1`) ]
( 2)如果联立方程模型中某些方程的线性组合可以构成与某个方程相同的统计形式,则称该方程不可识别。 [( 2) +( 3) =〉 ( 1`),( 1)与
( 1`) ]
)(
)(
)(
3
2
1
2
1
10
10
ttt
tt
tt
ICY
uYI
uYC
t
t





如果利用( 2)和( 3)消去 It,可得到:
)( '1)1( 1010 2 vYwwuYC ttt t
131
( 3)简化模型参数已知时,若不能根据参数关系体系得到联立方程模型中某个结构方程的确定结构参数估计值,则称该方程为不可识别。
而一个联立方程模型,如果每个随机结构方程都是可识别的(恒等方程不存在识别问题),则称该模型是可识别的。
tt
tt
tt
ttt
ttt
ttt
vY
vI
vC
ICY
ntuYI
uYC
331
221
111
210
110
,,2,1
1








简化模型为:
:例
)(
)(
)(
参数关系体系为:
3
1
2
1
1
1
11
00
31
11
10010
21
11
01100
11











( 1) +( 2),等式右边与( 3)的右边相同,与( 3)矛盾。去掉一个矛盾方程后,有两个方程,四个未知数,无法解出结构参数的估计量。事实上,
根据识别的定义,需求方程不可识别,投资方程也不可识别。
132
ttt
tttt
ttt
ICY
ntuYYI
uYC



,,2,1
2
21210
110


:例
)(
)(
)(
参数关系体系为:
3
1
2
1
1
1
11
00
31
11
10010
21
11
01100
11











( 1) +( 2),与( 3)的矛盾,( 4) +( 5)与( 6)矛盾。去掉两个矛盾方程后,有 4个方程,5个未知数,无法解出结构参数的估计量。根据识别的定义,需求方程可识别,投资方程不可识别(把投资方程带入恒等式,得到与投资方程相同的统计形式)。
ttt
ttt
ttt
vYY
vYI
vYC
313231
212221
111211






简化模型为:
)(
)(
)(
6
1
5
1
4
1
11
2
32
11
212
22
11
21
12








133
)(
)(
)(
参数关系体系为:
3
1
2
1
1
1
11
00
31
11
10010
21
11
01100
11











)(
)(
)(
6
1
5
1
4
1
11
2
32
11
1212
22
11
121
12








)(
)(
)(
9
1
8
1
7
1
11
2
33
11
12
23
11
122
13








ttt
tttt
tttt
ICY
uYYI
uCYC



21210
11210
3


:例
tttt
tttt
tttt
vCYY
vCYI
vCYC
313313231
212312221
111311211









简化模型为:
( 1) +( 2),与( 3)的矛盾,( 4) +( 5)与( 6)矛盾,( 7) +( 8)与
( 9)矛盾。去掉 3个矛盾方程后,有 6个方程,6个未知数,说明消费方程和投资方程式可识别的。
134
二、不可识别、恰好识别与过度识别不可识别:不能确定地估计出结构参数值,如例 1、例 2。
恰好识别:能够唯一地估计出结构参数值,如例 3
过度识别:结构参数的估计值具有多个确定值。例如:
ttt
tttt
ttttt
ICY
uYYI
uPCYC




21210
1131210
3


:例
ttttt
ttttt
ttttt
vCCYY
vCCYI
vCCYC
313413313231
212412312221
111411311211









简化模型为:
不可识别恰好识别过度识别可以识别
135
)(
)(
)(
参数关系体系为:
3
1
2
1
1
1
11
00
31
11
10010
21
11
01100
11











)(
)(
)(
6
1
5
1
4
1
11
2
32
11
1212
22
11
021
12








)(
)(
)(
9
1
8
1
7
1
11
2
33
11
12
23
11
122
13








)(
)(
)(
12
1
11
1
10
1
11
3
34
11
13
24
11
133
14








方程中剔除 4个矛盾方程,有 8个程,而结构参数只有 7个。需求方程和投资方程都是可识别的,
但是,求解这一方程组,只有 α0,α1,α2,α3得到唯一确定解,而 β0,β1,β2却得到多组确定值,说明投资方程为过度识别的结构方程。
136
三、模型识别的简化型条件如果已知联立方程模型的简化型参数,可以根据对简化型的分析判断模型的识别状态。
对于简化模型:
该条件的前一部分一般称为秩条件,后一部分称为阶条件。
个结构方程过度识别。则第如果个结构方程恰好识别,则第如果个结构方程可识别,且则第如果个结构方程不可识别;则第如果定变量个数,则的内生变量个数和前分别代表该方程中包括和原来次序组成的矩阵,
按应的列后,剩下的参数中包含的预定变量所对对应的行,划去该方程内生变量个结构方程中不包含的中,划去第代表简化型参数矩阵以
i,1
i,1
i,1)(
i,1)(
1
1
1
1
11





gkk
gkk
gr
gr
kg
i
i
i
i
i
i
VXY
中变量总数。为方程为模型中方程总数,为模型中变量总数,其中,
时,方程过度识别当时,方程恰好识别;当阶条件等价于:
iMgH
gMH
gMH
gkgkggkk
i
i
i
iiii
1
1
,1)()(1



137
ttt
tttt
tttt
ICY
uYYI
uCYC



21210
11210
3


:例
tttt
tttt
tttt
vCYY
vCYI
vCYC
313313231
212312221
111311211









简化模型为:


333231
232221
131211
11
2,2
3,3



kg
kg
前定变量个数:数:消费方程含内生变量个前定变量个数内生变量个数
11212)(,
1
1
11
11
2
11
122
33
13
1




gr,



消费方程可识别。,1,121,23 1111 gkkgkk

333231
232221
131211
22 2,2



kg 前定变量个数:数:投资方程含内生变量个
11212)(,
1
1
22
11
2
11
12
33
23
2




gr,



投资方程可识别。,1,121,23 2222 gkkgkk
138
四、模型式别的结构型条件直接从结构方程出发判断联立方程模型的识别状态。
若联立模型:
有 g个内生变量,k个前定变量(包括常数项)。对模型中待识别的第 i 个结构方程,该方程中包括 gi 个内生变量,ki 个预定变量,则:
个结构方程过度识别。则第如果个结构方程恰好识别,则第如果识别的阶条件:
并且个结构方程可以识别,则第如果个结构方程不可识别;则第如果的矩阵,则个方程中对应系数组成它变量和外生变量)在其变量(包括内生个结构方程中未包含的)表示第以矩阵(
识别的秩条件:
igkk
igkk
igr
igr
g
i
ii
ii
,1
,1
,1)(
,1)(
1
00
00
00





中变量总数。为方程为模型方程总数,为模型量总数,其中,iMgH i
UXYΓΒUXY

)(或
111 gkkgggg
时,方程过度识别当时,方程恰好识别;当或
1
1


gMH
gMH
i
i
139
tttt
ttt
ttt
tttt
GICY
uYccT
uYbbI
uTaYaaC




210
2110
1210
:例
0000
0000
0000
000
1
2011
2011
10112




XGYYTIC
uXcGYYcTIC
uXbGYbYTIC
uXaGYYaTaIC
tttttt
ttttttt
ttttttt
ttttttt
模型的一般形式:
Ct It Tt Yt Yt-1 Gt X
1 0 -a2 -a1 0 0 -a0
0 1 0 0 -b1 0 -b0
0 0 1 -c1 0 0 -c0
-1 -1 0 1 0 -1 0
完备的。结构方程个数,模型是内生变量个数
,、两个预定变量:
,、、、个内生变量:
)2(
)4(4
1 kGY
gYTIC
tt
tttt
系数矩阵
312)(
,
101
000
01
)(
00
1
00



gr
b
消费方程:
消费方程不可识别。
140
Ct It Tt Yt Yt-1 Gt X
1 0 -a2 -a1 0 0 -a0
0 1 0 0 -b1 0 -b0
0 0 1 -c1 0 0 -c0
-1 -1 0 1 0 -1 0
系数矩阵
313)(
,
1101
010
01
)(
00
1
12
00




gr
c
aa
投资方程:
消费方程可识别。
阶条件,g2=2,k2=2,k-k2=3-2=1,g2-1=0,即 k-k2>g2-1,过度识别。
( H=7,M2=3,g = 4,H - M1 = 4 > g – 1 = 3)
tttt
ttt
ttt
tttt
GICY
uYccT
uYbbI
uTaYaaC




210
2110
1210
141
第三节 联立方程模型的参数估计对于可识别的联立方程模型的结构参数估计,不能直接对结构方程使用 OLS(得到的是有偏、非一致性估计量)。
一、间接最小二乘法( ILS)
适用于恰好识别的联立方程模型。步骤为:
间接最小二乘估计量的性质:有偏、一致估计量,即:对于小样本,
估计量是有偏的;对大样本,估计量是一致的。
,解出结构参数、根据参数关系体系:
,估计出个方程使用、依次对简化型中的每推导出简化型:
,)(或、对结构型:






Β
Π
VXY
UXY
Γ
Β
UXY
3
2
1
111
O L S
gkkgggg
142
二、两阶段最小二乘法( TLS)
步骤为:
两阶段最小二乘法实际上是以内生变量的估计值作为工具变量对结构方程进行估计的。使用 TLS可以省去利用参数关系体系求解结构参数的麻烦,同时也可用于估计过度识别的联立方程模型。
估计出结构参数。作为解释变量,利用和以、对每个结构式方程,
,估计出个方程使用、依次对简化型中的每推导出简化型:
,)(或、对结构型:
O LS
O LS
gkkgggg
XY
Y
VXY
UXY
Γ
Β
UXY
3
2
1
111





143
我们对经济量进行分析的最终目的,是为了预测某些经济变量的未来值。进行预测的方法有两种。一种是根据一定的经济理论,建立各种相互影响的经济变量之间的关系模型,根据观测到的经济数据估计出模型参数,
利用模型来预测有关变量的未来值。这种方法的优点在于精确地考虑到了各经济变量之间的相互影响,有理论依据,但是由于抽样信息不完备,经济模型和经济计量模型不可能真正准确地反映了经济现实,因而得到的结果不可能是相当准确。
另一种方法是利用要预测的经济变量的过去值来预测其未来值,而不考虑变量值产生的经济背景。这种方法假定数据是由随机过程产生的,根据单一变量的观测值建立时间序列模型进行预测。这种方法在短期预测方面是很成功的。
第十章 时间序列分析
144
第一节 确定性时间序列模型一、移动平均模型并用于趋势预测。
示序列的趋势性变化,要作用是消除干扰,显模型。移动平均模型主平均表达式的模型称为移动的移动平均数序列。该称为时间序列平均数对于时间序列:
t
Ntttt
t
T
y
Nt
N
yyyy
y
yyy


,?
,,
121
21
二、加权移动平均模型
1/)(
,?
1
0
10
122110


Na
aaay
Nt
N
yayayaya
y
N
i
i
Nt
NtNttt
t
为加权因子:、、、。其中的加权移动平均数序列称为时间序列平均数
145
。,是趋势预测更加准确可通过加权因子的选取序列的趋势变化外,还用除消除干扰、显示权移动平均模型,其作该式表达的模型称为加三、二次移动平均模型对经过一次移动平均产生的序列才进行移动平均,即:
模型。模型称为二次移动平均
,该式表达的的二次移动平均数序列为时间序列由此构成的序列程 t
Ntttt
t NtN
yyyy
y
y
,

121?


四、指数平滑模型如果采用下式求得序列的平滑预测值:
的值。小为原则确定值之差的平方和最序列。以实际值与预测带入模型,计算预测值的选择:选择不同的育预测值的加权和。即预测只是前期实际智
)(
该式也可写为
。称为平滑常数,平滑模型,其中则称此预测模型为指数


11
111
1?
10
)?(





ttt
tttt
yyy
yyyy
146
五、二次指数平滑模型在一次指数平滑模型的基础上再进行指数平滑计算,即构成二次指数平滑模型。同样可以构成三次指数平滑模型。
147
第二节 随机时间序列模型的特征一、随机过程( stochastic process)
一个特定的变量在不同的时点或时期的观测值 y1,y2,…,yT,称为一个时间序列。假设这些观测值是随机变量 Y1,Y2,…,YT的实现,而随机变量 Y1,Y2,…,YT是无穷随机变量序列 Yt0,Yt0+1,…,Y1,
Y2,… 的一部分 (其中 t0可以是 -?)。这个无穷随机变量序列 Yt,t=?1,
2,…,称为一个随机过程。
一个具有均值为零和相同有限方差的的独立随机变量序列 et称为白噪声
(white noise)。如果 et服从正态分布,则称为高斯白噪声。
例如,一个一阶自回归过程:,是白噪声:
te,11ttt eYY1?
)(0),c o v (,0)v a r (,0)( tseeeeE stett 且?
假定改随机过程的起点为 t0= - ∞,可以证明 E(Yt)=0,var(Yt)=σy。这里每个随机变量的曲志都依赖于其前期水平,这是依据现在和过去的观测值预测未来值的基础。因此,度量时间序列元素之间的依赖性的协方差在序列特性描述方面非常重要。
148
二、自协方差函数和自相关函数自协方差函数是描述时间序列随机型结构的重要工具。

的自协方差函数)称为随机过程,,。自协方差序列且的函数是时间间隔。表示,因此可以用之间的时间间隔量,仅依赖于两个随机变不依赖于时点是时间不变量,这里
,有对于非负整数协方差的线性依赖关系。对于机过程两个元素之间)协方差度量了单一随称为自协方差(
之间的协方差为:和的两个元素一个随机过程
)c o v(
21(
,),c o v (
),c o v (
)()]([
)()()(
)]([)(),c o v (
])0][0([),c o v (
,
c o v
)])()][(([),c o v (
1
2
22
111
11
1
1
f u n c t i o na r i a n c ea u t o
Yk
kYYk
tYY
YYEeYYE
YYEeEYYE
eYYEYYEYY
k
YYEYY
eYY
a r i a n c ea u t o
YEYYEYEYY
YYY
tkkk
kkttk
kttY
Y
k
kttktktt
kttktktt
ktkttkttktt
Yktttt
ttt
ktktttktt
kttt



















149
。对于
:函数可以得到自相关除以随机过程的方 差每个将自协方差标准化,把方差不同:元和按美分计量的 自协资按美的计量单位。例如,工本质上依赖于随机 变量自协方差函数
,2,1,,
,2,1,0,
),(
,
),(E1 0 0 0 0)1 0 0,1 0 0(E),(E
2
2
0
1
0
0




keYY
k
A C Ff u n c ti o na t io na u t o c o r r e l
YYYYZZ
k
Y
Y
k
k
kttt
k
k
Yk
kttkttktt
k



由于只有随机过程的样本,只能根据样本数据计算出样本自相关函数
( Sample autocorrelation function),k
0
2
0
)
))(
k
k
t
ktt
k
n
YY
n
YYYY


样本自相关函数:

样本方差

样本协方差
150
三、平稳随机过程并非所有随机过程的两个元素之间的协方差都只依赖于它们的时间间隔。我们把任意两个元素之间的协方差都只依赖于它们的时间间隔,且具有常数均值和有限方差的随机过程,称为平稳过程 (stationary process):
kkttktt
t
t
YYEYY
Y
YE



)])([(),c o v ()3(
)v a r (2
)()1(
)(
平稳过程。
)也是一个(个平稳过程,而显然,白噪声过程是一 1||1 ttt eYY
如果随机过程不满足上述条件,则称为非平稳随机过程。
平稳随机过程产生的时间序列,为平稳序列。平稳性是时间序列的一个重要的特性,它保证了随机过程基本上没有结构变动,而结构变动会给预测带来困难,甚至不可预测。
151
四、平稳性的检验
1、博克斯 -皮尔斯( Box-Pierce)Q统计量平稳过程的一个显著特征是自相关函数随时间间隔 k的增大而衰减,因此,对时间序列的样本自相关函数是否显著地不为零,来检验序列的平稳性。
序列。
为非平稳同时为零的假设,序列临界值,则拒绝大于一定显著水平下的统计量分布。如果计算的的遵循自由度为统计量近似(大样本)
为滞后长度。为样本容量,其中统计量定义为:
k
m
k
k
mQ
mnnQ
Q
Q
,?
2
1
2
2、单位根检验( Unit root test)
考虑以阶自回归模型:
则存在单位根。若是否显著等于作回归,检查。因此可对,则为非平稳时间序列如果白噪声。其中
11
1
e,
1
t1



ttt
ttt
eYY
eYY
152
影响。消除截距项和趋势项的后面的两个式子式为了
,即存在单位根。为以上形式中,原假设均为时间或趋势变量。在其中检验:常用以下形式的回归作是非平稳的。
列值的绝对值,则时间序,反之,如果小于临界时间序列是平稳的假设给的绝对值,则不拒绝所临界统计量的绝对值超过如果计算的检验。富勒(该检验称为迪基的假设。绝值的比较来决定是否拒统计量表,根据与临界通过查找统计量。分布,将之称为统计量不遵从的由于按通常方式计算的
。是否显著为检验进行估计,形式:或者对其一阶差分后的
0
)
1
t
0
)1(
121
11
1
11











t
eYtY
eYY
eYY
DF
DF
DF
t
eYeYY
ttt
ttt
ttt
k
ttttt
153
tpptpttt
p
pp
ttttt
ttt
YLYYYY
LLLL
eYeLYY
eYY
)(|
|1)(
)1(
2211
2
21
1



简洁地写为:可以把项式:使用滞后算子表示的多或
:利用滞后算子可改写为例如,





一、滞后算子定义滞后算子 (lag operator)L:
LYt = Yt-1
其中 Yt 和 Yt-1为随机过程中的元素,而
L2Yt = L[L(Yt)]= LYt-1= Yt-2
一般地,对任意正整数 n,有 LnYt = Yt-n,L0Yt = Yt
第四节 AR,MA,ARMA模型
154
二、自回归模型( auto-regressive,AR)
1,AR模型如果时间序列 y1,y2,…,yT,的生成过程的形式为:
估计自回归参数。由此可知,可以利用不相关。、、、与且参数。参数,是模型的待估计为自回归、、、。阶自回归模型,缩写为上式表示的模型为归序列。则称该时间序列为 自回或和白噪声的线性函 数:
为它前期值时间序列阶自回归过程,生成的程称为具有这种形式的随 机过或用滞后算子可表示 为:
。时且为白噪声:其中
O L S
yyyeNe
pARp
eyLLLeyyyy
yp
eYLeYLLL
eetseEe
eYYYY
pttttet
p
tt
p
ptptpttt
t
ttptt
p
p
sttt
tptpttt








21
2
21
2
212211
2
21
2211
),,0(~
)(
)1(
)()1(
0)c o v (,0)(




155
pkpkk
k
k
pkpkk
pkttpkttktt
ktpktpktkttkttkttk
tptpttt
r
r
rrr
yyEyyEyyE
eyyYyEyyEyyr
eyyyy
p















2211
0
2211
2211
2211
2211
)()()(
)]([)(),c o v (
因此,自相关函数为:
的自协方差函数为阶自回归序列:
2,AR模型的自协方差函数和自相关函数
3,AR模型的平稳性
,则该序列是平稳的。的模解外,即:的所有根抖落在单位圆若多项式:
过程:对于
1||
1)(
)(
22
0210
2
21
2211
21



zzzizzz
zzzz
eyyyypAR
p
pp
tptpttt


156
二、移动平均模型( Moving Average,MA)
1,MA( q)模型如果时间序列 yt为它的当期和前期的误差和随机项的线性函数,即型的待估计参数。为移动平均参数,是模
、、、。其中阶移动平均模型,记为为具有这种形式的模型称或用滞后算子可表示为:
为移动平均序列。则称该时间序列
q
ttptt
q
q
t
qtqtttt
qMAq
yeLyeLLL
y
eeeey



21
2
21
2211
)(
)()1(


2,MA模型的自协方差函数和自相关函数
)](
)[()(
)1(])[()(
0)()(
,)(0,0)(0,0)(
2211
2211
22
2
2
1
22
2211
2211
2
qktqktktkt
qtqtttktt
qqtqttttt
qtqtttt
tjttjtt
eeee
eeeeEyyE
eeeeEyyE
eeeeEyE
eeEjeeEjeE
e
e















时,当时,而当根据
157
0,
1,0
0)(,
)(0
0
0
22
0
2
0
0
2





k
q
i
i
kq
i
kii
k
k
kttk
kq
i
kiikttk
qk
qk
yyEqk
yyEqk
e
e
e



时当
。其中时,当自相关函数为:
时当时,当
158
三、自回归移动平均模型( ARMA)
如果时间序列 yt为它的当期和前期的误差和随机项,以及其前期值的线性函数,即
tqtp
t
p
pt
q
q
t
qtqtttptpttt
eLyL
yLLLeLLL
y
eeeeyyyy
)()(
)1()1(
2
21
2
21
22112211






或用滞后算子可表示为:
。为自回归移动平均序列则称该时间序列


待估计参数。
型的为移动平均参数,是模、、、为自回归参数,、、、其中
。,记为阶自回归移动平均模型为具有这种形式的模型称
qp
qpA R M Aqp
2121
),(),(
159
四,AR 模型的估计
1、已知阶数 p的 AR( p)模型的估计如果样本为 AR过程生成:
Tteyyyy tptpttt,2,12211,
。数估计量解方程组,即可得到参可得到正规方程组。求根据最小二乘原理,令残差平方和:
估计参数。
)最小二乘法(随机项相互独立,可用的情况下,由于单个的
,在知道阶数。根据模型的线性形式、、、待估计参数为
θ
θ
θ
0
)

(2
)
(
)]

([?)
(
1
2211
2
2211
11
2
21







it
T
pt
ptpttt
i
ptptt
T
pt
t
T
pt
p
yyyyy
S
yyyyeS
LS
p
t



160
把观测值写成矩阵形式:

。量:白噪声过程的方差估计
。)(一致估计量为:
。其中的方差协方差矩阵为:服从正态分布。为一致估计量,且渐进
)(
量:。参数的最小二乘估计即:
pT
T
yyE
e
e
e
yyy
yyy
yyy
y
y
y
pppppp
e
ppe
kttk
ppp
p
p
e
p
ppppp
ppp
Tp
p
p
p
pTtT
pp
pp
p
p
p
2
)()'(
/'?
)(,
''
1
0321
2101
1210
1
2
1
21
21
21
11
1
2
1




θxyθxy
xxΩ
Ω
θ
yxxxθ
eθxy
θ
θ






161
2,AR( p)模型的阶数 p的确定对于给定的一组时间序列数据,识别 AR过程阶数的一种方法,是估计递增阶 k,并检验 k阶 AR过程中第 k个系数 θ k的显著性。这个系数称为第 k个偏自相关系数 ( partial autocorrelation coefficient),记为 θ kk。偏自项关系数计量了不能由 AR(k-1)解释的 yt和 yt-k之间的相关程度。
偏自相关序列 θ kk( k=1,2,… )称为 偏自相关函数 ( partial auto-
correlation function)。
该区间内即可。),看估计值是否落在(
置信区间:可以建立为样本容量),因此,的正态分布(方差为值为零,的情况下,近似服从均在,则估计量的偏自相关阶数为的实际果。对于大样本来说,如统计量进行显著性检验可以计算
)。(假定样本均值为中最后一个下标对应的)(为估计值的估计量分布。对应的的显著性,需要知道为了检验
,时,,当时,当
,使实际上就是选择适当的确定阶数
TT
TT
pkp
ARt
pkpk
kkkk
kk
kkkkkk
kkkkkk
kkkk
2
,
2
%95/1
0''
00
kp,
1





yxxxθ
162
五,MA 模型的估计
1、阶的确定
MA过程的自相关函数为:
)(,2,1,))((
1
,,
0,
1,0
0
0
21
0
0
22
0
2
0
较小相对于其中,
的一个常用的估计量是,对于时间序列性检验。
估计值,再进行显著数据计算自相关系数的否为零,可以用得到的是定一个特定的的下标相对应。为了确的阶与非零的因此,
时当
。其中时,当
TNNkyyyy
T
c
c
c
r
yyy
MA
qk
qk
T
i
kttk
k
k
kT
kk
k
q
i
i
kq
i
kii
k
k
e
e






163
。)中,则拒绝,不落在区间(若置信水平,的正态分布。如果设定近似服从零均值方差为情况下,关的显著性。在大样本的显著性,以检验自相检验
0
22
0
%95/1
1
1


kkk
k
k
T
t
t
T
r
T
r
Tr
r
y
T
y
2、参数估计可采用最大似然法估计参数。若 MA(q)的样本均值为零,et服从正态分布,则可构造似然函数:
估计量。的的最大化,求解出通过的方差协方差矩阵。为为参数项量,其中
MLl
l
e
y
y
e
e
e
y



)|,(
e x p|)(|
)2(
1
)|,(
2
)
2
'
(
2/1
2
2
2
1
y

Ωy
yΩy
164
六,ARIMA 模型
1,ARMA与 ARIMA
ARMA(p,q)的阶的确定,仍可使用自相关和偏自相关函数。如果自相关函数小时很慢,则该过程可能是不平稳的。
对 yt进行差分,如果差分后的序列是平稳的,则称 yt为 自回归单整移动平均过程 ( autoregressive integrated moving-average process),用
ARMA(p,1,q)表示。如果 yt须经过 d次差分后转变为平稳过程,则称
ARIMA(p,d,q)。
在确定 p,d,q后,即可对模型进行估计。
2、博克斯 -詹金斯方法 (Box-Jenkins Approach)
时间序列的博克斯 -詹金斯方法是对于给定的彝族数据,寻求一个可适当表示数据生成过程的 ARIMA模型的一种方法。该方法分三个阶段:识别、
估计和诊断校验。
( 1)识别。在估计自相关和偏自相关的基础上,对数据设定一个试验性的
ARIMA模型。
如果自相关函数衰减慢或不消失,说明序列非平稳,需要进行差分,
直至得到一个平稳序列。
165
对于 MA(q)过程,可用样本的自相关函数找到截止点,确定阶数 q。
对于 AR(p)过程,利用偏自相关函数确定截止点 k和阶数 p。
如果自相关和偏自相关都没有截止点,则可考虑 ARMA模型,并设法确定模型的阶数。
( 2)估计。在确定模型及阶数的基础上,进行参数估计。
( 3)诊断校验。主要方法有:
i)进行残差分析,检验残差是否为白噪声。可利用残差的散点图,以及估计残差自相关进行检验。
检验残差的自相关可使用 Q统计量进行:
分布。)的近似于自由度为(的阶,如果正确设定了为滞后长度。为样本容量,其中
2
1
2
,
)2(
qpkQA R M A
mn
kT
TTQ
m
k
k


ii)过度拟合已设定的模型。如果以识别和估计 ARMA( p,q),则再估计
ARMA(p+1,q)和 ARMA(p,q+1),并检验而外参数的显著性。