第3讲 回归与ARMA组合模型
已经学习回归模型和时间序列模型,如果把这两种分析方法结合在一起,有时会得到比其中任何一种方法都好的预测结果。
例如有如下回归模型
yt = (0 + (1 xt + ut (1)
其中xt是解释变量,yt是被解释变量,ut是随机误差项。上述模型的估计式是
yt =+xt +
令= 0,用上式可预测yt的值。是一个平稳的、非自相关的残差序列。当存在自相关时,时间序列分析的一个有效应用是对残差序列建立ARMA模型。然后将上式中的残差项用ARMA模型替换。在利用上述模型预测yt时,可以利用ARMA模型先预测出的值。有时,这会使yt的预测值更准确。
这种回归与时间序列相结合的模型形式是
yt =+xt + ( -1(L) ( (L) vt (2)
其中= ( -1(L) ( (L) vt,或写成( (L)= ( (L) vt。vt是服从正态分布的、非自相关的误差项。vt的方差一般与不一样。这种回归与时间序列相组合的模型称作转(变)换函数模型(transfer function model),多元(变量)自回归移动平均模型(multivariate autoregressive -moving average model),简称MARMA模型,或回归与时间序列组合模型(combined regression-time series model)。
假设(1)式中的ut是一个ARMA(1,1)过程,则估计(1)式的EViews估计命令是
Y c X AR(1) MA(1)
注意:
(1)如果(1)式中的ut是一个AR(1) 过程,则回归与ARMA组合模型表达的就是误差项为一阶自相关的经典回归模型。
(2)以(2)式为例,按Wold分解定理,也可以对转换函数模型作如下理解。yt - (0 - (1 xt = ut表示在yt中剔除了确定性影响(0 +(1 xt后所得序列ut是一个不含任何确定性成分的平稳的随机序列。用ut建立时间序列模型。
回归与ARMA组合模型也可以由被解释变量及其滞后项、一个或多个解释变量及其滞后项、和描述随机误差序列的时间系列模型3部分组成。
只含有一个解释变量的组合模型可写为,
A(L) yt = (0 +( dt +B(L) xt +vt (3)
其中ut =( -1(L) ( (L) vt。(0 表示常数(漂移项)。dt 表示yt的线性确定性成分,如周期性成分、时间t的多项式和指数形式,虚拟变量等,可以直接用t预测。通过对特征多项式A(L)、B(L)、( (L)、( (L)的约束可以得到组合模型的不同特殊形式。整理如表1。
站在回归模型基础上看组合模型(3),是通过把模型误差项拟合成ARMA形式从而提高回归系数(j,(j的有效性。
站在时间序列模型基础上看组合模型(3),是把解释变量B(L)xt看作yt中的确定性成分,通过回归,把这些确定性成分从yt中减掉,从而对一个平稳误差序列建立ARMA模型。
通过对组合模型的施加约束条件可以得到各种形式的模型。
表1 组合模型及其各种特殊形式名称
模型形式
约束条件
组合模型(一般形式)
A(L) yt = (0 +(dt + B(L) xt +vt

分布滞后模型
yt = (0 +(dt +B(L) xt + vt
A(L) = ( (L) = ( (L) = 1
动态分布滞后模型
A(L) yt = (0 +B(L) xt + vt
( (L) = ( (L) = 1,(=0
自回归(AR)模型
A(L) yt = (0 +vt
B(L) =0,( (L) = ( (L) = 1,(=0
移动平均(MA)模型
yt = (0 +((L) vt
A(L) =1,B(L)=0,( (L) = 1,(=0
自回归移动平均(ARMA)模型
A(L) yt = (0 +((L) vt
B(L)=0,( (L) = 1,(=0
ARMA误差项的分布滞后模型
yt =(0 +B(L) xt +vt
A(L) =1,(=0
线性回归模型
yt = (0 +(dt +(0 xt + vt
A(L) = B(L) = ( (L) = ( (L) = 1
注:(0 表示常数(截距项)。dt 表示yt的线性确定性成分,如周期性成分、时间t的多项式和指数形式,虚拟变量等,可以直接用时间t预测。A(L)、B(L)、( (L)、( (L)是特征多项式,B(L)的第1项是(0,不必为1。
回归模型和ARMA模型都包括在组合模型之中。他们只不过是组合模型的一个特殊形式。
进一步分析发现,回归与ARMA组合模型实际上是动态分布滞后模型的一种表现形式。假定有如下组合模型,
yt = (0 + (1 xt + ut (1)
ut = (1ut-1 + vt (2)
vt ( IN(0,(2)
用滞后算子形式改写(2)式,
(1-(1L) ut = vt
ut =vt
把上式代入(1)式,
yt = (0 + (1 xt +vt (3)
上式两侧同乘(1-(1L),得
(1-(1L) yt = (1-(1L) (0 + (1 (1-(1L) xt +vt
yt = (1 yt-1 + (1-(1) (0 + (1 xt -(1(1 xt-1 +vt
可见如果回归模型误差项是1阶自回归形式。实际上yt是一个一阶自回归分布滞后模型,只不过对xt-1的系数多加了一个约束条件。若xt-1的系数用(2表示,则约束条件是,
(2 = -(1(1
以组合模型一般形式
A(L) yt = (0 +( dt +B(L) xt +vt
为例,可变换为,
A(L) ( (L) yt = (0( (L) +( dt ( (L)+B(L) ( (L) xt +( (L)vt
如果A(L)阶数为n,B(L) 阶数为m,( (L)阶数为p,那么一般组合模型(4)实际上是一个带有确定性成分的ADL(n+p,m+p) 模型。
组合模型主要有三种用处。(1)克服回归模型中的自相关;(2)对序列做长期预测;
应用1:用组合模型克服回归模型中的自相关。
【案例1】(file,5autoco7,5autoco7b)中国储蓄存款总额(DEPO,亿元,1960-2001)、储蓄存款年增加额(储蓄存款余额序列的差分序列)(Y,亿元,1970-2006)对GDP(亿元)的计量经济模型。
包括两项内容:(1)储蓄存款年底余额对GDP的计量经济分析(总量对增量);(2)储蓄存款年增加额(储蓄存款余额序列的差分序列)对GDP的计量经济分析(增量对增量)。
从分析方法上包括如下内容:作图分析;边际系数分析,弹性系数分析;线性模型分析,非线性模型分析;回归模型分析,组合模型分析;估计方法上包括OLS估计,WLS估计,ML估计。
见下图分析储蓄存款年底余额与GDP的比率序列(DEPO/GDP,1970-2006)。
 
先回忆用广义差分的方法克服自相关。用Yt对GDPt回归(eq03),
DEPOt = -3028.56 + 0.6975 GDPt (5)
(-4.6) (36.6) R2 = 0.97,DW=0.18,T = 42,(1960-2001)
残差图如下,

图1 线性模型的拟合与残差图

(2阶自相关的LM检验结果,存在自相关。)

(无交叉项White异方差检验结果,存在异方差。)
由图1、2阶自相关的LM检验结果和White异方差检验结果可以看出模型既存在自相关又存在异方差。
下面尝试建立对数线性模型。(eq01)
LnDEPOt = -8.8685 +1.7647 LnGDPt (6)
(-38.9) (69.6) R2 = 0.99,DW=0.23,T = 42,(1960-2001)
 
图2 对数线性模型的拟合与残差图

(2阶自相关的LM检验结果,存在自相关)

(无交叉项White异方差检验结果,不存在异方差。)
由图2、2阶自相关的LM检验结果和White异方差检验结果可以看出对数模型仍然存在自相关,但不存在异方差。
用模型的残差序列做2阶自回归,结果如下,
RESt = -0.0094 +1.18 RESt-1 -0.36 RESt-2 (7)
(-0.6) (8.0) (-2.4)
R2 = 0.81,DW=1.65,T = 40,(1962-2001)
模型残差中存在2阶自相关形式。
先回忆用广义差分方法克服自相关。
克服自相关方法(1):采取2阶广义差分变量回归,估计参数。定义2个广义差分变量如下:
GLnYt = LnYt -1.18 LnYt-1+0.36 Ln Yt-2 (8)
GLnGDPt = LnGDPt -1.18 LnGDPt-1+0.36 LnGDPt-2 (9)
得估计结果。
GLnYt = -1.5820+1.7505 GLnGDPt (10)
(-15.8) (29.5) R2 = 0.96,DW=1.64,T = 40,(1962-2001)
做异方差和自相关检验如下。

(1阶自相关LM检验结果)

(2阶自相关LM检验结果)

(无交叉项White异方差检验结果)

观测值、拟合值、残差
模型符合要求。储蓄存款总额(Y,亿元)对GDP的弹性是1.75。即GDP每增长1%,储蓄存款总额增长1.75%。
克服自相关方法(2):用回归与ARMA的组合模型克服自相关估计回归参数。
观察(6)式的残差序列的相关图、偏相关图。应该是2阶自回归过程,(7)也证明了这一结论。

((6)式残差序列的相关图、偏相关图)
在对数线性模型(6)的基础上再加入两个AR项。得估计结果,
LnYt = -8.7350 +1.7443 LnGDPt + 1.1840AR(1) -0.3511AR(2) (11)
(-13.6) (25.2) (7.8) (-2.3)
R2 = 0.998,DW=1.64,T = 40,(1962-2001)


(自相关检验结果)

(异方差检验结果)

通过以上自相关和异方差检验,模型中已不存在自相关和异方差。模型符合要求。
储蓄存款总额(Y,亿元)对GDP的弹性是1.74。即GDP每增长1%,储蓄存款总额增长1.74%。
弹性系数的OLS估计结果是1.765,GLS估计结果是1.751,回归与ARMA组合模型估计结果是1.744。
注意:这个方法要求对ARMA模型的设定一定要正确,否则对回归系数影响非常大。
下面利用组合模型预测。预测分结构模型预测和非结构模型预测。非结构模型预测是指ARMA项参与预测计算的预测方法,结构模型预测是指ARMA项不参与预测计算的预测方法。
用1962-2000年数据估计模型,然后对2001年做样本外一期非结构模型预测结果是


结构模型预测结果是

下面分析储蓄存款年增加额(Y,亿元)与GDP(亿元)的关系。(5autoco7b)

储蓄存款年增加额(Y)与GDP的比率序列(Y/GDP) 储蓄存款年增加额(Y)对GDP的散点图
表3 分析储蓄存款年增加额Y对GDP的关系解释变量
模型8,Yt
(OLS)
模型15,Yt
(GLS)
模型9,Y
(OLS+D)
C
((
(()
((
(()
-1870.52
(-4.7)
GDP
0.10
(31.6)
0.1002
(20.7)
0.10
(20.1)
AR(1)
0.48
(3.2)
R2
0.9472
0.8832
0.9593
DW
1.0
1.8
1.83
LM(1)
(p)
7.8
(0.01)
0.0
(1.00)
0.18
(0.67)
White
(p)
3.1
(0.08)
12.8
(0.00)
13.3
(0.00)
1970-2006
T =37
T =37
T = 37
注:第一栏中不带括号的数字是相应变量的回归系数值,括号内数字是t值。LM(1)、DW表示1阶自相关检验统计量。White表示异方差检验统计量。R2表示可决系数。
模型8和模型9对GDP系数的估计几乎无差异。GDP每增加1亿元,储蓄存款年增加额Y增加0.1亿元人民币。
见下图对数模型11和倒数模型12比较,倒数模型12更合理。以倒数回归和AR(1)组合模型12b讨论储蓄存款年增加额Y对GDP的弹性,
 
对数变量的对数模型(模型11) 对数变量的倒数模型(模型12,更好些)
LnY = 22.4 -150.86+ 0.69 AR(1)
(20.2) (-13.6) (6.5) R2 = 0.9891,DW = 1.64,LM(1)=1.1,White=5.0
LnY 对LnGDP的导函数是

约在1972年和2006年储蓄存款对GDP的弹性分别是
(约在1972年)
(约在2006年)
需要注意的是1972年GDP增加1%(25亿元),储蓄存款年增加额Y增加2.46%(较大),但只相当于增加0.4亿元,而2006年GDP增加1%(2108亿元),储蓄存款年增加额Y只增加1.01%(较小),但相当于增加205亿元。虽然2006年的弹性系数小,但增加值却大很多。
表4 分析储蓄存款年增加额Y对GDP的弹性关系解释变量
模型11,LnYt
(OLS)
模型11b,LnY
(OLS+ AR)
模型12,LnY t
(OLS)
模型12b,LnY
(OLS+ AR)
C
-31.8
(-22.6)
-26.4
(-6.3)
23.60
(46.5)
22.40
(20.2)
LnLnGDP
16.87
(27.2)
14.6
(8.2)
((
(()
((
(()
1/LnGDP
((
(()
((
(()
-163.47
(-34.3)
-150.86
(-13.6)
AR(1)
((
(()
0.77
(8.4)
((
(()
0.69
(6.5)
R2
0.9547
0.9882
0.9711
0.9891
DW
0.31
1.67
0.45
1.64
LM(1)
(p)
21.5
(0.00)
0.66
(0.41)
17.4
(0.00)
1.1
(0.30)
White
(p)
3.8
(0.15)
6.2
(0.05)
3.3
(0.2)
5.0
(0.08)
1970-2006
T =36
T =36
T =37
T = 36
注:第一栏中不带括号的数字是相应变量的回归系数值,括号内数字是t值。LM(1)、DW表示1阶自相关检验统计量。White表示异方差检验统计量。R2表示可决系数。
应用2:用组合模型进行长期预测。
对含有确定性成分(如时间t,季节性虚拟变量D等)的序列采用组合模型进行长期预测,有时预测效果更好。由于样本外预测属于动态预测,纯时间序列模型优于短期预测,长期预测效果欠佳。由于组合模型中含有时间趋势项,以及描述周期变化的虚拟变量,所以优于长期预测。
案例3:用组合模型预测(file:5b2c3a)
北京市1978:1~1989:12社会商品零售额月度数据(yt)曲线见图1。yt与时间呈指数关系且存在递增型异方差。对数的社会商品零售额月度数据(Lnyt)曲线见图2。Lnyt与时间近似呈线性关系(异方差问题也得到抑制)。
 
图1 yt 图2 Lnyt
首先拟合趋势。

 
尚有大量的周期成分没有被模型描述。残差的相关图偏相关图表现出季节特征。

相关图也说明残差序列中含有季节成分。向模型中加入11个月度虚拟变量(B2(B12)。
Bi = ,i = 2,3,…,12
得回归结果,

 
R2由0.974提高到0.987。残差中的季节特征大幅减少。相关图偏相关图表现出平稳特征。由相关图偏相关图,应继续向模型加入AR(1)、AR(2)项,

得输出结果如下,

去掉不显著的t2项和虚拟变量B12项,重新回归,对应的残差的相关图偏相关图显示第12期自相关仍很高,并呈季节特征。

把SAR(12)加入模型(注意:加入AR(12)项不妥),剔除不显著的t2项,得输出结果如下,

 
对应的残差的相关图偏相关图如下,Q统计量合格。

残差序列服从正态分布。

样本外预测结果。

这种预测结果更适合于长期预测。
案例4:用组合模型预测中国货币供应量(M1,亿元)(2000-1(2006-11)(file:6ChinaM1)
(存量数据)
 
中国货币供应量(M1,亿元)(2000-1(2006-11) 中国对数的M1
大体上每年的2、3、4月份货币供应量,然后逐月上升,直至来年1月份达到最大。对于中国,每年的2、3、4月份是生产活动的淡季。序列存在年度周期,每个月份的变化有规律吗?

图3 估计趋势
 
图4 图3对应的残差图 图5 图6对应的残差图

图6估计趋势加虚拟变量

加AR(1)和 AR(2)再一次观察散点图,加MA(5),MA(8) 和SMA(12)。的结果如下:


(两个移动平均的特征根为(1是四舍五入的结果。其实是小于1,可从下表中得知`。)
 


样本内预测结果
 
样本外预测结果
样本外预测值
obs
M1F2
M1F2+2*M1F2SE
M1F2-2*M1F2SE
2006M12
125804.6
127647.6
123961.6
2007M01
128275.3
130283.0
126267.6
2007M02
124303.1
126548.8
122057.4
2007M03
127607.7
130028.4
125187.1
2007M04
127374.4
129903.8
124845.0
2007M05
129196.2
132145.1
126247.2
2007M06
133740.1
136929.6
130550.6
2007M07
133108.5
136438.1
129778.8
2007M08
135893.0
139722.7
132063.2
2007M09
138536.9
142612.2
134461.7
2007M10
140252.5
144558.3
135946.8
2007M11
142560.3
147056.5
138064.1
2007M12
146981.7
151732.5
142231.0
2008M01
149021.8
153833.1
144210.5
2008M02
144859.9
149572.2
140147.6
2008M03
148024.4
152843.9
143204.9
2008M04
148033.1
152865.4
143200.8
2008M05
150506.5
155545.9
145467.1
2008M06
155540.4
160780.9
150300.0
2008M07
154224.6
159472.2
148976.9
2008M08
157560.2
163152.0
151968.5
2008M09
160405.1
166177.9
154632.3
2008M10
161835.9
167759.3
155912.4
2008M11
164883.8
170980.4
158787.2
2008M12
170564.0
176932.1
164195.9