§2.7 序列相关 一、含义 1、概念:序列相关(serial correlation)与自相关(autocorrelation)通常不加区别,按时间(如在时间序列数据中)或者空间(如在截面数据中)排列的观测值序列的成员之间的相关。 2、含义:古典假定 Cov(, 不成立,即 Cov(,  其余假定一应成立。 二、产生的背景(机理或原因) 1、惯性 多数经济界时间序列都有一个明显的特点,就是它的惯性或者粘滞性。 2、设定偏误(遗漏相对重要的解释变量) 3、设定偏误(不正确的函数形式) 4、蛛网现象 5、滞后效应 6、数据的“编造” (对数据的统计处理) 三、序列相关的后果 1、残差方差很可能低估了真实的 2、很可能高估了R2 3、参数估计虽仍为无偏的,但却不是有效的(参数估计量的稳定性下降,低估参数估计量的方差) 4、通常的t检验和F检验都变成无效的了 四、序列相关的检验 (一)一般方法 1、图解法 2、游程检验 3、冯诺曼比检验 4、高阶序列相关的布劳殊—戈弗雷(Breusch—Godfrey)检验 (二) 德宾—瓦特森(Durbin —Watson)检验 1、D.W.统计量: D.W.(d)= d 统计量的最大优点在于它仅只依赖于残差的估计值,而后者在回归分析中照例被计算出来了,与t值、R2 值、F值等摘要统计量一起报告,已成为统计软件的常规。 2、d统计量(D.W.检验)使用的前提 回归方程含有截拒项 诸解释变量是非随机的 随机误差项是一阶自回归模式 回归模型不把滞后应变量当作解释变量 没有缺落数据 3、d统计量的取值范围 ——样本一阶自相关系数,作为的估计值 d 2(1- 0≤d≤4 即如果没有序列相关,则可以预期d=2,因此作为一种经验法则,如果在一项应用中求出d=2便可以认为没有自相关。  ,表明残差中有完全的自相关,则d=0,因此d越接近于0,正的序列相关迹象越明显。  ,表明残差中有完全的负自相关,则d=4,因此d越接近于4,幅序列相关的迹象越明显。 4、Durbin —Watson检验的操作步骤: 做OLS回归并获取残差 计算d值 对给定的样本容量及解释变量数找出临界值dL和 dU 4)按下表的决策规则进行检验 条件 决策  0<d<dL 有正的序列相关 dL≤d≤dU 无结论 du<d<4-dU 没有序列相关 4-dU≤d≤4-dL 无结论 4-dL<d<4 有负的序列相关  借助下图帮助记忆: 正的序列相关 无结论 无序列相关 无结论 负的序列相关  0 dL dU 4-dU 4-dL 4 一个例子 假设在一个回归中用了50个观测值和4个解释变量,估计得。从德宾—瓦特森表查得5%水平的临界值为 dL =1.38 dU = 1.72 <1.43=d<1.72=dU 不能确定有无序列相关 补救措施 (一)自相关的结构已知 1、广义差分法: (1)假定遵循一阶自回归模式,即:  其中 <1(已知),而满足关于随机误差项的一切古典假定 (2)方法(以一元线性回归为例说明) 设  (a) 如果上式在时刻t成立,则在时刻t-1也成立,即  用乘(a)式两端,得  (b) (a)—(b)便得   = (c) 于是有: (t=2)  其中  ,  由于满足全部OLS假定,故可对转换变量 和应用OLS并获得BLUE。 注:为减少数据损失,规定 ,  2、一次差分法 (1)当时广义差分方程(c)变化为一接差分方程如下:   或  (d) 其中:   注意:一阶差分方程没有截距项,因而须用过原点回归模型来做(d) (2)当时,广义差分方程(c)将变为:  或 (移动平均回归) (e) 3、的估计方法 (1)根据Durbin —Watson d统计量估计(大样本) d = 2 ( 1-  (2)Cochrane——Orcutt 迭代法  以OLS估计模型并计算残差et 利用残差作如下的回归  利用上式所得做广义差分方程  或  以OLS估计做上述回归冰球的新的残差 现在估计回归  如此循环直到相继的的估计值差的绝对值小于一个 事先给定的数(比如0.001获0.0005)为止(一般3 到4次就可以了) (3)Cochrane——Orcutt 两步法 (4)Durbin 两步法先将广义差分方程(c)等价地写为:  (f) 步骤:第一、以OLS估计(f),并把得回归系数的估计值视为的一个估计值; 第二、求得后把变量转化为 ,  然后如同那样,对转换的变量做回归 评价:其第一步为估计,第二步则估计回归系数 (5)其他方法 最大似然法 Hildreth—Lu 扫描或搜寻法 可性的或估计的广义最小二乘法(EGLS) e) Thail—Nagar小样本逼近法 例子:零工招聘指数(HWI)与失业率(U)的关系 年与季 HWI,1957~1959=100% U(5%)   1962-1 104.66 5.63 -2 103.53 5.46 -3 97.30 5.63 -4 95.96 5.60 1963-1 98.83 5.83 -2 97.23 5.76 -3 99.06 5.56 -4 113.66 5.63 1964-1 117.00 5.46 -2 119.66 5.26 -3 124.33 5.06 -4 133.00 5.06 1965-1 143.33 4.83 -2 144.66 4.73 -3 152.33 4.46 -4 178.33 4.20 1966-1 192.00 3.83 -2 186.00 3.90 -3 188.00 3.86 -4 193.33 3.70 1967-1 187.66 3.66 -2 175.33 3.83 -3 178.00 3.93 -4 187.66 3.96  其中:HWI为零工招聘指数,U为失业率。 选做经验研究的回归模型为:  先验地预期是负的(为什么?) 假设所有的OLS假定均被满足,可的回归方程:  t =(65.825)(-21.612) N=24 R2=0.9550 d =0.9109 对于24个观测值和一个解释变量,5% ,D—W表给出 dL=1.27, dU=1.45 ,即: d=0.9108<1.27=dL 表示有真的序列相关存在。为此先估计 方法 值  Durbin—Watson 0.5446 Thail—Nagar 0.5554 Cochrane—Orcutt步骤I 0.5471 迭代Ⅱ 0.57223 迭代Ⅲ 0.57836 迭代Ⅳ 0.57999 迭代Ⅴ 0.58040 Durbin两步法 0.79517   不妨取 Thail—Nagar小样本逼近法 =0.5554 把数据变换如下:   且  , 从而得:  N=24 t =(35.583) (-11.045) R2=0.9684 ,d=1.83 d=1.83 dU=1.45<1.83=d<2.55=4-dU 表明已经没有一阶自回归形式的序列相关 §2.8 多重共线性 一、多重共线性的性质 (一)概念及性质 1、概念: 多重共线性(multicolinearity)一词由弗里希(Frisch)引入,其原意为一个线性模型中的一些或全部解释变量之间存在一种“完全”或准确的线性关系。而在计量经济学中系指解释变量之间的完全和欠完全的线性关系。 为说明该定义,设计如下的数据:     10 50 52 15 75 75 18 90 97 24 120 129 30 150 152  很明显,,即与之间有完全的线性关系并且相关系数为1;变量不外是把随机数表的读数2,0,7,9,2加到上产生的,它们之间不具有完全的线性关系,但确是高度相关的(相关系数为0.9959)。 2、性质:解释变量的样本之之间所表现出来的数据之间的相互依存关系的线性关系。 二、导致多重共线性的原因 数据采集所用的方法。 模型或从中取样的总体受到约束。 模型设定。 一个过度决定的模型。 三、多重共线性的后果 (一)、理论后果 完全共线性的后果:回归系数是不确定的而且其标准差是无穷大。 “高度”或“不完全”多重共线性的后果: 即使是近似多重共线性的情形,OLS估计量仍然是无偏的,但无偏性是一种重复抽样的性质 共线性并不破坏最小方差性质,但却只能是线性无偏估计量中的最小方差,而且并不能保证一个OLS估计量的方法差是最小的 多重共线性本质上讲是一种样本(回归)现象(即使总体中诸解释变量没有线性关系,但在具体获得的样本中仍可能有线性关系) (二)、实际后果 近似或高度多重共线性可能招致以下后果: 1、虽然OLS估计仍然是BLUE的,但有大的方 差和协方差,故难以作出精确的估计。 2、执行区间将要宽得多。 3、一个或多个系数的t统计量倾向于统计上不显著,而且可能出现错误的符号。 4、虽然一个或多个系数的t统计量在统计意义上不显著,但总的拟和度R2人可能非常之高。 5、OLS估计量及其标准误对数据的微小变化也会是敏感的。 四、多重共线性的侦察 (一)、一个事先的忠告 多重共线性是一个程度而非有无的问题。有意义的区分不在于有无之间,而在于它的不同程度。 由于多重共线性是对被假设为非随机的解释量的情况而言,所以它是一种样本而非总体特征。 3、 由于1与2的缘故以下所有的方法不能叫做检验, 而只能叫做侦察,一切均具有经验的性质。 (二)一个说明性的例子:消费支出与收入和财富的关系 假设有如下的假设数据: 关于消费支出Y,收入X1和财富X2的假想数据 Y(元) X1(元) X2(元)  70 80 810 65 100 1009 90 120 1273 95 140 1425 110 160 1633 115 180 1876 120 200 2052 140 220 2201 155 240 2435 150 260 2686  如果我们假设消费支出与收入和财富有线性关系,则根据上表的数据可估计的如下的回归:  (1)  R2 = 0.9635  df =7 F=92.4019 虽然,每个解释变量的系数在统计上都不显著(截距除外),但F统计量在统计上是极为显著的,且校正的可决系数也很大。 该例子生动地表明多重共线性是怎么回事。F检验是显著的,解释变量X1与X2的t值个别的看又是不显著的,这一事实本身就说明两个解释变量的相关程度如此之高,以至无法辨别或财富对消费出的个别的影响。事实上,如果我们做X2对X1的回归便得到:  (2) t =(0.2560) (62.0405) R2 =0.9979 这表明X1与X2之间几乎存在完全的共线性。 现在做Y仅对X1的回归:  (3) t = (3.8128) (14.2432) R2=0.9621 在(1)中收入变量在统计上是不显著的,而现在则是高度显著的。如果做Y对X2的回归则得:  (4) 可见财富对消费支出也有显著的影响,而在(1)中则是不显著并且量符号也是错误的。 回归(3)与(4)非常明显的表示,在极端多重共线性的情况下,去掉一个高度共线性的变量常常会使其他解释变量变得统计上显著,解决极端共线性的一个办法,是扔掉共线性的变量。 (三)经验方法 R2值高而显著的t的比率小。这是多重共线性的“经典征兆”,前面的支出—收入—财富一例已经清楚地说明这一事实。 解释变量之间有高度的两两相关。计算简单相关系数判断(须注意的是简单相关系数并不提供判别多重共线性的一个准确的指南) 检查偏相关。计算解释变量间的偏相关系数,并作显著性检验。 辅助回归。做每一个Xj 对其余X变量的回归,并计算出相应的可决系数R2j;这样的回归叫做辅助回归(auxiliary regression)以辅助Y对诸X的回归。然后计算: ~F(k-1,n-k) n-样本容量; k—包括截距在内的解释变量个数 R2j—辅助回归方程的可决系数。 本征值与病态指数。病态指数定义为: CI== 其中:—最大本征值 —最小本征值 K=—病态数 决策的经验法则:如果CI在10到30之间就算有中强多重共线性,如果CI在30以上就认为有严重多重共性线。在说明性例子中CI=352,表明多重共线性是严重的。 6、容许度与方差膨胀因子 方差膨胀因子 VIFj= 称为偏回归系数估计值的方差膨胀因子,因为: Var()==  其中:—解释变量Xj 的偏回归系数估计值 R2j—Xj对其余k-1个解释变量的辅助回归中的可决系数 决策规则:如果VIFj≥10(此时,R2j≥0.90)说明该 变量是高度共线性的,反之则没有。 2)容许度(tolerance) 其定义为 TOLj = 1-R2j = 1/VIFj 显然,如果Xj于其他解释变量无关,则TOLj = 1,而当 它与其他解释变量完全相关时,TOLj=0. 决策规则:如果TOLj接近于1则表明有共线性,否 则没有。 在说明性例子中: .VIF1=≥10 VIF2 =≥10 表明有严重的多重共线性。 TOL1=0 TOL2= 也显示有较强的共线性。 四、补救措施 多重共线性实质上是一个样本特征,也就如同 其侦察一样,不存在一个永不失效的指南,如下的经 验规则是可以尝试的。 先验信息。假设考虑模型:  其中:Y=消费, X1i =收入, X2i =财富;如前分析那样收入和财富间存在严重的共线性,但若事先已知:  也就是说,消费对财富的变化律是对收入相应变化率的1/10,于是回归变为:  = 其中:Xi = X1i +0.10X2i(试解释其合理性),一旦估计出,便可以从与的关系式估计估计。 横截面于时间序列数据并用。是外部信息或先验信息的一个变形,为横截面与时间序列数据的组合,称为数据并用(pooling the data).假设我们拥有车辆出售数(Y)、车辆平均价格(P)及消费者收入(I)的时间序列数据,而且:  我们的目的是要估计价格弹性和收入弹性。但在时间序列数据中收入与价格变量一般具有高度共线的趋势,解决的方式是用截面数据可靠地估计收入弹性(因为这些数据都产生于同一个时点上,价格不至于有很大的变化),设其估计量为,此时时间序列线性回归可一写成:  其中:,此时可以从上式中估计得到价格弹性。 剔除变量与设定误差。面对多重共线性,最简单的做法之一就是剔除共线性诸变量之一。例如在支出—收入—财富模型之回归方程(1)中,收入在统计上不显著,剔除财富后所得方程(3),收入却是高度显著的。但须警惕的是,可能因此而产生设定偏误。(有时治病的危害会超过疾病本身,非完全的共线性下OLS仍然是BLUEDE,但在设定偏误下OLS不再是BLUE) 变量代换。1)改绝对数为增量。 支出—收入—财富模型中,收入与财富在时间序列数据形式下是共线性的(它们同随时间推延而增加)。如果改为:  其中:即改数据为一阶增量形式,应该可以预期此时没有共线性存在。 2)改绝对数为相对数。在柯柏—道格拉斯生产函数的对数形式:  中资本K的对数与劳动投入量L的对数之间是正相关的,但在规模报酬不变()之下可以变形为:  此时就不会再有多重共线性的问题。(请对及的含义进行解释) 5、补充新数据。 由于多重共线性是一样本特征,故有可能对同样的变量,改变样本就有可能使多重共线的程度下降。有时只要增大样本容量就可以解决问题。在二元线性回归模型中,我们看到: Var()= 现在,只要样本增大(扩大x取自的范围),一般说都会随之增大,因此对于任给的,的方差将减小,从而降低标准误,提高估计的精度。 6、在多项式回归中降低共线性。多项式回归的诸解释变量之间一般是高度共线性的,但只要改变量的形式为离差形式其相关性就会显著降低。 7、逐步回归。 第一步,确定一个基本方程(y与一个最合理的解释变量之间的回归方程)以OLS估计回归系数并检验。 第二步,添加一个新的解释变量,以OLS做二元线性回归,并进行检验(若可决系数有改善,且变量的回归系数在统计都上显著,则添加的变量应予以保留;否则新添加的变量应剔除)。 第三步、添加进与下变量中的一个,以OLS估计模型并作检验决定新变量的去留(标准与第二步相同)。   直到所有解释变量均被引入方程,并检验过为止。此时最后所得方程即为所求。 8、拯救多重共线性的其他方法。多元统计分析技术,诸如:因子分析法(factor analysis);主元法(principal components)或脊(岭)回归(ridge regression)。 多重共线性一定是坏事吗? 如果预测是唯一目的,就未必如此(若同时还做参数的可靠估计则另当别论)。 2、如果R2的值高,而且回归系数的t值都在统计上显著,可以不必在意多重共线性。 §2.9 随机解释变量问题 含义与形式 (一)、含义 随机解释变量问题是指对回归模型,关于“所有解释变量均为非随机变量”的违背,即一个或部分解释变量是随机变量。 (二)形式 随机解释变量与误差项不相关。—F1 随机解释变量与误差项在小样本下相关,在大样本下不相关;—F2 随机解释变量与误差项高度相关。—F3 产生的原因 用滞后被解释变量做解释变量(经济数据中最为常见的数据是时间序列数据,当期值往往直接受其前期数值影响,其前期值必须作为解释变量) 随机解释变量问题的后果 (一)、一般随机解释变量的后果(依形式不同而不同) 1、在F1之下 OLS 估计仍然是无偏的但却不是有效的 2、在F2之下 OLS估计仅只是渐进无偏的 3、在 F3之下 OLS估计量不具有渐进无偏性 (二)被解释变量滞后值形式的随机解释变量的后果 OLS估计量不具有渐进无偏性 必然产生序列相关(自然有序列相关的后果) D.W检验失效 随机解释变量的解决方法——工具变量法 (一)、工具变量及其特征 工具变量:在模型参数估计过程中被作为工具使用,以代替模型中与随机误差相关的随机解释的变量。 工具变量的特征:1)与所代替的变量高度相关;2)与随机误差项不相关;3)与模型中其他解释变量不相关。 (二)、工具变量的应用 工具变量的作用:在参数估计中代替随机解释变量,而不是在模型中代替随机解释变量。 工具变量之下参数的估计。 假设在k元线性回归:  中变量是与误差项相关的随机变量,变量z是其工具变量,那么参数的估计量为:  其中: Z= (三)、工具变量法估计量的性质 性质:工具变量法估计量是无偏估计 TSP软件可以在二阶段最小二乘法下实现 §2.10 单方程计量经济学模型综合练习 见书 粮食生产模型 性质:特定形式的生产函数