第四章 经典单方程计量经济学模型:放宽基本假定的模型 一、内容提要 本章主要介绍计量经济模型的二级检检验问题,即计量经济检验。主要讨论对回归模型的若干基本经典假定是否成立进行检验、当检验发现不成立时继续采用OLS估计模型所带来的不良后果以及如何修正等问题。具体包括异方差性问题、序列相关性问题、多重共线性问题以及随机解释变量这四大类问题。 异方差是模型随机扰动项的方差不同时产生的一类现象。在异方差存在的情况下,OLS估计尽管是无偏、一致的,但通常的假设检验却不再可靠,这时仍采用通常的t检验和F检验,则有可能导致出现错误的结论。同样地,由于随机项异方差的存在而导致的参数估计值的标准差的偏误,也会使采用模型的预测变得无效。对模型的异方差性有若干种检测方法,如图示法、Park与Gleiser检验法、Goldfeld-Quandt检验法以及White检验法等。而当检测出模型确实存在异方差性时,通过采用加权最小二乘法进行修正的估计。 序列相关性也是模型随机扰动项出现序列相关时产生的一类现象。与异方差的情形相类似,在序列相关存在的情况下,OLS估计量仍具无偏性与一致性,但通常的假设检验不再可靠,预测也变得无效。序列相关性的检测方法也有若干种,如图示法、回归检验法、Durbin-Watson检验法以及Lagrange 乘子检验法等。存在序列相关性时,修正的估计方法有广义最小二乘法(GLS)以及广义差分法。 多重共线性是多元回归模型可能存在的一类现象,分为完全共线与近似共线两类。模型的多个解释变量间出现完全共线性时,模型的参数无法估计。更多的情况则是近似共线性,这时,由于并不违背所有的基本假定,模型参数的估计仍是无偏、一致且有效的,但估计的参数的标准差往往较大,从而使得t-统计值减小,参数的显著性下降,导致某些本应存在于模型中的变量被排除,甚至出现参数正负号方面的一些混乱。显然,近似多重共线性使得模型偏回归系数的特征不再明显,从而很难对单个系数的经济含义进行解释。多重共线性的检验包括检验多重共线性是否存在以及估计多重共线性的范围两层递进的检验。而解决多重共线性的办法通常有逐步回归法、差分法以及使用额外信息、增大样本容量等方法。 当模型中的解释变量是随机解释变量时,需要区分三种类型:随机解释变量与随机扰动项独立,随机解释变量与随机扰动项同期无关、但异期相关,随机解释变量与随机扰动项同期相关。第一种类型不会对OLS估计带来任何问题。第二种类型则往往导致模型估计的有偏性,但随着样本容量的增大,偏误会逐渐减小,因而具有一致性。所以,扩大样本容量是克服偏误的有效途径。第三种类型的OLS估计则既是有偏、也是非一致的,需要采用工具变量法来加以克服。 二、典型例题分析 1、下列哪种情况是异方差性造成的结果? (1)OLS估计量是有偏的 (2)通常的t检验不再服从t分布。 (3)OLS估计量不再具有最佳线性无偏性。 解答: 第(2)与(3)种情况可能由于异方差性造成。异方差性并不会引起OLS估计量出现偏误。 2、已知模型   式中,Y、X1、X2和Z的数据已知。假设给定权数,加权最小二乘法就是求下式中的各β,以使的该式最小  (1)求RSS对(1、(2和(2的偏微分并写出正规方程。 (2)用Z去除原模型,写出所得新模型的正规方程组。 (3)把带入(1)中的正规方程,并证明它们和在(2)中推导的结果一样。 解答: (1)由对各β求偏导得如下正规方程组:    (2)用Z去除原模型,得如下新模型  对应的正规方程组如下所示:    (3)如果用代替(1)中的,则容易看到与(2)中的正规方程组是一样的。 3、已知模型  式中,为某公司在第i个地区的销售额;为该地区的总收入;为该公司在该地区投入的广告费用(i=0,1,2……,50)。 (1)由于不同地区人口规模可能影响着该公司在该地区的销售,因此有理由怀疑随机误差项ui是异方差的。假设依赖于总体的容量,请逐步描述你如何对此进行检验。需说明:1)零假设和备择假设;2)要进行的回归;3)要计算的检验统计值及它的分布(包括自由度);4)接受或拒绝零假设的标准。 (2)假设。逐步描述如何求得BLUE并给出理论依据。 解答: (1)如果依赖于总体的容量,则随机扰动项的方差依赖于。因此,要进行的回归的一种形式为。于是,要检验的零假设H0:,备择假设H1:。检验步骤如下: 第一步:使用OLS方法估计模型,并保存残差平方项; 第二步:做对常数项C和的回归 第三步:考察估计的参数的t统计量,它在零假设下服从自由度为2的t分布。 第四步:给定显著性水平面0.05(或其他),查相应的自由度为2的t分布的临界值,如果估计的参数的t统计值大于该临界值,则拒绝同方差的零假设。 (2)假设时,模型除以有:  由于,所以在该变换模型中可以使用OLS方法,得出BLUE估计值。方法是对关于、、做回归,不包括常数项。 4、以某地区22年的年度数据估计了如下工业就业回归方程  (-0.56)(2.3) (-1.7) (5.8)   式中,Y为总就业量;X1为总收入;X2为平均月工资率;X3为地方政府的总支出。 (1)试证明:一阶自相关的DW检验是无定论的。 (2)逐步描述如何使用LM检验 解答: (1)由于样本容量n=22,解释变量个数为k=3,在5%在显著性水平下,相应的上下临界值为、。由于DW=1.147位于这两个值之间,所以DW检验是无定论的。 (2)进行LM检验: 第一步,做Y关于常数项、lnX1、lnX2和lnX3的回归并保存残差; 第二步,做关于常数项、lnX1、lnX2和lnX3和的回归并计算; 第三步,计算检验统计值(n-1)=21(0.996=20.916; 第四步,由于在不存在一阶序列相关的零假设下(n-1)呈自由度为1的分布。在5%的显著性水平下,该分布的相应临界值为3.841。由于20.916>3.841,因此拒绝零假设,意味着原模型随机扰动项存在一阶序列相关。 5、某地区供水部门利用最近15年的用水年度数据得出如下估计模型:  (-1.7) (0.9) (1.4) (-0.6) (-1.2) (-0.8)  F=38.9 式中,water——用水总量(百万立方米),house——住户总数(千户),pop——总人口(千人),pcy——人均收入(元),price——价格(元/100立方米),rain——降雨量(毫米)。 (1)根据经济理论和直觉,请计回归系数的符号是什么(不包括常量),为什么?观察符号与你的直觉相符吗? (2)在10%的显著性水平下,请进行变量的t-检验与方程的F-检验。T检验与F检验结果有相矛盾的现象吗? (3)你认为估计值是(1)有偏的;(2)无效的或(3)不一致的吗?详细阐述理由。 解答: (1)在其他变量不变的情况下,一城市的人口越多或房屋数量越多,则对用水的需求越高。所以可期望house和pop的符号为正;收入较高的个人可能用水较多,因此pcy的预期符号为正,但它可能是不显著的。如果水价上涨,则用户会节约用水,所以可预期price的系数为负。显然如果降雨量较大,则草地和其他花园或耕地的用水需求就会下降,所以可以期望rain的系数符号为负。从估计的模型看,除了pcy之外,所有符号都与预期相符。 (2)t-统计量检验单个变量的显著性,F-统计值检验变量是否是联合显著的。 这里t-检验的自由度为15-5-1=9,在10%的显著性水平下的临界值为1.833。可见,所有参数估计值的t值的绝对值都小于该值,所以即使在10%的水平下这些变量也不是显著的。 这里,F-统计值的分子自由度为5,分母自由度为9。10%显著性水平下F分布的临界值为2.61。可见计算的F值大于该临界值,表明回归系数是联合显著的。 T检验与F检验结果的矛盾可能是由于多重共线性造成的。house、pop、pcy都是高度相关的,这将使它们的t-值降低且表现为不显著。price和rain不显著另有原因。根据经验,如果一个变量的值在样本期间没有很大的变化,则它对被解释变量的影响就不能够很好地被度量。可以预期水价与年降雨量在各年中一般没有太大的变化,所以它们的影响很难度量。 (3)多重共线性往往表现的是解释变量间的样本观察现象,在不存在完全共线性的情况下,近似共线并不意味着基本假定的任何改变,所以OLS估计量的无偏性、一致性和有效性仍然成立,即仍是BLUE估计量。但共线性往往导致参数估计值的方差大于不存在多重共线性的情况。 6、一个对某地区大学生就业增长影响的简单模型可描述如下  式中,为新就业的大学生人数,MIN1为该地区最低限度工资,POP为新毕业的大学生人数,GDP1为该地区国内生产总值,GDP为该国国内生产总值;g表示年增长率。 (1)如果该地区政府以多多少少不易观测的却对新毕业大学生就业有影响的因素作为基础来选择最低限度工资,则OLS估计将会存在什么问题? (2)令MIN为该国的最低限度工资,它与随机扰动项相关吗? (3)按照法律,各地区最低限度工资不得低于国家最低工资,哪么gMIN能成为gMIN1的工具变量吗? 解答: (1)由于地方政府往往是根据过去的经验、当前的经济状况以及期望的经济发展前景来定制地区最低限度工资水平的,而这些因素没有反映在上述模型中,而是被归结到了模型的随机扰动项中,因此 gMIN1 与(不仅异期相关,而且往往是同期相关的,这将引起OLS估计量的偏误,甚至当样本容量增大时也不具有一致性。 (2)全国最低限度的制定主要根据全国国整体的情况而定,因此gMIN基本与上述模型的随机扰动项无关。 (3)由于地方政府在制定本地区最低工资水平时往往考虑全国的最低工资水平的要求,因此gMIN1与gMIN具有较强的相关性。结合(2)知gMIN可以作为gMIN1的工具变量使用。 三、习题 (一)基本知识类题型 4-1.解释下列概念: (1)异方差性 (2)序列相关性 (3)多重共线性 (4)偏回归系数 (5)完全多重共线性 (6)不完全多重共线性 (7)随机解释变量 (8)差分法 (9)广义最小二乘法 (10)D.W.检验 4-2.判断下列各题对错,并简单说明理由: 在存在异方差情况下,普通最小二乘法(OLS)估计量是有偏的和无效的; 如果存在异方差,通常使用的t检验和F检验是无效的; 在存在异方差情况下,常用的OLS法总是高估了估计量的标准差; 如果从OLS回归中估计的残差呈现系统模式,则意味着数据中存在着异方差; 当存在序列相关时,OLS估计量是有偏的并且也是无效的; 消除序列相关的一阶差分变换假定自相关系数必须等于1; 两个模型,一个是一阶差分形式,一个是水平形式,这两个模型的R2值是不可以直接比较的。 回归模型中误差项存在异方差时,OLS估计不再是有效的; 回归模型中误差项存在序列相关时,OLS估计不再是无偏的; 4-3.简述异方差对下列各项有何影响:(1)OLS估计量及其方差;(2)置信区间;(3)显著性t检验和F检验的使用。 4-4.在存在AR(1)自相关的情形下,什么估计方法能够产生BLUE估计量?简述这个方法的具体步骤。 (二)基本证明与问答类题型 4-5.在存在AR(1)的情形下,估计自相关参数有哪些不同的方法? 4-6.在如下回归中,你是否预期存在着异方差? Y X 样本  公司利润 净财富 《财富》500强  公司利润的对数 净财富的对数 《财富》500强  道琼斯工业平均指数 时间 1960~1990年(年平均)  婴儿死亡率 人均收入 100个发达国家和发展中国家  通货膨胀率 货币增长率 美国、加拿大和15个拉美国家  4-7.已知消费模型: 其中:——消费支出 ——个人可支配收入 ——消费者的流动资产   要求: (1)进行适当变换消除异方差,并证明之; (2)写出消除异方差后,模型的参数估计量的表达式。 4-8.什么是异方差性?举例说明经济现象中的异方差性。检验异方差性的方法思路是什么? 4-9.什么是序列相关性?举例说明经济现象中序列相关性的存在。检验序列相关性的方法思路是什么?熟悉D.W.统计量的计算方法和查表判断。 4-10.什么是多重共线性?产生多重共线性的经济背景是什么?多重共线性的危害是什么?为什么会造成这些危害?检验多重共线性的方法思路是什么?有哪些克服方法? 4-11.随机解释变量的来源有哪些?随机解释变量可以造成哪些结果? 4-12.当模型中出现随机解释变量时,最小二乘估计量具有什么特征? 4-13.试比较说明普通最小二乘法与加权最小二乘法的区别与联系。 4-14.估计量的渐近统计性质的含义是什么?什么是渐近无偏性? 4-15.什么是估计的一致性?证明对于工具变量法的估计量是的一致估计。 4-16.为什么回归残差序列可以作为检验线性回归模型误差项的各种问题的基础? 4-17.对于线性回归模型: ,已知为一阶自回归形式:,要求:证明的估计值为: 4-18.证明下面方程中的误差项是同方差的。 , 其中: (三)基本计算类题型 4-19.某上市公司的子公司的年销售额Yt与其总公司年销售额Xt的观测数据如下表: 序号 X Y 序号 X Y  1 127.3 20.96 11 148.3 24.54  2 130.0 21.40 12 146.4 24.30  3 132.7 21.96 13 150.2 25.00  4 129.4 21.52 14 153.1 25.64  5 135.0 22.39 15 157.3 26.36  6 137.1 22.76 16 160.7 26.98  7 141.2 23.48 17 164.2 27.52  8 142.8 23.66 18 165.6 27.78  9 145.5 24.10 19 168.7 28.24  19 145.3 24.01 20 171.7 28.78  要求: (1)用最小二乘法估计关于的回归方程; (2)用D.W.检验分析随机项的一阶自相关性; (3)用Durbin两步法估计回归模型的参数; (4)直接用差分法估计回归模型的参数. 4-20.下表是被解释变量Y及解释变量X1、X2、X3、X4的时间序列观测值: Y 6.0 6.0 6.5 7.1 7.2 7.6 8.0 9.0 9.0 9.3  X1 40.1 40.3 47.5 49.2 52.3 58.0 61.3 62.5 64.7 66.8  X2 5.5 4.7 5.2 6.8 7.3 8.7 10.2 14.1 17.1 21.3  X3 108 94 108 100 99 99 101 97 93 102  X4 63 72 86 100 107 111 114 116 119 121  要求: (1)采用适当的方法检验多重共线性; (2)多重共线性对参数估计值有何影响? (3)用修正Frisch法确定一个较好的回归模型。 4-21.下表是某种商品的需求量、价格以及消费者收入的统计资料: 年份 1 2 3 4 5 6 7 8 9 10  需求量Y 3.5 4.3 5.0 6.0 7.0 9.0 8.0 10 12 14  价格X1 16 13 10 7 7 5 4 3 3.5 2  收入X2 15 20 30 42 50 54 65 72 85 90  要求: (1)检验X1和X2是否存在严重的多重共线性? (2)如何解决或减轻多重共线性的影响,并给出这一问题的回归方程。 4-22.对于模型: 要求: (1)如果用变量的一次差分估计该模型,采用何种自相关形式? (2)用差分估计时,并不删除截距,其含义是什么? (3)假设模型存在一阶自相关,如果用OLS法估计,试证明其估计式:仍然是无偏的,式中的,。 (4)试证明不是有效的。 4-23.某国的政府税收T(单位:百万美元)、国内生产总值GDP(单位:10亿美元)和汽车数量Z(单位:百万辆)的观测数据如下表所示: 序号 T GDP Z       1 3 4 5  2 2 1 2  3 5 7 6  4 6 8 7  5 4 5 5  6 5 7 6  7 7 8 6  8 9 11 7  9 8 10 7  要求:试以汽车数量Z作为国内生产总值GDP的工具变量,估计税收函数:  4-24.继续习题3-21的讨论。问题如下: (1)假定做GMAT分数对GPA的回归分析,并且发现两变量之间显著正相关。那么,你对多重共线性问题有何看法? (2)对习题3-21的(1)建立方差(ANOVA)分析表并检验假设:所有偏回归系数均为零。 (3)用R2值,对本题(2)建立ANOVA表进行分析。 4-25.如果解释变量之间的相关系数为0,则称它们是正交的。对于模型:  若X1与X2是正交的,证明下列结论: (1)多元线性回归的最小二乘估计量、分别等于Y对X1、Y对X2的一元线性回归的最小二乘估计量; (2)多元回归的回归平方和为两个一元回归的回归平方和的和。 4-26.假设Y为内生变量,X为外生变量,以下各组方程中哪些方程可以用Durbin—Watson方法检验一阶自相关: (1)  (2)  (3)  4-27.有5个解释变量的多元线性回归模型,用容量为93的样本数据进行回归分析。若根据回归残差序列计算的D.W.值为1.1,应得出什么结论?若D.W.值为2.35呢? 4-28.若已知线性回归模型的误差项的方差为,问处理该模型的方法是什么? 4-29.一个两变量线性回归模型的回归残差序列如下表所示: n 残差e n 残差e n 残差e  1 0.013 8 -0.082 15 0.198  2 0.054 9 -0.053 16 0.103  3 -0.014 10 0.041 17 0.000  4 -0.042 11 -0.151 18 -0.063  5 -0.078 12 -0.054 19 -0.058  6 -0.056 13 0.042    7 0.083 14 0.117    要求:请分析该模型的误差项是否存在什么问题?若存在一些问题,说明有哪些处理方法可以考虑? 4-30.在研究生产中的劳动在增加值中所占的份额(即劳动份额)的变动时,有以下模型: 模型A: 模型B: 其中,Y为劳动份额,t为劳动时间。根据该研究时期内的15年数据进行参数估计,得到模型结果为: 模型A:    模型B:     其中:括号中的数字是t检验值。 要求:(1)模型A中有没有自相关?模型B呢? (2)如何解释自相关的存在? (3)你会怎样区分“纯粹”自相关和模型形式设定错误? 四、习题解答 4-1.答: ⑴异方差性指对于不同的样本值,随机扰动项的方差不再是常数,而是互不相同的。 ⑵序列相关性指对于不同的样本值,随机扰动项之间不再是完全相互独立,而是存在某种相关性。 (3)多重共线性指两个或多个解释变量之间不再彼此独立,而是出现了相关性。 ⑷偏回归系数指:在三变量线性回归模型中,当其中一个解释变量为常量时,另一个解释变量对被解释变量均值的影响。 ⑸完全多重共线性指:在有多个解释变量模型中,其中一个变量可以表示为其他多个变量的完全线性函数,即,其中至少有一个,与等式右边线性组合的相关系数为1,则这种情况被称为完全多重共线性。在此情况下,不能估计解释变量各自对被解释变量的影响。 ⑹不完全多重共线性指:在实际经济活动中,多个解释变量之间存在多重共线性问题,但与等式右边线性组合的相关系数不为1。 ⑺随机解释变量指:在现实经济现象中,解释变量是不可控的,即解释变量的观测值具有随机性,并且与模型的随机误差项有相关关系,这样的解释变量称为随机解释变量。 ⑻差分法是一类克服序列相关性的有效方法。它是将原计量经济模型变换为差分模型,分为一阶差分法和广义差分法。 ⑼广义最小二乘法(GLS)即最具有普遍意义的最小二乘法。 ⑽D.W.检验:全称杜宾—瓦森检验,适用于一阶自相关的检验。该法构造一个统计量: ,计算该统计量的值,根据样本容量和解释变量数目查D.W.分布表,得到临界值和,然后按照判断准则考察计算得到的D.W.值,以判断模型的自相关状态。 4-2.答: ⑴错。当存在异方差情况下,OLS法估计量是无偏的但不具有有效性。 ⑵对。如果存在异方差,通常使用的t检验和F检验是无效的。 ⑶ 错。实际情况可能是高估也可能是低估。 ⑷对。通过将残差对其相应的观察值描图,了解变量与残差之间是否存在可以观察到的系统模式,就可以判断数据中是否存在异方差。 ⑸错。当存在序列相关时,OLS法估计量是无偏的但不具有有效性。 对。即假设误差项之间是完全正序列相关的,这样广义差分方程就转化为一阶差分方程。 ⑺对。 ⑻对。 ⑼错。仍是无偏的。 4-3.答:由于异方差的存在,使得:⑴OLS估计量仍是线性无偏但不再具有最小方差,即不再有效;相应的置信区间和t检验、F检验都是不可靠的。 4-4.答:在存在AR⑴自相关的情况下,使用广义最小二乘法能够产生BLUE估计量。具体步骤简述如下: 4-5.答:在存在AR⑴的情况下,估计自相关参数有下述几种方法: 4-6.答:存在;不存在;不存在;存在;存在。 4-7.答: ⑴模型两边同时除以进行变换,得:  其中:,可以证明误差项是同方差的。证明如下: 已知:,,(根据已知条件为常数),证得变换后的误差项是同方差的。 ⑵ 4-8.答:对于模型(),如果出现,即对于不同的样本点,随机误差项的方差不再是常数,而且互不相同,则认为出现了异方差性。在现实经济运行中,异方差性经常出现,尤其是采用截面数据作样本的计量经济学问题。如:工业企业的研究与发展费用支出同企业的销售和利润之间关系的函数模型;服装需求量与季节、收入之间关系的函数模型;个人储蓄量与个人可支配收入之间关系的函数模型等。检验异方差性的思路即检验随机误差项的方差与解释变量观察值之间是否存在相关性。 4-9.答:对于模型(),如果出现,即对于不同的样本点,随机误差项之间不再是完全互相独立,而是存在某种相关性,则认为出现了序列相关性。在现实经济运行中,序列相关性经常出现,尤其是采用时间序列数据作样本的计量经济学问题。如:以时间序列数据作为样本建立的行业生产函数模型;以时间序列数据作样本建立的居民总消费函数模型等。检验序列相关性的方法思路即先采用OLS法估计模型,以求得随机误差项的“近似估计量”,然后通过分析这些“近似估计量”之间的相关性以达到判断随机误差项是否具有序列相关性的目的。 4-10.答:对于模型(),如果某两个或多个解释变量之间出现了相关性,则称为多重共线性。