第五章 经典单方程计量经济学模型:专门问题 一、内容提要 本章主要讨论了经典单方程回归模型的几个专门题。 第一个专题是虚拟解释变量问题。虚拟变量将经济现象中的一些定性因素引入到可以进行定量分析的回归模型,拓展了回归模型的功能。本专题的重点是如何引入不同类型的虚拟变量来解决相关的定性因素影响的分析问题,主要介绍了引入虚拟变量的加法方式、乘法方式以及二者的组合方式。在引入虚拟变量时有两点需要注意,一是明确虚拟变量的对比基准,二是避免出现“虚拟变量陷阱”。 第二个专题是滞后变量问题。滞后变量包括滞后解释变量与滞后被解释变量,根据模型中所包含滞后变量的类别又可将模型划分为自回归分布滞后模型与分布滞后模型、自回归模型等三类。本专题重点阐述了产生滞后效应的原因、分布滞后模型估计时遇到的主要困难、分布滞后模型的修正估计方法以及自回归模型的估计方法。如对分布滞后模型可采用经验加权法、Almon多项式法、Koyck方法来减少滞项的数目以使估计变得更为可行。而对自回归模型,则根据作为解释变量的滞后被解释变量与模型随机扰动项的相关性的不同,采用工具变量法或OLS法进行估计。由于滞后变量的引入,回归模型可将静态分析动态化,因此,可通过模型参数来分析解释变量对被解释变量影响的短期乘数和长期乘数。 第三个专题是模型设定偏误问题。主要讨论当放宽“模型的设定是正确的”这一基本假定后所产生的问题及如何解决这些问题。模型设定偏误的类型包括解释变量选取偏误与模型函数形式选取取偏误两种类型,前者又可分为漏选相关变量与多选无关变量两种情况。在漏选相关变量的情况下,OLS估计量在小样本下有偏,在大样本下非一致;当多选了无关变量时,OLS估计量是无偏且一致的,但却是无效的;而当函数形式选取有问题时,OLS估计量的偏误是全方位的,不仅有偏、非一致、无效率,而且参数的经济含义也发生了改变。在模型设定的检验方面,检验是否含有无关变量,可用传统的t检验与F检验进行;检验是否遗漏了相关变量或函数模型选取有错误,则通常用一般性设定偏误检验(RESET检验)进行。本专题最后介绍了一个关于选取线性模型还是双对数线性模型的一个实用方法。 第四个专题是关于建模一般方法论的问题。重点讨论了传统建模理论的缺陷以及为避免这种缺陷而由Hendry提出的“从一般到简单”的建模理论。传统建模方法对变量选取的“偿试”性使得实际建模过程存在“数据开采”问题而受到质疑。Hendry提出的约化建模型理论正是针对这一缺陷而提出的一套全新的建模理论。该理论认为,在模型的最初设定上,就设立一个“一般”的模型,它包括了所有先验经济理论与假设中所应包括的全部变量,然后在模型的估计过程中逐渐剔除不显著的变量,最后得到一个较“简单”的最终模型。约化建模理论的主要优点就在于,提出了一个对不同先验假设的更为系统的检验程序;同时由于它的初始模型就是一个包括所有可能变量的“一般”模型,也就避免了过度的“数据开采”问题;另外,由于初始模型的“一般”性,所有研究者的“起点”都有是相同的,因此,在相同的约化程序下,最后得到的最终模型也应该是相同的。本专题重点介绍了一个“一般”模型所应具有的基本特征、“从一般到简单”的约化过程、相关的非嵌套检验以及约化模型的准则。 二、典型例题分析 例1.一个由容量为209的样本估计的解释CEO薪水的方程为 Ln(salary)=4.59 +0.257ln(sales)+0.011roe+0.158finance +0.181consprod – 0.283utility (15.3) (8.03) (2.75) (1.775) (2.130) (-2.895) 其中,salary 表示年薪水(万元)、sales表示年收入(万元)、roe表示公司股票收益(万元);finance、consprod和 utility均为虚拟变量,分别表示金融业、消费品工业和公用事业。假设对比产业为交通运输业。 (1)解释三个虚拟变量参数的经济含义; (2)保持sales和roe不变,计算公用事业和交通运输业之间估计薪水的近似百分比差异。这个差异在1%的显著水平上是统计显著的吗? (3)消费品工业和金融业之间估计薪水的近似百分比差异是多少?写出一个使你能直接检验这个差异是否统计显著的方程。 解答: (1)finance的参数的经济含义为:当销售收入与公司股票收益保持不变时,金融业的CEO要比交通运输业的CEO多获薪水15.8个百分点。其他两个可类似解释。 (2)公用事业和交通运输业之间估计薪水的近似百分比差异就是以百分数解释的utility的参数,即为28.3%。由于参数的t统计值为-2.895,它大于1%显著性水平下自由度为203的t分布的临界值1.96,因此这种差异是统计上显著的。 (3)由于消费品工业和金融业相对于交通运输业的薪水百分比差异分别为15.8%与18.1%,因此它们间的差异为18.1% - 15.8% = 2.3%。一个能直接检验这一差异是否显著的方程为  其中,trans为交通运输业虚拟变量。这里对比基准为金融业,因此表示了消费品工业与金融业薪水的百分数差异,其t 统计值可用来进行显著性检验。 例2.假设货币需求关系式为,式中,为时间t的实际现金余额;为时间t的“期望”实际收入;为时间t的利率。根据适应规则,,修改期望值。已知,,的数据,但的数据未知。 (1)建立一个可以用于推导估计值的经济计量模型。 (2)假设和与都不相关。OLS估计值是1)无偏的;2)一致的吗?为什么? (3)假设=的性质类似(2)部分。那么,本例中OLS估计值是1)无偏的;2)一致的吗?为什么? 解答: (1)由于  (1)  (2) 第二个方程乘以有  (3) 由第一个方程得   代入方程(3)得  整理得  = 该模型可用来估计并计算出。 (2)在给定的假设条件下,尽管与相关,但与模型中出现的任何解释变量都不相关,因此只是(与M存在异期相关,所以OLS估计是一致的,但却是有偏的估计值。 (3)如果,则和相关,因为与相关。所以OLS估计结果有偏且不一致。 3、一个估计某行业ECO薪水的回归模型如下  其中,salary 为年薪sales为公司的销售收入,mktval为公司的市值,profmarg为利润占销售额的百分比,ceoten为其就任当前公司CEO的年数,comten为其在该公司的年数。一个有177个样本数据集的估计得到R2=0.353。若添加ceoten2和comten2后,R2=0.375。问:此模型中是否有函数设定的偏误? 解答: 若添加ceoten2和comten2后,估计的模型为  如果(6、(7是统计上显著不为零的,则有理由认为模型设定是有偏误的。而这一点可以通过第三章介绍的受约束F检验来完成:  在10%的显著性水平下,自由度为(2,()的F分布的临界值为2.30;在5%的显著性水平下,临界值为3.0。由此可知在10%的显著性水平下拒绝(6=(7=0的假设,表明原模型有设定偏误问题;而在5%的显著性水平下则不拒绝(6=(7=0的假设,表明原模型没有设定偏误问题。 三、习题 (一)基本知识类题型 5-1.解释下列概念: 虚拟变量 虚拟因变量模型 滞后变量 滞后效应 分布滞后模型 自回归模型 h检验 有限最小二乘法 5-2.在建立计量经济模型时,什么时候、为什么要引入虚拟变量? 5-3.举例说明虚拟变量在模型中的作用。 5-4.什么是“虚拟变量陷阱”? (二)基本证明与问答类题型 5-5.对包含常数项的季节变量模型运用最小二乘法时,如果模型中引入4个季节虚拟变量,其估计结 果会出现什么问题? 5-6.滞后外生变量模型和滞后内生变量模型的概念是什么? 5-7.滞后变量模型有哪几种类型?外生变量分布滞后模型使用OLS方法存在哪些问题? 5-8.产生模型设定偏误的主要原因是什么?模型设定偏误的后果以及检验方法有哪些? 5-9.试在消费函数中(以加法形式)引入虚拟变量,用以反映季节因素(淡、旺季)和收入层次差异(高、中、低)对消费需求的影响,并写出各类消费函数的具体形式。 5-10.现有如下估计的利润函数:     其中:、分别为销售利润和销售收入;为虚拟变量,旺季时,淡季时;,试分析:(1)季节因素的影响情况; (2)写出模型的等价形式。 5-11.如何确定有限分布滞后模型中的滞后期长度? 5-12.被解释变量对于一个或者多个解释变量反应滞后的原因是什么?给出一些分布滞后模型的例子。 5-13.简述约化建模理论与传统建模理论的联系与区别;变量的外生性概念在约化建模理论与传统建模理论中有何不同? 5-14.局部调整方法用于多元回归模型会出现什么问题? 5-15.在计量经济模型定式中,解释变量设定误差有几类?各有什么特点? 5-16.在实际建模中如何保证约化过程的有效性?人们有时将约化建模理论称为“TTT方法论”,意思是“检验、检验、再检验”,谈谈你对此的看法。 5-17.说明使用代理变量的条件。 5-18.叙述用阿尔蒙多项式法估计外生变量有限分布滞后模型的方法步骤,对多项式的次数有哪些限制,为什么? 5-19.如果一个定性变量含有个类别,为什么不能设个虚拟变量? (三)基本计算类题型 5-20.假设利率时,投资取决于利润;而利率时,投资同时取决于利润和利润;试用一个可以检验的模型来表达上述关系。 5-21.考虑以下模型:  (在农村)  (在城镇) 若假设,即不论在农村或在城镇,模型中第二个系数、是相同的;如何检验这个假设? 5-22.假设某投资函数: 其中:为t期的投资;表示t期的销售量。 假定滞后形式为倒“V”型,简述如何设计权数估计此模型。 5-23.设不含设定误差的回归模型为:  如果遗漏了重要解释变量X3,而错误地定式为:  请给出在此条件下的OLS估计参数、的偏倚公式,并给予说明。 5-24.请判断下列陈述是否正确: (1)在回归模型中,如果虚拟变量的取值为0或2,而非通常情况下的为0或1,那么参数的估计值将减半,其T值也将减半; (2)在引入虚拟变量后,普通最小二乘法的估计值只有在大样本情况下才是无偏的; 5-25.根据美国1961年第一季度至1977年第二季度的季度数据,我们得到了如下的咖啡需求函数的回归方程:           其中:——人均咖啡消费量(单位:磅) ——咖啡的价格(以1967年价格为不变价格) ——茶的价格(1/4磅,以1967年价格为不变价格) ——时间趋势变量(1961年第一季度为1,……1977年第二季度为66) ——1:第一季度;——1:第二季度;——1:第三季度 要求回答下列问题: (1)模型中、和的系数的经济含义是什么? (2)咖啡的价格需求是否很有弹性? (3)咖啡和茶是互补品还是替代品? (4)如何解释时间变量的系数? (5)如何解释模型中虚拟变量的作用? (6)哪一个虚拟变量在统计上是显著的? (7)咖啡的需求是否存在季节效应? 5-26.为了研究体重与身高的关系,我们随机抽样调查了51名学生(其中36名男生,15名女生),并得到如下两种回归模型:  (a)    (b)    其中:(weight)——体重(单位:磅) (height)——身高(单位:英寸)  要求回答下列问题: (1)你将选择哪一个模型?为什么? (2)如果模型(b)确实更好而你选择了(a),你犯了什么错误? (3)D的系数说明了什么? 5-27.某商品销售量与个人收入的季度数据建立如下模型:  其中定义虚拟变量为第季度时其数值取1,其余为0,这时会发生什么问题,参数是否能够用最小二乘法进行估计? 5-28.考虑如下三个有关成本函数的模型: 函数形式 常数项       线性函数   —— ——             二次函数    ——             三次函数                  其中:——产出,——D-W统计量,——标准偏差 要求回答下列问题: (1)假定样本容量为15,显著性水平为5%,以上三个模型中的杜宾—沃森的、分别为多少? (2)以上线性模型中是否存在自相关?如果存在,意味着什么? (3)以上二次函数模型中是否存在自相关?如果存在,意味着什么? (4)以上三次函数模型中是否存在自相关?如果不存在,意味着什么? (5)以上三个模型中的边际生产成本是什么? (6)从经济意义上讲,以上哪个模型更合理?为什么? 5-29.下面是1982年—1986年按季节全国酒销售量(单位:万吨)的数据。试建立酒销售量对时间的季节销售模型。        1982.1 92.7 1 1984.3 97.8 11  1982.2 79.3 2 1984.4 93.6 12  1982.3 80.1 3 1985.1 111.5 13  1982.4 86.7 4 1985.2 98.4 14  1983.1 104.1 5 1985.3 97.7 15  1983.2 89.7 6 1985.4 94.0 16  1983.3 90.2 7 1986.1 115.2 17  1983.4 90.2 8 1986.2 113.8 18  1984.1 107.9 9 1986.3 119.2 19  1984.2 96.7 10 1986.4 111.1 20  (四)自我综合练习类题型 5-30.分析一个具体的经济问题,如某耐用消费品的购买情况,学生可以分组(3到4人一组)调查有关情况,如:家庭可支配收入、住房情况、子女状况、户主年龄、婚姻状况、银行存款等。 要求:(1)样本数>50; (2)线性概率模型进行估计; (3)逻辑模型进行估计; (4)对所得结果进行必要的分析。 四、习题解答 5-1.解释下列概念: ⑴在建立模型时,有一些影响经济变量的因素无法定量描述,如:职业、性别对收入的影响,教育程度、季节等需要用定性变量度量。为了在模型中反映这类因素的影响,并提高模型的精度,需要将这类变量“量化”,根据这类变量的属性类型,构造仅取“0”或“1”的人工变量,通常称这类变量为“虚拟变量”。 ⑵也称“虚拟被解释变量模型”,指被解释变量也用虚拟变量表示,如:就业与否受年龄、身体状况、学历、性别、收入等许多因素影响,但最终的结果只有两个,要么就业,要么失业。这类模型一般被用来研究某一决策和结果的可能性。 ⑶在现实经济运行中,某些经济变量不仅受同期各种因素的影响,而且也受到过去某些时期的各种因素的影响,甚至受到自身的过去值的影响,如:居民的消费需求不仅受本期收入的影响还受到上期收入的影响,通常把这种过去时期的、具有滞后作用的变量称为“滞后变量”。 ⑷对于解释变量的任何变化,被解释变量必然会做出反映,而这些反映往往是要经过一段时间之后才会表现出来,称这种现象为滞后效应。 ⑸模型中没有滞后被解释变量,本期被解释变量仅与解释变量的当期值及其若干期的滞后值等有关,这样的模型就是分布滞后模型。其普遍形式为(以一元为例):  ⑹自回归模型指被解释变量的滞后变量作为解释变量的模型,由于是被解释变量的滞后期变量对被解释变量现期的回归,即自己回归自己而得名。 ⑺h检验是Durbin于1970年提出,是针对自回归模型中含有滞后变量作为解释变量时,检验随机扰动项是否具有自相关的DW检验已不在适用的情况下提出的,这种识用于大样本情形下检验自回归模型有无一阶自相关的方法称为h检验法。该法定义统计量为:  ⑻回归模型中的参数满足一定的限制条件,再根据该限制条件间接利用OLS法回归样本获得回归参数的最优值的方法称为有限最小二乘法。 5-2.答:在现实经济生活中,除了诸如:利润、成本、收入、价格等具有数量特征、影响某个经济问题的变量外,还有一类变量,如:季节、民族、自然灾害、战争、政府制定的某项经济政策等也会影响某些经济问题且可能是重要的影响因素,如:讨论改革前后的经济发展的对比,讨论像空调、冷饮等季节性产品的销售,讨论女性化妆品的销售等问题时,不可避免的要考虑后一类变量。这后一类变量所反映的并不是数量而是某种性质或属性,我们前面所讨论的回归模型是一种定量模型,所以在引入这类反映性质或属性的变量时需要先将其定量化。在计量经济学中,我们把这些反映性质或属性的变量叫“虚拟变量”。规定具备某种属性时把虚拟变量赋值为“1”,反之为“0”。 5-3.答:以调查某地区居民性别与收入之间的关系为例(设解释变量中只含有虚拟变量),我们可以用模型表示:  其中代表收入,为虚拟变量, 可以看出, 代表女性的收入,代表男性与女性收入之间的差额,从式很容易得出:  检验假设,就是检验男女的平均收入之间是否有差额。若:成立,说明收入与性别没有明显关系。若不成立,说明收入与性别有明显关系。 5-4.答:以季节性产品冷饮的销量为例说明。假设销售函数模型为:  其中表示销量,表示决定销量的解释变量;已知除定量解释变量的影响外,还受春、夏、秋、冬四季的影响,为把季节变化对销量的影响反映到模型中,如果我们引入4个虚拟变量:  这样销售函数的季节回归模型为:  4个虚拟变量之间具有关系:,出现完全多重共线性问题,使OLS法不能使用,这就称为“虚拟变量陷阱”。为克服这一问题,一般在引入虚拟变量时要求如果有m个定性变量,只在模型中引入m-1个虚拟变量。 5-5.答:对包含常数项的季节变量模型运用OLS法时,如果模型中引入4个季节虚拟变量,会造成完全多重共线性,则参数估计量不存在;其次,即便是一般共线性,使用OLS法参数估计量非有效;参数估计量经济含义不合理;变量的显著性检验失去意义;模型的预测功能失效。 5-6.答:如果滞后变量模型中只包括了解释变量的若干滞后变量,形如下式:  这种模型称为分布滞后模型或外生滞后变量模型;如果滞后变量模型中不仅包括解释变量,还包括了被解释变量的若干滞后变量的模型,形如下式:  这种模型称为自回归模型或内生滞后变量模型。 5-7.答:滞后变量模型有分布滞后模型和自回归模型两大类,其中:分布滞后模型有无限期的分布滞后模型和有限期的分布滞后模型;自回归模型又有柯克模型、自适应预期模型和部分调整模型。外生变量分布滞后模型使用OLS法存在以下问题:⑴对于无限期的分布滞后模型,由于样本观测值的有限性,使得无法直接对其进行估计;⑵对于有限期的分布滞后模型,使用OLS方法会遇到:没有先验准则确定滞后期长度,对最大滞后期的确定往往带有主观随意性;如果滞后期较长,由于样本容量有限,当滞后变量数目增加时,必然使得自由度减少,将缺乏足够的自由度进行估计和检验;同名变量滞后值之间可能存在高度线性相关,即模型存在高度的多重共线性。 5-8.答:产生模型设定偏误的原因主要有:模型制定者不熟悉相应的理论知识;对经济问题本身认识不够或不熟悉前人的相关工作;模型制定者手头没有相关变量的数据;解释变量无法测量或数据本身的测量误差。模型设定偏误的后果有:⑴如果遗漏了重要的解释变量,会造成OLS估计量在小样本下有偏、在大样本下非一致;对常数项的估计是有偏的;对随机扰动项的方差估计是有偏的;⑵如果包含了无关的解释变量,使得OLS估计量不具有最小方差性;⑶如果选择了错误的函数形式,则会造成估计的参数具有完全不同的经济意义,估计结果也不同。对模型设定偏误的检验方法有:检验是否含有无关变量,可以使用t检验与F检验完成;检验是否有相关变量的遗漏或函数形式设定偏误,可以使用残差图示法、Ramsey提出的RESET检验、Hausman检验来完成。 5-9.答:在消费函数中以加法形式引入虚拟变量,用以反映季节因素(淡、旺)和收入层次差异(高、中、低)对消费需求的影响,形如下式:  其中:, 5-11.答:当滞后效应持续一个有限的时间,则模型: 被称为有限滞后模型,其中为滞后期数或滞后长度。 5-12.答:被解释变量对于一个或者多个解释变量反应滞后的原因是:心理因素使得其行为方式滞后于经济形势的变化;技术性原因使得当年的产出在某种程度上依赖于过去若干期内投资形成的固定资产;制度性原因使得人们对某些外部变化不能立即做出反应。下面给出几个分布滞后模型的例子: ⑴消费支出为先期个人可支配收入PDI的函数:  ⑵耐用品存量调整模型:  5-13.答:约化建模理论与传统建模理论的联系:Hendry的约化建模理论提出了“从一般到简单”的建模思想, 约化建模理论与传统建模理论的区别:Hendry的约化建模理论提出了“从一般到简单”的建模思想,而传统建模理论的主导思想是“从简单到复杂”的建模思想; 5-19.答:如果一个定性变量含有个类别,一般只能设个虚拟变量,以避免多重共线性。