§2.4多元线性回归模型的统计检验 拟和优度检验 总体平方和、回归平方和与残差平方和 1、总体平方和:TSS= 大小反映y的变动度(正比) 2、回归平方和: ESS= 大小反映x对y解释作用的大小(正比) 3、残差平方和: RSS= 大小反映随机因素对y的作用的大小(正比) (二) 相互关系 前提:y与x1,x2 … xk之间的关系确为线性关系 数量关系:TSS = ESS + RSS(y的变动可以被全部分解为解释变量与随机误差的作用) (三)测定拟合优度的统计量 1、判定系数(可决系数) (1)定义:R2 = (2)含义:在Y每单位以平方和测度的变动中由解释变量做出解释的比重 (3)取值范围:0≤R2≤1 (4)意义:R2越接近1表明拟合优度越高,R2越接近于零拟合优度愈低。 如,p44例2-3-1中R2=0.9997,表明模型的拟合优度非常高,模型的质量很好。 (5)评价: 优:直观、含义明确和方便 缺:R2是解释变量的单调非降函数,导致为追求较高的R2而增加解释变量; R2接近于1或者0的程度缺乏客观数量标准 1、校正的可决系数 (1)定义:  = 1 其中:  意义与范围: 与可决系数相同(可能小于零此时规定为0) 优点:不再是K的非降函数 与可决系数的关系:同一组数据估计的模型 如:P44之例2-3-1 =0.9994<0.9997=R2 方程显著性检验(F-检验) (一)假设检验的一般问题 1、关于假设 (1)概念:关于总体分布、数字特征和相互关系的论断成为假设,以H表示 如 H 总体服从正态分布 H 总体的均值 H 总体X与Y优相同的分布 H 总体X与Y相互独立 (2)原假设与备择假设 二者必居其一的假设中的一个称为原假设以H0表示,另一个称为备择假设以H1表示。 如 H0  H1  (3)假设检验 假设可能对也可能错,抽取样本并进行推理决定假设真假的过程称为假设检验。 2、假设检验的原理与方法 (1)实际推断原理 小概率事件(发生的概率部超过0.10)被认为在一次试验中实际上不会发生。小概率事件在一次试验中没有发生是合理的,发生则是不合理的。 (2)假设检验的原理 利用实际推断原理这一概率性质的反证法,即事先假定假设H0成立,如果导致小概率事件在一次试验中发生不合理假设H0不真;若小概率事件在一次试验中没有发生,合理,不能认为假设H0不真。 (3)检验的方法 寻找以合适的统计量T(不一定是T分布)—有分布、能包含H0、H0成立条件下不含未知数构造一个小概率事件,把T的取值范围分割成不相重叠的两部分V和,使: P{T}= ( V—H0的拒绝域 — H0的接收域 —显著性水平 在H0成立的条件下计算T的观察值t,若t则表明H0导致小概率事件在一次试验中发生,不合理(实际推断原理),从而认为H0不真,即拒绝H0;若tV,没有导致小概率事件在一次试验中发生,没有不合理,故而不能认为H0不真即接受H0。 (4)假设检验与显著性水平  改变显著性水平,就有可能改变检验的结论;  显著性水平的数值越小,拒绝H0的说服力越强;  计量经济学统计检验中一般取 (5)假设检验中的两类错误 第一类错误 H0本身为真,经检验却被拒绝,犯这类错误的概率为 第二类错误 H0本身不真,经检验却被接受,犯这类错误的概率为 (6)两类错误间的关系 在样本容量不变的条件下,一个减小另一个必然增大(此消彼长) (7)处理方法 事先确定,然后找最小(功效最大)的检验方法—今后使用的方法均符合这一要求。 (二)方程显著性的检验 1、F—检验 (1)假设 H0 解释变量对y没有任何解释作用 H1 不全为零解释变量中至少有一部分对y有解释作用 (2)统计量 F =  ~ F( k , n-k-1) (3)决策规则 若 F≥(k,n-k-1),则H0不真,即解释变量对y的解释作用显著模型有效 若F<(k,n-k-1),,则H0为真,解释变量对y的解释作用不显著模型无效。 如 P44 例2-3-1中 F = 28682>>6.70=F0.01(2,13) 模型是非常有效的 2、软件中F检验的输出格式 来源 平方和 自由度df 均方  F值  P值  回归 残差 总和  ESS RSS TSS  K n-k-1 n-1 ESS÷K RSS÷(n-k-1)  F0  P0   决策规则 若P0≤(0.05),认为模型有效,若P0≥(0.05),模型无效 (三)F检验与可决系数的关系 数量关系 F =  (与可决系数) R2大则F值大,R2小则F值小 (2)结论间的关系 二者所的结论一般是一致的,但有时会矛盾。 三、变量显著性检验(t检验) (一)必要性 1、必要性 模型通过F检验(模型有效)仅只表示解释变量作为一个整体以线性模型的形式对y的解释作用是显著的,并不能说明每个解释变量都是必需的,从而需要判断每一个解释变量的作用是否显著。 2、前提 模型通过F检验 (二)方法 1、假设 H0 :  H1 :  2、检验统计量 t =  (H0 为真) 其中—的OLS估计量 =—的标准误(愈小愈好)  =  —(主对角现第j+1个元素 3、决策规则 若 | t| ≥ ,则认为xj 对y的解释作用显著;否则不显著。 例 p44例2-3-1中 | t 1 | = 32.363 | t 2 | = 5.701 取, 查t分布表得,可见所有回归系数的t统计量的绝对值均大于该临界值,故而GDP(X1)和上年消费额(X2)对消费额都有显著解释作用,均应予以保留。 §2.5 多元线性回归模型的置信区间 一、参数的置信区间 (一)回归系数的置信区间 1、使用的统计量  2、置信度为(1-)的置信区间:( ) 3、P44例2-3-1中的回归系数的99%置信区间 查表得  从回归计算结果中可得:       可计算得的置信度99%的置信区间分别为: (302.33 , 33778.71) (0.4360 , 0.5258) (0.0937 , 0.3033) (二)置信区间的意义 以95%的置信度为例,它表明重复估计的区间中约有95%的区间包含有参数的真值;同一置信度之下,区间长度越短越好。 上例中,得置信区间的长度d=0.0898在三个区间中最短表明其稳定性最好,质量最高。 二、被解释变量预测值的置信区间 (一)被解释变量的预测值及预测误差的方差 1、Y的预测值 设模型  经检验是有效的,对所确定(方法不限)的样本以外的解释变量的观测值 X0 =(1,x10,x20,…xk0) ,Y的预测值被定义为:  = X0 如P44 例2-3-1中假设1997年GDP=74662.82(亿元),上期消费额40172(亿元)那么1997年的消费额的预测值为 =44420.31(亿元) 2、预测误差及其方差 (1)预测误差  (2)误差的方差 Var() =  (3) 误差的标准误  (二)y0的置信度为(1-)置信区间 1、统计量 t =  2、置信区间 () 3、该置信区间的特性 X0接近时区间较短,X0离越远,区间越长。 §2.6异方差性 含义及产生的机理 1、含义:异方差的含义指线性回归模型  中基本假设同方差Var(=,的违背,即 (1)Var(,(随机误差项的方差不完全相同); (2)模型的其它基本假设不变。 2、产生机理: (1)模型设立时忽略的因素对被解释变量影响随解释变量取值的不同而不同; (2)使用截面数据的模型中随机误差项包含的内容随解释变量取值不同而改变。 例如:以绝对收入理论建立的模型   中使用截面数据(将消费者按收入水平不同进行分组),随收入水平提高,人的消费行为的不可预知性增强,随机误差项的分布范围扩大,从而Var(逐渐增大,不再保持不变。 常见形式 1、Var((如在一元线性回归模型 中Var() 2、不规律(较少见) 异方差的后果 指模型中存在异方差,但估计之前没有发觉,依然使用OLS或ML估计参数所导致的不良后果: 1、虽然仍为无偏的,但却不再是有效的(方差不是最小的,参数变动范围更大,稳定性降低); 2、变量显著性检验和方程显著性检验的功效下降甚至失效(高估误差项方差,T统计量分母被反常扩大,导致T值减小,增加接受原假设的概率,将有效的解释变量误判为不显著的;残差扩大,回归平方和ESS减小,F=非正常缩小增加接受“方程作用不显著”的概率); 3、模型的预测功能失效(预测误差的方差增大,导致区间长度在置信度不变的条件下增加,预测的精度下降)。 异方差的检验(检测、侦察或诊断) 1、图示法(残差诊断图)—国外有称非正式方法 步骤:直接用OLS估计模型参数,计算残差ei = 的平方作为误差项方差的近似以xj为横坐标,ei2为纵坐标作散点图判断,若图形规律则说明有异方差;否则没有。 评价:直观,简便; 缺乏客观标准 2、Park检验 假设异方差的形式为: 取对数使之线性化: 步骤:以ei2代替,以OLS估计上述方程进行显著性检验,若在统计上显著异于零表明有异方差,否则没有。 评价:比图示法精准 适用面小,本身也可能存在异方差(结论可疑) 例1、 3、Glejser 检验(test) 异方差的形式有: (1)|ei| =  (2) |ei| =  (3) |ei| =  (4) |ei| =  (5) |ei| = (6) |ei| = (7) |ei| = 步骤:对原数据用OLS进行估计计算|ei|确定其形式并线性化以OLS估计线性化的模型检验变量的系数的显著性,若显著表明有异方差,否则没有。 评价:误差项可能不满足假设,于是结论可疑. 特别指出:Park test 、Glejser test 共同的局限是,结论与异方差的假设形式相关,结论只能针对某一特定形式,不具有一般性。  4、斯皮尔曼(Spearman)等级相关检验 Spearman 等级相关系数的定义  其中:di — 第单元或现象的两种不同特性所处的等级之差 n — 带有级别的单元或现象的个数 (2)方法 步骤1· 假定 ,对Y与X的数据作回归拟合并求出残差; 步骤2· 将|ei|和xji按递升或递降次序划等级,然后计算Spearman等级相关系数 步骤3· 使用统计量(前提 n>8) t = ~t(n-2) 检验假设H0 (总体等级相关系数为零) 若t>t的临界值,则存在异方差;否则认为异方差不存在。 例2 5、Goldfeld—Quandt(戈德菲尔德—匡特)检验 这是一种广为流传的方法,适用于方差同解释变量 之一有正向相关的异方差的情形,最常见的形式为: Var() = 即x值越大,也越大。 方法: 步骤1:把xj按由小到大的顺序排列(逐个进行); 步骤2:略去居中的c个值(c是预定的),并将余下的(n-c)个值分两组(每组(n-c)/2个): 步骤3:分别对头(n-c)/2个观测值和末(n-c)/2个观测值各拟合一个回归方程,并分别计算残差平方和RSS1和RSS2(RSS1是较小X值所作回归的RSS): 步骤4:计算比率: F =  其中:df = 若F值大于给定显著性水平之下的临界值 ,表明有异方差存在,反之则没有异方差。 6、其他检验方法 a)Breusch—Pagan—Godfrey test b)White test c)Harrison—McCabe test e)J.Szroeter test f) Evans—M.L.King test 五、补救措施 (一)当已知——数据变换 如果已知,纠正异方差性最直接的方法就是数据变换 ,因为这样一来,得到的估计量是BLUE。 步骤:(以例1的数据为例)  a) 用已知的去除方程的两端;  记:    模型变为: 线性且无异方差性(Var() b)用没有截距的最小二乘法估计 中的参数。 (二)当方差未知时—加权最小二乘法(WLS) 见书P58~60 §2.7 序列相关 一、含义 1、概念:序列相关(serial correlation)与自相关(autocorrelation)通常不加区别,按时间(如在时间序列数据中)或者空间(如在截面数据中)排列的观测值序列的成员之间的相关。 2、含义:古典假定 Cov(, 不成立,即 Cov(,  其余假定一应成立。 二、产生的背景(机理或原因) 1、惯性 多数经济界时间序列都有一个明显的特点,就是它的惯性或者粘滞性。 2、设定偏误(遗漏相对重要的解释变量) 3、设定偏误(不正确的函数形式) 4、蛛网现象 5、滞后效应 6、数据的“编造” (对数据的统计处理) 三、序列相关的后果 1、残差方差很可能低估了真实的 2、很可能高估了R2 3、参数估计虽仍为无偏的,但却不是有效的(参数估计量的稳定性下降,低估参数估计量的方差) 4、通常的t检验和F检验都变成无效的了 四、序列相关的检验 (一)一般方法 1、图解法 2、游程检验 3、冯诺曼比检验 4、高阶序列相关的布劳殊—戈弗雷(Breusch—Godfrey)检验 (二) 德宾—瓦特森(Durbin —Watson)检验 1、D.W.统计量: D.W.(d)= d 统计量的最大优点在于它仅只依赖于残差的估计值,而后者在回归分析中照例被计算出来了,与t值、R2 值、F值等摘要统计量一起报告,已成为统计软件的常规。 2、d统计量(D.W.检验)使用的前提 回归方程含有截拒项 诸解释变量是非随机的 随机误差项是一阶自回归模式 回归模型不把滞后应变量当作解释变量 没有缺落数据 3、d统计量的取值范围 ——样本一阶自相关系数,作为的估计值 d 2(1- 0≤d≤4 即如果没有序列相关,则可以预期d=2,因此作为一种经验法则,如果在一项应用中求出d=2便可以认为没有自相关。  ,表明残差中有完全的自相关,则d=0,因此d越接近于0,正的序列相关迹象越明显。  ,表明残差中有完全的负自相关,则d=4,因此d越接近于4,幅序列相关的迹象越明显。 4、Durbin —Watson检验的操作步骤: 做OLS回归并获取残差 计算d值 对给定的样本容量及解释变量数找出临界值dL和 dU 4)按下表的决策规则进行检验 条件 决策  0<d<dL 有正的序列相关 dL≤d≤dU 无结论 du<d<4-dU 没有序列相关 4-dU≤d≤4-dL 无结论 4-dL<d<4 有负的序列相关  借助下图帮助记忆: 正的序列相关 无结论 无序列相关 无结论 负的序列相关  0 dL dU 4-dU 4-dL 4 一个例子 假设在一个回归中用了50个观测值和4个解释变量,估计得。从德宾—瓦特森表查得5%水平的临界值为 dL =1.38 dU = 1.72 <1.43=d<1.72=dU 不能确定有无序列相关 补救措施 (一)自相关的结构已知 1、广义差分法: (1)假定遵循一阶自回归模式,即:  其中 <1(已知),而满足关于随机误差项的一切古典假定 (2)方法(以一元线性回归为例说明) 设  (a) 如果上式在时刻t成立,则在时刻t-1也成立,即  用乘(a)式两端,得  (b) (a)—(b)便得   = (c) 于是有: (t=2)  其中  ,  由于满足全部OLS假定,故可对转换变量 和应用OLS并获得BLUE。 注:为减少数据损失,规定 ,  2、一次差分法 (1)当时广义差分方程(c)变化为一接差分方程如下:   或  (d) 其中:   注意:一阶差分方程没有截距项,因而须用过原点回归模型来做(d) (2)当时,广义差分方程(c)将变为:  或 (移动平均回归) (e) 3、的估计方法 (1)根据Durbin —Watson d统计量估计(大样本) d = 2 ( 1-  (2)Cochrane——Orcutt 迭代法  以OLS估计模型并计算残差et 利用残差作如下的回归  利用上式所得做广义差分方程  或  以OLS估计做上述回归冰球的新的残差 现在估计回归  如此循环直到相继的的估计值差的绝对值小于一个 事先给定的数(比如0.001获0.0005)为止(一般3 到4次就可以了) (3)Cochrane——Orcutt 两步法 (4)Durbin 两步法先将广义差分方程(c)等价地写为:  (f) 步骤:第一、以OLS估计(f),并把得回归系数的估计值视为的一个估计值; 第二、求得后把变量转化为 ,  然后如同那样,对转换的变量做回归 评价:其第一步为估计,第二步则估计回归系数 (5)其他方法 最大似然法 Hildreth—Lu 扫描或搜寻法 可性的或估计的广义最小二乘法(EGLS) e) Thail—Nagar小样本逼近法 例子:零工招聘指数(HWI)与失业率(U)的关系 年与季 HWI,1957~1959=100% U(5%)   1962-1 104.66 5.63 -2 103.53 5.46 -3 97.30 5.63 -4 95.96 5.60 1963-1 98.83 5.83 -2 97.23 5.76 -3 99.06 5.56 -4 113.66 5.63 1964-1 117.00 5.46 -2 119.66 5.26 -3 124.33 5.06 -4 133.00 5.06 1965-1 143.33 4.83 -2 144.66 4.73 -3 152.33 4.46 -4 178.33 4.20 1966-1 192.00 3.83 -2 186.00 3.90 -3 188.00 3.86 -4 193.33 3.70 1967-1 187.66 3.66 -2 175.33 3.83 -3 178.00 3.93 -4 187.66 3.96  其中:HWI为零工招聘指数,U为失业率。 选做经验研究的回归模型为:  先验地预期是负的(为什么?) 假设所有的OLS假定均被满足,可的回归方程:  t =(65.825)(-21.612) N=24 R2=0.9550 d =0.9109 对于24个观测值和一个解释变量,5% ,D—W表给出 dL=1.27, dU=1.45 ,即: d=0.9108<1.27=dL 表示有真的序列相关存在。为此先估计 方法 值  Durbin—Watson 0.5446 Thail—Nagar 0.5554 Cochrane—Orcutt步骤I 0.5471 迭代Ⅱ 0.57223 迭代Ⅲ 0.57836 迭代Ⅳ 0.57999 迭代Ⅴ 0.58040 Durbin两步法 0.79517   不妨取 Thail—Nagar小样本逼近法 =0.5554 把数据变换如下:   且  , 从而得:  N=24 t =(35.583) (-11.045) R2=0.9684 ,d=1.83 d=1.83 dU=1.45<1.83=d<2.55=4-dU 表明已经没有一阶自回归形式的序列相关 §2.8 多重共线性 一、多重共线性的性质 (一)概念及性质 1、概念: 多重共线性(multicolinearity)一词由弗里希(Frisch)引入,其原意为一个线性模型中的一些或全部解释变量之间存在一种“完全”或准确的线性关系。而在计量经济学中系指解释变量之间的完全和欠完全的线性关系。 为说明该定义,设计如下的数据:     10 50 52 15 75 75 18 90 97 24 120 129 30 150 152  很明显,,即与之间有完全的线性关系并且相关系数为1;变量不外是把随机数表的读数2,0,7,9,2加到上产生的,它们之间不具有完全的线性关系,但确是高度相关的(相关系数为0.9959)。 2、性质:解释变量的样本之之间所表现出来的数据之间的相互依存关系的线性关系。 二、导致多重共线性的原因 数据采集所用的方法。 模型或从中取样的总体受到约束。 模型设定。 一个过度决定的模型。 三、多重共线性的后果 (一)、理论后果 完全共线性的后果:回归系数是不确定的而且其标准差是无穷大。 “高度”或“不完全”多重共线性的后果: 即使是近似多重共线性的情形,OLS估计量仍然是无偏的,但无偏性是一种重复抽样的性质 共线性并不破坏最小方差性质,但却只能是线性无偏估计量中的最小方差,而且并不能保证一个OLS估计量的方法差是最小的 多重共线性本质上讲是一种样本(回归)现象(即使总体中诸解释变量没有线性关系,但在具体获得的样本中仍可能有线性关系) (二)、实际后果 近似或高度多重共线性可能招致以下后果: 1、虽然OLS估计仍然是BLUE的,但有大的方 差和协方差,故难以作出精确的估计。 2、执行区间将要宽得多。 3、一个或多个系数的t统计量倾向于统计上不显著,而且可能出现错误的符号。 4、虽然一个或多个系数的t统计量在统计意义上不显著,但总的拟和度R2人可能非常之高。 5、OLS估计量及其标准误对数据的微小变化也会是敏感的。 四、多重共线性的侦察 (一)、一个事先的忠告 多重共线性是一个程度而非有无的问题。有意义的区分不在于有无之间,而在于它的不同程度。 由于多重共线性是对被假设为非随机的解释量的情况而言,所以它是一种样本而非总体特征。 3、 由于1与2的缘故以下所有的方法不能叫做检验, 而只能叫做侦察,一切均具有经验的性质。 (二)一个说明性的例子:消费支出与收入和财富的关系 假设有如下的假设数据: 关于消费支出Y,收入X1和财富X2的假想数据 Y(元) X1(元) X2(元)  70 80 810 65 100 1009 90 120 1273 95 140 1425 110 160 1633 115 180 1876 120 200 2052 140 220 2201 155 240 2435 150 260 2686  如果我们假设消费支出与收入和财富有线性关系,则根据上表的数据可估计的如下的回归:  (1)  R2 = 0.9635  df =7 F=92.4019 虽然,每个解释变量的系数在统计上都不显著(截距除外),但F统计量在统计上是极为显著的,且校正的可决系数也很大。 该例子生动地表明多重共线性是怎么回事。F检验是显著的,解释变量X1与X2的t值个别的看又是不显著的,这一事实本身就说明两个解释变量的相关程度如此之高,以至无法辨别或财富对消费出的个别的影响。事实上,如果我们做X2对X1的回归便得到:  (2) t =(0.2560) (62.0405) R2 =0.9979 这表明X1与X2之间几乎存在完全的共线性。 现在做Y仅对X1的回归:  (3) t = (3.8128) (14.2432) R2=0.9621 在(1)中收入变量在统计上是不显著的,而现在则是高度显著的。如果做Y对X2的回归则得:  (4) 可见财富对消费支出也有显著的影响,而在(1)中则是不显著并且量符号也是错误的。 回归(3)与(4)非常明显的表示,在极端多重共线性的情况下,去掉一个高度共线性的变量常常会使其他解释变量变得统计上显著,解决极端共线性的一个办法,是扔掉共线性的变量。 (三)经验方法 R2值高而显著的t的比率小。这是多重共线性的“经典征兆”,前面的支出—收入—财富一例已经清楚地说明这一事实。 解释变量之间有高度的两两相关。计算简单相关系数判断(须注意的是简单相关系数并不提供判别多重共线性的一个准确的指南) 检查偏相关。计算解释变量间的偏相关系数,并作显著性检验。 辅助回归。做每一个Xj 对其余X变量的回归,并计算出相应的可决系数R2j;这样的回归叫做辅助回归(auxiliary regression)以辅助Y对诸X的回归。然后计算: ~F(k-1,n-k) n-样本容量; k—包括截距在内的解释变量个数 R2j—辅助回归方程的可决系数。 本征值与病态指数。病态指数定义为: CI== 其中:—最大本征值 —最小本征值 K=—病态数 决策的经验法则:如果CI在10到30之间就算有中强多重共线性,如果CI在30以上就认为有严重多重共性线。在说明性例子中CI=352,表明多重共线性是严重的。 6、容许度与方差膨胀因子 方差膨胀因子 VIFj= 称为偏回归系数估计值的方差膨胀因子,因为: Var()==  其中:—解释变量Xj 的偏回归系数估计值 R2j—Xj对其余k-1个解释变量的辅助回归中的可决系数 决策规则:如果VIFj≥10(此时,R2j≥0.90)说明该 变量是高度共线性的,反之则没有。 2)容许度(tolerance) 其定义为 TOLj = 1-R2j = 1/VIFj 显然,如果Xj于其他解释变量无关,则TOLj = 1,而当 它与其他解释变量完全相关时,TOLj=0. 决策规则:如果TOLj接近于1则表明有共线性,否 则没有。 在说明性例子中: .VIF1=≥10 VIF2 =≥10 表明有严重的多重共线性。 TOL1=0 TOL2= 也显示有较强的共线性。 四、补救措施 多重共线性实质上是一个样本特征,也就如同 其侦察一样,不存在一个永不失效的指南,如下的经 验规则是可以尝试的。 先验信息。假设考虑模型:  其中:Y=消费, X1i =收入, X2i =财富;如前分析那样收入和财富间存在严重的共线性,但若事先已知:  也就是说,消费对财富的变化律是对收入相应变化率的1/10,于是回归变为:  = 其中:Xi = X1i +0.10X2i(试解释其合理性),一旦估计出,便可以从与的关系式估计估计。 横截面于时间序列数据并用。是外部信息或先验信息的一个变形,为横截面与时间序列数据的组合,称为数据并用(pooling the data).假设我们拥有车辆出售数(Y)、车辆平均价格(P)及消费者收入(I)的时间序列数据,而且:  我们的目的是要估计价格弹性和收入弹性。但在时间序列数据中收入与价格变量一般具有高度共线的趋势,解决的方式是用截面数据可靠地估计收入弹性(因为这些数据都产生于同一个时点上,价格不至于有很大的变化),设其估计量为,此时时间序列线性回归可一写成:  其中:,此时可以从上式中估计得到价格弹性。 剔除变量与设定误差。面对多重共线性,最简单的做法之一就是剔除共线性诸变量之一。例如在支出—收入—财富模型之回归方程(1)中,收入在统计上不显著,剔除财富后所得方程(3),收入却是高度显著的。但须警惕的是,可能因此而产生设定偏误。(有时治病的危害会超过疾病本身,非完全的共线性下OLS仍然是BLUEDE,但在设定偏误下OLS不再是BLUE) 变量代换。1)改绝对数为增量。 支出—收入—财富模型中,收入与财富在时间序列数据形式下是共线性的(它们同随时间推延而增加)。如果改为:  其中:即改数据为一阶增量形式,应该可以预期此时没有共线性存在。 2)改绝对数为相对数。在柯柏—道格拉斯生产函数的对数形式:  中资本K的对数与劳动投入量L的对数之间是正相关的,但在规模报酬不变()之下可以变形为:  此时就不会再有多重共线性的问题。(请对及的含义进行解释) 5、补充新数据。 由于多重共线性是一样本特征,故有可能对同样的变量,改变样本就有可能使多重共线的程度下降。有时只要增大样本容量就可以解决问题。在二元线性回归模型中,我们看到: Var()= 现在,只要样本增大(扩大x取自的范围),一般说都会随之增大,因此对于任给的,的方差将减小,从而降低标准误,提高估计的精度。 6、在多项式回归中降低共线性。多项式回归的诸解释变量之间一般是高度共线性的,但只要改变量的形式为离差形式其相关性就会显著降低。 7、逐步回归。 第一步,确定一个基本方程(y与一个最合理的解释变量之间的回归方程)以OLS估计回归系数并检验。 第二步,添加一个新的解释变量,以OLS做二元线性回归,并进行检验(若可决系数有改善,且变量的回归系数在统计都上显著,则添加的变量应予以保留;否则新添加的变量应剔除)。 第三步、添加进与下变量中的一个,以OLS估计模型并作检验决定新变量的去留(标准与第二步相同)。   直到所有解释变量均被引入方程,并检验过为止。此时最后所得方程即为所求。 8、拯救多重共线性的其他方法。多元统计分析技术,诸如:因子分析法(factor analysis);主元法(principal components)或脊(岭)回归(ridge regression)。 多重共线性一定是坏事吗? 如果预测是唯一目的,就未必如此(若同时还做参数的可靠估计则另当别论)。 2、如果R2的值高,而且回归系数的t值都在统计上显著,可以不必在意多重共线性。 §2.9 随机解释变量问题 含义与形式 (一)、含义 随机解释变量问题是指对回归模型,关于“所有解释变量均为非随机变量”的违背,即一个或部分解释变量是随机变量。 (二)形式 随机解释变量与误差项不相关。—F1 随机解释变量与误差项在小样本下相关,在大样本下不相关;—F2 随机解释变量与误差项高度相关。—F3 产生的原因 用滞后被解释变量做解释变量(经济数据中最为常见的数据是时间序列数据,当期值往往直接受其前期数值影响,其前期值必须作为解释变量) 随机解释变量问题的后果 (一)、一般随机解释变量的后果(依形式不同而不同) 1、在F1之下 OLS 估计仍然是无偏的但却不是有效的 2、在F2之下 OLS估计仅只是渐进无偏的 3、在 F3之下 OLS估计量不具有渐进无偏性 (二)被解释变量滞后值形式的随机解释变量的后果 OLS估计量不具有渐进无偏性 必然产生序列相关(自然有序列相关的后果) D.W检验失效 随机解释变量的解决方法——工具变量法 (一)、工具变量及其特征 工具变量:在模型参数估计过程中被作为工具使用,以代替模型中与随机误差相关的随机解释的变量。 工具变量的特征:1)与所代替的变量高度相关;2)与随机误差项不相关;3)与模型中其他解释变量不相关。 (二)、工具变量的应用 工具变量的作用:在参数估计中代替随机解释变量,而不是在模型中代替随机解释变量。 工具变量之下参数的估计。 假设在k元线性回归:  中变量是与误差项相关的随机变量,变量z是其工具变量,那么参数的估计量为:  其中: Z= (三)、工具变量法估计量的性质 性质:工具变量法估计量是无偏估计 TSP软件可以在二阶段最小二乘法下实现 §2.10 单方程计量经济学模型综合练习 见书 粮食生产模型 性质:特定形式的生产函数