§ 4.3 多重共线性
Multi-Collinearity
一、多重共线性的概念
二、实际经济问题中的多重共线性
三、多重共线性的后果
四、多重共线性的检验
五、克服多重共线性的方法
六、案例
*七、分部回归与多重共线性
§ 4.3 多重共线性一、多重共线性的概念对于模型
Yi=?0+?1X1i+?2X2i+?+?kXki+?i
i=1,2,…,n
其基本假设之一是解释变量是互相独立的 。
如果某两个或多个解释变量之间出现了相关性,则称为 多重共线性 (Multicollinearity)。
如果存在
c1X1i+c2X2i+… +ckXki=0 i=1,2,…,n
其中,ci不全为 0,则称为解释变量间存在 完全共线性 ( perfect multicollinearity) 。
如果存在
c1X1i+c2X2i+… +ckXki+vi=0 i=1,2,…,n
其中 ci不全为 0,vi为随机误差项,则称为 近似共线性 ( approximate multicollinearity) 或 交互相关
(intercorrelated)。
在矩阵表示的线性回归模型
Y=X?+?
中,完全共线性 指,秩 (X)<k+1,即
knnn
k
k
XXX
XXX
XXX
X

21
22212
12111
1
1
1
中,至少有一列向量可由其他列向量(不包括第一列)线性表出。
如,X2=?X1,则 X2对 Y的作用可由 X1代替。
注意:
完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。
二、实际经济问题中的多重共线性一般地,产生多重共线性的主要原因有以下三个方面:
( 1) 经济变量相关的共同趋势时间序列样本,经济 繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;
衰退时期,又同时趋于下降。
横截面数据,生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,
小企业都小。
( 2)滞后变量的引入在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系。
例如,消费 =f(当期收入,前期收入)
显然,两期收入间有较强的线性相关性。
( 3) 样本资料的限制由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性。
一般经验,
时间序列数据 样本:简单线性模型,往往存在多重共线性。
截面数据 样本:问题不那么严重,但多重共线性仍然是存在的。
二、多重共线性的后果
1、完全共线性下参数估计量不存在如果存在 完全共线性,则 (X’X)-1不存在,无法得到参数的估计量。
μX βY
的 OLS估计量为:
YXXXβ 1)(?
例,对离差形式的二元回归模型
2211 xxy
如果两个解释变量完全相关,如 x2=?x1,则
121 )( xy
这时,只能确定综合参数?1+2的估计值:
2、近似共线性下 OLS估计量非有效近似共线性下,可以得到 OLS参数估计量,
但参数估计量 方差 的表达式为由于 |X’X|?0,引起 (X’X) -1主对角线元素较大,
使参数估计值的方差增大,OLS参数估计量非有效 。
12 )()?( XXβ?C o v
仍以二元线性模型 y=?1x1+?2x2+?为例,



2
2
2
1
2
21
2
1
2
2
21
2
2
2
1
2
2
2
1
11
2
1 )(1
/
)()()
v a r (
iiii
i
iiii
i
xxxx
x
xxxx
xXX
22
1
2
1
1
rx i

2
2
2
1
2
21 )(
ii
ii
xx
xx 恰为 X1与 X2的线性相关系数的平方 r2
由于 r2?1,故 1/(1- r2 )?1
多 重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子 (Variance Inflation Factor,VIF)
当 完全不共线 时,r2 =0 2
121 /)?v a r ( ix
当 近似共线 时,0< r2 <1
21
2
22
1
2
1 1
1)?v a r (
ii xrx

表 4,3,1 方差膨胀因子表相关系数平方 0 0.5 0.8 0.9 0.95 0.96 0.97 0.98 0.99 0.999
方差膨胀因子 1 2 5 10 20 25 33 50 100 1000
当 完全共线 时,r2=1,)?v a r (
1?
3、参数估计量经济含义不合理如果模型中两个解释变量具有线性相关性,
例如 X2=?X1,
这时,X1和 X2前的参数?1,?2并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响 。
1,?2已经失去了应有的经济含义,于是经常表现出 似乎反常的现象,例如?1本来应该是正的,
结果恰是负的 。
4、变量的显著性检验失去意义存在多重共线性时参数估计值的方差与标准差变大容易使通过样本计算的 t值小于临界值,
误导作出参数为 0的推断可能将重要的解释变量排除在模型之外
5、模型的预测功能失效变大的方差容易使区间预测的“区间”变大,
使预测失去意义。
注意:
除非是完全共线性,多重共线性并不意味着任何基本假设的违背;
因此,即使出现较高程度的多重共线性,
OLS估计量仍具有线性性等良好的统计性质。
问题在于,即使 OLS法仍是最好的估计方法,它却不是“完美的”,尤其是在统计推断上无法给出真正有用的信息。
多重共线性检验的任务 是:
( 1)检验多重共线性是否存在;
( 2)估计多重共线性的范围,即判断哪些变量之间存在共线性。
多重共线性表现为解释变量之间具有相关关系,
所以 用于多重共线性的检验方法主要是统计方法,
如 判定系数检验法,逐步回归检验法 等。
三、多重共线性的检验
1、检验多重共线性是否存在
(1)对两个解释变量的模型,采用 简单相关系数法求出 X1与 X2的简单相关系数 r,若 |r|接近 1,则说明两变量存在较强的多重共线性。
(2)对多个解释变量的模型,采用综合统计检验法若 在 OLS法下,R2与 F值较大,但 t检验值较小,
说明各解释变量对 Y的联合线性作用显著,但各解释变量间存在共线性而使得它们对 Y的独立作用不能分辨,故 t检验不显著。
2、判明存在多重共线性的范围如果存在多重共线性,需进一步确定究竟由哪些变量引起 。
(1) 判定系数检验法使模型中每一个解释变量分别以其余解释变量为解释变量进行回归,并计算相应的拟合优度 。
如果某一种回归
Xji=?1X1i+?2X2i+LXLi
的 判定系数 较大,说明 Xj与其他 X间存在 共线性 。
具体可进一步对上述回归方程作 F检验:
式中,Rj?2为第 j个解释变量对其他解释变量的回归方程的决定系数,
若存在较强的共线性,则 Rj?2较大且接近于 1,这时( 1- Rj?2 )较小,从而 Fj的值较大。
因此,给定显著性水平?,计算 F值,并与相应的临界值比较,来判定是否存在相关性。
构造如下 F统计量
)1,2(~)1/()1( )2/(2
.
2
,

knkF
knR
kRF
j
j
j
在模型中排除某一个解释变量 Xj,估计模型 ;
如果拟合优度与包含 Xj时十分接近,
则说明 Xj与其它解释变量之间存在共线性。
另一等价的检验 是,
(2)逐步回归法以 Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。
根据拟合优度的变化决定新引入的变量是否独立。
如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量;
如果拟合优度变化很不显著,则说明新引入的变量与其它变量之间存在共线性关系。
找出引起多重共线性的解释变量,将它排除出去。
以 逐步回归法 得到最广泛的应用。
注意:
这时,剩余解释变量参数的经济含义和数值都发生了变化。
如果模型被检验证明存在多重共线性,则需要发展新的方法估计模型,最常用的方法有三类。
四、克服多重共线性的方法
1、第一类方法:排除引起共线性的变量
2、第二类方法:差分法时间序列数据、线性模型:将原模型变换为差分模型,
Yi=?1? X1i+?2? X2i+?+?k? Xki+i
可以有效地消除原模型中的多重共线性。
一般讲,增量之间的线性关系远比总量之间的线性关系弱得多 。
例如

表 4,3,2 中国 G D P 与居民消费 C 的总量与增量数据 (亿元)
年份 C Y C/Y △ C △ Y △ C/ △ Y
1978 1759.1 3605.6 0.488
1979 2005.4 4074.0 0.492 246.3 468.4 0.526
1980 2317.1 4551.3 0.509 311.7 477.3 0.653
1981 2604.1 4901.4 0.531 287.0 350.1 0.820
1982 2867.9 5489.2 0.522 263.8 587.8 0.449
1983 3182.5 6076.3 0.524 314.6 587.1 0.536
1984 3674.5 7164.4 0.513 492.0 1088.1 0.452
1985 4589.0 8792.1 0.522 914.5 1627.7 0.562
1986 5175.0 10 13 2,8 0.511 586.0 1340.7 0.437
1987 5961.2 11 78 4,7 0.506 786.2 1651.9 0.476
1988 7633.1 14 70 4,0 0.519 1671.9 2919.3 0.573
1989 8523.5 16 46 6,0 0.518 890.4 1762.0 0.505
1990 9113.2 18 31 9,5 0.497 589.7 1853.5 0.318
1991 10 31 5,9 21 28 0,4 0.485 1202.7 2960.9 0.406
1992 12 45 9,8 25 86 3,7 0.482 2143.9 4583.3 0.468
1993 15 68 2,4 34 50 0,7 0.455 3222.6 8637.0 0.373
1994 20 80 9,8 46 69 0,7 0.446 5127.4 12 19 0,0 0.421
1995 26 94 4,5 58 51 0,5 0.461 6134.7 11 81 9,8 0.519
1996 32 15 2,3 68 33 0,4 0.471 5207.8 9819.9 0.530
1997 34 85 4,6 74 89 4,2 0.465 2702.3 6563.8 0.412
1998 36 92 1,1 79 00 3,3 0.467 2066.5 4109.1 0.503
1999 39 33 4,4 82 67 3,1 0.476 2413.3 3669.8 0.658
2000 42 91 1,9 89 11 2,5 0.482 3577.5 6439.4 0.556
由表中的比值可以直观地看到,增量的线性关系弱于总量之间的线性关系 。
进一步分析:
Y与 C(-1)之间的判定系数为 0.9988,
△ Y与△ C(-1)之间的判定系数为 0.9567
3、第三类方法:减小参数估计量的方差多重共线性 的主要 后果 是参数估计量具有较大的方差,所以采取适当方法减小参数估计量的方差,
虽然没有消除模型中的多重共线性,但确能消除多重共线性造成的后果。
例如:
① 增加样本容量,可使参数估计量的方差减小 。
*② 岭回归法 ( Ridge Regression)
70年代发展的岭回归法,以引入偏误为代价减小参数估计量的方差,受到人们的重视 。
具体方法是:引入矩阵 D,使参数估计量为其中矩阵 D一般选择为主对角阵,即
D=aI
a为大于 0的常数。
YXDXXβ 1)(?
( *)
显然,与未含 D的参数 B的估计量相比,(*)式的估计量有较小的方差。
六、案例 —— 中国粮食生产函数根据理论和经验分析,影响粮食生产 ( Y) 的主要因素有:
农业化肥施用量 ( X1) ;粮食播种面积 (X2)
成灾面积 (X3); 农业机械总动力 (X4);
农业劳动力 (X5)
已知中国粮食生产的相关数据,建立中国粮食生产函数:
Y=?0+?1 X1 +?2 X2 +?3 X3 +?4 X4 +?4 X5 +?
表 4,3,3 中国粮食生产与相关投入资料年份粮食产量
Y
( 万吨 )
农业化肥施用量
1
X
(万公斤)
粮食播种面积
2
X
(千公顷)
受灾面积
3
X
(公顷)
农业机械总动力
4
X
(万千瓦)
农业劳动力
5
X
(万人)
1983 38728 1659.8 114047 162 09,3 18022 316 45,1
1984 40731 1739.8 112884 152 64,0 19497 316 85,0
1985 37911 1775.8 108845 227 05,3 20913 303 51,5
1986 39151 1930.6 110933 236 56,0 22950 304 67,0
1987 40208 1999.3 111268 203 92,7 24836 308 70,0
1988 39408 2141.5 110123 239 44,7 26575 314 55,7
1989 40755 2357.1 112205 244 48,7 28067 324 40,5
1990 44624 2590.3 113466 178 19,3 28708 333 30,4
1991 43529 2806.1 112314 278 14,0 29389 341 86,3
1992 44264 2930.2 110560 258 94,7 30308 340 37,0
1993 45649 3151.9 110509 231 33,0 31817 332 58,2
1994 44510 3317.9 109544 313 83,0 33802 326 90,3
1995 46662 3593.7 110060 222 67,0 36118 323 34,5
1996 50454 3827.9 112548 212 33,0 38547 322 60,4
1997 49417 3980.7 112912 303 09,0 42016 324 34,9
1998 51230 4083.7 113787 251 81,0 45208 326 26,4
1999 50839 4124.3 113161 267 31,0 48996 329 11,8
2000 46218 4146.4 108463 343 74,0 52574 327 97,5
1、用 OLS法估计上述模型,
R2接近于 1;
给定?=5%,得 F临界值 F0.05(5,12)=3.11
F=638.4 > 15.19,
故认上述粮食生产的总体线性关系显著成立。
但 X4,X5 的参数未通过 t检验,且符号不正确,
故 解释变量间可能存在多重共线性 。
54321 028.0098.0166.0421.0213.644.12816? XXXXXY
(-0.91) (8.39) (3.32) (-2.81) (-1.45) (-0.14)
2、检验简单相关系数
发现,X1与 X4间存在高度相关性 。
列出 X1,X2,X3,X4,X5的相关系数矩阵:
X1 X2 X3 X4 X5
X1 1.00 0.01 0.64 0.96 0.55
X2 0.01 1.00 -0.45 -0.04 0.18
X3 0.64 -0.45 1.00 0.69 0.36
X4 0.96 -0.04 0.69 1.00 0.45
X5 0.55 0.18 0.36 0.45 1.00
3、找出最简单的回归形式
可见,应选 第 1个式子 为初始的回归模型。
分别作 Y与 X1,X2,X4,X5间的回归:
1576.464.30867? XY(25.58) (11.49)
R2=0.8919 F=132.1 DW=1.56
269 9.018.33 82 1? XY(-0.49) (1.14)
R2=0.075 F=1.30 DW=0.12
43 80.00.3 19 19? XY
(17.45) (6.68)
R2=0.7527 F=48.7 DW=1.11
52 4 0.219.2 8 2 5 9? XY (-1.04) (2.66)
R2=0.3064 F=7.07 DW=0.36
4、逐步回归将其他解释变量分别导入上述初始回归模型,寻找最佳回归方程 。
C X1 X2 X3 X4 X5 2
R
DW
Y= f ( X 1 ) 30868 4.23 0,8852 1.56
t 值 25,58 1 1.49
Y = f ( X 1,X2 ) - 438 71 4.65 0.67 0.9 558 2.01
t 值 - 3.02 18.47 5.16
Y = f ( X 1,X2,X3 ) - 1 197 8 5.26 0.41 - 0.19 0.9 752 1.53
t 值 0.85 19.6 3.35 - 3.57
Y = f ( X 1,X2,X 3,X 4 ) - 130 56 6.17 0.42 - 0.17 - 0.09 0.9775 1.80
t 值 - 0.97 9.61 3.57 - 3.09 - 1.55
Y = f ( X 1,X3,X 4,X 5 ) - 126 90 5.22 0.40 - 0.2 0 0.07 0.9 798 1.55
t 值 - 0.87 17.85 3.02 - 3.47 0.37
回归方程以 Y=f(X1,X2,X3)为最优:
5、结论
321 19.041.026.51 1 9 7 8 XXXY
*七、分部回归与多重共线性
1、分部回归法 (Partitioned Regression)
对于模型
Y X
2211 XXY
在满足解释变量与随机误差项不相关的情况下,可以写出关于参数估计量的方程组:



2
1
2212
2111
2
1
xxxx
xxxx
YX
YX
将解释变量分为两部分,对应的参数也分为两部分:
如果存在
)?()(
)()(?
221
1
11
221
1
111
1
111



XYXXX
XXXXYXXX
0XX 21
则有 YXXX
11111 )(
同样有 YXXX
21222 )(
这就是仅以 X2作为解释变量时的参数估计量 。
这就是仅以 X1作为解释变量时的参数估计量
2、由分部回归法导出
如果一个多元线性模型的解释变量之间完全正交,
可以将该多元模型分为多个一元模型、二元模型,… 进行估计,参数估计结果不变;
实际模型由于存在或轻或重的共线性,如果将它们分为多个一元模型、二元模型,… 进行估计,
参数估计结果将发生变化;
严格地说,实际模型由于总存在一定程度的共线性,所以每个参数估计量并不真正反映对应变量与被解释变量之间的结构关系。
当模型存在共线性,将某个共线性变量去掉,剩余变量的参数估计结果将发生变化,
而且经济含义有发生变化;