§ 4.3 多重共线性
Multi-Collinearity
? 一、多重共线性的概念
? 二、实际经济问题中的多重共线性
? 三、多重共线性的后果
? 四、多重共线性的检验
? 五、克服多重共线性的方法
? 六、案例
? *七、分部回归与多重共线性
§ 4.3 多重共线性
一、多重共线性的概念
对于模型
Yi=?0+?1X1i+?2X2i+?+?kXki+?i
i=1,2,…,n
其基本假设之一是解释变量是互相独立的 。
如果某两个或多个解释变量之间出现了相
关性,则称为 多重共线性 (Multicollinearity)。
如果存在
c1X1i+c2X2i+… +ckXki=0 i=1,2,…,n
其中, ci不全为 0,则称为解释变量间存在 完全共线
性 ( perfect multicollinearity) 。
如果存在
c1X1i+c2X2i+… +ckXki+vi=0 i=1,2,…,n
其中 ci不全为 0,vi为随机误差项, 则称为 近似共线
性 ( approximate multicollinearity) 或 交互相关
(intercorrelated)。
在矩阵表示的线性回归模型
Y=X?+?
中,完全共线性 指,秩 (X)<k+1,即
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
knnn
k
k
XXX
XXX
XXX
X
?
?????
?
?
21
22212
12111
1
1
1
中,至少有一列向量可由其他列向量(不包括第
一列)线性表出。
如,X2= ?X1,则 X2对 Y的作用可由 X1代替。
注意:
完全共线性的情况并不多见,一般出现
的是在一定程度上的共线性,即近似共线
性。
二、实际经济问题中的多重共线性
一般地, 产生多重共线性的主要原因有以下三
个方面:
( 1) 经济变量相关的共同趋势
时间序列样本,经济 繁荣时期,各基本经济
变量(收入、消费、投资、价格)都趋于增长;
衰退时期,又同时趋于下降。
横截面数据, 生产函数中, 资本投入与劳动
力投入往往出现高度相关情况,大企业二者都大,
小企业都小。
( 2)滞后变量的引入
在经济计量模型中,往往需要引入滞
后经济变量来反映真实的经济关系。
例如,消费 =f(当期收入,前期收入)
显然,两期收入间有较强的线性相关性。
( 3) 样本资料的限制
由于完全符合理论模型所要求的样本数据较难
收集,特定样本可能存在某种程度的多重共线性。
一般经验,
时间序列数据 样本:简单线性模型,往往存在
多重共线性。
截面数据 样本:问题不那么严重,但多重共线
性仍然是存在的。
二、多重共线性的后果
1、完全共线性下参数估计量不存在
如果存在 完全共线性,则 (X’X)-1不存在,无法得
到参数的估计量。
μX βY ??
的 OLS估计量为:
YXXXβ ??? ? 1)(?
例,对离差形式的二元回归模型
??? ??? 2211 xxy
如果两个解释变量完全相关,如 x2= ?x1,则
???? ??? 121 )( xy
这时,只能确定综合参数 ?1+??2的估计值:
2、近似共线性下 OLS估计量非有效
近似共线性下, 可以得到 OLS参数估计量,
但参数估计量 方差 的表达式为
由于 |X’X|?0,引起 (X’X) -1主对角线元素较大,
使参数估计值的方差增大, OLS参数估计量非有
效 。
12 )()?( ??? XXβ ?C o v
仍以二元线性模型 y=?1x1+?2x2+? 为例,
? ??
?
? ??
?
??????
?
2
2
2
1
2
21
2
1
2
2
21
2
2
2
1
2
2
2
1
11
2
1 )(1
/
)()()
?v a r (
iiii
i
iiii
i
xxxx
x
xxxx
xXX ????
22
1
2
1
1
rx i ??? ?
?
? ?
?
2
2
2
1
2
21 )(
ii
ii
xx
xx 恰为 X1与 X2的线性相关系数的平方 r2
由于 r2 ?1,故 1/(1- r2 )?1
多 重共线性使参数估计值的方差增大, 1/(1-r2)为
方差膨胀因子 (Variance Inflation Factor,VIF)
当 完全不共线 时,r2 =0 ?? 2
121 /)?v a r ( ix??
当 近似共线 时,0< r2 <1
?? ???? 21
2
22
1
2
1 1
1)?v a r (
ii xrx
???
表 4,3, 1 方差膨胀因子表
相关系数平方 0 0,5 0,8 0,9 0,9 5 0,9 6 0,9 7 0,9 8 0,9 9 0,9 9 9
方差膨胀因子 1 2 5 10 20 25 33 50 100 1000
当 完全共线 时,r2=1,??)?v a r (
1?
3、参数估计量经济含义不合理
如果模型中两个解释变量具有线性相关性,
例如 X2= ?X1,
这时, X1和 X2前的参数 ?1,?2并不反映各自与
被解释变量之间的结构关系, 而是反映它们对被
解释变量的共同影响 。
?1,?2已经失去了应有的经济含义, 于是经常
表现出 似乎反常的现象,例如 ?1本来应该是正的,
结果恰是负的 。
4、变量的显著性检验失去意义
存在多重共线性时
参数估计值的方差与标准差变大
容易使通过样本计算的 t值小于临界值,
误导作出参数为 0的推断
可能将重要的解释变量排除在模型之外
5、模型的预测功能失效
变大的方差容易使区间预测的“区间”变大,
使预测失去意义。
注意:
除非是完全共线性,多重共线性并不意味
着任何基本假设的违背;
因此,即使出现较高程度的多重共线性,
OLS估计量仍具有线性性等良好的统计性质。
问题在于,即使 OLS法仍是最好的估计方
法,它却不是“完美的”,尤其是在统计推断
上无法给出真正有用的信息。
多重共线性检验的任务 是:
( 1)检验多重共线性是否存在;
( 2)估计多重共线性的范围,即判断哪些变量
之间存在共线性。
多重共线性表现为解释变量之间具有相关关系,
所以 用于多重共线性的检验方法主要是统计方法,
如 判定系数检验法, 逐步回归检验法 等。
三、多重共线性的检验
1、检验多重共线性是否存在
(1)对两个解释变量的模型,采用 简单相关系数法
求出 X1与 X2的简单相关系数 r,若 |r|接近 1,则说
明两变量存在较强的多重共线性。
(2)对多个解释变量的模型,采用综合统计检验法
若 在 OLS法下, R2与 F值较大,但 t检验值较小,
说明各解释变量对 Y的联合线性作用显著,但各解
释变量间存在共线性而使得它们对 Y的独立作用不
能分辨,故 t检验不显著。
2、判明存在多重共线性的范围
如果存在多重共线性, 需进一步确定究竟由哪
些变量引起 。
(1) 判定系数检验法
使模型中每一个解释变量分别以其余解释变量
为解释变量进行回归, 并计算相应的拟合优度 。
如果某一种回归
Xji=?1X1i+?2X2i+??LXLi
的 判定系数 较大, 说明 Xj与其他 X间存在 共线性 。
具体可进一步对上述回归方程作 F检验:
式中,Rj?2为第 j个解释变量对其他解释变量的回
归方程的决定系数,
若存在较强的共线性,则 Rj?2较大且接近于 1,这
时( 1- Rj?2 )较小,从而 Fj的值较大。
因此,给定显著性水平 ?,计算 F值,并与相应的
临界值比较,来判定是否存在相关性。
构造如下 F统计量
)1,2(~)1/()1( )2/(2
.
2
,???
???
?? knkF
knR
kRF
j
j
j
在模型中排除某一个解释变量 Xj,估计
模型 ;
如果拟合优度与包含 Xj时十分接近,
则说明 Xj与其它解释变量之间存在共线性。
另一等价的检验 是,
(2)逐步回归法
以 Y为被解释变量,逐个引入解释变量,构
成回归模型,进行模型估计。
根据拟合优度的变化决定新引入的变量是否
独立。
如果拟合优度变化显著,则说明新引入的变
量是一个独立解释变量;
如果拟合优度变化很不显著,则说明新引入
的变量与其它变量之间存在共线性关系。
找出引起多重共线性的解释变量,将它排除出
去。
以 逐步回归法 得到最广泛的应用。
? 注意:
这时,剩余解释变量参数的经济含义和数值都
发生了变化。
如果模型被检验证明存在多重共线性,则需要
发展新的方法估计模型,最常用的方法有三类。
四、克服多重共线性的方法
1、第一类方法:排除引起共线性的变量
2、第二类方法:差分法
时间序列数据、线性模型:将原模型变
换为差分模型,
?Yi=?1 ? X1i+?2 ? X2i+?+?k ? Xki+ ??i
可以有效地消除原模型中的多重共线性。
一般讲,增量之间的线性关系远比总量
之间的线性关系弱得多 。



表 4,3, 2 中国 G D P 与居民消费 C 的总量与增量数据 (亿元)
年份 C Y C/Y △ C △ Y △ C/ △ Y
1978 1759.1 3605.6 0.488
1979 2005.4 4074.0 0.492 246.3 468.4 0.526
1980 2317.1 4551.3 0.509 311.7 477.3 0.653
1981 2604.1 4901.4 0.531 287.0 350.1 0.820
1982 2867.9 5489.2 0.522 263.8 587.8 0.449
1983 3182.5 6076.3 0.524 314.6 587.1 0.536
1984 3674.5 7164.4 0.513 492.0 1088.1 0.452
1985 4589.0 8792.1 0.522 914.5 1627.7 0.562
1986 5175.0 101 32,8 0.511 586.0 1340.7 0.437
1987 5961.2 117 84,7 0.506 786.2 1651.9 0.476
1988 7633.1 147 04,0 0.519 1671.9 2919.3 0.573
1989 8523.5 164 66,0 0.518 890.4 1762.0 0.505
1990 9113.2 183 19,5 0.497 589.7 1853.5 0.318
1991 103 15,9 212 80,4 0.485 1202.7 2960.9 0.406
1992 124 59,8 258 63,7 0.482 2143.9 4583.3 0.468
1993 156 82,4 345 00,7 0.455 3222.6 8637.0 0.373
1994 208 09,8 466 90,7 0.446 5127.4 121 90,0 0.421
1995 269 44,5 585 10,5 0.461 6134.7 118 19,8 0.519
1996 321 52,3 683 30,4 0.471 5207.8 9819.9 0.530
1997 348 54,6 748 94,2 0.465 2702.3 6563.8 0.412
1998 369 21,1 790 03,3 0.467 2066.5 4109.1 0.503
1999 393 34,4 826 73,1 0.476 2413.3 3669.8 0.658
2000 429 11,9 891 12,5 0.482 3577.5 6439.4 0.556
由表中的比值可以直观地看到,增量
的线性关系弱于总量之间的线性关系 。
进一步分析:
Y与 C(-1)之间的判定系数为 0.9988,
△ Y与△ C(-1)之间的判定系数为 0.9567
3、第三类方法:减小参数估计量的方差
多重共线性 的主要 后果 是参数估计量具
有较大的方差,所以
采取适当方法减小参数估计量的方差,
虽然没有消除模型中的多重共线性,但确
能消除多重共线性造成的后果。
例如:
① 增加样本容量, 可使参数估计量的方
差减小 。
*② 岭回归法 ( Ridge Regression)
70年代发展的岭回归法, 以引入偏误为代价减小
参数估计量的方差, 受到人们的重视 。
具体方法是:引入矩阵 D,使参数估计量为
其中矩阵 D一般选择为主对角阵,即
D=aI
a为大于 0的常数。
YXDXXβ ???? ? 1)(?
( *)
显然,与未含 D的参数 B的估计量相比,(*)式的估
计量有较小的方差。
六、案例 —— 中国粮食生产函数
根据理论和经验分析, 影响粮食生产 ( Y) 的
主要因素有:
农业化肥施用量 ( X1) ;粮食播种面积 (X2)
成灾面积 (X3); 农业机械总动力 (X4);
农业劳动力 (X5)
已知中国粮食生产的相关数据,建立中国粮食
生产函数:
Y=?0+?1 X1 +?2 X2 +?3 X3 +?4 X4 +?4 X5 +?
表 4,3, 3 中国粮食生产与相关投入资料
年份
粮食产量
Y
( 万吨 )
农业化肥施
用量
1
X
(万公斤)
粮食播种面

2
X
(千公顷)
受灾面积
3
X
(公顷)
农业机械总
动力
4
X
(万千瓦)
农业劳动
力 5
X
(万人)
1983 38728 1659.8 114047 16209,3 18022 31645,1
1984 40731 1739.8 112884 15264,0 19497 31685,0
1985 37911 1775.8 108845 22705,3 20913 30351,5
1986 39151 1930.6 110933 23656,0 22950 30467,0
1987 40208 1999.3 111268 20392,7 24836 30870,0
1988 39408 2141.5 110123 23944,7 26575 31455,7
1989 40755 2357.1 112205 24448,7 28067 32440,5
1990 44624 2590.3 113466 17819,3 28708 33330,4
1991 43529 2806.1 112314 27814,0 29389 34186,3
1992 44264 2930.2 110560 25894,7 30308 34037,0
1993 45649 3151.9 110509 23133,0 31817 33258,2
1994 44510 3317.9 109544 31383,0 33802 32690,3
1995 46662 3593.7 110060 22267,0 36118 32334,5
1996 50454 3827.9 112548 21233,0 38547 32260,4
1997 49417 3980.7 112912 30309,0 42016 32434,9
1998 51230 4083.7 113787 25181,0 45208 32626,4
1999 50839 4124.3 113161 26731,0 48996 32911,8
2000 46218 4146.4 108463 34374,0 52574 32797,5
1、用 OLS法估计上述模型,
R2接近于 1;
给定 ?=5%,得 F临界值 F0.05(5,12)=3.11
F=638.4 > 15.19,
故认上述粮食生产的总体线性关系显著成立。
但 X4, X5 的参数未通过 t检验,且符号不正确,
故 解释变量间可能存在多重共线性 。
54321 0 2 8.00 9 8.01 6 6.04 2 1.02 1 3.644.1 2 8 1 6? XXXXXY ???????
(-0.91) (8.39) (3.32) (-2.81) (-1.45) (-0.14)
2、检验简单相关系数
? 发现,X1与 X4间存在高度相关性 。
列出 X1,X2,X3,X4,X5的相关系数矩阵:
X1 X2 X3 X4 X5
X1 1.00 0.01 0.64 0.96 0.55
X2 0.01 1.00 -0.45 -0.04 0.18
X3 0.64 -0.45 1.00 0.69 0.36
X4 0.96 -0.04 0.69 1.00 0.45
X5 0.55 0.18 0.36 0.45 1.00
3、找出最简单的回归形式
? 可见,应选 第 1个式子 为初始的回归模型。
分别作 Y与 X1,X2,X4,X5间的回归:
15 7 6.464.3 0 8 6 7? XY ??(25.58) (11.49)
R2=0.8919 F=132.1 DW=1.56
26 9 9.018.3 3 8 2 1? XY ???(-0.49) (1.14)
R2=0.075 F=1.30 DW=0.12
43 8 0.00.3 1 9 1 9? XY ??
(17.45) (6.68)
R2=0.7527 F=48.7 DW=1.11
52 4 0.219.2 8 2 5 9? XY ??? (-1.04) (2.66)
R2=0.3064 F=7.07 DW=0.36
4、逐步回归
将其他解释变量分别导入上述初始回归模型, 寻
找最佳回归方程 。
C X1 X2 X3 X4 X5 2R DW
Y= f ( X 1 ) 30868 4,2 3 0,8852 1,5 6
t 值 25, 58 1 1,4 9
Y=f( X 1,X2 ) - 4 3 8 7 1 4,6 5 0,6 7 0,9 558 2,0 1
t 值 - 3,0 2 1 8,4 7 5,1 6
Y=f( X 1,X2,X3 ) - 1 1 9 7 8 5,2 6 0,4 1 - 0,1 9 0,9 752 1,5 3
t 值 0,8 5 1 9,6 3,3 5 - 3,5 7
Y=f( X 1,X2,X 3,X4 ) - 1 3 0 5 6 6,1 7 0,4 2 - 0,1 7 - 0,0 9 0,9 7 7 5 1,8 0
t 值 - 0,9 7 9,6 1 3,5 7 - 3,0 9 - 1,5 5
Y=f( X 1,X3,X 4,X5 ) - 1 2 6 9 0 5,2 2 0,4 0 - 0,2 0 0,0 7 0,9 798 1,5 5
t 值 - 0,8 7 1 7,8 5 3,0 2 - 3,4 7 0,3 7
回归方程以 Y=f(X1,X2,X3)为最优:
5、结论
321 19.041.026.51 1 9 7 8 XXXY ?????
*七、分部回归与多重共线性
1、分部回归法 (Partitioned Regression)
对于模型
Y X? ?? ?
?????? 2211 XXY
在满足解释变量与随机误差项不相关的情况下,可
以写出关于参数估计量的方程组:
?
?
?
?
?
?
?
?
?
?
?
?
?
?
??
??
??
?
?
?
?
?
?
?
2
1
2212
2111
2
1
?
?
xxxx
xxxx
YX
YX
将解释变量分为两部分,对应的参数也分为两部分:
如果存在
)?()(
?)()(?
221
1
11
221
1
111
1
111
?????
????????
?
??
XYXXX
XXXXYXXX
0XX ?? 21
则有 YXXX
11111 )(? ???? ?
同样有 YXXX
21222 )(? ???? ?
这就是仅以 X2作为解释变量时的参数估计量 。
这就是仅以 X1作为解释变量时的参数估计量
2、由分部回归法导出
? 如果一个多元线性模型的解释变量之间完全正交,
可以将该多元模型分为多个一元模型、二元模
型,… 进行估计,参数估计结果不变;
? 实际模型由于存在或轻或重的共线性,如果将它
们分为多个一元模型、二元模型,… 进行估计,
参数估计结果将发生变化;
? 严格地说,实际模型由于总存在一定程
度的共线性,所以每个参数估计量并不
真正反映对应变量与被解释变量之间的
结构关系。
? 当模型存在共线性,将某个共线性变量去
掉,剩余变量的参数估计结果将发生变化,
而且经济含义有发生变化;