§ 2.8多重共线性
Multi-Collinearity
一、多重共线性的概念
二、多重共线性的后果
三、多重共线性的检验
四、克服多重共线性的方法
五、案例
探求四个问题的答案
? 多重共线性的性质是什么?
? 多重共线性的后果是什么?
? 在实际中,如何检验多重共线性的存在?
? 如何处理多重共线性?
一、多重共线性的概念
1、多重共线性(弗里希引入)(针对解释
变量、针对多元模型)
对于模型
yi=?0+?1x1i+?2x2i+?+?kxki+?i
i=1,2,…,n (2.8.1)
其基本假设之一是解释变量是互不相关的 。
如果某两个或多个解释变量之间出现了相关性,
则称为 多重共线性 。
△ (线性)相关图示
20
30
40
50
60
70
80
0 10 20 30 40
Y
X200
400
600
800
1000
1200
0 500 1000 1500 2000 2500
Y
X
y=a+bx 线性组合
y和 x完全(线性)相关
( a+bx - y = 0)
y=a+bx+μ 近似直线关系
y和 x不完全相关
( a+bx - y +μ = 0)
如果存在
c0+ c1x1i+c2x2i+… +ckxki=0
i=1,2,…,n (2.8.2)
其中, c1,c2,…,ck不全为 0,即 某一个解释变量可以
用其它解释变量的线性组合表示, 则称为解释变量
间存在 完全共线性 (完全的多重共线性 )。
如果存在
c0+ c1x1i+c2x2i+… +ckxki+vi=0
i=1,2,…,n
其中 c1,c2,…,ck不全为 0,v为随机误差项, 则称为 一
般共线性 (近似共线性 )( 高度多重共线性 ) 或 交互相
关 (intercorrelated)。
注意:
在实际经济统计数据中,完全共线性和完全无
多重共线性两种极端的情况都是极少见的。
常见的经济统计数据中,多个解释变量之间多
少都存在一定程度上的共线性 。
因此,通常人们关心的不是是否存在多重共
线性问题,而是共线性程度的强弱。
通常提到的多重共线性是指解释变量之间具有
较强的共线性 (线性相关关系) —— 近似(高度
多重)共线性
从现在起仅考虑近似共线性即高度多重共线性
的情形。
在矩阵表示的线性回归模型
Y=XB+N
中,完全共线性指:秩 (X)<k+1,即矩阵 ?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
knnn
k
k
XXX
XXX
XXX
X
?
?????
?
?
21
22212
12111
1
1
1
中,至少有一列向量可由其他列向量 (不包
括第一列)线性表出。
2、实际经济问题中的多重共线性现象
? 经济变量的共同变化趋势
时间序列样本,经济 繁荣时期,各基本经济
变量(收入、消费、投资、价格)都趋于增长;
衰退时期,又同时趋于下降。
横截面数据,生产函数中, 资本投入与劳动力
投入往往出现高度相关情况,大企业二者都大,
小企业都小。
? 滞后变量的引入
在计量经济模型中,往往需要引入滞后经济变
量来反映真实的经济关系。
例如,消费 =f(当期收入,前期收入)
显然,两期收入间有较强的线性相关性 。
? 一般经验
对于采用 时间序列数据 作样本、以简单线性形式建
立的计量经济学模型,往往存在多重共线性。
以 截面数据 作样本时,问题不那么严重,但多重
共线性仍然是存在的。
二、多重共线性的后果
1、完全共线性下参数估计量不存在
如果存在 完全共线性, 无法得到参数的估计量,因
为 (X’X) -1不存在,。
多元线性模型
Y X? +B N
的普通最小二乘参数估计量为:
$ ( )B ? ? ?-X X X Y1 (2.8.3)
? 例如,考虑二元线性回归模型
? 其中解释变量之间存在完全的多重共线
性 x2i =4x1i,将该关系代入回归模型中,会
发现什么?
iii xxy ??? ++? 22110 +μi
( 3 ) A
( 2 ) )4(A
)4(
)(
( 1 )
1
10
211
1
210
1
2
1
10
2
2
1
10
4
?
?
?
?
?
??
???
???
???
i
i
i
i
i
i
i
ii
i
i
ii
i
xy
xy
xxy
xxy
++?
+
+++??
+++??
+++?
则模型变为
=令
模型:
? 由于解释变量间存在完全的多重共线性,
使得表面上是二元的模型 (1)实际为一元
线性回归模型 (3)。
? 即使能够对模型 (3)进行估计,也只能估
计出参数 A1的值,却无法从估计的 A1值
之中得出参数 ?0 和 ?1的估计值。
? 因为方程 (2)是含两个未知数的方程,一个
方程两个未知数,不可能得出确定的偏回
归系数 ?0 和 ?1的估计值。
? 当解释变量间存在完全的多重共线性时,
无法估计参数的值 。
2、近似(高度多重)共线性下普通最小二
乘法参数估计量仍为 BLUE,但方差很大,
即估计值的精度很低。
在一般共线性 ( 或称近似共线性 ) 下, 虽然可
以得到 OLS法参数估计量, 但是由参数估计量方
差的表达式为
12 )()?( -??B XX?C o v
可见, 由于此时 |X’X|?0,引起 (X’X) -1主对角
线元素较大, 从而使参数估计值的方差增大 。
BLUE表明的是各线性无偏估计量中方差最小的
一个, 但并不等于方差的值很小 。
即,多重共线性使参数估计值的方差增大,其增
大趋势见下表 (以二元为例,两个解释变量之间
的共线性 — 相关系数)
相关系
数平方
0 0.5 0.8 0.9 0.95 0.96 0.97 0.98 0.99 0.999
方差扩
大倍数
1 2 5 10 20 25 33 50 100 1000
当完全共线时,2相关系数 =1, ??方差
3、参数估计量经济含义不合理
各自的参数失去了应有的经济含义, 经常表
现出似乎反常的现象, 例如本来应该是正的, 结
果恰是负的 。
4,R2很高但显著的 t值很少 ( 显著特征 )
5,模型的预测功能失效
变大的方差容易使区间预测的, 区间, 变大,
使预测失去意义 。
6、变量的显著性检验失去意义
存在多重共线性时
参数估计值的方差与标准差变大
使 t统计量的拒绝域变小(临界值增大)
容易使通过样本计算的 t值小于临界值,
误导作出参数为 0的推断
可能将重要的解释变量排除在模型之外
三、多重共线性的检验
? 由于多重共线性表现为解释变量之间具有相关
关系,所以 用于多重共线性的检验方法主要是统
计方法:如 判定系数检验法, VIF检验, 逐步回
归检验法 等 。
? 多重共线性检验的任务 是:
( 1)检验多重共线性是否存在;
( 2)估计多重共线性的范围,即判断哪些变量
之间存在共线性。
1、检验多重共线性是否存在
(1)对两个解释变量的模型,采用 相关系数法
求出 x1与 x2的相关系数,若 |相关系数 |接近 1,则说
明两变量存在较强的多重共线性。
(2)对多个解释变量的模型,采用 综合统计检验法
若 在 OLS法下,模型的 R2较大,但各参数估计值
的 t检验值较小, 即 t检验不显著,说明变量间可能
存在较强的多重共线性。这是多重共线性存在的典
型迹象。
此法简便易行,因而使实践中最常用的方法,其缺
点是无法确诊。
2、判明存在多重共线性的范围
(1) 判定系数检验法
? 使模型中每一个解释变量分别以其余解释变量
为解释变量进行回归计算, 并计算相应的拟合优
度指标, 也称为判定系数 。 如果在某一种形式
xji=?1x1i+?2x2i+??LxLi
中判定系数 ( 可决系数或调整的可决系数 ) 较大,
则说明在该形式中作为被解释变量的 xj可以用其
他 x的线性组合代替, 即 xj与其他 x之间存在共线
性 。
?等价的检验,
在模型中排除某一个解释变量 xj,估计模型,
如果拟合优度与包含 xj时十分接近,则说明 xj与
其它解释变量之间存在共线性。
? 另一种等价的检验是对上述回归方程作 F检验
式中,Rj?2为第 j个解释变量对其他解释变量的回
归方程的决定系数,
若存在较强的共线性,则 Rj?2较大且接近于 1,这
时( 1- Rj?2 )较小,从而 Fj的值较大。因此,可以在
给定的显著性水平 ?下,通过计算 F值的方法进行检
验。
构造如下 F 统计量:
)1,2(~)1/()1(
)2/(
2
.
2
.
+--
+--
-
? knkF
knR
kR
F
j
j
j
(2) 逐步回归法
? 以 y为被解释变量,逐个引入解释变量,构成回
归模型,进行模型估计。
? 根据拟合优度的变化决定新引入的变量是否可
以用其它变量的线性组合代替,而不作为独立的
解释变量。
? 如果拟合优度变化显著,则说明新引入的变量
是一个独立解释变量;
? 如果拟合优度变化很不显著,则说明新引入的
变量不是一个独立解释变量,它可以用其它变量
的线性组合代替,也就是说它与其它变量之间存
在共线性关系。
四、克服多重共线性的方法
1、第一类方法:排除引起共线性的变量
? 找出引起多重共线性的解释变量,将它排除出去,
是最为有效的克服多重共线性问题的方法。
? 注意:
剩余解释变量参数的经济含义和数值都发生了变化。
这种做法可能会使得到的剩余解释变量参数的估计
量产生偏移,因而需权衡利弊。
2、第二类方法:差分法(一阶差分法)
? 对于以时间序列数据为样本、以直接线性关系
为模型关系形式的计量经济学模型,将原模型变
换为差分模型
?yi=?1 ? x1i+?2 ? x2i+?+?k ?xki+ ??i
? 一般讲,增量之间的线性关系远比总量之间的
线性关系弱得多。因而此变换有可能有效地消除
或缓解存在于原模型中的多重共线性 。
例如,在中国消费模型中的 2个变量,
收入 (y, GDP)与消费 C 的总量与差分数据
y C C/y △ y △ C △ C/△ y
1981 4901 2976 0.6072
1982 5489 3309 0.6028 588 333 0.5663
1983 6076 3638 0.5996 587 329 0.5605
1984 7164 4021 0.5613 1088 383 0.3520
1985 8792 4694 0.5339 1628 673 0.4134
1986 10133 5773 0.5697 1441 1079 0.7488
1987 11784 6542 0.5552 1651 769 0.4658
1988 14704 7451 0.5067 2920 909 0.3113
1989 16466 9360 0.5684 1762 1909 1.083
1990 18320 10556 0.5762 1854 1196 0.6451
1991 21280 11362 0.5339 2960 806 0.2723
1992 25864 13146 0.5083 4584 1784 0.3892
1993 34501 15952 0.4624 8637 2806 0.3249
1994 47111 20182 0.4284 12610 4230 0.3354
1995 59405 27216 0.4581 12294 7034 0.5721
1996 68498 34529 0.5041 9093 7313 0.8042
? 由表中的比值可以直观地看到,两变量一阶差
分的线性关系弱于总量之间的线性关系。
? 进一步分析:
y与 c之间的可决系数为 0.9845,
△ y与△ c之间的可决系数为 0.7456。
一般认为,两个变量之间的可决系数
大于 0.8时,二者之间存在线性关系。
所以,原模型经检验地被认为具有多
重共线性,而差分模型则可认为不具有多
重共线性。
3、第三类方法:减小参数估计量的方差
? 多重共线性的主要后果是参数估计量具有较大
的方差,所以采取适当方法减小参数估计量的方
差,虽然没有消除模型中的多重共线性,但确能
消除多重共线性造成的后果。
?例如,增加样本容量,可使参数估计量的方差
减小。
? 再如, 岭回归法 ( Ridge Regression)
70年代发展的岭回归法, 以引入偏误为代价减小
参数估计量的方差, 受到人们的重视 。
具体方法是:引入矩阵 D,使参数估计量为
其中矩阵 D一般选择为主对角阵,即
D=aI (2.6.6)
a为大于 0的常数。
显然,与未含 D的参数 B的估计量相比,(2.6.5)的
估计量有较小的方差。
$ ( )B ? ? + ?-X X D X Y1 ( 2, 6, 5 )
4、其他方法
? 采用新样本、将模型适当变形、依据经
济理论对模型施加某些约束条件等方法
也有可能消除或减缓多重共线性问题。
关于多重共线性问题的一点说明
? 目前,对于多重共线性问题,例如,如
何评估多重共线性造成的影响,如何检
验模型是否存在多重共线性,如何消除
多重共线性的影响等问题,还没有一种
既简单又普遍适用的方法。在一般情况
下,要根据样本的情况,建立回归模型
的目的等多方面的因素进行具体分析,
进而找到适当的解决多重共线性问题的
方法。
? 在一般情况下,可以下面三条原则来考虑多重共线性问题:
? 多重共线性是普遍存在的,轻微的多重共线性
可以不采取措施处理。
? 高度的多重共线性问题,一般可根据经验或分
析模型各项指标发现。例如,R2较大,重要
的解释变量的 t检验值较小,参数符号不正确
等。此时须根据不同情况采取相应措施处理。
? 如果模型仅仅用于预测,则只要拟合程度好,
且多重共线性在未来预测期内保持不变,可不
处理,往往不会影响预测结果。
仍以一元模型中 1
?
? 为例,
1
?
? 的方差为
? ??
?
? ??
?
-
?
-
???
-
2
2
2
1
2
21
2
1
2
2
21
2
2
2
1
2
2
2
1
11
2
1
)(1
/
)(
)()
?
v a r (
iiii
i
iiii
i
xxxx
x
xxxx
x
XX
?
?
??
? ?
?
2
2
2
1
2
21
)(
ii
ii
xx
xx
恰为 1x 与 2x 的线性相关系数的平
方
2
r,由于
2
r ? 1,故 1
1
1
2
?
- r
。
Multi-Collinearity
一、多重共线性的概念
二、多重共线性的后果
三、多重共线性的检验
四、克服多重共线性的方法
五、案例
探求四个问题的答案
? 多重共线性的性质是什么?
? 多重共线性的后果是什么?
? 在实际中,如何检验多重共线性的存在?
? 如何处理多重共线性?
一、多重共线性的概念
1、多重共线性(弗里希引入)(针对解释
变量、针对多元模型)
对于模型
yi=?0+?1x1i+?2x2i+?+?kxki+?i
i=1,2,…,n (2.8.1)
其基本假设之一是解释变量是互不相关的 。
如果某两个或多个解释变量之间出现了相关性,
则称为 多重共线性 。
△ (线性)相关图示
20
30
40
50
60
70
80
0 10 20 30 40
Y
X200
400
600
800
1000
1200
0 500 1000 1500 2000 2500
Y
X
y=a+bx 线性组合
y和 x完全(线性)相关
( a+bx - y = 0)
y=a+bx+μ 近似直线关系
y和 x不完全相关
( a+bx - y +μ = 0)
如果存在
c0+ c1x1i+c2x2i+… +ckxki=0
i=1,2,…,n (2.8.2)
其中, c1,c2,…,ck不全为 0,即 某一个解释变量可以
用其它解释变量的线性组合表示, 则称为解释变量
间存在 完全共线性 (完全的多重共线性 )。
如果存在
c0+ c1x1i+c2x2i+… +ckxki+vi=0
i=1,2,…,n
其中 c1,c2,…,ck不全为 0,v为随机误差项, 则称为 一
般共线性 (近似共线性 )( 高度多重共线性 ) 或 交互相
关 (intercorrelated)。
注意:
在实际经济统计数据中,完全共线性和完全无
多重共线性两种极端的情况都是极少见的。
常见的经济统计数据中,多个解释变量之间多
少都存在一定程度上的共线性 。
因此,通常人们关心的不是是否存在多重共
线性问题,而是共线性程度的强弱。
通常提到的多重共线性是指解释变量之间具有
较强的共线性 (线性相关关系) —— 近似(高度
多重)共线性
从现在起仅考虑近似共线性即高度多重共线性
的情形。
在矩阵表示的线性回归模型
Y=XB+N
中,完全共线性指:秩 (X)<k+1,即矩阵 ?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
knnn
k
k
XXX
XXX
XXX
X
?
?????
?
?
21
22212
12111
1
1
1
中,至少有一列向量可由其他列向量 (不包
括第一列)线性表出。
2、实际经济问题中的多重共线性现象
? 经济变量的共同变化趋势
时间序列样本,经济 繁荣时期,各基本经济
变量(收入、消费、投资、价格)都趋于增长;
衰退时期,又同时趋于下降。
横截面数据,生产函数中, 资本投入与劳动力
投入往往出现高度相关情况,大企业二者都大,
小企业都小。
? 滞后变量的引入
在计量经济模型中,往往需要引入滞后经济变
量来反映真实的经济关系。
例如,消费 =f(当期收入,前期收入)
显然,两期收入间有较强的线性相关性 。
? 一般经验
对于采用 时间序列数据 作样本、以简单线性形式建
立的计量经济学模型,往往存在多重共线性。
以 截面数据 作样本时,问题不那么严重,但多重
共线性仍然是存在的。
二、多重共线性的后果
1、完全共线性下参数估计量不存在
如果存在 完全共线性, 无法得到参数的估计量,因
为 (X’X) -1不存在,。
多元线性模型
Y X? +B N
的普通最小二乘参数估计量为:
$ ( )B ? ? ?-X X X Y1 (2.8.3)
? 例如,考虑二元线性回归模型
? 其中解释变量之间存在完全的多重共线
性 x2i =4x1i,将该关系代入回归模型中,会
发现什么?
iii xxy ??? ++? 22110 +μi
( 3 ) A
( 2 ) )4(A
)4(
)(
( 1 )
1
10
211
1
210
1
2
1
10
2
2
1
10
4
?
?
?
?
?
??
???
???
???
i
i
i
i
i
i
i
ii
i
i
ii
i
xy
xy
xxy
xxy
++?
+
+++??
+++??
+++?
则模型变为
=令
模型:
? 由于解释变量间存在完全的多重共线性,
使得表面上是二元的模型 (1)实际为一元
线性回归模型 (3)。
? 即使能够对模型 (3)进行估计,也只能估
计出参数 A1的值,却无法从估计的 A1值
之中得出参数 ?0 和 ?1的估计值。
? 因为方程 (2)是含两个未知数的方程,一个
方程两个未知数,不可能得出确定的偏回
归系数 ?0 和 ?1的估计值。
? 当解释变量间存在完全的多重共线性时,
无法估计参数的值 。
2、近似(高度多重)共线性下普通最小二
乘法参数估计量仍为 BLUE,但方差很大,
即估计值的精度很低。
在一般共线性 ( 或称近似共线性 ) 下, 虽然可
以得到 OLS法参数估计量, 但是由参数估计量方
差的表达式为
12 )()?( -??B XX?C o v
可见, 由于此时 |X’X|?0,引起 (X’X) -1主对角
线元素较大, 从而使参数估计值的方差增大 。
BLUE表明的是各线性无偏估计量中方差最小的
一个, 但并不等于方差的值很小 。
即,多重共线性使参数估计值的方差增大,其增
大趋势见下表 (以二元为例,两个解释变量之间
的共线性 — 相关系数)
相关系
数平方
0 0.5 0.8 0.9 0.95 0.96 0.97 0.98 0.99 0.999
方差扩
大倍数
1 2 5 10 20 25 33 50 100 1000
当完全共线时,2相关系数 =1, ??方差
3、参数估计量经济含义不合理
各自的参数失去了应有的经济含义, 经常表
现出似乎反常的现象, 例如本来应该是正的, 结
果恰是负的 。
4,R2很高但显著的 t值很少 ( 显著特征 )
5,模型的预测功能失效
变大的方差容易使区间预测的, 区间, 变大,
使预测失去意义 。
6、变量的显著性检验失去意义
存在多重共线性时
参数估计值的方差与标准差变大
使 t统计量的拒绝域变小(临界值增大)
容易使通过样本计算的 t值小于临界值,
误导作出参数为 0的推断
可能将重要的解释变量排除在模型之外
三、多重共线性的检验
? 由于多重共线性表现为解释变量之间具有相关
关系,所以 用于多重共线性的检验方法主要是统
计方法:如 判定系数检验法, VIF检验, 逐步回
归检验法 等 。
? 多重共线性检验的任务 是:
( 1)检验多重共线性是否存在;
( 2)估计多重共线性的范围,即判断哪些变量
之间存在共线性。
1、检验多重共线性是否存在
(1)对两个解释变量的模型,采用 相关系数法
求出 x1与 x2的相关系数,若 |相关系数 |接近 1,则说
明两变量存在较强的多重共线性。
(2)对多个解释变量的模型,采用 综合统计检验法
若 在 OLS法下,模型的 R2较大,但各参数估计值
的 t检验值较小, 即 t检验不显著,说明变量间可能
存在较强的多重共线性。这是多重共线性存在的典
型迹象。
此法简便易行,因而使实践中最常用的方法,其缺
点是无法确诊。
2、判明存在多重共线性的范围
(1) 判定系数检验法
? 使模型中每一个解释变量分别以其余解释变量
为解释变量进行回归计算, 并计算相应的拟合优
度指标, 也称为判定系数 。 如果在某一种形式
xji=?1x1i+?2x2i+??LxLi
中判定系数 ( 可决系数或调整的可决系数 ) 较大,
则说明在该形式中作为被解释变量的 xj可以用其
他 x的线性组合代替, 即 xj与其他 x之间存在共线
性 。
?等价的检验,
在模型中排除某一个解释变量 xj,估计模型,
如果拟合优度与包含 xj时十分接近,则说明 xj与
其它解释变量之间存在共线性。
? 另一种等价的检验是对上述回归方程作 F检验
式中,Rj?2为第 j个解释变量对其他解释变量的回
归方程的决定系数,
若存在较强的共线性,则 Rj?2较大且接近于 1,这
时( 1- Rj?2 )较小,从而 Fj的值较大。因此,可以在
给定的显著性水平 ?下,通过计算 F值的方法进行检
验。
构造如下 F 统计量:
)1,2(~)1/()1(
)2/(
2
.
2
.
+--
+--
-
? knkF
knR
kR
F
j
j
j
(2) 逐步回归法
? 以 y为被解释变量,逐个引入解释变量,构成回
归模型,进行模型估计。
? 根据拟合优度的变化决定新引入的变量是否可
以用其它变量的线性组合代替,而不作为独立的
解释变量。
? 如果拟合优度变化显著,则说明新引入的变量
是一个独立解释变量;
? 如果拟合优度变化很不显著,则说明新引入的
变量不是一个独立解释变量,它可以用其它变量
的线性组合代替,也就是说它与其它变量之间存
在共线性关系。
四、克服多重共线性的方法
1、第一类方法:排除引起共线性的变量
? 找出引起多重共线性的解释变量,将它排除出去,
是最为有效的克服多重共线性问题的方法。
? 注意:
剩余解释变量参数的经济含义和数值都发生了变化。
这种做法可能会使得到的剩余解释变量参数的估计
量产生偏移,因而需权衡利弊。
2、第二类方法:差分法(一阶差分法)
? 对于以时间序列数据为样本、以直接线性关系
为模型关系形式的计量经济学模型,将原模型变
换为差分模型
?yi=?1 ? x1i+?2 ? x2i+?+?k ?xki+ ??i
? 一般讲,增量之间的线性关系远比总量之间的
线性关系弱得多。因而此变换有可能有效地消除
或缓解存在于原模型中的多重共线性 。
例如,在中国消费模型中的 2个变量,
收入 (y, GDP)与消费 C 的总量与差分数据
y C C/y △ y △ C △ C/△ y
1981 4901 2976 0.6072
1982 5489 3309 0.6028 588 333 0.5663
1983 6076 3638 0.5996 587 329 0.5605
1984 7164 4021 0.5613 1088 383 0.3520
1985 8792 4694 0.5339 1628 673 0.4134
1986 10133 5773 0.5697 1441 1079 0.7488
1987 11784 6542 0.5552 1651 769 0.4658
1988 14704 7451 0.5067 2920 909 0.3113
1989 16466 9360 0.5684 1762 1909 1.083
1990 18320 10556 0.5762 1854 1196 0.6451
1991 21280 11362 0.5339 2960 806 0.2723
1992 25864 13146 0.5083 4584 1784 0.3892
1993 34501 15952 0.4624 8637 2806 0.3249
1994 47111 20182 0.4284 12610 4230 0.3354
1995 59405 27216 0.4581 12294 7034 0.5721
1996 68498 34529 0.5041 9093 7313 0.8042
? 由表中的比值可以直观地看到,两变量一阶差
分的线性关系弱于总量之间的线性关系。
? 进一步分析:
y与 c之间的可决系数为 0.9845,
△ y与△ c之间的可决系数为 0.7456。
一般认为,两个变量之间的可决系数
大于 0.8时,二者之间存在线性关系。
所以,原模型经检验地被认为具有多
重共线性,而差分模型则可认为不具有多
重共线性。
3、第三类方法:减小参数估计量的方差
? 多重共线性的主要后果是参数估计量具有较大
的方差,所以采取适当方法减小参数估计量的方
差,虽然没有消除模型中的多重共线性,但确能
消除多重共线性造成的后果。
?例如,增加样本容量,可使参数估计量的方差
减小。
? 再如, 岭回归法 ( Ridge Regression)
70年代发展的岭回归法, 以引入偏误为代价减小
参数估计量的方差, 受到人们的重视 。
具体方法是:引入矩阵 D,使参数估计量为
其中矩阵 D一般选择为主对角阵,即
D=aI (2.6.6)
a为大于 0的常数。
显然,与未含 D的参数 B的估计量相比,(2.6.5)的
估计量有较小的方差。
$ ( )B ? ? + ?-X X D X Y1 ( 2, 6, 5 )
4、其他方法
? 采用新样本、将模型适当变形、依据经
济理论对模型施加某些约束条件等方法
也有可能消除或减缓多重共线性问题。
关于多重共线性问题的一点说明
? 目前,对于多重共线性问题,例如,如
何评估多重共线性造成的影响,如何检
验模型是否存在多重共线性,如何消除
多重共线性的影响等问题,还没有一种
既简单又普遍适用的方法。在一般情况
下,要根据样本的情况,建立回归模型
的目的等多方面的因素进行具体分析,
进而找到适当的解决多重共线性问题的
方法。
? 在一般情况下,可以下面三条原则来考虑多重共线性问题:
? 多重共线性是普遍存在的,轻微的多重共线性
可以不采取措施处理。
? 高度的多重共线性问题,一般可根据经验或分
析模型各项指标发现。例如,R2较大,重要
的解释变量的 t检验值较小,参数符号不正确
等。此时须根据不同情况采取相应措施处理。
? 如果模型仅仅用于预测,则只要拟合程度好,
且多重共线性在未来预测期内保持不变,可不
处理,往往不会影响预测结果。
仍以一元模型中 1
?
? 为例,
1
?
? 的方差为
? ??
?
? ??
?
-
?
-
???
-
2
2
2
1
2
21
2
1
2
2
21
2
2
2
1
2
2
2
1
11
2
1
)(1
/
)(
)()
?
v a r (
iiii
i
iiii
i
xxxx
x
xxxx
x
XX
?
?
??
? ?
?
2
2
2
1
2
21
)(
ii
ii
xx
xx
恰为 1x 与 2x 的线性相关系数的平
方
2
r,由于
2
r ? 1,故 1
1
1
2
?
- r
。