1
第五章异 方 差 性计量经济学
2
引子,更为接近真实的结论是什么?
根据四川省 2000年 21个地市州医疗机构数与人口数资料,分析医疗机构与人口数量的关系,建立卫生医疗机构数与人口数的回归模型 。 对模型估计的结果如下:
式中 表示卫生医疗机构数 ( 个 ),表示人口数量 ( 万人 ) 。
( 2 9 1,5 7 7 8 ) (0,6 4 4 2 8 4 )
- 5 6 3,0 5 4 8 5,3 7 3 5iiYX
2 0,7 8 5 4 5 6R? 2 0,7 7 4 1 4 6R? 6 9,5 6 0 0 3F?
( - 1,9 3 1 0 6 2 ) ( 8,3 4 0 2 6 5 )t?
Y X
3
模型显示的结果和问题
● 人口数量对应参数的标准误差较小;
● t统计量远大于临界值,可决系数和修正的可决系数结果较好,F检验结果明显显著;
表明该模型的估计效果不错,可以认为人口数量每增加 1万人,平均说来医疗机构将增加 5.3735人。
然而,这里得出的结论可能是不可靠的,平均说来每增加 1万人口可能并不需要增加这样多的医疗机构,
所得结论并不符合真实情况。
有什么充分的理由说明这一回归结果不可靠呢?更为接近真实的结论又是什么呢?
4
本章讨论四个问题:
● 异方差的实质和产生的原因
● 异方差产生的后果
● 异方差的检测方法
● 异方差的补救第五章 异 方 差 性
5
第一节 异方差性的概念本节基本内容:
● 异方差性的实质
●异方差产生的原因
6
一、异方差性的实质同方差的含义同方差性:对所有的 有:
( 5.1)
因为方差是度量被解释变量 的观测值围绕回归线
( 5.2)
的分散程度,因此同方差性指的是所有观测值的分散程度相同。
1 2 2 3 3E ( ),..i ii k k iY X X X
( 1,2,...,)i i n?
2V a r( ) =iu σ
Y
7
设模型为如果对于模型中随机误差项 有:
则称具有异方差性。进一步,把异方差看成是由于某个解释变量的变化而引起的,则异方差性的含义
iu
1 2 2 3 3,,,1,2,.,,,i i i k k i iY X X X u i n
2Va r ( ),1,2,3,...,iiu i n
22V a r ( ) ( )i i iu f X
(5.4)
(5.3)
8
图形表示
X
Y
概率密度
9
(一)模型中省略了某些重要的解释变量假设正确的计量模型是:
假如略去,而采用当被略去的 与 有呈同方向或反方向变化的趋势时,随 的有规律变化会体现在( 5.5)
式的 中。
3iX
1 2 2 3 3i i i iY X X u
3iX
*1 2 2i i iY X u
3iX 2iX
*iu( 5.5)
*iu
2iX
二、产生异方差的原因
10
(二)模型的设定误差模型的设定主要包括变量的选择和模型数学形式的确定。模型中略去了重要解释变量常常导致异方差,实际就是模型设定问题。除此而外,模型的函数形式不正确,如把变量间本来为非线性的关系设定为线性,也可能导致异方差。
( 三 ) 数据的测量误差样本数据的观测误差有可能随研究范围的扩大而增加,或随时间的推移逐步积累,也可能随着观测技术的提高而逐步减小 。
3iX
*iu
11
( 四 ) 截面数据中总体各单位的差异通常认为,截面数据较时间序列数据更容易产生异方差 。 这是因为同一时点不同对象的差异,一般说来会大于同一对象不同时间的差异 。 不过,
在时间序列数据发生较大变化的情况下,也可能出现比截面数据更严重的异方差 。
12
第二节 异方差性的后果本节基本内容:
● 对参数估计统计特性的影响
●对参数显著性检验的影响
●对预测的影响
13
一、对参数估计统计特性的影响
(一)参数估计的无偏性仍然成立参数估计的无偏性仅依赖于基本假定中的零均值假定(即 )。所以异方差的存在对无偏性的成立没有影响。
(二)参数估计的方差不再是最小的同方差假定是 OLS估计方差最小的前提条件,所以随机误差项是异方差时,将不能再保证最小二乘估计的方差最小。
E ( ) 0iu?
14
二、对参数显著性检验的影响由于异方差的影响,使得无法正确估计参数的标准误差,导致参数估计的 t 统计量的值不能正确确定,所以,如果仍用 t 统计量进行参数的显著性检验将失去意义。
15
尽管参数的 OLS估计量仍然无偏,并且基于此的预测也是无偏的,但是由于参数估计量不是有效的,从而对 Y的预测也将不是有效的。
三、对预测的影响
16
第三节 异方差性的检验常用检验方法,
● 图示检验法
● Goldfeld-Quanadt检验
● White检验
● ARCH检验
17
一、图示检验法
(一)相关图形分析方差描述的是随机变量取值的(与其均值的)离散程度。因为被解释变量 与随机误差项 有相同的方差,所以利用分析 与 的相关图形,可以初略地看到 的离散程度与 之间是否有相关关系。
如果随着 的增加,的离散程度为逐渐增大(或减小)的变化趋势,则认为存在递增型(或递减型)
的异方差。
u
Y
X
X
Y
Y
X
Y
18
用 1998年四川省各地市州农村居民家庭消费支出与家庭纯收入的数据,绘制出消费支出对纯收入的散点图,其中用表示农村家庭消费支出,表示家庭纯收入 。
1Y 1X
图形举例
19
设一元线性回归模型为:
运用 OLS法估计,得样本回归模型为:
由上两式得残差:
绘制出 对 的散点图
◆如果 不随 而变化,则表明 不存在异方差 ;
◆如果 随 而变化,则表明 存在异方差 。
(二)残差图形分析
12i i iY β β Xu
12iiY= β + β X
-i i ie Y Y?
2ie iX
iu
iu iX
iX
20
二,Goldfeld-Quanadt检验作用,检验递增性 (或递减性 )异方差。
基本思想,将样本分为两部分,然后分别对两个样本进行回归,并计算两个子样的残差平方和所构成的比,以此为统计量来判断是否存在异方差。
(一) 检验的前提条件
1、要求检验使用的为大样本容量。
2、除了同方差假定不成立外,其它假定均满足。
21
(二)检验的具体做法
1.排序将解释变量的取值按从小到大排序。
2.数据分组将排列在中间的约 1/4的观察值删除掉,记为,再将剩余的分为两个部分,每部分观察值的个数为 。
3.提出假设
2 2 2 2 20 1 1 2H,,= 1,2,...,; H,inσ = σ in σ σ,.,σ
( - ) / 2nc
c
22
4.构造 F统计量分别对上述两个部分的观察值求回归模型,由此得到的两个部分的残差平方为 和 。
为前一部分样本回归产生的残差平方和,
为后一部分样本回归产生的残差平方和。它们的自由度均为,为参数的个数。
22ie?
[ ( - ) / 2 ] -n c k
21ie? 22ie?
21ie?
k
23
在原假设成立的条件下,因 和 自由度均为,分布,可导出:
( 5.13)
[ ( - ) / 2 ] -n c k 2χ
2 2
2 2
22
11
[]
2 ()
22[]
2
i i*
ii
n - ce / - k
e n - c n - c
F = = ~ F - k,- kn - c
ee / - k


21ie? 22ie?
24
5.判断给定显著性水平,查 F分布表得临界值计算统计量 。
如果则拒绝原假设,接受备择假设,即模型中的随机误差存在异方差。
--( -,- )
22
()n c n ckkF?
*F
*
--( -,- )
22
()n c n ckkF F
25
● 要求大样本
●异方差的表现既可为递增型,也可为递减型
●检验结果与选择数据删除的个数 的大小有关
●只能判断异方差是否存在,在多个解释变量的情下,对哪一个变量引起异方差的判断存在局限。
c
(三)检验的特点
26
三,White检验
(一) 基本思想,
不需要关于异方差的任何先验信息,只需要在大样本的情况下,将 OLS估计后的残差平方对常数、
解释变量、解释变量的平方及其交叉乘积等所构成一个辅助回归,利用辅助回归建立相应的检验统计量来判断异方差性。
27
(二 )检验的特点要求变量的取值为大样本不仅能够检验异方差的存在性,同时在多变量的情况下,还能判断出是哪一个变量引起的异方差。
28
(三)检验的基本步骤:
以一个二元线性回归模型为例,设模型为:
并且,设异方差与 的一般关系为其中 为随机误差项。
1 2 2 3 3t t t tY= β + β X+ β X + u
23,ttXX
2 2 21 2 2 3 3 4 2 5 3 6 2 3t t t t t t t tσ = α + α X+ α X+ α X+ α X+ α X X + v
tv
29
1.求回归估计式并计算用 OLS估计式( 5.14),计算残差,并求残差的平方 。
2.求辅助函数用残差平方 作为异方差 的估计,并建立的辅助回归,即
( 5.15)2 2 21 2 2 3 3 4 2 5 3 6 2 3t t t t t t te= α + α X+ α X+ α X+ α X+ α XX
-t t te Y Y?
2te
2tσ
222 3 2 3 2 3t t t t t tX,X,X,X,X X
2te
2te
30
3.计算利用求回归估计式( 5.15)得到辅助回归函数的可决系数,为样本容量。
4.提出假设
0 2 6 1H 0,H 2,,3,...,6j,=,.,= =,j ( = ) 不 全 为 零
2nR n
31
5.检验在零假设成立下,有 渐进服从自由度为 5的分布。给定显著性水平,查 分布表得临界值,如果,则拒绝原假设,表明模型中随机误差存在异方差 。
2nR

2 (5)χ?

22 (5)nR χ
32
(一) ARCH 过程设 ARCH 过程为为 ARCH过程的阶数,并且 为随机误差 。
(二)检验的基本思想在时间序列数据中,可认为存在的异方差性为 ARCH过程,
并通过检验这一过程是否成立去判断时间序列是否存在异方差。
四,ARCH检验
2 2 20 1 1t t - p t - p tσ =+ σ +,,,+ σ +v
tv
0 0 1,2i>,> 0 i =,..,,p
p
33
1.提出原假设
2.参数估计 并计算对原模型作 OLS估计,求出残差,并计算残差平方序列,以分别作为对的估计。
2 2 2-1 -,,.,,,t t t pe e e
2 2 21t t - t - pσ,σ,.,,,σ
0 1 2 1H,= =,.,= = 0 ; H,pj 不 全 为 零
te
(三) ARCH 检验的基本步骤
34
3.求辅助回归
( 5.17)
4.检验计算辅助回归的可决系数 与 的乘积
。在 成立时,基于大样本,
渐进服从 分布。
给定显著性水平,查 分布表得临界值
,如果,则拒绝原假设,表明模型中得随机误差存在异方差。
2()n - p R
0H
2()χ p
2R

2 2 20 1 - 1 -,..t t p t pe e e
22( ) ( )αn - p R χ p?2 ()χ p
2()n - p R
np?
35
● 变量的样本值为大样本
● 数据是时间序列数据
● 只能判断模型中是否存在异方差,而不能诊断出哪一个变量引起的异方差。
(四)检验的特点
36
五,Glejser检验
( 一 ) 检验的基本思想由 OLS法得到残差,取得绝对值,然后将对某个解释变量回归,根据回归模型的显著性和拟合优度来判断是否存在异方差 。
( 二 ) 检验的特点不仅能对异方差的存在进行判断,而且还能对异方差随某个解释变量变化的函数形式 进行诊断 。
该检验要求变量的观测值为大样本 。
37
(三)检验的步骤
1.建立模型并求根据样本数据建立回归模型,并求残差序列
2.寻找 与 的最佳函数形式用残差绝对值 对 进行回归,用各种函数形式去试,寻找最佳的函数形式。
iX
ie
i i ie = Y - Y
ie
X
ie
38
3.判断根据选择的函数形式作 对 的回归,作为的替代变量,对所选函数形式回归 。 用回归所得到的,,等信息判断,若参数 显著不为零,
即认为存在异方差性 。
F
X ie 2ie
β t β
39
第四节 异方差性的补救措施主要方法,
● 模型变换法
● 加权最小二乘法
● 模型的对数变换
40
以一元线性回归模型为例:
经检验 存在异方差,且其中 是常数,是 的某种函数 。
12i i iY X u
iu
22v a r ( ) ( )i i iu f X
2σ ()ifX iX
一、模型变换法
41
变换模型时,用 除以模型的两端得:
记则有:
()ifX
i i i1
2
i i i i
Y X uβ=+ β +
f ( X ) f ( X ) f ( X ) f ( X )
* * * 1
1; ; ;( ) ( ) ( ) ( )
i i i
i i i
i i i i
Y X uY X v
f X f X f X f X

* * *12i i iY X v
42
随机误差项 的方差为经变换的模型的随机误差项 已是同方差,
常见的设定形式及对应的 情况函数形式
201()ia a X?
iv
2?
2?
var( )iu iv var( )i?
iX 2 iX? iiuX
2iX 22iX? iiuX
2201()ia a X 01()iiu a a X?
21v a r ( ) v a r ( ) v a r ( )
()()
i
ii
ii
uvu
fXfX
i
i
i
uv=
f(X )
()ifX iv
2?
43
二、加权最小二乘法以一元线性回归模型为例:
经检验 存在异方差,且:
其中 是常数,是 的某种函数 。
12i i iY X u
22v a r ( ) ( )i i iu f X
2? ()
ifX iX
iu
44
( 一 ) 基本思路区别对待不同的 。 对较小的,给予较大的权数,对较大的 给予较小的权数,从而使 更好地反映 对残差平方和的影响 。2

2ie
2ie?2
ie
2iσ
45
(二)具体做法
1.选取权数并求出加权的残差平方和通常取权数,当 越小时,越大。当 越大时,越小。将权数与残差平方相乘以后再求和,得到加权的残差平方和:
\
iw
21 ( 1,2,..,,)iiw i n
iw
2 * * 212()i i i i iw e w Y X
2i?
iw
2i?
46
2.求使满足 的根据最小二乘原理,若使得加权残差平方和最小,
则:
其中,
iw
2m in iiwe? *
i?
**
12
2 2

( ) ( )?
()
**
**
i i i*
*
ii
β = Y - β X
w X - X Y - Y
β =
w X - X
i i i i**
ii
w X w YX =,Y =
ww


47
三、模型的对数变换在经济意义成立的情况下,如果对模型:
作对数变换,其变量 和 分别用 和代替,即:
对数变换后的模型通常可以降低异方差性的影响:
◆ 运用对数变换能使测定变量值的尺度缩小。
◆经过对数变换后的线性模型,其残差表示相对误差往往比绝对误差有较小的差异。
注意,对变量取对数虽然能够减少异方差对模型的影响,但应注意取对数后变量的经济意义。
ln iX
12i i iY = b + b X + u
iY iX lniY
12l n l ni i iY = b + b X + u
48
第五节 案例分析一、问题的提出和模型设定为了给制定医疗机构的规划提供依据,分析比较医疗机构与人口数量的关系,建立卫生医疗机构数与人口数的回归模型 。
假定医疗机构数与人口数之间满足线性约束,
则理论模型设定为:
其中 表示卫生医疗机构数,表示人口数 。
iY
iX
12i i iY = b + b X + u
iY
四川省 2000年各地区医疗机构数与人口数地区 人口数(万人) 医疗机构数
(个)
地区 人口数(万人) 医疗机构数
(个)
成都 1013.3 6304 眉山 339.9 827
自贡 315 911 宜宾 508.5 1530
攀枝花
103 934 广安 438.6 1589
泸州 463.7 1297 达州 620.1 2403
德阳 379.3 1085 雅安 149.8 866
绵阳 518.4 1616 巴中 346.7 1223
广元 302.6 1021 资阳 488.4 1361
遂宁 371 1375 阿坝 82.9 536
内江 419.9 1212 甘孜 88.9 594
乐山 345.9 1132 凉山 402.4 1471
南充 709.2 4064
X Y X Y
50
二、参数估计估计结果为,
2
- 563.0548 5.3735
( - 1.9311 ) ( 8.3403 )
0.7855,se 508.2665,69.56
iiYX
RF


51
三、检验模型的异方差
( 一 ) 图形法
1,EViews软件操作由路径,Quick/Qstimate Equation,进入
Equation Specification窗口,键入,
点,ok”,得样本回归估计结果,见教材表 5.2。
y c x
52
( 1) 生成残差平方序列 。
在得到表 5.2估计结果后,用生成命令生成序列,
记为 。 生 成 过 程 如 下,先 按 路 径,
Procs/Generate Series,进入 Generate
Series by Equation对话框,键入下式并点
,OK”即可:
2e
2 r e s i d ^ 2e?
53
2ie
生成序列图示
54
( 2) 绘制 对 的散点图 。 选择变量名与 。 ( 注意选择变量的顺序,先选的变量将在图形中表示横轴,
后选的变量表示纵轴 ),进入数据列表,再按路径 view/ graph/
scatter,可得散点图,见右图:
2te tX X
2e
55
2.判断由图可以看出,残差平方 对解释变量 的散点图主要分布在图形中的下三角部分,大致看出残差平方 随 的变动呈增大的趋势,因此,模型很可能存在异方差 。 但是否确实存在异方差还应通过更进一步的检验 。
2ie
2ie
iX
X
56
(二) Goldfeld-Quanadt检验
1,EViews软件操作
( 1) 对变量取值排序 ( 按递增或递减 ) 。 在 Procs菜单里选
Sort Current Page/Sort Workfile Series命令,出现排序对话框,键入,如果以递增型排序,选,Ascenging”,
如果以递减型排序,则应选,Descending”,点 ok。 本例选递增型排序,这时变量 与 将以 按递增型排序 。
( 2) 构造子样本区间,建立回归模型 。 在本例中,样本容量,删除中间 1/4的观测值,即大约 5个观测值,余下部分平分得两个样本区间,1— 8和 14— 21,它们的样本个数均是 8个,即
X
12 8nn
XY
21n?
X
57
在 Sample菜单里,将区间定义为 1— 8,然后用 OLS
方法 求得如下结果 (表 1)
58
在 Sample菜单里,将区间定义为 14— 21,再用 OLS
方法求得如下结果 (表 2)
59
( 3) 求 F统计量值 。 基于表 1和表 2中残差平方和的数据,即 Sum squared resid的值 。 由表 1计算得到的残差平方和为,由表 2计算得到的残差平方和为 。
根据 Goldfeld-Quanadt检验,F统计量为
21 = 1 4 4 9 5 8,9ie?
22 = 7 3 4 3 5 5,8ie?
2
2
2
1
7 3 4 3 5 5,8 5,0 6 6
1 4 4 9 5 8,9
i
i
e
F
e

60
( 4) 判断在 下,式中分子、分母的自由度均为 6,查 F分布表得临界值为:
因为,所以拒绝原假设,
表明模型确实存在异方差。
0.05
0,0 5 (6,6 ) 4,2 8F?
0,0 55,0 6 6 (6,6 ) 4,2 8FF
61
(三) White检验由表 5.2估计结果,按路径 view/residual
tests/white heteroskedasticity( no cross
terms or cross terms),进入 White检验。
根据 White检验中辅助函数的构造,最后一项为变量的交叉乘积项,因为本例为一元函数,故无交叉乘积项,因此应选 no cross terms,则辅助函数为:
经估计出现 White检验结果,见表 5.5。
220 1 2t t t tx x v
62
从表 5.5可以看出由 White检验知,
在 下,查分布表得临界值因为所以拒绝原假设,不拒绝备择假设,表明模型存在异方差。
2 1 8,0 6 9 4nR?
0.05 2?
22 0,0 51 8,0 6 9 4 ( 2 ) 5,9 9 1 5nR
20,0 5 ( 2 ) 5,9 9 1 5
表 5.5
63
四、异方差的修正加权最小二乘法 ( WLS)
分别选用权数,
生成权数:
在 Genr/Enter equation中 分别键入:
经估计检验发现用权数 较好,下面只给出用权数 的结果。
1 2 32
1 1 1,,
t t t
tt t
w w wXX
X

2tw
1 1 /wX? 2 1 / ^ 2wX? 3 1 / s q r t ( )wX?
2tw
64
方法,在 Estimate equation 中输入,,,

option,在对话框中点 weighted LS,在 weighted
中输入,,再点 ok,即出现加权最小二乘结果。
2w
y c x
65
表 5.7
估计结果:
结论,运用加权小二乘法消除了异方差性后,参数的 t检验均显著,可决系数大幅提高,
F检验也显著,并说明人口数量每增加 1万人,平均说来将增加 2.953个卫生医疗机构,而不是引子中得出的增加 5.3735
个医疗机构。
2
3 6 8,6 0 9 0 2,9 5 3 0
( 4,3 7 9 4 ) ( 3,5 8 9 4 )
0,9 3 8 7,D W 1,7 0 6 0,
se 2 7 6,0 4 9 3,1 2,8 8 3 8
iiYX
R
F



66
第五章 小 结
1.异方差性是指模型中随机误差项的方差不是常量,
而且它的变化与解释变量的变动有关。
2.产生异方差性的主要原因有:模型中略去的变量随解释变量的变化而呈规律性的变化,变量的设定问题,截面数据的使用,利用平均数作为样本数据等 。
3.存在异方差性时对模型的 OLS估计仍然具有无偏性,但最小方差性不成立,从而导致参数的显著性检验失效和预测的精度降低 。
67
4.检验异方差性的方法有多种,常用的有图形法,
Goldfeld-Qunandt检验,White检验,ARCH
检验以及 Glejser检验,运用这些检验方法时要注意它们的假设条件 。
5.异方差性的主要方法是加权最小二乘法,也可以用变量变换法和对数变换法。变量变换法与加权最小二乘法实际是等价的 。
68
第 五 章 结 束