§ 2.3多元线性回归模型的参数估计
Estimation of Multiple Linear
Regression Model
一,多元线性回归模型一般形式
二、多元线性回归模型的参数估计
三,OLS估计量的统计性质
四、样本容量问题
五,多元线性回归模型实例
2.3节重点内容
? 1.多元线性回归模型一般形式
? 2.偏回归系数的含义
? 3.多元线性回归模型的基本假设;与一元
相比,多元的基本假设的不同点
一,多元线性回归模型
Multiple Linear Regression Model
的一般形式
问题的提出
? 现实经济现象是错综复杂的,多种经济
变量相互影响,每一个变量都要受到其
他多种因素的影响。例如,对家庭消费
支出的影响为例,除了家庭收入的影响
之外,物价指数、价格变化趋势、家庭
人口、家庭年龄构成、利息率、广告、
就业状况等多种因素都会影响家庭消费
支出。
? 如果被解释变量的变化原因可以有一个关键的
解释变量加以说明,其他解释变量的影响可以
忽略,就可以用一元回归模型表示所研究经济
问题变量间的数量关系。
? 如果其他解释变量对被解释变量的影响不能被
忽略,就要用多元回归模型表示。
? 例如,在考虑生产问题时,产出往往主要受投入要素 —— 资本、劳动、技术的影响;销售额
往往受价格和公司对广告费的投入的影响。
? 在需考虑的解释变量多于一个时,所得的计量
经济学模型为多元模型。
? 顾名思义,“多元”模型中有多个解释变量,
我们需要考虑所有这些变量对被解释变量的影
响。
1、多元线性回归模型的一般形式
? 如果在线性回归模型中的解释变量有多
个,这样的模型被称为 多元线性回归模
型 。
? 将一元线性回归模型推广,就可得多元
线性回归模型。
? 无论是模型的一般形式,还是参数估计
等多元都是一元的推广。
? 多元线性回归模型的一般形式为:
习惯上把常数项看成为一个 虚变量 的系数, 在参数估计过程
中该虚变量的样本观测值始终取 1。
这样,模型中解释变量的数目也可看作为 ( k+1) 。
今后我们采用多元中解释变量的数目为 k的说法 。
?其他变量和符号的含义与一元线性回归模型相似。
? y为被解释变量; ?为随机误差项; i表示第 i个样本观测值; n
为样本容量; ?0,?1,?2,…, ?k为 参数(式中共 k+1个 )
ikikiii xxxy ????? ++…+++= 22110 i=1,2,…,n
(2.3.1)
其中,k 为 解释变量 的数目; x1,x2, …, xk 为解释变量
强调两点
? 1.下标问题:
? 某班共 30名同学,考察期末考试各同学的化学成绩。
? 化学成绩= 0.2*平时成绩+ 0.7*考试成绩+ 0.1*实验成
绩
? 甲的化学成绩= 0.2*甲的平时成绩+ 0.7*甲的考试成绩
+ 0.1*甲的实验成绩
? 乙的化学成绩= 0.2*乙的平时成绩+ 0.7*乙的考试成
绩+ 0.1*乙的实验成绩
? 用一般形式表示即为:
i=1,2,…, 30
321 xxxy iii
i
0, 10, 70, 2 ++=
? 1.下标问题:
? 多元线性回归模型的式子中,y,?,?都只有一个下标,很
好表示,yi表示第 i个观测值,?i对应于第 i 组观测值的第 i个
随机误差项。
? 唯独 x不好表示,因为它涉及到两个下标。
? 若样本容量为 n,则每一个变量都有 n个样本观测值。用 xji
表示第 j个解释变量的第 i个观测值,在下标中把表示第几个
变量的数字放在前面,把表示第几个观测值的数字放在了
后面。 (与一元的不同点 )
? ?的下标表示与它相乘的是第几个解释变量,例如 ? k对应 xk
多元线性回归模型一般形式
? 在多元中,我们同样是利用样本数据进行对被解
释变量与解释变量之间数量关系说明的。
? (yi,x1i,x2i,…, xki) 表示一组具体的样本观测
值,抽取样本后它们的值就确定了。[当 i=1 时,
有 (y1,x11,x21,…, xk1) ]
? 共 n 组样本观测值(样本数据)
? ?i 表示对应于每组 (yi,x1i,x2i,…, xki) 的随机
误差项,它是随机变量,是未知的。
ikikiii xxxy ????? ++…+++= 22110 i=1,2,…, n
? 例如:建立一个关于人均消费、人均可支配收入和人
均消费存款余额的二元线性回归模型。
? 利用中国 1985- 1999年的实际数据
? c人均消费,y人均可支配收入,z人均消费存款余额
? ( ct,yt,zt)共有 15组。比如 ( c1, y1,z1) ( t=1表示
1985年)
? 对应于每一组 ( ct,yt,zt),均有一个 μ,共 15个。比如
μ1对应于 ( c1, y1,z1),表示其他因素对 1985年人均
消费的影响。
tt2t1t zβyβc ?++=
? 2.参数含义
? 式中共 k+1个 未知参数 ?0, ?1,?2,…, ?k
? 参数仍然是对被解释变量 平均变化 程度的度量。
? 其中 ?0是截距,它表示了当所有解释变量 xj
( j=1,2,…, k) 均为 0时,被解释变量 y的平均
取值。
? ?1,?2,…, ?k 称为 偏斜率系数 或 偏回归系数
( partial regression coefficients) 。(与一元的
不同点)
? ?j ( j=1,2,…, k) 度量了在 其它 解释变量 保持不
变的条件下,第 j个解释变量 xj变化一个单位将引
起被解释变量 平均变化 多少个单位。
ikikiii xxxy ????? ++…+++= 22110 i=1,2,…, n
?例如,
?1度量着在 x2,x3,…,xk保持不变的情况下,
x1每变化 1个单位时,y的平均值的变化,或
者说 ?1给出 x1的单位变化对 y平均值的“直接”
或“净”(不含其他变量)影响。
其他参数的含义与之相同 。
案例分析 1
? ( 1) 销售额 SALES与价格 PRICE、广
告费 ADS之间的关系
? ( 2)消费问题研究
例 1,销售额 SALES与价格 PRICE、广
告费 ADS之间的关系
SALES ADS PRICE
y x1 x2
1 36 56.7 12.0
2 48 63.9 9.0
3 45 62.7 11.0
4 40 59.7 13.0
5 30 55.9 14.5
6 56 68.7 9.5
7 63 69.2 7.5
8 53 65.5 11.0
9 61 69.4 9.0
10 68 73.4 8.5
11 66 74.1 10.0
12 65 74.4 9.5
obs
销售额 y与价格 x2,广告费 x1之间的关系
? 根据样本得 SRF
1, 3 0 7 0 -1, 6 0 9 7?
210? xxy iii
+= ?
? 偏回归系数的含义:
? 在价格保持不变的条件下,广告费变化一个单
位将引起销售额平均变化 1.6097个单位;
? 在广告费保持不变的条件下,价格变化一个单
位将引起销售额平均变化 - 1.307个单位。
1, 3 0 7 0 -1, 6 0 9 7?
210? xxy iii
+= ?
例 2 消费问题研究
? 凯恩斯的绝对收入假设消费理论,认为消费是
由收入唯一决定的,是收入的线性函数。根据
这一理论我们建立起来的是关于消费与收入的
一元线性回归模型
? 根据莫迪利安尼的生命周期假设( 1954年提出)
消费理论认为,消费者现期消费不仅与现期收
入有关,而且与消费者以后各期收入的期望值、
开始时的资产数量和年龄有关。
? 根据这一理论,一般我们是建立一个关
于人均消费、人均可支配收入和人均消费存款余额的二元线性回归模型。
? 注意:( 1)本模型中无截距项;
? ( 2)由于使用的是时间序列数据,
所以下标为 t
tt2t1t zβyβc ?++=
? 利用中国 1985- 1999年的实际数据(, 中国统计年
鉴 2001,),可得
? 单位:元
? 偏回归系数的含义为:
? 0.918:人均储蓄存款余额不变的情况下,人均可支
配收入每上升 1000元,平均而言,人均消费增长 918
元;
? - 0.02:人均可支配收入不变的情况下,人均储蓄
存款余额每增加 100元,平均而言,人均消费减少 2
元。
ttt zyc 0, 0 20, 9 1 8 -=?
2、多元线性回归模型的基本假定
模型 (2.3.1)或 (2.3.2)在满足下述所列的 基本假设 的
情况下,可以采用 普通最小二乘法 ( OLS)估计参数。
关于多元线性回归模型的基本假设
标量符号
1、解释变量 kxxx,,,21 L 是非随机的或固定的;而且各 x 之
间互不相关 ( 无多重共线性 (no multicollinearity))
矩阵符号
1,)1( +* kn 矩阵 X 是非随机的;且 X 的秩 1)( += kXr,此时
XX T 也是满秩的
标量符号
2、随机误差项具有零均值、同方差及不序列相关
0)( =iE ? ni,,2,1 L=
22 )()( s?? ==
ii EVar ni,,2,1 L=
0)(),( == jiji ECov ???? ji ?
矩阵符号
2,INNENE T 2)(,0)( s==
0
)(
)(
)(
11
=
÷
÷
÷
?
?
?
?
?
?
?
=
÷
÷
÷
?
?
?
?
?
?
?
=
nn E
E
ENE
?
?
?
?
MM
( )
÷
÷
÷
?
?
?
?
?
?
?
÷
÷
÷
?
?
?
?
?
?
?
= n
n
T ENNE ??
?
?
LM 1
1
)(
÷
÷
÷
?
?
?
?
?
?
?
=
2
1
1
2
1
nn
n
E
???
???
L
MOM
L
I2
2
2
0
0
s
s
s
=
÷
÷
÷
?
?
?
?
?
?
?
=
L
MOM
L
标量符号
3,解释变量与随机项不相关
0),( =ijixCov ? n j=1,2,…,ki,,2,1 L=
矩阵符号
3,0)( =NXE T,即
0
)(
)(
)(
11 =
÷÷
÷
÷
÷
?
?
??
?
?
?
?
?
=
÷÷
÷
÷
÷
?
?
??
?
?
?
?
?
?
?
?
?
?
?
iKi
ii
i
iKi
ii
i
EX
EX
E
X
XE
?
?
?
?
?
?
MM
标量符号
4,( 为了假设检验),随机扰动项服从正态分布
),0(~ 2s? Ni ni,,2,1 L=
矩阵符号
4、向量 N 为一多维正态分布,即
),0(~ 2 INN s
多元线性回归模型的基本假设
是为了保证能够使用 OLS法估计
模型中的参数以及所得参数具
有优良性质
关于基本假设的两点说明
? 一、假设 1:解释变量之间互不相关 (比
一元的假设多出的一条 )
? 为什么要在多元线性回归模型中增加这
条假设?
? 例如,考虑二元线性回归模型
? 其中解释变量之间存在完全的线性函数
关系 x2i =4x1i,将该关系代入回归模型中,
会发现什么?
iii xxy ??? ++= 22110
( 3 ) A
( 2 ) )4(A
)4(
)(
( 1 )
1
10
211
1
210
1
2
1
10
2
2
1
10
4
?
?
?
?
?
??
???
???
???
i
i
i
i
i
i
i
ii
i
i
ii
i
xy
xy
xxy
xxy
++=
+
+++=?
+++=?
+++=
则模型变为
=令
模型:
? 由于解释变量间存在完全相关的线性函数关系,
使得表面上是二元的模型 (1)实际为一元线性回
归模型 (3)。
? 即使能够对模型 (3)进行估计,也只能估计出参
数 A1的值,却无法从估计的 A1值之中得出参数
?0 和 ?1的估计值。
? 因为方程 (2)是含两个未知数的方程,一个方程
两个未知数,不可能得出确定的偏回归系数 ?0
和 ?1的估计值。
? 因此,基于以上原因,在多元线性回归模型的
基本假设中增加了解释变量间互不相关的假设 。
? 二、假设 — 随机误差项与解释变量之间不相关
? 指每一个解释变量 xj的第 i次观测与对应的随机
误差项 ?i不相关,在解释变量为确定性变量的假
设满足时,该条自动满足。
? (多元中涉及一个以上的解释变量)
( ) njC O V iijx,,21,k;,2,1 0,?? === i?
? 例如:建立一个关于人均消费、人均可支配收入和人均消费存款余额的二元线性回归模型。
? 利用中国 1985- 1999年的实际数据
? 此假设的含义为:每一年的解释变量 — 人均可
支配收入和人均消费存款余额均与该年度其他
影响人均消费的因素不相关。
? 比如 y1 与 ?1不相关;且 z1与 ?1不相关 ( t=1
表示 1985年)
tt2t1t zβyβc ?++=
二、多元线性回归模型的参数估计
? 多元线性回归模型参数估计的原理与一
元线性回归模型相同,同样采用普通最
小二乘法,只是计算更为复杂。
1、普通最小二乘估计
? 普通最小二乘估计
随机抽取被解释变量和解释变量的 n 组样本观测值:
kjnix yji i LL,2,1,0,,,2,1),( ==
如果模型的参数估计值已经得到,则有样本回归函数:
Kikiiii xxxy ???? ????? 22110 ++++= L i=1,2,…,n
(2.3.3)
根据最小二乘原理,参数估计值应该是下列方程组的解:
?
??
?
??
?
??
?
??
$
$
$
$
0
1
2
0
0
0
0
Q
Q
Q
Q
k
=
=
=
=
?
?
?
?
?
??
?
?
?
?
?
?
M
( 2.3.4)
其中
2
11
2 )?(??
==
-==
n
i
ii
n
i
i yyeQ
2
1
22110 ))????((?
=
++++-=
n
i
kikiii xxxy ???? L ( 2.3.5)
解该 ( k + 1 )个方程组成的线性代数方程组,即可得到
( k + 1 ) 个待估参数的估计值 $,,,,,? j j k= 0 1 2 L 。
于是,得到关于待估参数估计值的 正规方程组,
?
?
?
?
??
?
?
?
S=++++S
S=++++S
S=++++S
S=++++S
kiikikikii
iiikikiii
iiikikii
ikikii
xyxxxx
xyXxxx
xyxxxx
yxxx
)????(
)????(
)????(
)????(
22110
2222110
1122110
22110
????
????
????
????
L
M
L
L
L
( 2.3.6)
三,OLS估计量的统计性质
在多元线性回归模型满足基本假设的条件下, 普
通最小二乘估计量具有线性性, 无偏性, 最小方
差性等优良性质 。
即 OLS估计量是 最佳线性无偏估计量, 或者说
BLUE 估计量 ( the Best Linear Unbiased
Estimators) 。
显然这些优良的性质依赖于对模型的基本假设对
多元线性回归模型的参数进行估计, 再一次说明
了 为什么最小二乘法在计量中被广泛应用的原因 。
1,线性性
$ ( )? = ? ?-X X X Y1 ( 2, 3, 10 )
2,无偏性
BBE =)
?
( ( 2, 3, 11 )
证,NXXXBNXBXXXYXXXB ??-=-??=??=
--- 111
)()()()(
?
( 2, 3,1 2 )
于是,
BNEXXXBNXXXEBEBE =??-=??-=
--
)()())(()()
?
(
11
3,最小方差性
若
*
B 是 B 的任一线性无偏估计量,则有
])
?)(?[(]))([( ** ?--??-- BBBBEBBBBE
( 2, 3,1 3 )
证明略。
四、样本容量问题
⒈ 最小样本容量
? 所谓, 最小样本容量,,即从最小二乘原理和
最大或然原理出发,欲得到参数估计量,不管
其质量如何,所要求的样本容量的下限。
? 样本最小容量必须不少于模型中解释变量的数
目(包括常数项)即不少于 k+1。
2、满足模型估计基本要求的样本容量
? 从参数估计角度:> 3× (k+1)
? 从检验的有效性角度:> 30
3、模型的良好性质只有在大样本下才能得
到理论上的证明
五,多元线性回归模型案例分析
?( 1)教材 P43页
?( 2) 英国对酒精饮料的需
求问题
案例 1 中国消费函数模型
? 根据消费模型的一般形式,选择消费总
额为被解释变量,国内生产总值和前一
年的消费总额为解释变量,变量之间关
系为简单线性关系,选取 1981年至 1996
年统计数据为样本观测值。
? 中国消费数据表 单位:亿元 年 份 消费总额 国内生产总值 前一年消费额 年 份 消费总额 国内生产总值 前一年消费额
1981 3309 4901 2976 1989 10556 16466 9360
1982 3638 5489 3309 1990 11362 18320 10556
1983 4021 6076 3638 1991 13146 21280 11362
1984 4694 7164 4021 1992 15952 25864 13146
1985 5773 8792 4694 1993 20182 34501 15952
1986 6542 10133 5773 1994 27216 47111 20182
1987 7451 11784 6542 1995 34529 59405 27216
1988 9360 14704 7451 1996 40172 68498 34529
? 模型估计结果
D e p e n d e n t V a r i a b l e, C O N S
M e t h o d, L e a st S q u a r e s
D a t e, 0 2 / 2 5 / 0 3 T i m e, 1 7, 4 7
S a m p l e, 1 9 8 1 1 9 9 6
I n cl u d e d o b se r v a t i o n s,1 6
V a r i a b l e C o e f f i ci e n t S t d, E r r o r t - S t a t i st i c P r o b,
C 5 4 0, 5 2 8 6 8 4, 3 0 1 5 3 6, 4 1 1 8 4 8 0, 0 0 0 0
G D P 0, 4 8 0 9 4 8 0, 0 2 1 8 6 1 2 2, 0 0 0 3 5 0, 0 0 0 0
C O N S 1 0, 1 9 8 5 4 5 0, 0 4 7 4 0 9 4, 1 8 7 9 6 9 0, 0 0 1 1
R - sq u a r e d 0, 9 9 9 7 7 3 M e a n d e p e n d e n t v a r 1 3 6 1 8, 9 4
A d j u st e d R - sq u a r e d 0, 9 9 9 7 3 9 S, D, d e p e n d e n t v a r 1 1 3 6 0, 4 7
S, E, o f r e g r e ss i o n 1 8 3, 6 8 3 1 A ka i ke i n f o cr i t e r i o n 1 3, 4 3 1 6 6
S u m sq u a r e d r e si d 4 3 8 6 1 3, 2 S ch w a r z cr i t e r i o n 1 3, 5 7 6 5 2
L o g l i ke l i h o o d - 1 0 4, 4 5 3 3 F - st a t i st i c 2 8 6 8 2, 5 1
D u r b i n - W a t so n st a t 1, 4 5 0 1 0 1 P r o b ( F - st a t i st i c) 0, 0 0 0 0 0 0
? 拟合效果
0
10000
20000
30000
40000
50000
82 84 86 88 90 92 94 96
C O N S C O N S F
案例 2 英国对酒精饮料的需求
? 材料来源,T.McGuinness,英国对酒精
饮料需求的经济计量分析, 一文
? 建模第一步:
? ( 1)选择变量:
? y=每一个成年人纯酒精消费的年变化
? x2=酒精饮料的真实价格指数的年变化
? x3=个人真实的可支配收入的年变化
? x4= 许可证颁发数量年变化量/成年人口
? x5= 在酒精饮料上的广告支出费用的年变化
? ( 2)建立理论模型
? 根据变量之间的散点图及以往研究,采用多元线性回归模
型的形式
? ( 3)拟定模型中参数的期望值
? 理论表明,除了变量 x2之外,其余所有解释变量都应与被解
释变量 y正相关(即 ?2 <0; ?3,?4, ?5 >0)
? 建模第二步:收集样本数据
? 得到相关变量 20年的年数据
? 建模第三步:参数估计
? 为了解释英国对酒精饮料的需求,T.McGuinness根据
20年的年数据得到了如下回归方程:
? 其中 y=每一个成年人纯酒精消费的年变化
? x2=酒精饮料的真实价格指数的年变化
? x3=个人真实的可支配收入的年变化
? x4= 许可证颁发数量年变化量/成年人口
? x5= 在酒精饮料上的广告支出费用的年变化
689.0R
( 1, 7 3 ) ( 2, 4 7 ) ( 3, 3 9 ) ( 1, 3 2 ) ( - 1, 1 6 ) t
( 0, 0 0 3 4 ) ( 0, 2 6 6 0 ) ( 0, 0 0 0 5 ) ( 0, 2 6 8 8 ) ( 0, 0 1 2 )se
0059.0--y
2
=
=
=
+++=
?
ttttt
xxxx
5432
0, 6 5 7 00, 0 0 1 80, 3 5 4 00, 0 1 4 0
回归结果分析
? x2的偏回归系数- 0.3540表明,在其他三
个解释变量保持不变时,与预期相同,
它与每一个成年人纯酒精消费的年变化
呈负相关关系
本节内容扩展
?+?= XY ( 2, 3, 2 )
其中
X =
?
?
?
?
?
?
?
?
?
?
?
?
? +
1
1
1
11 21 1
12 22 2
1 2
1
x x x
x x x
x x x
k
k
n n kn
n k
L
L
M M M M
L
( )
? =
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
+ ?
?
?
?
?
0
1
2
1 1
M
k
k( )
? =
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
1
2
1
M
n
n
多元线性回归模型的 矩阵表达式 为:
1 *
2
1
Y
nn
y
y
y
?
?
?
?
?
?
?
?
?
?
?
?
=
M
? 参数 OLS估计值为
? 样本回归函数为
? 残差为
YXX)X(B? -1 ??=
B?XY? =
1 *
2
1
nn
e
e
e
?
?
?
?
?
?
?
?
?
?
?
?
=
M
e
由于矩阵
( ) ( )
÷
÷
÷
÷
÷
?
?
?
?
?
?
?
?
?
---
÷÷
÷
÷
÷
?
?
??
?
?
?
?
?
-
-
-
=?-- kk
kk
EBBBBCov(B) = E ??????
??
??
??
???
?
?
?
)?)(?( 110011
00
LM
÷÷
÷
÷
÷
?
?
??
?
?
?
?
?
-----
-----
-----
=
2
1100
11
2
110011
001100
2
00
)?()?)(?()?)(?(
)?)(?()?()?)(?(
)?)(?()?)(?()?(
kkkkkk
kk
kk
EEE
EEE
EEE
??????????
??????????
??????????
L
LLLL
L
L
(3,1.14)
?
教材 P39页
主对角线给出了各参数估计 j?? 的方差,其余部分给出了不同
参数估计 i?? 与 j?? 的协方差,故称为参数估计向量 B? 的 方差 -
协方差矩阵 。
由 ( 2.3.8)式可得 B? 的 方差 -协方差矩阵的矩阵符号表
达式,
])??[()?cov(var ?--=- BBB)(BB E
}]][({[( ?-??-??= -- BYXX)XBYXX)X 11E
}]{[( ?-+??-+??= -- BN)(XBXX)XB][(N)(XBXX)X 11E
])[(}]{( 1---- ????=?????= XXX(NNXX)XNXX)XN[(XX)X 111 EE
121 )()( ---- ?××??=????= XXX(IXX)XXX)X(NE(NXX)X 11 s
12 )( -?= XXs (2.3.12)
Cov(B) =?
教材 P39页
记 ijc 为矩阵 1)( -?XX 中第 i行第 j 列元素,
比较可 知第 i个回归参数估计量 i?? ( i=0,1,2,…, k)
的方差、标准差:
iii c
2)?var( s? =
iii cs? =)?var(
显著性检验的基础部分
? 1,OLS估计量 的标准差的估计量
? 2,t统计量
j??
j?? 分别是 i? 的线性组合,因此 j?? 的概率分
布取决于 随机误差项 ?。
因此在 ? 是正态分布的假设下,每一个 也
服从 正态分布,其分布特征 (密度函数)由其均值和方差唯
一决定。
首先,服从正态分布的随机变量的线性组合仍然
服从正态分布。
其次,
j
?? 的概率分布
j
??
1,OLS估计量标准差的估计量
( 1)
1
i
?
i
??
以一元为例:
),(~? 2
2
11 ?
i
N s??, ),(~? 22
2
00 s?? ?
?
i
i
n
xN
OLS估计量的概率分布
? 2
?
ix
1 ?
s
s
?
=
x?x?
0?? 和 1?? 的 标准差 分别为,
?
?
2
2
? n
0
i
i
x
x
?
ss ? =
( 2) 随机误差项 ?的方差 2s 的估计
在估计的参数 0?? 和 1?? 的方差和标准差的表达式中,都含
有随机扰动项方差 2s = )var( i? 。 2s 又称为 总体方差 。
由于 2s 实际上是未知的,因此 0?? 和 1?? 的方差与标准差实
际上无法计算。
由于随机项 i? 不可观测,只能从 i? 的估计 —— 残差 ie 出发,
对总体方差 2s 进行估计。
可以证明,总体方差 2s 的 无偏估计量 为
k-1?
2
2
-=
?
n
eis n-k-1为残差的自由度
总体方差的无偏估计量
= 残差平方和/残差自由度
? 对于一元而言,总体方差的无偏估计量
为( P28页)
? 对于多元而言,总体方差的无偏估计量
为( P40页)
? k为斜率或偏斜率系数的个数。
2?
2
2
-=
?
n
eis
k-1?
2
2
-=
?
n
eis
在总体方差 2s 的无偏估计量 2?s 求出后,估计的参数 0?? 和 1??
的方差和标准差的估计量 就可以得出。以一元为例:
1?? 的方差:
1?? 的标准差:
0?? 的方差:
0?? 的标准差:
? 2
2
2
?
??
ix
1 ?
ss
? =
? 2?
?
ix
S
1 ?
s
? =
?
?
2
2
? n?
0
i
i
x
x
S
?
s? =
?
?
2
2
22
? n??
0
i
i
x
x
?
ss ? =
注意:用 S表示估计
参数的标准差的估计
量(值)
2,t统计量
为残差平方和的自由度
分布的服从自由度为
代替,则无法求出,用由于
),(服从标准正态分布
1-k-n
t1-k-n
?
10N
?
?
??
?
j
jj
j
S
t
S
jj
jj
?
??
?
??
s
s
??
-
=
-
0
标准正态分布
自由度为 20
的 t分布
自由度为 10
的 t分布
t 统计量与 t 分布
大样本情况下,
( )通
常不使用 t 统
计量,而是使
用Z统计量。
30?n
一元模型中的 t统计量
)分布(的服从自由度为
代替,则无法求出,用由于
),(服从标准正态分布
1,0t2-n
?
10N
?
?
??
?
=
-
=
-
j
j
jj
j
S
t
S
jj
jj
?
??
?
??
s
s
??
Estimation of Multiple Linear
Regression Model
一,多元线性回归模型一般形式
二、多元线性回归模型的参数估计
三,OLS估计量的统计性质
四、样本容量问题
五,多元线性回归模型实例
2.3节重点内容
? 1.多元线性回归模型一般形式
? 2.偏回归系数的含义
? 3.多元线性回归模型的基本假设;与一元
相比,多元的基本假设的不同点
一,多元线性回归模型
Multiple Linear Regression Model
的一般形式
问题的提出
? 现实经济现象是错综复杂的,多种经济
变量相互影响,每一个变量都要受到其
他多种因素的影响。例如,对家庭消费
支出的影响为例,除了家庭收入的影响
之外,物价指数、价格变化趋势、家庭
人口、家庭年龄构成、利息率、广告、
就业状况等多种因素都会影响家庭消费
支出。
? 如果被解释变量的变化原因可以有一个关键的
解释变量加以说明,其他解释变量的影响可以
忽略,就可以用一元回归模型表示所研究经济
问题变量间的数量关系。
? 如果其他解释变量对被解释变量的影响不能被
忽略,就要用多元回归模型表示。
? 例如,在考虑生产问题时,产出往往主要受投入要素 —— 资本、劳动、技术的影响;销售额
往往受价格和公司对广告费的投入的影响。
? 在需考虑的解释变量多于一个时,所得的计量
经济学模型为多元模型。
? 顾名思义,“多元”模型中有多个解释变量,
我们需要考虑所有这些变量对被解释变量的影
响。
1、多元线性回归模型的一般形式
? 如果在线性回归模型中的解释变量有多
个,这样的模型被称为 多元线性回归模
型 。
? 将一元线性回归模型推广,就可得多元
线性回归模型。
? 无论是模型的一般形式,还是参数估计
等多元都是一元的推广。
? 多元线性回归模型的一般形式为:
习惯上把常数项看成为一个 虚变量 的系数, 在参数估计过程
中该虚变量的样本观测值始终取 1。
这样,模型中解释变量的数目也可看作为 ( k+1) 。
今后我们采用多元中解释变量的数目为 k的说法 。
?其他变量和符号的含义与一元线性回归模型相似。
? y为被解释变量; ?为随机误差项; i表示第 i个样本观测值; n
为样本容量; ?0,?1,?2,…, ?k为 参数(式中共 k+1个 )
ikikiii xxxy ????? ++…+++= 22110 i=1,2,…,n
(2.3.1)
其中,k 为 解释变量 的数目; x1,x2, …, xk 为解释变量
强调两点
? 1.下标问题:
? 某班共 30名同学,考察期末考试各同学的化学成绩。
? 化学成绩= 0.2*平时成绩+ 0.7*考试成绩+ 0.1*实验成
绩
? 甲的化学成绩= 0.2*甲的平时成绩+ 0.7*甲的考试成绩
+ 0.1*甲的实验成绩
? 乙的化学成绩= 0.2*乙的平时成绩+ 0.7*乙的考试成
绩+ 0.1*乙的实验成绩
? 用一般形式表示即为:
i=1,2,…, 30
321 xxxy iii
i
0, 10, 70, 2 ++=
? 1.下标问题:
? 多元线性回归模型的式子中,y,?,?都只有一个下标,很
好表示,yi表示第 i个观测值,?i对应于第 i 组观测值的第 i个
随机误差项。
? 唯独 x不好表示,因为它涉及到两个下标。
? 若样本容量为 n,则每一个变量都有 n个样本观测值。用 xji
表示第 j个解释变量的第 i个观测值,在下标中把表示第几个
变量的数字放在前面,把表示第几个观测值的数字放在了
后面。 (与一元的不同点 )
? ?的下标表示与它相乘的是第几个解释变量,例如 ? k对应 xk
多元线性回归模型一般形式
? 在多元中,我们同样是利用样本数据进行对被解
释变量与解释变量之间数量关系说明的。
? (yi,x1i,x2i,…, xki) 表示一组具体的样本观测
值,抽取样本后它们的值就确定了。[当 i=1 时,
有 (y1,x11,x21,…, xk1) ]
? 共 n 组样本观测值(样本数据)
? ?i 表示对应于每组 (yi,x1i,x2i,…, xki) 的随机
误差项,它是随机变量,是未知的。
ikikiii xxxy ????? ++…+++= 22110 i=1,2,…, n
? 例如:建立一个关于人均消费、人均可支配收入和人
均消费存款余额的二元线性回归模型。
? 利用中国 1985- 1999年的实际数据
? c人均消费,y人均可支配收入,z人均消费存款余额
? ( ct,yt,zt)共有 15组。比如 ( c1, y1,z1) ( t=1表示
1985年)
? 对应于每一组 ( ct,yt,zt),均有一个 μ,共 15个。比如
μ1对应于 ( c1, y1,z1),表示其他因素对 1985年人均
消费的影响。
tt2t1t zβyβc ?++=
? 2.参数含义
? 式中共 k+1个 未知参数 ?0, ?1,?2,…, ?k
? 参数仍然是对被解释变量 平均变化 程度的度量。
? 其中 ?0是截距,它表示了当所有解释变量 xj
( j=1,2,…, k) 均为 0时,被解释变量 y的平均
取值。
? ?1,?2,…, ?k 称为 偏斜率系数 或 偏回归系数
( partial regression coefficients) 。(与一元的
不同点)
? ?j ( j=1,2,…, k) 度量了在 其它 解释变量 保持不
变的条件下,第 j个解释变量 xj变化一个单位将引
起被解释变量 平均变化 多少个单位。
ikikiii xxxy ????? ++…+++= 22110 i=1,2,…, n
?例如,
?1度量着在 x2,x3,…,xk保持不变的情况下,
x1每变化 1个单位时,y的平均值的变化,或
者说 ?1给出 x1的单位变化对 y平均值的“直接”
或“净”(不含其他变量)影响。
其他参数的含义与之相同 。
案例分析 1
? ( 1) 销售额 SALES与价格 PRICE、广
告费 ADS之间的关系
? ( 2)消费问题研究
例 1,销售额 SALES与价格 PRICE、广
告费 ADS之间的关系
SALES ADS PRICE
y x1 x2
1 36 56.7 12.0
2 48 63.9 9.0
3 45 62.7 11.0
4 40 59.7 13.0
5 30 55.9 14.5
6 56 68.7 9.5
7 63 69.2 7.5
8 53 65.5 11.0
9 61 69.4 9.0
10 68 73.4 8.5
11 66 74.1 10.0
12 65 74.4 9.5
obs
销售额 y与价格 x2,广告费 x1之间的关系
? 根据样本得 SRF
1, 3 0 7 0 -1, 6 0 9 7?
210? xxy iii
+= ?
? 偏回归系数的含义:
? 在价格保持不变的条件下,广告费变化一个单
位将引起销售额平均变化 1.6097个单位;
? 在广告费保持不变的条件下,价格变化一个单
位将引起销售额平均变化 - 1.307个单位。
1, 3 0 7 0 -1, 6 0 9 7?
210? xxy iii
+= ?
例 2 消费问题研究
? 凯恩斯的绝对收入假设消费理论,认为消费是
由收入唯一决定的,是收入的线性函数。根据
这一理论我们建立起来的是关于消费与收入的
一元线性回归模型
? 根据莫迪利安尼的生命周期假设( 1954年提出)
消费理论认为,消费者现期消费不仅与现期收
入有关,而且与消费者以后各期收入的期望值、
开始时的资产数量和年龄有关。
? 根据这一理论,一般我们是建立一个关
于人均消费、人均可支配收入和人均消费存款余额的二元线性回归模型。
? 注意:( 1)本模型中无截距项;
? ( 2)由于使用的是时间序列数据,
所以下标为 t
tt2t1t zβyβc ?++=
? 利用中国 1985- 1999年的实际数据(, 中国统计年
鉴 2001,),可得
? 单位:元
? 偏回归系数的含义为:
? 0.918:人均储蓄存款余额不变的情况下,人均可支
配收入每上升 1000元,平均而言,人均消费增长 918
元;
? - 0.02:人均可支配收入不变的情况下,人均储蓄
存款余额每增加 100元,平均而言,人均消费减少 2
元。
ttt zyc 0, 0 20, 9 1 8 -=?
2、多元线性回归模型的基本假定
模型 (2.3.1)或 (2.3.2)在满足下述所列的 基本假设 的
情况下,可以采用 普通最小二乘法 ( OLS)估计参数。
关于多元线性回归模型的基本假设
标量符号
1、解释变量 kxxx,,,21 L 是非随机的或固定的;而且各 x 之
间互不相关 ( 无多重共线性 (no multicollinearity))
矩阵符号
1,)1( +* kn 矩阵 X 是非随机的;且 X 的秩 1)( += kXr,此时
XX T 也是满秩的
标量符号
2、随机误差项具有零均值、同方差及不序列相关
0)( =iE ? ni,,2,1 L=
22 )()( s?? ==
ii EVar ni,,2,1 L=
0)(),( == jiji ECov ???? ji ?
矩阵符号
2,INNENE T 2)(,0)( s==
0
)(
)(
)(
11
=
÷
÷
÷
?
?
?
?
?
?
?
=
÷
÷
÷
?
?
?
?
?
?
?
=
nn E
E
ENE
?
?
?
?
MM
( )
÷
÷
÷
?
?
?
?
?
?
?
÷
÷
÷
?
?
?
?
?
?
?
= n
n
T ENNE ??
?
?
LM 1
1
)(
÷
÷
÷
?
?
?
?
?
?
?
=
2
1
1
2
1
nn
n
E
???
???
L
MOM
L
I2
2
2
0
0
s
s
s
=
÷
÷
÷
?
?
?
?
?
?
?
=
L
MOM
L
标量符号
3,解释变量与随机项不相关
0),( =ijixCov ? n j=1,2,…,ki,,2,1 L=
矩阵符号
3,0)( =NXE T,即
0
)(
)(
)(
11 =
÷÷
÷
÷
÷
?
?
??
?
?
?
?
?
=
÷÷
÷
÷
÷
?
?
??
?
?
?
?
?
?
?
?
?
?
?
iKi
ii
i
iKi
ii
i
EX
EX
E
X
XE
?
?
?
?
?
?
MM
标量符号
4,( 为了假设检验),随机扰动项服从正态分布
),0(~ 2s? Ni ni,,2,1 L=
矩阵符号
4、向量 N 为一多维正态分布,即
),0(~ 2 INN s
多元线性回归模型的基本假设
是为了保证能够使用 OLS法估计
模型中的参数以及所得参数具
有优良性质
关于基本假设的两点说明
? 一、假设 1:解释变量之间互不相关 (比
一元的假设多出的一条 )
? 为什么要在多元线性回归模型中增加这
条假设?
? 例如,考虑二元线性回归模型
? 其中解释变量之间存在完全的线性函数
关系 x2i =4x1i,将该关系代入回归模型中,
会发现什么?
iii xxy ??? ++= 22110
( 3 ) A
( 2 ) )4(A
)4(
)(
( 1 )
1
10
211
1
210
1
2
1
10
2
2
1
10
4
?
?
?
?
?
??
???
???
???
i
i
i
i
i
i
i
ii
i
i
ii
i
xy
xy
xxy
xxy
++=
+
+++=?
+++=?
+++=
则模型变为
=令
模型:
? 由于解释变量间存在完全相关的线性函数关系,
使得表面上是二元的模型 (1)实际为一元线性回
归模型 (3)。
? 即使能够对模型 (3)进行估计,也只能估计出参
数 A1的值,却无法从估计的 A1值之中得出参数
?0 和 ?1的估计值。
? 因为方程 (2)是含两个未知数的方程,一个方程
两个未知数,不可能得出确定的偏回归系数 ?0
和 ?1的估计值。
? 因此,基于以上原因,在多元线性回归模型的
基本假设中增加了解释变量间互不相关的假设 。
? 二、假设 — 随机误差项与解释变量之间不相关
? 指每一个解释变量 xj的第 i次观测与对应的随机
误差项 ?i不相关,在解释变量为确定性变量的假
设满足时,该条自动满足。
? (多元中涉及一个以上的解释变量)
( ) njC O V iijx,,21,k;,2,1 0,?? === i?
? 例如:建立一个关于人均消费、人均可支配收入和人均消费存款余额的二元线性回归模型。
? 利用中国 1985- 1999年的实际数据
? 此假设的含义为:每一年的解释变量 — 人均可
支配收入和人均消费存款余额均与该年度其他
影响人均消费的因素不相关。
? 比如 y1 与 ?1不相关;且 z1与 ?1不相关 ( t=1
表示 1985年)
tt2t1t zβyβc ?++=
二、多元线性回归模型的参数估计
? 多元线性回归模型参数估计的原理与一
元线性回归模型相同,同样采用普通最
小二乘法,只是计算更为复杂。
1、普通最小二乘估计
? 普通最小二乘估计
随机抽取被解释变量和解释变量的 n 组样本观测值:
kjnix yji i LL,2,1,0,,,2,1),( ==
如果模型的参数估计值已经得到,则有样本回归函数:
Kikiiii xxxy ???? ????? 22110 ++++= L i=1,2,…,n
(2.3.3)
根据最小二乘原理,参数估计值应该是下列方程组的解:
?
??
?
??
?
??
?
??
$
$
$
$
0
1
2
0
0
0
0
Q
Q
Q
Q
k
=
=
=
=
?
?
?
?
?
??
?
?
?
?
?
?
M
( 2.3.4)
其中
2
11
2 )?(??
==
-==
n
i
ii
n
i
i yyeQ
2
1
22110 ))????((?
=
++++-=
n
i
kikiii xxxy ???? L ( 2.3.5)
解该 ( k + 1 )个方程组成的线性代数方程组,即可得到
( k + 1 ) 个待估参数的估计值 $,,,,,? j j k= 0 1 2 L 。
于是,得到关于待估参数估计值的 正规方程组,
?
?
?
?
??
?
?
?
S=++++S
S=++++S
S=++++S
S=++++S
kiikikikii
iiikikiii
iiikikii
ikikii
xyxxxx
xyXxxx
xyxxxx
yxxx
)????(
)????(
)????(
)????(
22110
2222110
1122110
22110
????
????
????
????
L
M
L
L
L
( 2.3.6)
三,OLS估计量的统计性质
在多元线性回归模型满足基本假设的条件下, 普
通最小二乘估计量具有线性性, 无偏性, 最小方
差性等优良性质 。
即 OLS估计量是 最佳线性无偏估计量, 或者说
BLUE 估计量 ( the Best Linear Unbiased
Estimators) 。
显然这些优良的性质依赖于对模型的基本假设对
多元线性回归模型的参数进行估计, 再一次说明
了 为什么最小二乘法在计量中被广泛应用的原因 。
1,线性性
$ ( )? = ? ?-X X X Y1 ( 2, 3, 10 )
2,无偏性
BBE =)
?
( ( 2, 3, 11 )
证,NXXXBNXBXXXYXXXB ??-=-??=??=
--- 111
)()()()(
?
( 2, 3,1 2 )
于是,
BNEXXXBNXXXEBEBE =??-=??-=
--
)()())(()()
?
(
11
3,最小方差性
若
*
B 是 B 的任一线性无偏估计量,则有
])
?)(?[(]))([( ** ?--??-- BBBBEBBBBE
( 2, 3,1 3 )
证明略。
四、样本容量问题
⒈ 最小样本容量
? 所谓, 最小样本容量,,即从最小二乘原理和
最大或然原理出发,欲得到参数估计量,不管
其质量如何,所要求的样本容量的下限。
? 样本最小容量必须不少于模型中解释变量的数
目(包括常数项)即不少于 k+1。
2、满足模型估计基本要求的样本容量
? 从参数估计角度:> 3× (k+1)
? 从检验的有效性角度:> 30
3、模型的良好性质只有在大样本下才能得
到理论上的证明
五,多元线性回归模型案例分析
?( 1)教材 P43页
?( 2) 英国对酒精饮料的需
求问题
案例 1 中国消费函数模型
? 根据消费模型的一般形式,选择消费总
额为被解释变量,国内生产总值和前一
年的消费总额为解释变量,变量之间关
系为简单线性关系,选取 1981年至 1996
年统计数据为样本观测值。
? 中国消费数据表 单位:亿元 年 份 消费总额 国内生产总值 前一年消费额 年 份 消费总额 国内生产总值 前一年消费额
1981 3309 4901 2976 1989 10556 16466 9360
1982 3638 5489 3309 1990 11362 18320 10556
1983 4021 6076 3638 1991 13146 21280 11362
1984 4694 7164 4021 1992 15952 25864 13146
1985 5773 8792 4694 1993 20182 34501 15952
1986 6542 10133 5773 1994 27216 47111 20182
1987 7451 11784 6542 1995 34529 59405 27216
1988 9360 14704 7451 1996 40172 68498 34529
? 模型估计结果
D e p e n d e n t V a r i a b l e, C O N S
M e t h o d, L e a st S q u a r e s
D a t e, 0 2 / 2 5 / 0 3 T i m e, 1 7, 4 7
S a m p l e, 1 9 8 1 1 9 9 6
I n cl u d e d o b se r v a t i o n s,1 6
V a r i a b l e C o e f f i ci e n t S t d, E r r o r t - S t a t i st i c P r o b,
C 5 4 0, 5 2 8 6 8 4, 3 0 1 5 3 6, 4 1 1 8 4 8 0, 0 0 0 0
G D P 0, 4 8 0 9 4 8 0, 0 2 1 8 6 1 2 2, 0 0 0 3 5 0, 0 0 0 0
C O N S 1 0, 1 9 8 5 4 5 0, 0 4 7 4 0 9 4, 1 8 7 9 6 9 0, 0 0 1 1
R - sq u a r e d 0, 9 9 9 7 7 3 M e a n d e p e n d e n t v a r 1 3 6 1 8, 9 4
A d j u st e d R - sq u a r e d 0, 9 9 9 7 3 9 S, D, d e p e n d e n t v a r 1 1 3 6 0, 4 7
S, E, o f r e g r e ss i o n 1 8 3, 6 8 3 1 A ka i ke i n f o cr i t e r i o n 1 3, 4 3 1 6 6
S u m sq u a r e d r e si d 4 3 8 6 1 3, 2 S ch w a r z cr i t e r i o n 1 3, 5 7 6 5 2
L o g l i ke l i h o o d - 1 0 4, 4 5 3 3 F - st a t i st i c 2 8 6 8 2, 5 1
D u r b i n - W a t so n st a t 1, 4 5 0 1 0 1 P r o b ( F - st a t i st i c) 0, 0 0 0 0 0 0
? 拟合效果
0
10000
20000
30000
40000
50000
82 84 86 88 90 92 94 96
C O N S C O N S F
案例 2 英国对酒精饮料的需求
? 材料来源,T.McGuinness,英国对酒精
饮料需求的经济计量分析, 一文
? 建模第一步:
? ( 1)选择变量:
? y=每一个成年人纯酒精消费的年变化
? x2=酒精饮料的真实价格指数的年变化
? x3=个人真实的可支配收入的年变化
? x4= 许可证颁发数量年变化量/成年人口
? x5= 在酒精饮料上的广告支出费用的年变化
? ( 2)建立理论模型
? 根据变量之间的散点图及以往研究,采用多元线性回归模
型的形式
? ( 3)拟定模型中参数的期望值
? 理论表明,除了变量 x2之外,其余所有解释变量都应与被解
释变量 y正相关(即 ?2 <0; ?3,?4, ?5 >0)
? 建模第二步:收集样本数据
? 得到相关变量 20年的年数据
? 建模第三步:参数估计
? 为了解释英国对酒精饮料的需求,T.McGuinness根据
20年的年数据得到了如下回归方程:
? 其中 y=每一个成年人纯酒精消费的年变化
? x2=酒精饮料的真实价格指数的年变化
? x3=个人真实的可支配收入的年变化
? x4= 许可证颁发数量年变化量/成年人口
? x5= 在酒精饮料上的广告支出费用的年变化
689.0R
( 1, 7 3 ) ( 2, 4 7 ) ( 3, 3 9 ) ( 1, 3 2 ) ( - 1, 1 6 ) t
( 0, 0 0 3 4 ) ( 0, 2 6 6 0 ) ( 0, 0 0 0 5 ) ( 0, 2 6 8 8 ) ( 0, 0 1 2 )se
0059.0--y
2
=
=
=
+++=
?
ttttt
xxxx
5432
0, 6 5 7 00, 0 0 1 80, 3 5 4 00, 0 1 4 0
回归结果分析
? x2的偏回归系数- 0.3540表明,在其他三
个解释变量保持不变时,与预期相同,
它与每一个成年人纯酒精消费的年变化
呈负相关关系
本节内容扩展
?+?= XY ( 2, 3, 2 )
其中
X =
?
?
?
?
?
?
?
?
?
?
?
?
? +
1
1
1
11 21 1
12 22 2
1 2
1
x x x
x x x
x x x
k
k
n n kn
n k
L
L
M M M M
L
( )
? =
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
+ ?
?
?
?
?
0
1
2
1 1
M
k
k( )
? =
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
1
2
1
M
n
n
多元线性回归模型的 矩阵表达式 为:
1 *
2
1
Y
nn
y
y
y
?
?
?
?
?
?
?
?
?
?
?
?
=
M
? 参数 OLS估计值为
? 样本回归函数为
? 残差为
YXX)X(B? -1 ??=
B?XY? =
1 *
2
1
nn
e
e
e
?
?
?
?
?
?
?
?
?
?
?
?
=
M
e
由于矩阵
( ) ( )
÷
÷
÷
÷
÷
?
?
?
?
?
?
?
?
?
---
÷÷
÷
÷
÷
?
?
??
?
?
?
?
?
-
-
-
=?-- kk
kk
EBBBBCov(B) = E ??????
??
??
??
???
?
?
?
)?)(?( 110011
00
LM
÷÷
÷
÷
÷
?
?
??
?
?
?
?
?
-----
-----
-----
=
2
1100
11
2
110011
001100
2
00
)?()?)(?()?)(?(
)?)(?()?()?)(?(
)?)(?()?)(?()?(
kkkkkk
kk
kk
EEE
EEE
EEE
??????????
??????????
??????????
L
LLLL
L
L
(3,1.14)
?
教材 P39页
主对角线给出了各参数估计 j?? 的方差,其余部分给出了不同
参数估计 i?? 与 j?? 的协方差,故称为参数估计向量 B? 的 方差 -
协方差矩阵 。
由 ( 2.3.8)式可得 B? 的 方差 -协方差矩阵的矩阵符号表
达式,
])??[()?cov(var ?--=- BBB)(BB E
}]][({[( ?-??-??= -- BYXX)XBYXX)X 11E
}]{[( ?-+??-+??= -- BN)(XBXX)XB][(N)(XBXX)X 11E
])[(}]{( 1---- ????=?????= XXX(NNXX)XNXX)XN[(XX)X 111 EE
121 )()( ---- ?××??=????= XXX(IXX)XXX)X(NE(NXX)X 11 s
12 )( -?= XXs (2.3.12)
Cov(B) =?
教材 P39页
记 ijc 为矩阵 1)( -?XX 中第 i行第 j 列元素,
比较可 知第 i个回归参数估计量 i?? ( i=0,1,2,…, k)
的方差、标准差:
iii c
2)?var( s? =
iii cs? =)?var(
显著性检验的基础部分
? 1,OLS估计量 的标准差的估计量
? 2,t统计量
j??
j?? 分别是 i? 的线性组合,因此 j?? 的概率分
布取决于 随机误差项 ?。
因此在 ? 是正态分布的假设下,每一个 也
服从 正态分布,其分布特征 (密度函数)由其均值和方差唯
一决定。
首先,服从正态分布的随机变量的线性组合仍然
服从正态分布。
其次,
j
?? 的概率分布
j
??
1,OLS估计量标准差的估计量
( 1)
1
i
?
i
??
以一元为例:
),(~? 2
2
11 ?
i
N s??, ),(~? 22
2
00 s?? ?
?
i
i
n
xN
OLS估计量的概率分布
? 2
?
ix
1 ?
s
s
?
=
x?x?
0?? 和 1?? 的 标准差 分别为,
?
?
2
2
? n
0
i
i
x
x
?
ss ? =
( 2) 随机误差项 ?的方差 2s 的估计
在估计的参数 0?? 和 1?? 的方差和标准差的表达式中,都含
有随机扰动项方差 2s = )var( i? 。 2s 又称为 总体方差 。
由于 2s 实际上是未知的,因此 0?? 和 1?? 的方差与标准差实
际上无法计算。
由于随机项 i? 不可观测,只能从 i? 的估计 —— 残差 ie 出发,
对总体方差 2s 进行估计。
可以证明,总体方差 2s 的 无偏估计量 为
k-1?
2
2
-=
?
n
eis n-k-1为残差的自由度
总体方差的无偏估计量
= 残差平方和/残差自由度
? 对于一元而言,总体方差的无偏估计量
为( P28页)
? 对于多元而言,总体方差的无偏估计量
为( P40页)
? k为斜率或偏斜率系数的个数。
2?
2
2
-=
?
n
eis
k-1?
2
2
-=
?
n
eis
在总体方差 2s 的无偏估计量 2?s 求出后,估计的参数 0?? 和 1??
的方差和标准差的估计量 就可以得出。以一元为例:
1?? 的方差:
1?? 的标准差:
0?? 的方差:
0?? 的标准差:
? 2
2
2
?
??
ix
1 ?
ss
? =
? 2?
?
ix
S
1 ?
s
? =
?
?
2
2
? n?
0
i
i
x
x
S
?
s? =
?
?
2
2
22
? n??
0
i
i
x
x
?
ss ? =
注意:用 S表示估计
参数的标准差的估计
量(值)
2,t统计量
为残差平方和的自由度
分布的服从自由度为
代替,则无法求出,用由于
),(服从标准正态分布
1-k-n
t1-k-n
?
10N
?
?
??
?
j
jj
j
S
t
S
jj
jj
?
??
?
??
s
s
??
-
=
-
0
标准正态分布
自由度为 20
的 t分布
自由度为 10
的 t分布
t 统计量与 t 分布
大样本情况下,
( )通
常不使用 t 统
计量,而是使
用Z统计量。
30?n
一元模型中的 t统计量
)分布(的服从自由度为
代替,则无法求出,用由于
),(服从标准正态分布
1,0t2-n
?
10N
?
?
??
?
=
-
=
-
j
j
jj
j
S
t
S
jj
jj
?
??
?
??
s
s
??