计量经济学引 言一、计量经济学
1、计量经济学( Econometrics)
利用数学和统计推断为工具,在经济理论指导下对经济现象进行分析,并对经济理论进行检验和发展的一门学科。
其内容涉及经济理论、数理经济、经济统计和数理统计等。
2、计量经济学与经济理论经济理论:定性计量经济学:数值估计,检验
3、计量经济学与数理经济学数理经济学:以数学形式表述经济理论,不涉及理论的可度量性和经验方面的可论证性。
计量经济学:利用数理经济学的数学方程式,并把之改造成适合于经验检验的形式。
4、计量经济学与经济统计学经济统计:经济数据的收集、加工,不利用数据来检验经济理论。
计量经济学:以经济统计数据为原始资料进行分析。
5、计量经济学与数理统计数理统计:是计量经济学的基本工具,但由于经济数据的特殊性,
力量经济学需要特殊的处理方法。
二、计量经济学的方法基本过程:
①经济理论
②理论的数学模型
③理论的计量经济学模型
④数据的收集整理
⑤计量经济模型的参数估计
⑥假设检验
⑦预报和预测
⑧控制或政策制定例,检验凯恩斯关于边际消费倾向理论,或利用该理论进行经济控制或经济政策制定。
① 理论人们的消费支出随收入的增加而增加,但消费支出的增加小于收入的增加。即边际消费倾向 MPC大于零而小于 1。(定性)
②建立数学模型假定消费支出 Y与收入 X之间有如下关系:
10, XbXaY
其中,Y为消费支出,X为收入,a和 b为模型参数。 B就是 MPC。
这里 Y为因变量,X为自变量 /解释变量。假定两者之间存在先行关系。
(在不同情况下,数学模型的形式不一样,也可能是多个方程连立,
有多个解释变量)
③ 建立计量经济学模型由于经济变量之间的关系不是确定的(以函数形式准确表达),必须修改数理模型,建立计量模型:
u为误差项,代表了影响变量间非确定关系的其他因素的影响。
这是一个线性回归模型。
ubXaY
O X
Y
斜率为 b
数理模型
O X
Y
斜率为 b
计量模型
a a
④ 数据的收集整理如果 1980分析一国的消费情况,要收集该国的总消费支出数据和总收入数据。
年份 Y X 年份 Y X
1980 2447 3776 1986 2969 4405
1981 2477 3843 1987 3052 4540
1982 2504 3760 1988 3162 4719
1983 2619 3907 1989 3223 4838
1984 2746 4149 1990 3260 4878
1985 2866 4280 1991 3240 4821
(选择、加工)
美国 1980-1991年个人消费支出与 GDP(10亿美元,1987年不变价格 )
⑤ 计量经济模型的参数估计采用回归技术,利用统计数据估计出参数 a和 b的经验值。
根据估计结果,美国 1980-1991年的 MPC约为 0.72。
⑥假设检验以一定的标准,对参数的估计结果进行检验。如果在统计意义上,
b小于 1,说明结果是可接受的。
XY 7 1 9 4.08.231
⑦ 预报和预测如果计量模型可以接受,就可用来对因变量进行预测。假定 1994年,
美国的 GDP预计为 6万亿美元,则该年的消费支出预计为
4 0 8 5
6 0 0 07 1 9 4.08.2 3 1
Y
⑧ 控制或政策制定如果希望 1994年的消费支出达到 4万亿美元,则政府必须通过政策来保证收入水平为:
5 8 8 27 1 9 4.0 8.2314 0 0 0X
三、计量经济学的内容可分为理论和应用两大类。
理论计量经济学:研究适当的方法,来测度有计量经济模型设定的经济关系式。
应用计量经济学:以理论计量经济学为工具,研究经济学或商业中的各领域。
四、计量经济学的应用软件包有很多种。常用的有,TSP,SPSS,SAS等。
第一章 回归分析一、回归分析分析因变量与解释变量之间的统计依赖关系,目的在于通过后者的已知或设定值去估计或预测前者的均值。
假定一个国家的所有家庭的收入( X)和消费支出( Y)统计如下,希望知道家庭消费支出与家庭收入之间的关系,Y=F( X)。
X
Y 80 100 120 140 160 180 200 220 240 260
55 65 79 80 102 110 120 135 137 150
60 70 84 93 107 115 136 137 145 152
65 74 90 95 110 120 140 140 155 175
70 80 94 103 116 130 144 152 165 178
75 85 98 108 118 135 145 157 175 180
- 88 - 113 125 140 - 160 189 185
- - - 115 - - - 162 - 191
户数 5 6 5 7 6 6 5 7 6 5
总支出 325 462 445 707 678 750 685 1043 966 1211
Y
X
55
100 120140 16080
根据每个家庭的收入和支出绘出散点图,大致可看出二者间的关系:在统计意义上,
二者成正比。
由对全体居民的收入和支出的调查结果,我们知道处于不同收入阶层的居民有一个平均的支出水平,这一支出水平与收入大致呈线性关系。
图中的这条通过各收入阶层平均支出额的直线,描述了这一依赖关系。我们把这条线称为回归线。
二、统计关系与确定关系在回归分析中,得到因变量与自变量之间的依赖关系是统计依赖关系,
而不是确定关系或函数关系。
三、回归与因果关系回归分析得到的变量间的统计依赖关系,统计关系式自身不代表任何确定的因果关系。
四、计量经济分析使用的数据有三类。
( 1)时间序列数据。一个时间序列是对一个变量在不同时间取的一组观测结果。这些数据可以按固定的时间间隔收集。
收集的数据可以是定量的,也可以是定性的(虚拟变量)。
中国 1993年 —1998年的 GDP增长率 ( %)
1993 1994 1995 1996 1997 1998
14.2 13.5 10.5 9.6 8.8 7.8
( 2)横截面数据。一个或多个变量在同一时点上收集的数据。
1992年实际 GDP增长
( 3)混合数据。
国家和地区实际 GDP增长率
1992年 1993年 1994年 1995年 1996年 1997年 1998年加拿大 0.9 2.5 3.9 2.2 1.2 4.0 3.1
智利 12.3 7.0 5.7 10.6 7.4 7.1 3.4
墨西哥 3.6 2.0 4.4 -6.2 5.2 7.0 4.8
秘鲁 -1.7 6.4 13.1 7.4 2.5 6.9 0.3
美国 2.7 2.3 3.5 2.0 2.8 3.9 3.9
中国 14.2 13.5 12.6 10.5 9.6 8.8 7.8
香港 6.3 6.1 5.4 3.9 4.6 5.3 -5.1
日本 1.0 0.3 0.6 1.5 3.9 1.4 -2.8
国家 /地区加拿大 智利 墨西哥 秘鲁 美国 中国 香港 日本
GDP 0.9 12.3 3.6 -1.7 2.7 14.2 6.3 1
第二章 双变量回归分析第一节 经典正态线性回归模型( CNLRM)
一、基本概念以下表为例。
X
Y 80 100 120 140 160 180 200 220 240 260
55 65 79 80 102 110 120 135 137 150
60 70 84 93 107 115 136 137 145 152
65 74 90 95 110 120 140 140 155 175
70 80 94 103 116 130 144 152 165 178
75 85 98 108 118 135 145 157 175 180
- 88 - 113 125 140 - 160 189 185
- - - 115 - - - 162 - 191
户数 5 6 5 7 6 6 5 7 6 5
总支出 325 462 445 707 678 750 685 1043 966 1211
1、几个概念条件分布( Conditional distribution):以 X取定值为条件的 Y的条件分布条件概率( Conditional probability):给定 X的 Y的概率,记为 P(Y|X)。
例如,P(Y=55|X=80)=1/5; P( Y=150|X=260) =1/7。 (表 )
条件期望( conditional Expectation):给定 X的 Y的期望值,记为 E(Y|X)。
例如,E(Y|X=80)=55× 1/5+ 60× 1/5+ 65× 1/5+ 70× 1/5+ 75× 1/5= 65
总体回归曲线( Popular Regression Curve)(总体回归曲线的几何意义):
当解释变量给定值时因变量的条件期望值的轨迹。
2、总体回归函数( Popular Regression Function,PRF
E(Y|Xi)=f(Xi)
当 PRF的函数形式为线性函数,则有,
E(Y|Xi)=?1+?2Xi
其中?1和?2为未知而固定的参数,称为回归系数。1和?2也分别称为截距和斜率系数。
上述方程也称为线性总体回归函数。
3、“线性”的含义
“线性”可作两种解释:对变量为线性,对参数为线性。一般“线性回归”一词总是指对参数?为线性的一种回归(即参数只以它的 1次方出现)。
4,PRF的随机设定将个别的 Yi围绕其期望值的离差 (Deviation)表述如下:
ui=Yi-E(Y|Xi)
或
Yi=E(Y|Xi)+ui
其中 ui为随机误差项( Stochastic error)或随机干扰项( Stochastic
disturbance)。线性总体回归函数:
PRF,Yi=?1+?2Xi+ui=E(Y|Xi)+ui
5、随机干扰项的意义随机扰动项是从模型中省略下来的而又集体地影响着 Y的全部变量的替代物。显然的问题是:为什么不把这些变量明显地引进到模型中来,
而以随即扰动项来替代?理由是多方面的:
( 1)理论的含糊性:理论不能完全说明影响因变量的所有影响因素。
( 2)数据的欠缺:无法获得有关数据。
( 3)核心变量与周边变量:希望能找到与有较大影响的核心变量的关系。
( 4)内在随机性:因变量具有内在的随机性。
( 5)替代变量:用来代替不可观测变量的替代变量选择,造成一定误差。
( 6)省略原则:研究中尽可能使回归式简单。
( 7)错误的函数形式:回归式的的选择是主观的。
6、样本回归函数( SRF)
由于在大多数情况下,我们只知道变量值得一个样本,要用样本信息的基础上估计 PRF。 (表 )
X(收入) 80 100 120 140 160 180 200 220 240 260
Y(支出) 55 65 79 80 102 110 120 135 137 150
样本 1
X(收入) 80 100 120 140 160 180 200 220 240 260
Y(支出) 70 80 94 103 116 130 144 152 165 178
样本 2
iii uXY 21
样本回归函数 SRF:
的估计量为的估计量为的估计量为其中
12211,
,X i )|E ( YY?,
在回归分析中,我们用 SRF估计 PRF。
估计量( Estimator):一个估计量又称统计量 (statistic),是指一个规则、公式或方法,以用来根据已知的样本所提供的信息去估计总体参数。
在应用中,由估计量算出的数值称为估计(值)( estimate)。
样本回归函数 SRF的随机形式为:
iiii uYuX Y 21i
其中 表示(样本)残差项( residual)。
iu?
Xi X
PRF:E(Y|Xi)=?1+?2Xi
SRF:
Y
E(Y|Xi)
ii XY 21
iu?
iu
iY
iY?
SRF是 PRF的近似估计。
为了使二者更为接近,即要使
2211, 尽可能接近尽可能接近二、经典线性回归模型( CLRM)的基本假定假定 1:回归模型对参数是线性的假定 2:在重复抽样中 X的值是固定的(非随机)
假定 3:干扰项的均值为零。即,E(ui|Xi)=0
假定 4:同方差性或 ui的方差相等。即
Var(ui|Xi)=E[ui-E(ui)|Xi]2
=E(ui2|Xi]2 =?2
假定 5:各个干扰项无自相关。即
Cov(ui,uj|Xi,Xj)=E[ui-E(ui|Xi) ][uj-E(uj|Xj)]
=E(ui|Xi)(uj|Xj) = 0
假定 6,ui和 Xi的协方差为零。即
Cov(ui,Xi) = E[ui – E(ui)][Xi – E(Xi)]
= E[ui (Xi – E(Xi))]
=E(ui Xi) – E(ui)E(Xi)
= E(ui Xi) = 0
假定 7:观测次数必须大于待估计的参数个数。
假定 8:解释变量 X的只要有变异性。即一个样本中,Xi不能完全相同。
假定 9:模型没有设定误差。
假定 10:没有完全的多重共线性,即解释变量之间没有完全的线性关系。
第二节 双变量回归模型:估计一、普通最小二乘法( Ordinary Least Squares,OLS)
基本思路:用样本回归函数估计总体回归函数。以
iii uXYS R F 21,
iii uXYP R F 21,
估计
iiiii uYuXY 21
)( 21 iiiii XYYYu残差估计出的参数
21 和使残差的平方和最小。
2
21
22
21
)()?(?:m in
:,
iiiii XYYYu
要求和即寻找时,真实值
ii
ii
ii
i
XnY
XnY
XY
u
21
21
21
1
2
0)(2
)(2
)?(
2
21
2
21
2
21
21
2
2
0(2
)((2
))((2
)?(
iiii
iiii
iiii
iii
i
XXXY
XXXY
XXXY
XXY
u
求解这一最小化问题,根据最大化的一阶条件:
可得到以下正规方程( Normal equation),
2
21
21
iiii
ii
XXXY
XnY
二、参数的估计(点估计),OLS估计量
1、解上述正规方程组得到估计值:
222 )(
))((?
i
ii
i
ii
x
yx
XX
YYXX?
XY 2?1
)为离差。()和(
的均值,、分别为和其中
YYyXXx
YXYX
iiii
,
解出 21 和,可得到估计值。
21 和 称为最小二乘估计量( OLS估计)。
2,OLS样本回归线的性质:
不相关。与不相关。与
)(
:由方差最小的一阶条件的均值为零。残差
,可得两边求和,并同除的均值:的均值等于实测的的样本均值。和通过
ii
ii
iii
ii
i
i
iii
Xu
Yu
XYu
XY
u
YY
XXY
XXYXY
Y
XY
)5(
)4(
0
0
2
)3(
n
)(
)
(
Y
)2(
XY)1(
21
21
2
2221
21
三,?2 的估计真实方差?的估计量:
2
22
n
u i?
2
2
222222 )(?)?(?
i
ii
iiiiiii x
yxyxyYYu?
四,OLS估计的精度或标准误差由于 OLS估计是根据一个样本得到的,需要检验估计量的可靠性
( reliability)或精密度。在统计学中,一个估计量的精密度由它的标准误
( standard error,se)来衡量。
2
22
2
2
2222
2
2
2
2
222
)?()?(
)?(
,)(,)(0)(
][
)]?(?[)?(
i
i
ji
ii
x
V A Rse
x
kukV A R
uEjiuuE
ukE
EEV A R
iii
i
标准误:
方差:
:对于 2
2
2
1
2
2
22
2
2
2
1
1
221
221
)
(
)
1
(
])[()
(
)(
1
1
i
ii
xn
X
V A R
xn
X
x
X
n
ukX
n
u
EV A R
ukX
n
u
XuX
n
XY
n
XY
i
i
ii
i
ii
i
ii
i
标准误:
方差:
:对于 1
五,OLS 统计量的性质:高斯 -马尔柯夫定理在 CLRM假定下,在所有线性无偏估计量中,OLS估计量有最小方差,
即 OLS是 BLUE( Best Linear Unbiased Estimator)。
iiii
i
ii
i
ii
ii
i
i
i
i
i
i
iii
i
i
i
ii
YkX
n
YkX
n
Y
YkXYXY
x
x
xk
x
x
x
k
x
x
k
x
x
k
YkY
x
x
x
Yx
i
ii
)
1
(
1
1
11
0
1
)(
21
2
2
2
2
2
2
2
2
2
222
其中
( 1)线性:
21 和为 Yi的线性函数
11
1
121
21
222
2
21
212
)
(
)()(
)()
(
)(
E
ukXu
XukuX
XY
uEkE
uk
ukXkk
uXkYk
iii
iiii
ii
ii
iiiii
iiiii
( 2)无偏性:
21 和为
21,
的无偏估计量。
( 3)最小方差性:
OLS估计量最小。和 )?()?( 21 V ARV AR
在所有线性无偏估计量中,具有最小方差。即可以证明 OLS估计量具有最小方差。
21 和第三节 拟合优度检验拟合优度检验是指对样本回归线与样本观测值之间拟合程度的检验。
度量拟合程度的指标是判定系数 R2 。
基本思路:因变量 Y的变异,能够被 X的变异解释的比例越大,则 OLS
回归线对总体的解释程度就越好。
Xi X
PRF
SRF
Y
(来自回归)RS SYY )?(
)? R S Su i来自残差(
T S SYY i )(总离差:
iY
iY?
总平方和( TSS):实测的 Y值围绕其均值的总变异,
22 )( YYy ii
Y
222
22
22
22
2
)(
2 ii
ii
iiii
iii
ux
uy
uyuy
uyyT S S
222? ixE S S?
2? iuR S S
R S SE S ST S S
2
2
2
2
)()(
)?(1
YY
u
YY
YY
T S S
R S S
T S S
E S S
i
i
i
i
定义判定系数 R2:
2
2
2
)(
)?(
YY
YY
T S S
E S SR
i
i
估计的 Y值围绕其均值的总变异未被解释的围绕回归线的 Y值的变异
2
2
2
)(
1:
YY
uR S SR
i
i或
R2 测度了在 Y的总变异中,由回归模型解释的部分所占的比例。 R2 越高,回归模型拟合的程度就越好。
R2 的性质,( 1)非负。( 2) 0≤R2 ≤1
其它表达方式:
2
2
2
2
2
i
i
y
xR?
22
2
2 )(
ii
ii
yx
yxR
22222 )1( iii yRyRy
判定系数与相关系数的关系:
相关系数:表示两个随机变量之间的相关程度。定义为:
YX
XY
XY
22
22
1
)(
1
)(
1
))((
ii
yx
yx
n
YY
n
XX
n
YYXX
SS
S
r
ii
ii
ii
YX
XY
XY
以样本方差和样本协方差估计 X,Y的方差和协方差,样本相关系数为:
样本相关系数的平方与判定系数相等,但二者的意义不同。
第四节 区间估计为了判断点估计与真值的接近程度,可以通过构造以估计值为中心的一个区间(随机的),以该区间包括了真值的概率来确定估计值接近真值的把握程度:
1)P r ( 222
上限分别为置信下限和置信))称为显著水平,((
)称为置信系数称为置信区间
22
22
,?;10
1;]?,?[
一,的置信区间
2
也服从正态分布。,服从正态分布,则假定 21iu
))?(,(~? 2
2
222
i
xV A RN
u
)1,0(~
/
)?(
2
22
2
22 N
xSe
i?
由于?未知,以其估计值代替,
)2(~)?(
/?
2
22
2
22
nTsext i?
-t?/2 t?/2o
/2?/2
1)]?()?(?P r [ 22/2222/2 setset
下,置信区间为在显著水平
22 /?)?( ixse
给定置信系数 100( 1-?) %,随机的置信区间将有 100( 1-?) %包含真值?2。
)?(?
11 0 0?
12/1
1
set?
)置信区间为(的二,的置信区间
1
三,的置信区间
的置信区间为:
分布。的服从
(
在正态假定下,变量
2
2
2
2
2
2
)2
df
n
2
2/1
2
2
2/
2?
)2,?)2
nn ((
第五节 OLS估计量的显著性检验根据样本回归得到的总体参数的估计量,随着选取样本的不同观测值而不同;给定样本观测值时,得到的参数也与总体参数的真值不同。因此,
必须对估计的参数值是否显著成立,做统计检验,即显著性检验。
一,的显著性检验
2
)2(~)?(
/?
2
22
2
22
nTsext i?
原假设 H0,?2 = 0
备择假设 H1,?2? 0
)(||
||
)2
)?(
102/
102/
2
2
显著,接受拒绝
,拒绝接受若分布表(下,查在显著水平计算统计量
HHtt
HHtt
ndft
se
t
-t?/2 t?/2o
/2?/2
02
)?(
,220%5
20
2
2
2/
:,即可拒绝若大于统计量因此,时,下,当在显著水平
H
se
t
tdf
102/
102/
2
*
22
(
)2
)?(
HHtt
HHtt
ndft
se
t
,接受拒绝显著),拒绝接受若分布表(下,查在显著水平计算统计量
原假设 H0,?2 =?2*
备择假设 H1,?22*对于:
如果有理由认为?2不能小于零(不能大于零),则在
。:时,拒绝 0)?(?|| 20
2
2
Htset
。:,即可拒绝若大于统计量因此,时,下,当在显著水平
073.1
)?(
,73.120%5
20
2
2
H
se
t
tdf
2倍 t法则二,的显著性检验
`1
原假设 H0,?1 = 0
备择假设 H1,?1? 0
)(||
||
)2
)?(
102/
102/
1
1
显著,接受拒绝
,拒绝接受若分布表(下,查在显著水平计算统计量
HHtt
HHtt
ndft
se
t
三、回归方程的的显著性检验,F 检验从方差分析( analysis of variance,ANOVA)的角度,检验回归方程的显著性。
根据总离查平方和的分解式,TSS = ESS + RSS,
2222222 iiiii uxuyy?
总离差( TSS)的自由度为 (n-1),回归平方和( ESS)的自由度为 1,残差平方和( RSS)的自由度为( n-2)。
定义均方差 = 平方和 / 自由度,方差分析表( ANOVA / AOV表 )为:
离差名称 平方和 自由度 均方差
ESS 1
RSS n-2
TSS n-1
2
2
2n u i
2222? ii xy?
2iu
2iy
222 ix?
双变量回归模型 ANOVA表样本决定系数 R2 能够说明样本的拟和优度。但是我们还需要对总体做出推断,检验总体的线性是否成立。
思路:若 ESS / RSS 比较大,则 X对 Y的解释程度就比较高,可以推测总体存在线性。但是 ESS / RSS 样本不同而不同,对于给定的样本,利用 ESS / RSS 对总体进行推断,必须进行统计检验。
原假设 H0,?2 = 0
备择假设 H1,?2? 0
若 H0成立,说明回归方程无显著意义,总体不存在线性;若拒绝 H0,
则可认为回归方程显著成立,总体存在线性。因此,定义统计量
)2,1(~
2
2
22
2?
nF
n
u
x
F
i
i
)(||
||
)2,1
102/
102/
21
显著,接受拒绝
,拒绝接受若分布表(下,查在显著水平
HHsFF
HHFF
ndfdfF
第六节 利用回归方程预测根据经济理论建立线性回归模型,并利用统计资料对模型参数进行了估计,建立了回归方程。经过显著性检验,判定回归方程能正确反映经济现象时,一个重要目标就是利用回归方程进行预测。
一、均值预测
ii XY 21
假定得到回归方程:
的置信区间。以建立为了评估估计误差,可
。的估计量(为
)|(
))|(?
0
00
XYE
B L U EXYEY
0210 XY
已知 X的一个特定值 X0,要预测 Y0的条件均值(总体回归线上的对应 Y值)
E(Y|X0),
])(1[)?( 2
2
02
0?
ix
XX
nYV A R?
2
2
0
2/0
02/021
00
0
000
22
)(1
)
()
(
)|(
)2(~
)
(
))|(
i
x
XX
n
tY
YsetX
XYE
nt
Yse
XYEY
t
或
):的置信区间(显著水平建立
,变量:代替以显然,当 X0越接近 X 的均值,区间就变得越狭窄。
2
2
02
2
2
022
0000
)(1
1
]
)(1
[
)?()()?(
i
i
x
XX
n
x
XX
n
YV A RYV A RYYV A R
而二、个值预测预测给定 X的值 X0,对应的 Y0,仍为 BLUE)。
0210 XY
2
2
0
2/0
00
00
00
)(1
1
|
)2(~
)?(
i
x
XX
n
tY
XY
nt
YYse
YY
t
的置信区间:下的建立显著水平建立统计量:
小结:双变量线性回归分析的主要步骤
1、建立回归模型研究某一经济现象,先根据经济理论,选择具有因果关系的两个变量
( Y,X),建立线性回归模型,确定解释变量和被解释变量。 如果不明确两个变量是否为线性关系,也可以根据散点图来分析。
建立回归模型可以是根据经济理论,也可以根据相同或相似经济现象的历史分析经验来建立回归模型。
建立模型时,不仅要考虑理论或经验的依据,同时也要考虑数据的可利用程度。
2、收集数据,并经过适当的加工整理,得到适于回归分析的样本数据集。
3、估计模型参数。利用样本数据,以 OLS得到模型参数的估计值。
4、对回归模型和参数估计值进行检验。
检验回归结果是否正确反映经济现象,是否与理论相符。包括理论检验和统计检验。
经济理论检验:参数的符号,大小是否与理论和实际相符。若不符,
寻找原因(数据?模型设定?理论错误?)
统计检验:拟和优度检验,估计量、回归方程的显著性检验。
5、预测对于解释变量的特定值,带入回归方程得到因变量的预测值;在给定的置信水平上,得到因变量预测值的置信区间。
6、回归结果的表述:
FR
se
t
se
t
XY
FR
sese
XY
2
2
2
1
1
21
2
21
21
)
(
)
(
)
()
(
或:
并说明参数的显著水平(?)。
以回归分析为工具的实证分析文章的结构一、研究的来源和基础对研究的经济现象的描述;研究该现象的意义;相同或相似的代表性研究的方法、结论,并作总结评价;本研究的出发点;文章的结构介绍。
二、理论分析选择合适的经济理论,利用理论对要研究的经济想象做定性分析,得到大致的结果;建立理论模型。
三、建立回归模型根据理论模型,建立合理、可分析的回归模型。回归模型的形式、解释变量的个数和选择,不一定与数理模型完全相同。
四、对所使用的数据做出说明数据的来源;数据加工的原因和处理方式;替代数据的说明等。
五、回归结果及对结果的分析列出回归的结果(包括参数的估计值和统计检验结果);结合理论分析回归结果六、结论 /总结 /应用
X(收入)
Y(支出)
80 100 120 140 160 180 200 220 240 260
55 65 79 80 102 110 120 135 137 150
60 70 84 93 107 115 136 137 145 152
65 74 90 95 110 120 140 140 155 175
70 80 94 103 116 130 144 152 165 178
75 85 98 108 118 135 145 157 175 180
- 88 - 113 125 140 - 160 189 185
- - - 115 - - - 162 - 191
户数 5 6 5 7 6 6 5 7 6 5
既定收入下,每户支出为表中数额的概率
1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/5
第三章 多变量回归分析第一节 多变量线性回归模型一,多变量线性回归模型的 PRF
如果假定对因变量 Y 有 k-1个解释变量,X2,X3,…,Xk,k 变量总体回归函数为:
kiuXXXYPRF ikikiii,,2,1,,33221其中?
1为常数项,?2 ~?2 为解释变量 X2 ~ Xk 的系数,u为随机干扰项。
总体回归函数 PRF给出的是给定解释变量 X2 ~ Xk 的值时,Y的期望值:
E ( Y | X2,X3,…,Xk )。
假定有 n组观测值,则可写成矩阵形式:
nnkn
k
k
nnn u
u
u
X
X
X
X
X
X
X
X
X
Y
Y
Y
2
1
2
1
2
1
3
32
31
2
22
21
2
1
1
1
1
uX βY或:
为随机扰动项列向量为待估计参数列向量为数据矩阵。
为因变量观测值列向量
u
β
X
Y
中,在 uX βY
二、多 变量线性回归模型的基本假定
0u?E、1
随机干扰项的期望值为 0。
I
u u '
2
2
2
2
2
2
21
2
2
212
121
2
1
21
2
1
000
000
000
000
2
nnn
n
n
n
n
uuuuu
uuuuu
uuuuu
uuu
u
u
u
E
、
同方差性;无序列相关。
为非随机的,X3
),(~5 2 I0u?N、
kr?)(,X4
无多重共线性,即 Xi (i = 2,3,…,k ) 之间不存在线性关系:
成立。
使:数:不存在不全为零的一组
0,
,,,
2211
21
kikii
k
XXX
随机干扰项服从正态分布。
三、多 变量线性回归模型的 SRF
列向量。估计量的列向量和残差分别为回归系数的和其中或
O LS
uXXXYS R F ikikiii
uβ
uβXY
,33221
根据残差的平方和最小化的原理,解出参数的估计量。
第二节 多变量回归模型的 OLS估计
ikikiii uXXXYS R F,33221
一、参数估计
YXβYYβXXβYXβYY
βXYβXYuu
βXYuuβXY
uu
''?'?''?''?2'
)?()'?('
'?
)(?R S S
2
2
221
2
i
i
uR S S
XXYu
kikii
残差平方和可得到如下正规方程组:
ikikikikikiki
iikiikiiii
iikiikiikii
ikiki
YXXXXXXX
YXXXXXXX
YXXXXXXX
YXXn
ki
2
3221
33
2
3223231
2232
2
2221
221
YX'XX'β
YX'βXX'
1
3
2
1
321
3333231
2232221
3
2
1
2
32
3
2
23
3
232
2
2
2
32
)(
)(
1111
3
即:
写成矩阵形式:
n
knkkk
n
n
k
ikiiki
ki
kiiii
i
kiiii
i
i
kiii
Y
Y
Y
Y
XXXX
XXXX
XXXX
XXXXXX
XXXXXX
XXXXXX
XXXn
ki
i
YXXXβ
0βXXYX
β
βXXβYXβYY
')'(?
'2'2
''?''?2'?
1
2
2
i
i
u
u
如果直接用矩阵微分,则二,的估计量?
。的无偏估计量:为
]?[?
'
2
E
knkn
u
i uu
三,的方差 -协方差矩阵β?
uXXXββ
uXXXβ
uXXXX βXXX
uX βXXXyXXXβ
')'(?
')'(
')'(')'(
)(')'(')'(?
1
1
11
11
1
12
112
121
11
11
11
)'(
)'(
)'(')'(
)'(')'(
)'(]'[')'(
])'('')'[(
}]'')'[(]')'{ [ (
])'
)(
[()
(
XX
XX
XXXXXX
XXXIXXX
XXXuuXXX
XXXuuXXX
uXXXuXXX
βββββ
标准差为
)(
E
E
E
EC o vV a r
''?)?(?
'?)?(
112
12
)()(为的标准差
)(的估计量为:
XXXXββ
XXβ
Se
C o vV a r
,则代替未知,以如果 222
四,OLS估计量 的性质:β?
最小。具有估计量
、最小方差性
、无偏性
)(
、线性
)?(?
3
]?[
2
]''[?
1
1
ββ
ββ
YXXXβ
V a rO L S
E?
第三节 拟合优度检验:
一、判定系数 R2:
2
222 2)(
Yn
YnYYYYYyTS S iii
i
YY'
总平方和:
22
2
''?''?'
''?'?'
YnYn
E S STS SE S S
uR S S
i
YXβyXβYYYY'
YXβYYuu
回归平方和:
残差平方和:
平方和 df 均方差
ESS k-1
RSS n-k
TSS n-1
方差分析表( ANOVA)
22 '' Ynu
i YXβ
YXβYY' ''?)( 2 YY i
22)( YYY' nYY i
)1/()''?( kYXβYY'
)/()''?( 2 knYnYXβ
二、校正的 R2,
由 R2的计算式可看出,R2 随解释变量的增加而可能提高(不可能降低):
2
2
2
2
2
11
''?
i
i
y
u
T S S
R S S
Yn
Yn
T S S
E S S
R
YY'
yXβ
与解释变量 X的个数无关,而 则可能随着解释变量的增加而减少(至少不会下降),因而,不同的 SRF,得到的 R2 就可能不同。
必须消除这种因素,使 R2 即能说明被解释的离差与总离差之间的关系,
又能说明自由度的数目。定义校正的样本决定系数,
2iy? 2?iu
2R
)?(
1
1
)1(1
)1/(
)/(
1
2
22
YSe
kn
n
R
nTS S
knE S S
R
2
22 ''?
Yn
Yn
TS S
E S SR
YY'
yXβ判定系数:
三,R2 与 的性质2R
2222
22
,
10,10
RRkRR
RR
时,当第四节 显著性检验一、单参数的显著性检验:
0:
0:
1
0
i
i
H
H
备择假设原假设如果接受 H0,则变量 Xi 对因变量没有影响,而接受 H1,则说明变量 Xi 对因变量有显著影响。
)(~
)?(
))'(,(~?),0(~ 122
knt
Se
t
NN
i
ii
,则统计量代替以
,因此根据假定,XXIu
检验 的显著性,即在一定显著水平下,是否显著不为 0。
i i
检验步骤:
0,,
0,
)(
)(
4
)(3
)
(
2
05.0)1(
10
0
2
2
2
不显著异于参数接受则拒绝显著异于参数则接受
,
,
若
)判断:(
。分布表,找出)查(
)计算统计量:(
。,如选择显著水平
i
i
i
i
HH
H
kntt
kntt
kntt
Se
t
如果根据理论或常识,非负,则可做单侧检验,比较 t 与 tα。i?
二、回归的总显著性检验:
检验回归系数全部为零的可能性。
不同时为零备择假设原假设
),,2,1(:
0:
1
210
kiH
H
i
k
0,,
0,
)(
)(
10
0
显著异于参数接受则拒绝不显著异于参数则接受
,
,若
i
i
HH
H
kntt
kntt
平方和 df 均方差
ESS k-1
RSS n-k
TSS n-1
方差分析表( ANOVA)
22 '' Ynu
i YXβ
YXβYY' ''?)( 2 YY i
22)( YYY' nYY i
)1/()''?( kYXβYY'
)/()''?( 2 knYnYXβ
),1(~
)/()''?'(
)1/()''?(
)/(
)1/(
0
2
21
knkF
kn
kYn
knR S S
kE S SF
k
YXβYY
YXβ
,则统计量如果假定,
)/()1(
)1/(
,
)/(
)1/(
2
2
2
knR
kR
F
R S SE S STS S
knR S S
kE S S
F
TS S
E S S
R
可得到
,根据显然,R2 越大,F越大,当 R2 =1时,F
无限大。
显著接受则拒绝不显著则接受
,
,若
,,
,
),1(
),1(
10
0
HH
H
knkFF
knkFF
选择显著水平 α,计算 F统计量的值,与 F分布表中的临界值进行比较:
第五节 解释变量的选择在回归模型中的解释变量,除非由明确的理论指导或其他原因,在选择上具有一定的主观性,如何正确选择解释变量是非常重要的。
一、解释变量的边际贡献分析在建立回归模型时,假定我们顺序引入变量。在建立了 Y与 X2的回归模型,并进行回归分析后,再加入 X2。考虑加入的变量 X2是否有贡献:
能否再加入后显著提高回归的解释程度 ESS或决定系数 R2。 ESS提高的量称为变量 X2的边际贡献。
决定一个变量是否引入回归模型,就要先研究它的边际贡献,以正确地建立模型。如果变量的边际贡献较小,说明改变量没有必要加入模型。
分析变量的编辑贡献,可以使用方差分析表为工具,根据变量引入前、
后的 RSS的变化量及其显著性检验(扣除原来引入模型的解释变量的贡献),确定该变量的边际贡献是否显著。
一个简单的检验方法,就是对引入新变量后的 RSS增量与新的 ESS的比值做显著性检验。
可以利用方差分析表来进行分析。
设 ESS为引入变量前的回归平方和,ESS’为引入 m个新变量后,得到的回归平方和,RSS’为引入变量后的残差平方和。
ANOVA表如下:
平方和 自由度 均方差引入变量前的 ESS U1 k-1 U1/(k-1)
引入变量后的 ESS U2 k+m-1 U2/(k+m-1)
添加变量的边际贡献 (U2-U1) m (U2-U1)/m
添加变量后的 RSS Q n-(k+m) Q/( n-k-m)
TSS n-1
并检验其显著性。
定义统计量:
)/('
/)'(
mknR S S
mE S SE S S
F
显著则新增变量的边际贡献不显著则新增变量的边际贡献
,
,若
),(
),(
mknmFF
mknmFF
在新引入变量的系数为 0的原假设下,
),(~)/(' /)'( mknmFmknR S S mE S SE S SF统计量把计算出的该统计量的值与 α 显著水平下的临界值进行比较:
引入的新变量的边际贡献显著,则应该把这些变量纳入回归模型,否则这些变量不应引入回归模型做解释变量。
二、逐步回归法如果根据理论,因变量 Y与 k-1个变量 X2,X2,…,Xk 有因果关系,我们要建立的回归模型要在这些变量中选择正确的解释变量,要根据变量的边际贡献大小,把贡献大的变量纳入回归模型。分析边际贡献并选择变量的过程,实际上是一个逐步回归的过程。
首先,分别建立 Y与 k-1个变量 X2,X2,…,Xk 的回归模型:
ikii
iii
iii
uXY
uXY
uXaY
21
321
22
回归后,
得到各回归方程的平方和 )()()(
)()()(
)()()(
333
222
kkk XR S SXE S SXT S S
XR S SXE S SXT S S
XR S SXE S SXT S S
选择其中 ESS最大并通过 F检验的变量作为首选解释变量,假定是 X2 。
此时可确定一个基本的回归方程:
在此基础上进行第二次回归,在剩下的变量中寻找最佳的变量:
建立 k – 2 个回归方程:
ii uXY 221
iiii
iiii
iiii
uXXY
uXXY
uXXaY
43221
43221
3322
回归后,得到各回归方程的平方和:
),(),(),(
),(),(),(
),(),(),(
222
424242
323232
kkk XXR S SXXE S SXXT S S
XXR S SXXE S SXXT S S
XXR S SXXE S SXXT S S
同样,选择其中 ESS最大并通过 F检验的变量作为新增解释变量,假定是 X3 。此时可确定一个基本的回归方程:
ii uXXY 33221
重复这一过程,直到所有变量中,边际贡献显著的变量全部引入回归模型中为止,得到最终的回归式:
imimiii uXXXaY3322
也可以采用逐步减少边际贡献不显著的变量的方式,逐步回归确定回归模型包括的变量,方法一样。
第六节 利用多元回归模型进行预测对于多元回归模型:
uX βY
通过回归分析,得到回归方程
βXY
后,就可根据给定的解释变量的一组值 X0 =(1,X20,X30,…,Xk0),对因变量 Y的值进行估计。
n
kXXX
1 2
1
0302000
βXY
一、个值预测为 Y0及 的预测值。)|(
00 XYE
二、区间预测
]')'(?
,')'(?
[)|(
)|(
)](
),(
[
)(~
)(
')'(1?)(
])')'(1[,0(~
]')'(1[
')'(')
(
)()
(]
[)(
)(
1
2/0
1
2/00
0
02/002/00
0
0
00
1
0
0
22
12
0
12
1222
000
0
0000
00000
0
00
00
00
0000
000
00
00
XXXXXXXXX
X
XXXX
XXXX
XXXX
XXXXXβX
βXβXβX
βXβX
βXβX
tYtYYE
YE
eSetYeSetYY
Y
knt
eSe
YY
t
eSe
e
Ne
V a r
uV a rV a ruV a reV a r
u
uYYe
的置信区间为:同理,可得到均值的置信区间为:,预测值给定显著水平统计量的标准差:,则可得到代替若以预测误差
1、计量经济学( Econometrics)
利用数学和统计推断为工具,在经济理论指导下对经济现象进行分析,并对经济理论进行检验和发展的一门学科。
其内容涉及经济理论、数理经济、经济统计和数理统计等。
2、计量经济学与经济理论经济理论:定性计量经济学:数值估计,检验
3、计量经济学与数理经济学数理经济学:以数学形式表述经济理论,不涉及理论的可度量性和经验方面的可论证性。
计量经济学:利用数理经济学的数学方程式,并把之改造成适合于经验检验的形式。
4、计量经济学与经济统计学经济统计:经济数据的收集、加工,不利用数据来检验经济理论。
计量经济学:以经济统计数据为原始资料进行分析。
5、计量经济学与数理统计数理统计:是计量经济学的基本工具,但由于经济数据的特殊性,
力量经济学需要特殊的处理方法。
二、计量经济学的方法基本过程:
①经济理论
②理论的数学模型
③理论的计量经济学模型
④数据的收集整理
⑤计量经济模型的参数估计
⑥假设检验
⑦预报和预测
⑧控制或政策制定例,检验凯恩斯关于边际消费倾向理论,或利用该理论进行经济控制或经济政策制定。
① 理论人们的消费支出随收入的增加而增加,但消费支出的增加小于收入的增加。即边际消费倾向 MPC大于零而小于 1。(定性)
②建立数学模型假定消费支出 Y与收入 X之间有如下关系:
10, XbXaY
其中,Y为消费支出,X为收入,a和 b为模型参数。 B就是 MPC。
这里 Y为因变量,X为自变量 /解释变量。假定两者之间存在先行关系。
(在不同情况下,数学模型的形式不一样,也可能是多个方程连立,
有多个解释变量)
③ 建立计量经济学模型由于经济变量之间的关系不是确定的(以函数形式准确表达),必须修改数理模型,建立计量模型:
u为误差项,代表了影响变量间非确定关系的其他因素的影响。
这是一个线性回归模型。
ubXaY
O X
Y
斜率为 b
数理模型
O X
Y
斜率为 b
计量模型
a a
④ 数据的收集整理如果 1980分析一国的消费情况,要收集该国的总消费支出数据和总收入数据。
年份 Y X 年份 Y X
1980 2447 3776 1986 2969 4405
1981 2477 3843 1987 3052 4540
1982 2504 3760 1988 3162 4719
1983 2619 3907 1989 3223 4838
1984 2746 4149 1990 3260 4878
1985 2866 4280 1991 3240 4821
(选择、加工)
美国 1980-1991年个人消费支出与 GDP(10亿美元,1987年不变价格 )
⑤ 计量经济模型的参数估计采用回归技术,利用统计数据估计出参数 a和 b的经验值。
根据估计结果,美国 1980-1991年的 MPC约为 0.72。
⑥假设检验以一定的标准,对参数的估计结果进行检验。如果在统计意义上,
b小于 1,说明结果是可接受的。
XY 7 1 9 4.08.231
⑦ 预报和预测如果计量模型可以接受,就可用来对因变量进行预测。假定 1994年,
美国的 GDP预计为 6万亿美元,则该年的消费支出预计为
4 0 8 5
6 0 0 07 1 9 4.08.2 3 1
Y
⑧ 控制或政策制定如果希望 1994年的消费支出达到 4万亿美元,则政府必须通过政策来保证收入水平为:
5 8 8 27 1 9 4.0 8.2314 0 0 0X
三、计量经济学的内容可分为理论和应用两大类。
理论计量经济学:研究适当的方法,来测度有计量经济模型设定的经济关系式。
应用计量经济学:以理论计量经济学为工具,研究经济学或商业中的各领域。
四、计量经济学的应用软件包有很多种。常用的有,TSP,SPSS,SAS等。
第一章 回归分析一、回归分析分析因变量与解释变量之间的统计依赖关系,目的在于通过后者的已知或设定值去估计或预测前者的均值。
假定一个国家的所有家庭的收入( X)和消费支出( Y)统计如下,希望知道家庭消费支出与家庭收入之间的关系,Y=F( X)。
X
Y 80 100 120 140 160 180 200 220 240 260
55 65 79 80 102 110 120 135 137 150
60 70 84 93 107 115 136 137 145 152
65 74 90 95 110 120 140 140 155 175
70 80 94 103 116 130 144 152 165 178
75 85 98 108 118 135 145 157 175 180
- 88 - 113 125 140 - 160 189 185
- - - 115 - - - 162 - 191
户数 5 6 5 7 6 6 5 7 6 5
总支出 325 462 445 707 678 750 685 1043 966 1211
Y
X
55
100 120140 16080
根据每个家庭的收入和支出绘出散点图,大致可看出二者间的关系:在统计意义上,
二者成正比。
由对全体居民的收入和支出的调查结果,我们知道处于不同收入阶层的居民有一个平均的支出水平,这一支出水平与收入大致呈线性关系。
图中的这条通过各收入阶层平均支出额的直线,描述了这一依赖关系。我们把这条线称为回归线。
二、统计关系与确定关系在回归分析中,得到因变量与自变量之间的依赖关系是统计依赖关系,
而不是确定关系或函数关系。
三、回归与因果关系回归分析得到的变量间的统计依赖关系,统计关系式自身不代表任何确定的因果关系。
四、计量经济分析使用的数据有三类。
( 1)时间序列数据。一个时间序列是对一个变量在不同时间取的一组观测结果。这些数据可以按固定的时间间隔收集。
收集的数据可以是定量的,也可以是定性的(虚拟变量)。
中国 1993年 —1998年的 GDP增长率 ( %)
1993 1994 1995 1996 1997 1998
14.2 13.5 10.5 9.6 8.8 7.8
( 2)横截面数据。一个或多个变量在同一时点上收集的数据。
1992年实际 GDP增长
( 3)混合数据。
国家和地区实际 GDP增长率
1992年 1993年 1994年 1995年 1996年 1997年 1998年加拿大 0.9 2.5 3.9 2.2 1.2 4.0 3.1
智利 12.3 7.0 5.7 10.6 7.4 7.1 3.4
墨西哥 3.6 2.0 4.4 -6.2 5.2 7.0 4.8
秘鲁 -1.7 6.4 13.1 7.4 2.5 6.9 0.3
美国 2.7 2.3 3.5 2.0 2.8 3.9 3.9
中国 14.2 13.5 12.6 10.5 9.6 8.8 7.8
香港 6.3 6.1 5.4 3.9 4.6 5.3 -5.1
日本 1.0 0.3 0.6 1.5 3.9 1.4 -2.8
国家 /地区加拿大 智利 墨西哥 秘鲁 美国 中国 香港 日本
GDP 0.9 12.3 3.6 -1.7 2.7 14.2 6.3 1
第二章 双变量回归分析第一节 经典正态线性回归模型( CNLRM)
一、基本概念以下表为例。
X
Y 80 100 120 140 160 180 200 220 240 260
55 65 79 80 102 110 120 135 137 150
60 70 84 93 107 115 136 137 145 152
65 74 90 95 110 120 140 140 155 175
70 80 94 103 116 130 144 152 165 178
75 85 98 108 118 135 145 157 175 180
- 88 - 113 125 140 - 160 189 185
- - - 115 - - - 162 - 191
户数 5 6 5 7 6 6 5 7 6 5
总支出 325 462 445 707 678 750 685 1043 966 1211
1、几个概念条件分布( Conditional distribution):以 X取定值为条件的 Y的条件分布条件概率( Conditional probability):给定 X的 Y的概率,记为 P(Y|X)。
例如,P(Y=55|X=80)=1/5; P( Y=150|X=260) =1/7。 (表 )
条件期望( conditional Expectation):给定 X的 Y的期望值,记为 E(Y|X)。
例如,E(Y|X=80)=55× 1/5+ 60× 1/5+ 65× 1/5+ 70× 1/5+ 75× 1/5= 65
总体回归曲线( Popular Regression Curve)(总体回归曲线的几何意义):
当解释变量给定值时因变量的条件期望值的轨迹。
2、总体回归函数( Popular Regression Function,PRF
E(Y|Xi)=f(Xi)
当 PRF的函数形式为线性函数,则有,
E(Y|Xi)=?1+?2Xi
其中?1和?2为未知而固定的参数,称为回归系数。1和?2也分别称为截距和斜率系数。
上述方程也称为线性总体回归函数。
3、“线性”的含义
“线性”可作两种解释:对变量为线性,对参数为线性。一般“线性回归”一词总是指对参数?为线性的一种回归(即参数只以它的 1次方出现)。
4,PRF的随机设定将个别的 Yi围绕其期望值的离差 (Deviation)表述如下:
ui=Yi-E(Y|Xi)
或
Yi=E(Y|Xi)+ui
其中 ui为随机误差项( Stochastic error)或随机干扰项( Stochastic
disturbance)。线性总体回归函数:
PRF,Yi=?1+?2Xi+ui=E(Y|Xi)+ui
5、随机干扰项的意义随机扰动项是从模型中省略下来的而又集体地影响着 Y的全部变量的替代物。显然的问题是:为什么不把这些变量明显地引进到模型中来,
而以随即扰动项来替代?理由是多方面的:
( 1)理论的含糊性:理论不能完全说明影响因变量的所有影响因素。
( 2)数据的欠缺:无法获得有关数据。
( 3)核心变量与周边变量:希望能找到与有较大影响的核心变量的关系。
( 4)内在随机性:因变量具有内在的随机性。
( 5)替代变量:用来代替不可观测变量的替代变量选择,造成一定误差。
( 6)省略原则:研究中尽可能使回归式简单。
( 7)错误的函数形式:回归式的的选择是主观的。
6、样本回归函数( SRF)
由于在大多数情况下,我们只知道变量值得一个样本,要用样本信息的基础上估计 PRF。 (表 )
X(收入) 80 100 120 140 160 180 200 220 240 260
Y(支出) 55 65 79 80 102 110 120 135 137 150
样本 1
X(收入) 80 100 120 140 160 180 200 220 240 260
Y(支出) 70 80 94 103 116 130 144 152 165 178
样本 2
iii uXY 21
样本回归函数 SRF:
的估计量为的估计量为的估计量为其中
12211,
,X i )|E ( YY?,
在回归分析中,我们用 SRF估计 PRF。
估计量( Estimator):一个估计量又称统计量 (statistic),是指一个规则、公式或方法,以用来根据已知的样本所提供的信息去估计总体参数。
在应用中,由估计量算出的数值称为估计(值)( estimate)。
样本回归函数 SRF的随机形式为:
iiii uYuX Y 21i
其中 表示(样本)残差项( residual)。
iu?
Xi X
PRF:E(Y|Xi)=?1+?2Xi
SRF:
Y
E(Y|Xi)
ii XY 21
iu?
iu
iY
iY?
SRF是 PRF的近似估计。
为了使二者更为接近,即要使
2211, 尽可能接近尽可能接近二、经典线性回归模型( CLRM)的基本假定假定 1:回归模型对参数是线性的假定 2:在重复抽样中 X的值是固定的(非随机)
假定 3:干扰项的均值为零。即,E(ui|Xi)=0
假定 4:同方差性或 ui的方差相等。即
Var(ui|Xi)=E[ui-E(ui)|Xi]2
=E(ui2|Xi]2 =?2
假定 5:各个干扰项无自相关。即
Cov(ui,uj|Xi,Xj)=E[ui-E(ui|Xi) ][uj-E(uj|Xj)]
=E(ui|Xi)(uj|Xj) = 0
假定 6,ui和 Xi的协方差为零。即
Cov(ui,Xi) = E[ui – E(ui)][Xi – E(Xi)]
= E[ui (Xi – E(Xi))]
=E(ui Xi) – E(ui)E(Xi)
= E(ui Xi) = 0
假定 7:观测次数必须大于待估计的参数个数。
假定 8:解释变量 X的只要有变异性。即一个样本中,Xi不能完全相同。
假定 9:模型没有设定误差。
假定 10:没有完全的多重共线性,即解释变量之间没有完全的线性关系。
第二节 双变量回归模型:估计一、普通最小二乘法( Ordinary Least Squares,OLS)
基本思路:用样本回归函数估计总体回归函数。以
iii uXYS R F 21,
iii uXYP R F 21,
估计
iiiii uYuXY 21
)( 21 iiiii XYYYu残差估计出的参数
21 和使残差的平方和最小。
2
21
22
21
)()?(?:m in
:,
iiiii XYYYu
要求和即寻找时,真实值
ii
ii
ii
i
XnY
XnY
XY
u
21
21
21
1
2
0)(2
)(2
)?(
2
21
2
21
2
21
21
2
2
0(2
)((2
))((2
)?(
iiii
iiii
iiii
iii
i
XXXY
XXXY
XXXY
XXY
u
求解这一最小化问题,根据最大化的一阶条件:
可得到以下正规方程( Normal equation),
2
21
21
iiii
ii
XXXY
XnY
二、参数的估计(点估计),OLS估计量
1、解上述正规方程组得到估计值:
222 )(
))((?
i
ii
i
ii
x
yx
XX
YYXX?
XY 2?1
)为离差。()和(
的均值,、分别为和其中
YYyXXx
YXYX
iiii
,
解出 21 和,可得到估计值。
21 和 称为最小二乘估计量( OLS估计)。
2,OLS样本回归线的性质:
不相关。与不相关。与
)(
:由方差最小的一阶条件的均值为零。残差
,可得两边求和,并同除的均值:的均值等于实测的的样本均值。和通过
ii
ii
iii
ii
i
i
iii
Xu
Yu
XYu
XY
u
YY
XXY
XXYXY
Y
XY
)5(
)4(
0
0
2
)3(
n
)(
)
(
Y
)2(
XY)1(
21
21
2
2221
21
三,?2 的估计真实方差?的估计量:
2
22
n
u i?
2
2
222222 )(?)?(?
i
ii
iiiiiii x
yxyxyYYu?
四,OLS估计的精度或标准误差由于 OLS估计是根据一个样本得到的,需要检验估计量的可靠性
( reliability)或精密度。在统计学中,一个估计量的精密度由它的标准误
( standard error,se)来衡量。
2
22
2
2
2222
2
2
2
2
222
)?()?(
)?(
,)(,)(0)(
][
)]?(?[)?(
i
i
ji
ii
x
V A Rse
x
kukV A R
uEjiuuE
ukE
EEV A R
iii
i
标准误:
方差:
:对于 2
2
2
1
2
2
22
2
2
2
1
1
221
221
)
(
)
1
(
])[()
(
)(
1
1
i
ii
xn
X
V A R
xn
X
x
X
n
ukX
n
u
EV A R
ukX
n
u
XuX
n
XY
n
XY
i
i
ii
i
ii
i
ii
i
标准误:
方差:
:对于 1
五,OLS 统计量的性质:高斯 -马尔柯夫定理在 CLRM假定下,在所有线性无偏估计量中,OLS估计量有最小方差,
即 OLS是 BLUE( Best Linear Unbiased Estimator)。
iiii
i
ii
i
ii
ii
i
i
i
i
i
i
iii
i
i
i
ii
YkX
n
YkX
n
Y
YkXYXY
x
x
xk
x
x
x
k
x
x
k
x
x
k
YkY
x
x
x
Yx
i
ii
)
1
(
1
1
11
0
1
)(
21
2
2
2
2
2
2
2
2
2
222
其中
( 1)线性:
21 和为 Yi的线性函数
11
1
121
21
222
2
21
212
)
(
)()(
)()
(
)(
E
ukXu
XukuX
XY
uEkE
uk
ukXkk
uXkYk
iii
iiii
ii
ii
iiiii
iiiii
( 2)无偏性:
21 和为
21,
的无偏估计量。
( 3)最小方差性:
OLS估计量最小。和 )?()?( 21 V ARV AR
在所有线性无偏估计量中,具有最小方差。即可以证明 OLS估计量具有最小方差。
21 和第三节 拟合优度检验拟合优度检验是指对样本回归线与样本观测值之间拟合程度的检验。
度量拟合程度的指标是判定系数 R2 。
基本思路:因变量 Y的变异,能够被 X的变异解释的比例越大,则 OLS
回归线对总体的解释程度就越好。
Xi X
PRF
SRF
Y
(来自回归)RS SYY )?(
)? R S Su i来自残差(
T S SYY i )(总离差:
iY
iY?
总平方和( TSS):实测的 Y值围绕其均值的总变异,
22 )( YYy ii
Y
222
22
22
22
2
)(
2 ii
ii
iiii
iii
ux
uy
uyuy
uyyT S S
222? ixE S S?
2? iuR S S
R S SE S ST S S
2
2
2
2
)()(
)?(1
YY
u
YY
YY
T S S
R S S
T S S
E S S
i
i
i
i
定义判定系数 R2:
2
2
2
)(
)?(
YY
YY
T S S
E S SR
i
i
估计的 Y值围绕其均值的总变异未被解释的围绕回归线的 Y值的变异
2
2
2
)(
1:
YY
uR S SR
i
i或
R2 测度了在 Y的总变异中,由回归模型解释的部分所占的比例。 R2 越高,回归模型拟合的程度就越好。
R2 的性质,( 1)非负。( 2) 0≤R2 ≤1
其它表达方式:
2
2
2
2
2
i
i
y
xR?
22
2
2 )(
ii
ii
yx
yxR
22222 )1( iii yRyRy
判定系数与相关系数的关系:
相关系数:表示两个随机变量之间的相关程度。定义为:
YX
XY
XY
22
22
1
)(
1
)(
1
))((
ii
yx
yx
n
YY
n
XX
n
YYXX
SS
S
r
ii
ii
ii
YX
XY
XY
以样本方差和样本协方差估计 X,Y的方差和协方差,样本相关系数为:
样本相关系数的平方与判定系数相等,但二者的意义不同。
第四节 区间估计为了判断点估计与真值的接近程度,可以通过构造以估计值为中心的一个区间(随机的),以该区间包括了真值的概率来确定估计值接近真值的把握程度:
1)P r ( 222
上限分别为置信下限和置信))称为显著水平,((
)称为置信系数称为置信区间
22
22
,?;10
1;]?,?[
一,的置信区间
2
也服从正态分布。,服从正态分布,则假定 21iu
))?(,(~? 2
2
222
i
xV A RN
u
)1,0(~
/
)?(
2
22
2
22 N
xSe
i?
由于?未知,以其估计值代替,
)2(~)?(
/?
2
22
2
22
nTsext i?
-t?/2 t?/2o
/2?/2
1)]?()?(?P r [ 22/2222/2 setset
下,置信区间为在显著水平
22 /?)?( ixse
给定置信系数 100( 1-?) %,随机的置信区间将有 100( 1-?) %包含真值?2。
)?(?
11 0 0?
12/1
1
set?
)置信区间为(的二,的置信区间
1
三,的置信区间
的置信区间为:
分布。的服从
(
在正态假定下,变量
2
2
2
2
2
2
)2
df
n
2
2/1
2
2
2/
2?
)2,?)2
nn ((
第五节 OLS估计量的显著性检验根据样本回归得到的总体参数的估计量,随着选取样本的不同观测值而不同;给定样本观测值时,得到的参数也与总体参数的真值不同。因此,
必须对估计的参数值是否显著成立,做统计检验,即显著性检验。
一,的显著性检验
2
)2(~)?(
/?
2
22
2
22
nTsext i?
原假设 H0,?2 = 0
备择假设 H1,?2? 0
)(||
||
)2
)?(
102/
102/
2
2
显著,接受拒绝
,拒绝接受若分布表(下,查在显著水平计算统计量
HHtt
HHtt
ndft
se
t
-t?/2 t?/2o
/2?/2
02
)?(
,220%5
20
2
2
2/
:,即可拒绝若大于统计量因此,时,下,当在显著水平
H
se
t
tdf
102/
102/
2
*
22
(
)2
)?(
HHtt
HHtt
ndft
se
t
,接受拒绝显著),拒绝接受若分布表(下,查在显著水平计算统计量
原假设 H0,?2 =?2*
备择假设 H1,?22*对于:
如果有理由认为?2不能小于零(不能大于零),则在
。:时,拒绝 0)?(?|| 20
2
2
Htset
。:,即可拒绝若大于统计量因此,时,下,当在显著水平
073.1
)?(
,73.120%5
20
2
2
H
se
t
tdf
2倍 t法则二,的显著性检验
`1
原假设 H0,?1 = 0
备择假设 H1,?1? 0
)(||
||
)2
)?(
102/
102/
1
1
显著,接受拒绝
,拒绝接受若分布表(下,查在显著水平计算统计量
HHtt
HHtt
ndft
se
t
三、回归方程的的显著性检验,F 检验从方差分析( analysis of variance,ANOVA)的角度,检验回归方程的显著性。
根据总离查平方和的分解式,TSS = ESS + RSS,
2222222 iiiii uxuyy?
总离差( TSS)的自由度为 (n-1),回归平方和( ESS)的自由度为 1,残差平方和( RSS)的自由度为( n-2)。
定义均方差 = 平方和 / 自由度,方差分析表( ANOVA / AOV表 )为:
离差名称 平方和 自由度 均方差
ESS 1
RSS n-2
TSS n-1
2
2
2n u i
2222? ii xy?
2iu
2iy
222 ix?
双变量回归模型 ANOVA表样本决定系数 R2 能够说明样本的拟和优度。但是我们还需要对总体做出推断,检验总体的线性是否成立。
思路:若 ESS / RSS 比较大,则 X对 Y的解释程度就比较高,可以推测总体存在线性。但是 ESS / RSS 样本不同而不同,对于给定的样本,利用 ESS / RSS 对总体进行推断,必须进行统计检验。
原假设 H0,?2 = 0
备择假设 H1,?2? 0
若 H0成立,说明回归方程无显著意义,总体不存在线性;若拒绝 H0,
则可认为回归方程显著成立,总体存在线性。因此,定义统计量
)2,1(~
2
2
22
2?
nF
n
u
x
F
i
i
)(||
||
)2,1
102/
102/
21
显著,接受拒绝
,拒绝接受若分布表(下,查在显著水平
HHsFF
HHFF
ndfdfF
第六节 利用回归方程预测根据经济理论建立线性回归模型,并利用统计资料对模型参数进行了估计,建立了回归方程。经过显著性检验,判定回归方程能正确反映经济现象时,一个重要目标就是利用回归方程进行预测。
一、均值预测
ii XY 21
假定得到回归方程:
的置信区间。以建立为了评估估计误差,可
。的估计量(为
)|(
))|(?
0
00
XYE
B L U EXYEY
0210 XY
已知 X的一个特定值 X0,要预测 Y0的条件均值(总体回归线上的对应 Y值)
E(Y|X0),
])(1[)?( 2
2
02
0?
ix
XX
nYV A R?
2
2
0
2/0
02/021
00
0
000
22
)(1
)
()
(
)|(
)2(~
)
(
))|(
i
x
XX
n
tY
YsetX
XYE
nt
Yse
XYEY
t
或
):的置信区间(显著水平建立
,变量:代替以显然,当 X0越接近 X 的均值,区间就变得越狭窄。
2
2
02
2
2
022
0000
)(1
1
]
)(1
[
)?()()?(
i
i
x
XX
n
x
XX
n
YV A RYV A RYYV A R
而二、个值预测预测给定 X的值 X0,对应的 Y0,仍为 BLUE)。
0210 XY
2
2
0
2/0
00
00
00
)(1
1
|
)2(~
)?(
i
x
XX
n
tY
XY
nt
YYse
YY
t
的置信区间:下的建立显著水平建立统计量:
小结:双变量线性回归分析的主要步骤
1、建立回归模型研究某一经济现象,先根据经济理论,选择具有因果关系的两个变量
( Y,X),建立线性回归模型,确定解释变量和被解释变量。 如果不明确两个变量是否为线性关系,也可以根据散点图来分析。
建立回归模型可以是根据经济理论,也可以根据相同或相似经济现象的历史分析经验来建立回归模型。
建立模型时,不仅要考虑理论或经验的依据,同时也要考虑数据的可利用程度。
2、收集数据,并经过适当的加工整理,得到适于回归分析的样本数据集。
3、估计模型参数。利用样本数据,以 OLS得到模型参数的估计值。
4、对回归模型和参数估计值进行检验。
检验回归结果是否正确反映经济现象,是否与理论相符。包括理论检验和统计检验。
经济理论检验:参数的符号,大小是否与理论和实际相符。若不符,
寻找原因(数据?模型设定?理论错误?)
统计检验:拟和优度检验,估计量、回归方程的显著性检验。
5、预测对于解释变量的特定值,带入回归方程得到因变量的预测值;在给定的置信水平上,得到因变量预测值的置信区间。
6、回归结果的表述:
FR
se
t
se
t
XY
FR
sese
XY
2
2
2
1
1
21
2
21
21
)
(
)
(
)
()
(
或:
并说明参数的显著水平(?)。
以回归分析为工具的实证分析文章的结构一、研究的来源和基础对研究的经济现象的描述;研究该现象的意义;相同或相似的代表性研究的方法、结论,并作总结评价;本研究的出发点;文章的结构介绍。
二、理论分析选择合适的经济理论,利用理论对要研究的经济想象做定性分析,得到大致的结果;建立理论模型。
三、建立回归模型根据理论模型,建立合理、可分析的回归模型。回归模型的形式、解释变量的个数和选择,不一定与数理模型完全相同。
四、对所使用的数据做出说明数据的来源;数据加工的原因和处理方式;替代数据的说明等。
五、回归结果及对结果的分析列出回归的结果(包括参数的估计值和统计检验结果);结合理论分析回归结果六、结论 /总结 /应用
X(收入)
Y(支出)
80 100 120 140 160 180 200 220 240 260
55 65 79 80 102 110 120 135 137 150
60 70 84 93 107 115 136 137 145 152
65 74 90 95 110 120 140 140 155 175
70 80 94 103 116 130 144 152 165 178
75 85 98 108 118 135 145 157 175 180
- 88 - 113 125 140 - 160 189 185
- - - 115 - - - 162 - 191
户数 5 6 5 7 6 6 5 7 6 5
既定收入下,每户支出为表中数额的概率
1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/5
第三章 多变量回归分析第一节 多变量线性回归模型一,多变量线性回归模型的 PRF
如果假定对因变量 Y 有 k-1个解释变量,X2,X3,…,Xk,k 变量总体回归函数为:
kiuXXXYPRF ikikiii,,2,1,,33221其中?
1为常数项,?2 ~?2 为解释变量 X2 ~ Xk 的系数,u为随机干扰项。
总体回归函数 PRF给出的是给定解释变量 X2 ~ Xk 的值时,Y的期望值:
E ( Y | X2,X3,…,Xk )。
假定有 n组观测值,则可写成矩阵形式:
nnkn
k
k
nnn u
u
u
X
X
X
X
X
X
X
X
X
Y
Y
Y
2
1
2
1
2
1
3
32
31
2
22
21
2
1
1
1
1
uX βY或:
为随机扰动项列向量为待估计参数列向量为数据矩阵。
为因变量观测值列向量
u
β
X
Y
中,在 uX βY
二、多 变量线性回归模型的基本假定
0u?E、1
随机干扰项的期望值为 0。
I
u u '
2
2
2
2
2
2
21
2
2
212
121
2
1
21
2
1
000
000
000
000
2
nnn
n
n
n
n
uuuuu
uuuuu
uuuuu
uuu
u
u
u
E
、
同方差性;无序列相关。
为非随机的,X3
),(~5 2 I0u?N、
kr?)(,X4
无多重共线性,即 Xi (i = 2,3,…,k ) 之间不存在线性关系:
成立。
使:数:不存在不全为零的一组
0,
,,,
2211
21
kikii
k
XXX
随机干扰项服从正态分布。
三、多 变量线性回归模型的 SRF
列向量。估计量的列向量和残差分别为回归系数的和其中或
O LS
uXXXYS R F ikikiii
uβ
uβXY
,33221
根据残差的平方和最小化的原理,解出参数的估计量。
第二节 多变量回归模型的 OLS估计
ikikiii uXXXYS R F,33221
一、参数估计
YXβYYβXXβYXβYY
βXYβXYuu
βXYuuβXY
uu
''?'?''?''?2'
)?()'?('
'?
)(?R S S
2
2
221
2
i
i
uR S S
XXYu
kikii
残差平方和可得到如下正规方程组:
ikikikikikiki
iikiikiiii
iikiikiikii
ikiki
YXXXXXXX
YXXXXXXX
YXXXXXXX
YXXn
ki
2
3221
33
2
3223231
2232
2
2221
221
YX'XX'β
YX'βXX'
1
3
2
1
321
3333231
2232221
3
2
1
2
32
3
2
23
3
232
2
2
2
32
)(
)(
1111
3
即:
写成矩阵形式:
n
knkkk
n
n
k
ikiiki
ki
kiiii
i
kiiii
i
i
kiii
Y
Y
Y
Y
XXXX
XXXX
XXXX
XXXXXX
XXXXXX
XXXXXX
XXXn
ki
i
YXXXβ
0βXXYX
β
βXXβYXβYY
')'(?
'2'2
''?''?2'?
1
2
2
i
i
u
u
如果直接用矩阵微分,则二,的估计量?
。的无偏估计量:为
]?[?
'
2
E
knkn
u
i uu
三,的方差 -协方差矩阵β?
uXXXββ
uXXXβ
uXXXX βXXX
uX βXXXyXXXβ
')'(?
')'(
')'(')'(
)(')'(')'(?
1
1
11
11
1
12
112
121
11
11
11
)'(
)'(
)'(')'(
)'(')'(
)'(]'[')'(
])'('')'[(
}]'')'[(]')'{ [ (
])'
)(
[()
(
XX
XX
XXXXXX
XXXIXXX
XXXuuXXX
XXXuuXXX
uXXXuXXX
βββββ
标准差为
)(
E
E
E
EC o vV a r
''?)?(?
'?)?(
112
12
)()(为的标准差
)(的估计量为:
XXXXββ
XXβ
Se
C o vV a r
,则代替未知,以如果 222
四,OLS估计量 的性质:β?
最小。具有估计量
、最小方差性
、无偏性
)(
、线性
)?(?
3
]?[
2
]''[?
1
1
ββ
ββ
YXXXβ
V a rO L S
E?
第三节 拟合优度检验:
一、判定系数 R2:
2
222 2)(
Yn
YnYYYYYyTS S iii
i
YY'
总平方和:
22
2
''?''?'
''?'?'
YnYn
E S STS SE S S
uR S S
i
YXβyXβYYYY'
YXβYYuu
回归平方和:
残差平方和:
平方和 df 均方差
ESS k-1
RSS n-k
TSS n-1
方差分析表( ANOVA)
22 '' Ynu
i YXβ
YXβYY' ''?)( 2 YY i
22)( YYY' nYY i
)1/()''?( kYXβYY'
)/()''?( 2 knYnYXβ
二、校正的 R2,
由 R2的计算式可看出,R2 随解释变量的增加而可能提高(不可能降低):
2
2
2
2
2
11
''?
i
i
y
u
T S S
R S S
Yn
Yn
T S S
E S S
R
YY'
yXβ
与解释变量 X的个数无关,而 则可能随着解释变量的增加而减少(至少不会下降),因而,不同的 SRF,得到的 R2 就可能不同。
必须消除这种因素,使 R2 即能说明被解释的离差与总离差之间的关系,
又能说明自由度的数目。定义校正的样本决定系数,
2iy? 2?iu
2R
)?(
1
1
)1(1
)1/(
)/(
1
2
22
YSe
kn
n
R
nTS S
knE S S
R
2
22 ''?
Yn
Yn
TS S
E S SR
YY'
yXβ判定系数:
三,R2 与 的性质2R
2222
22
,
10,10
RRkRR
RR
时,当第四节 显著性检验一、单参数的显著性检验:
0:
0:
1
0
i
i
H
H
备择假设原假设如果接受 H0,则变量 Xi 对因变量没有影响,而接受 H1,则说明变量 Xi 对因变量有显著影响。
)(~
)?(
))'(,(~?),0(~ 122
knt
Se
t
NN
i
ii
,则统计量代替以
,因此根据假定,XXIu
检验 的显著性,即在一定显著水平下,是否显著不为 0。
i i
检验步骤:
0,,
0,
)(
)(
4
)(3
)
(
2
05.0)1(
10
0
2
2
2
不显著异于参数接受则拒绝显著异于参数则接受
,
,
若
)判断:(
。分布表,找出)查(
)计算统计量:(
。,如选择显著水平
i
i
i
i
HH
H
kntt
kntt
kntt
Se
t
如果根据理论或常识,非负,则可做单侧检验,比较 t 与 tα。i?
二、回归的总显著性检验:
检验回归系数全部为零的可能性。
不同时为零备择假设原假设
),,2,1(:
0:
1
210
kiH
H
i
k
0,,
0,
)(
)(
10
0
显著异于参数接受则拒绝不显著异于参数则接受
,
,若
i
i
HH
H
kntt
kntt
平方和 df 均方差
ESS k-1
RSS n-k
TSS n-1
方差分析表( ANOVA)
22 '' Ynu
i YXβ
YXβYY' ''?)( 2 YY i
22)( YYY' nYY i
)1/()''?( kYXβYY'
)/()''?( 2 knYnYXβ
),1(~
)/()''?'(
)1/()''?(
)/(
)1/(
0
2
21
knkF
kn
kYn
knR S S
kE S SF
k
YXβYY
YXβ
,则统计量如果假定,
)/()1(
)1/(
,
)/(
)1/(
2
2
2
knR
kR
F
R S SE S STS S
knR S S
kE S S
F
TS S
E S S
R
可得到
,根据显然,R2 越大,F越大,当 R2 =1时,F
无限大。
显著接受则拒绝不显著则接受
,
,若
,,
,
),1(
),1(
10
0
HH
H
knkFF
knkFF
选择显著水平 α,计算 F统计量的值,与 F分布表中的临界值进行比较:
第五节 解释变量的选择在回归模型中的解释变量,除非由明确的理论指导或其他原因,在选择上具有一定的主观性,如何正确选择解释变量是非常重要的。
一、解释变量的边际贡献分析在建立回归模型时,假定我们顺序引入变量。在建立了 Y与 X2的回归模型,并进行回归分析后,再加入 X2。考虑加入的变量 X2是否有贡献:
能否再加入后显著提高回归的解释程度 ESS或决定系数 R2。 ESS提高的量称为变量 X2的边际贡献。
决定一个变量是否引入回归模型,就要先研究它的边际贡献,以正确地建立模型。如果变量的边际贡献较小,说明改变量没有必要加入模型。
分析变量的编辑贡献,可以使用方差分析表为工具,根据变量引入前、
后的 RSS的变化量及其显著性检验(扣除原来引入模型的解释变量的贡献),确定该变量的边际贡献是否显著。
一个简单的检验方法,就是对引入新变量后的 RSS增量与新的 ESS的比值做显著性检验。
可以利用方差分析表来进行分析。
设 ESS为引入变量前的回归平方和,ESS’为引入 m个新变量后,得到的回归平方和,RSS’为引入变量后的残差平方和。
ANOVA表如下:
平方和 自由度 均方差引入变量前的 ESS U1 k-1 U1/(k-1)
引入变量后的 ESS U2 k+m-1 U2/(k+m-1)
添加变量的边际贡献 (U2-U1) m (U2-U1)/m
添加变量后的 RSS Q n-(k+m) Q/( n-k-m)
TSS n-1
并检验其显著性。
定义统计量:
)/('
/)'(
mknR S S
mE S SE S S
F
显著则新增变量的边际贡献不显著则新增变量的边际贡献
,
,若
),(
),(
mknmFF
mknmFF
在新引入变量的系数为 0的原假设下,
),(~)/(' /)'( mknmFmknR S S mE S SE S SF统计量把计算出的该统计量的值与 α 显著水平下的临界值进行比较:
引入的新变量的边际贡献显著,则应该把这些变量纳入回归模型,否则这些变量不应引入回归模型做解释变量。
二、逐步回归法如果根据理论,因变量 Y与 k-1个变量 X2,X2,…,Xk 有因果关系,我们要建立的回归模型要在这些变量中选择正确的解释变量,要根据变量的边际贡献大小,把贡献大的变量纳入回归模型。分析边际贡献并选择变量的过程,实际上是一个逐步回归的过程。
首先,分别建立 Y与 k-1个变量 X2,X2,…,Xk 的回归模型:
ikii
iii
iii
uXY
uXY
uXaY
21
321
22
回归后,
得到各回归方程的平方和 )()()(
)()()(
)()()(
333
222
kkk XR S SXE S SXT S S
XR S SXE S SXT S S
XR S SXE S SXT S S
选择其中 ESS最大并通过 F检验的变量作为首选解释变量,假定是 X2 。
此时可确定一个基本的回归方程:
在此基础上进行第二次回归,在剩下的变量中寻找最佳的变量:
建立 k – 2 个回归方程:
ii uXY 221
iiii
iiii
iiii
uXXY
uXXY
uXXaY
43221
43221
3322
回归后,得到各回归方程的平方和:
),(),(),(
),(),(),(
),(),(),(
222
424242
323232
kkk XXR S SXXE S SXXT S S
XXR S SXXE S SXXT S S
XXR S SXXE S SXXT S S
同样,选择其中 ESS最大并通过 F检验的变量作为新增解释变量,假定是 X3 。此时可确定一个基本的回归方程:
ii uXXY 33221
重复这一过程,直到所有变量中,边际贡献显著的变量全部引入回归模型中为止,得到最终的回归式:
imimiii uXXXaY3322
也可以采用逐步减少边际贡献不显著的变量的方式,逐步回归确定回归模型包括的变量,方法一样。
第六节 利用多元回归模型进行预测对于多元回归模型:
uX βY
通过回归分析,得到回归方程
βXY
后,就可根据给定的解释变量的一组值 X0 =(1,X20,X30,…,Xk0),对因变量 Y的值进行估计。
n
kXXX
1 2
1
0302000
βXY
一、个值预测为 Y0及 的预测值。)|(
00 XYE
二、区间预测
]')'(?
,')'(?
[)|(
)|(
)](
),(
[
)(~
)(
')'(1?)(
])')'(1[,0(~
]')'(1[
')'(')
(
)()
(]
[)(
)(
1
2/0
1
2/00
0
02/002/00
0
0
00
1
0
0
22
12
0
12
1222
000
0
0000
00000
0
00
00
00
0000
000
00
00
XXXXXXXXX
X
XXXX
XXXX
XXXX
XXXXXβX
βXβXβX
βXβX
βXβX
tYtYYE
YE
eSetYeSetYY
Y
knt
eSe
YY
t
eSe
e
Ne
V a r
uV a rV a ruV a reV a r
u
uYYe
的置信区间为:同理,可得到均值的置信区间为:,预测值给定显著水平统计量的标准差:,则可得到代替若以预测误差