内容回顾
——线性回归模型和一元线性回归
模型
1.计量模型中设置随机误差项的原因
( 1) 在解释变量中被忽略的因素的影响 ——模型
中被省略了的解释变量包含在随机扰动项 ?中。。
? ( 2) 变量观测值的观测误差的影响 ——在收集和
整理加工数据时,测量误差致使观察值不等于实
际值,汇总也存在误差。
? ( 3) 模型关系的设定造成的误差的影响 ——由于
认识不足或者简化。例如将非线性设定成线性模
型。
? ( 4) 其它随机因素的影响 ——客观现象的随机性。
由于经济活动是人类参与的,因此不可能像科学
实验那样精确。此外还有社会环境和自然环境的
随机性。
2.一元线性回归模型的一般形式
?
? (2.2.1)
? 被解释变量 y (dependent variable),
? 解释变量 x ( independent variable)
? 随机误差项 ?( disturbance term or
stochastic error )
? 参数 ?0, ?1
? 斜率 ?1 ( slope parameter )
? 截距 ?0 ( intercept parameter)
? 样本观测值的下标 i
? 样本容量 n
)( ni,,2,1xy 10 ????? iii ???
一元线性回归模型一般形式
的说明
? 由于总体的信息往往无法掌握,现实的情况只能是在一次
观测中得到总体的一组样本,计量经济研究是利用样本数
据进行对被解释变量与解释变量之间数量关系说明的。
? (xi,yi) 表示一对具体的样本观测值,抽取样本后它们的值
就确定了。
? 共 n 组样本观测值(样本数据) (x1,y1),(x2,y2) ……..,
(xn,yn) i=1,2,……,n
? ?i 表示对应于每对 (xi,,yi)的随机误差,它是随机变量,是
未知的。
? ?0 和 ?1是反映研究总体中变量间真实数量关系的的,由于
总体的未知性,所以它们是未知的,但是为确定的常数。
)( ni,,2,1xy 10 ????? iii ???
对下标的一点说明:
? 作为一种惯例,观测值的下标 i将用于 截面
数据 (在一个时间点上收集的数据);
? 而下标 t将用于 时间序列数据 (对一个时期
收集的数据) 。
3、一元线性回归模型的参数含义说明
一元线性回归模型
的参数含义说明
? 斜率 ?1 —度量了 x每变动 1个单位,平均而言,
y的变动( y的平均改变量 )
? 截距 ?0—度量了在 x = 0是,平均而言, y的
取值
)( ni,,2,1xy 10 ????? iii ???
4.一元线性回归模型的基本假设
( 1) 解释变量 x是确定性变量, 不是随机变

( 2) 随机误差项具有0均值和同方差,
E(?i)=0 i=1,2,…,n
Var (?i)=??2 i=1,2,…,n
( 3)随机误差项在不同样本点之间是独立的,
不存在序列相关:
Cov(?i,?j)=0 i≠j i,j= 1,2,…,n
( 5) 随机误差项服从正态分布
即随机误差项服从0均值、同方差的正态分布:
?i~N(0,??2 ) i=1,2,…,n
( 4)随机误差项与解释变量之间不相关:
Cov(xi,?i)=0 i=1,2,…,n
协方差的定义式
? ? ? ?? ?? ?)E()E(,c o v yyxx ??? Eyx
相关系数与协方差之间的联系:
(两个变量之间的)相关系数=(它们的)协方差
/(这两个)变量(各自)标准差的乘积
即,相关系数=协方差/变量标准差的乘积
? 对于总体而言,总体相关系数的计算公式

yxyx ??
? ),c o v (
)V a r ()V a r (
),c o v (
,
yxyx
yx
??
总体协方差
1.样本回归线
如果 样本散点图近似于一条直线,画一条直线 使其尽可
能好地拟合该散点图,由于样本取自总体,可认为该线近似地
代表总体变量 y与 x间的关系 。该线称为 样本回归线 ( sample
regression line),其函数形式记为:
500
700
900
1100
1300
1500
1700
0 500 1000 1500 2000 2500 3000
X
Y
iii xxfy 10 ??)(? ?? ??? ( 2.2.2)
称为 样本回归函数 (方程)( sample regression function ) SRF。
(” ?, 读作“帽”,有, ?“的变量表示它是一个估计量(估
计值))
i?? 为 i? 的估计值 )1,0(?i
的估计值是在具体样本下,ii yy?
iii xxfy 10
??)(? ?? ???
在样本回归函数中
? 在具体样本下,
? ei称为 残差( residual )它是实际的样本观测值
yi与估计值 之差,
? ei代表了其他影响 yi的随机因素的集合体,ei共
有 n个。
? 由于样本只是总体的一部分,从而样本回归线或
者说样本回归函数仅仅是近似描述了总体变量关

xyyy iiii 10 ??? ?? ?????e i
iy?
2,进行一元线性回归 模型参数估计的主要目

寻找一种好方法求样本回归函数,使得它
对总体的近似是一种尽可能“接近”的近
似。或者说构造样本回归函数,使 和 尽
可能接近真实的 ?1和 ?0
1?? 0??
3.普通最小 二 乘法
? 好方法之一就是普通最小二乘法
? 采用拟合样本趋势的方法,寻找一条尽可能好地
拟合所有样本点的样本回归线
我们希望做到的 ——寻找一条尽可能好地拟
合所有样本点的样本回归线
? 以残差作为突破口
? 在给定样本下,
? 求样本回归线 的问题
? 转换为
? 在给定样本下,找到使残差平方和最小的直线
ii xy 10 ??? ?? ??
):(注 xyyy iiii 10 ??1 ? ?? ?????e i
ii xy 10 ??? ?? ??
y
x




? ?yx iiA,
? ?yx iiB ?,
A为实际点,B为拟
合直线上与之对应
的点
图示说明
xyyy iiii 10 ??? ?? ?????ei纵向距离
我们希望做到的 ——寻找一条尽可能好地拟
合所有样本点的样本回归线
给定一组样本观测值 xi,yi( i=1,2,… n), 残差平
方和是 和 的函数。选择不同的 和 将给出
不同的残差平方和
? 于是在给定样本下,
? 求样本回归线 的问题
? 最终转换为
? 即在给定样本下找到使得残差平方和最小的参数
估计值
ii xy 10 ??? ?? ??
1?? 0?? 0??1??
2
10
2 ??2)?(? ?? ????? )( xyyy
iiii ??e i
4、参数估计的离差形式 (deviation form)
? 记
xxx ii -?? yy ii -?y?
)(

7.2.2
?-?
?
10
21
?
?
?
?
?
?
?
?
xy
x
yx
i
ii
??
?
?
??
?? ixx n1 ?? iyy n1
则( 2.2.6)的参数估计量可以写成:
由于 0??, 1?? 的估计结果是从最小二乘原理得到的,故称为
普通最小二乘估计量 (OLS estimators)
5,OLS估计量的性质
在模型满足基本假设的条件下, 普通最小二乘估
计量具有线性性, 无偏性, 最小方差性等优良性质 。
具有这些优良性质的估计量又称为 最佳线性无偏
估计量, 即 BLUE 估计量 ( the Best Linear
Unbiased Estimators) 。
普通最小二乘估计量具有 BLUE性质, 是 BLUE估
计量 。 这就是为什么最小二乘法在计量中被广泛应
用的原因 。
显然这些优良的性质依赖于对模型的基本假设 。
所有估计量集合 所有线性估计量集合
所有无偏估计量集合










BLUE集合
? 多元线性回归模型的一般形式为:
y为被解释变量; ?为随机误差项; i表示第 i个样本观测
值; n为样本容量; ?0,?1,?2,…, ?k为 参数 ( 式中共 k+1个 )
ikikiii xxxy ????? ??…???? 22110 i=1,2,…,n
(2.3.1)
其中,k 为 解释变量 的数目; x1,x2, …, xk 为解释变量
? 多元线性回归模型的式子中
? y,?,?都只有一个下标,yi表示第 i个观测值,?i
对应于第 i 组观测值的第 i个随机误差项。
? x涉及到两个下标。
? 若样本容量为 n,则每一个变量都有 n个样本观测
值。用 xji表示第 j个解释变量的第 i个观测值,在下
标中把表示第几个变量的数字放在前面,把表示第
几个观测值的数字放在了后面。 (与一元的不同点 )
? ? 的下标表示与它相乘的是第几个解释变量,例如 ?
k 对应 xk
多元线性回归模型一般形式
? 在多元中,我们同样是利用样本数据进行对被解
释变量与解释变量之间数量关系说明的。
? (yi,x1i,x2i,…, xki) 表示一组具体的样本观
测值,抽取样本后它们的值就确定了。
? 共 n 组样本观测值(样本数据)
? ?i 表示对应于每组 (yi,x1i,x2i,…, xki) 的随
机误差项,它是随机变量,是未知的。
ikikiii xxxy ????? ??…???? 22110 i=1,2,…, n
? 2.参数含义
? 式中共 k+1个 未知参数 ?0,?1,?2,…, ?k
? 参数仍然是对被解释变量 平均变化 程度的度量。
? 其中 ?0是截距,它表示了当所有解释变量 xj
( j=1,2,…, k) 均为 0时,被解释变量 y的平均
取值。
? ?1,?2,…, ?k 称为 偏斜率系数 或 偏回归系数
( partial regression coefficients) 。(与一
元的不同点)
? ?j ( j=1,2,…, k) 度量了在 其它 解释变量 保持
不变的条件下,第 j个解释变量 xj变化一个单位将
引起被解释变量 平均变化 多少个单位。
ikikiii xxxy ????? ??…???? 22110 i=1,2,…, n
2、多元线性回归模型的基本假定
模型 (2.3.1)或 (2.3.2)在满足下述所列的 基本假设
的情况下,可以采用 普通最小二乘法 ( OLS)估计参
数。 关于多元线性回归模型的基本假设
标量符号
1、解释变量 kxxx,,,21 ? 是非随机的或固定的;而且各 x 之
间互不相关 ( 无多重共线性 (no multicollinearity))
矩阵符号
1,)1( ?* kn 矩阵 X 是非随机的;且 X 的秩 1)( ?? kX?,此时
XX T 也是满秩的
标量符号
2、随机误差项具有零均值、同方差及不序列相关
0)( ?iE ? ni,,2,1 ??
22 )()( ??? ??
ii EVar ni,,2,1 ??
0)(),( ?? jiji ECov ???? ji ?
矩阵符号
2,INNENE T 2)(,0)( ???
0
)(
)(
)(
11
?
÷
÷
÷
?
?
?
?
?
?
?
?
÷
÷
÷
?
?
?
?
?
?
?
?
nn E
E
ENE
?
?
?
?
MM
? ?
÷
÷
÷
?
?
?
?
?
?
?
÷
÷
÷
?
?
?
?
?
?
?
? n
n
T ENNE ??
?
?
?M 1
1
)(
÷
÷
÷
?
?
?
?
?
?
?
?
2
1
1
2
1
nn
n
E
???
???
?
MOM
? I2
2
2
0
0
?
?
?
?
÷
÷
÷
?
?
?
?
?
?
?
?
?
MOM
?
标量符号
3,解释变量与随机项不相关
0),( ?ijixCov ? n j=1,2,…,ki,,2,1 ??
矩阵符号
3,0)( ?NXE T,即
0
)(
)(
)(
11 ?
÷÷
÷
÷
÷
?
?
??
?
?
?
?
?
?
÷÷
÷
÷
÷
?
?
??
?
?
?
?
?
?
?
?
?
?
?
iKi
ii
i
iKi
ii
i
EX
EX
E
X
XE
?
?
?
?
?
?
MM
标量符号
4,( 为了假设检验),随机扰动项服从正态分布
),0(~ 2?? Ni ni,,2,1 ??
矩阵符号
4、向量 N 为一多维正态分布,即
),0(~ 2 INN ?
多元线性回归模型的基本假设
是为了保证能够使用 OLS法估计
模型中的参数以及所得参数具
有优良性质
拟合优度总结
? 拟合优度检验 ——检验模型( 样本回归函数) 对
样本观测值 趋势的吻合程度( 拟合程度)
? 检验通过可决系数或调整的可决系数完成
总体平方和、残差平方和和回归平方和
? 定义
? TSS为总体平方和 ( Total Sum of Squares), 数值上表
现为被解释变量 y的所有 样本观测值的离差平方和,它的
大小 度量 y自身的差异程度(变动程度);
? ESS为回归平方和 ( Explained Sum of Squares), 数值
上表现为被解释变量的 所有 估计值(拟合值) 的 离差
平方和,它的大小 度量被解释变量 y的估计值(拟合值)
自身的差异程度; y?
TSS y y
E S S y y
R S S y y
i
i
i i
? ?
? ?
? ?
?
?
?
( )
( ? )
( ? )
2
2
2
y?
? 定义
? RSS为残差平方和 ( Residual Sum of Squares),
数值上表现为 残差的平方和,它的大小 度量实际值 y
与拟合值 之间的差异程度 。
TSS y y
E S S y y
R S S y y
i
i
i i
? ?
? ?
? ?
?
?
?
( )
( ? )
( ? )
2
2
2
y?
TSS=ESS+RSS
被解释变量 y总的变动 = 解释变量 x引起的变动 +除 x以
外的因素引起的变动
? 由恒等式看出,
? 如果由 x引起的被解释变量的变动在 y的总
变动中占很大比例,即 ESS在 TSS中占很
大比例,那么 x很好地解释了 y的变动,即
样本回归线很好的解释了 y的变动,从而,
样本回归线很好的拟合了所有样本观测点 。
r E SSTSS R SSTSS2 1? ? ?
? 多元线性回归模型
? 调整的可决系数 R2
? 可决系数给出了所有解释
变量 x1,x2,… xk 一起对
被解释变量变动的解释程

R
S
S
r
t
2 1? ?
一元线性回归模型
可决系数
可决系数给出了 单个 解
释变量 x对被解释变量
变动的解释程度
总自由度
残差自由度
T S S
T S S
1
1
R S S
R S S
1
1
?
?
?
?
??
?
n
S
kn
S
t
r
拟合优度检验统计量,可决系数 r2
? 构造一个直观判断拟合优劣的指标 ——可决系数。
? 可决系数=回归平方和/总体平方和
? 意义:可决系数给出了 单个 解释变量对被解释变量变动的解释
程度(比例)。
? 可决系数越大,解释变量对被解释变量的解释程度越高,
样本观测点在样本回归直线附近越密集,拟合越好。
T S S
SS
T S S
SSE
T S S
ES S
T S S
RS S
ES SRS ST S S
r
2 R
???
?????
1
1
? 多元中拟合优度的度量指标 —— 调整的可决系数 R2
R SS r
t
2 1? ?
总自由度
残差自由度
T S S
T S S
1
1
R S S
R S S
1
1
?
?
?
?
??
?
n
S
kn
S
t
r
其中, n-k-1称为残差平方和的自由度; n-1称为总体平方和的自由

n为样本容量; k为偏回归系数的个数
关于拟合优度的两点说明
1,在实际应用中,拟合优度达到多大才算模型通过
了拟合优度检验,没有绝对的标准,要看具体问
题而定。
2,模型的拟合优度 不是判断模型质量的唯一标准,
只是可供参考的一个条件。有时为了追求模型的
经济意义,是可以牺牲一点拟合优度的。
? 切记要避免仅根据 拟合优度 的值的高低来选择模
型。 而应将模型的经济理论基础、预期的参数符
号、参数估计量的统计显著性等因素作为选择模
型的基本准则。
? 当然在其它条件基本相似的情况下,拟合优度越
高越好。
? 假设检验又称为显著性检验,是统计推断
的一个主要内容,它的基本任务是根据 样
本 所提供的信息,对 未知总体 分布的某些
方面的 假设 作出 合理的判断 。
“小概率事件”原理
?,小概率事件”通常 指发生的概率小于 5%的事
件。
? 小概率事件发生的概率记为 α,称为显著(性)
水平。
? 进行假设检验时,通常要 先规定 显著水平。
常用的显著水平为,α=0.05,0.01,0.02
(还有 0.1)。
? 小概率事件原理 —“小概率事件”在一次试验
中该事件是几乎不可能发生的 。
? 假设检验的思想, 为了检验 H0是否正确,
先假定 H0是正确的,,看由此能推出什么
结果。如果推出一个不合理的结果,表明
H0是不正确的,从而拒绝 H0。
? 判断的根据是 小概率事件原理 ——“小概率
事件”在一次试验中该事件是几乎不可能
发生的 。
方程显著性的 F检验
? 方程显著性的 F检验 —— 针对整个方程(全体偏回
归系数)的检验
F检验是要检验模型中 被解释变量与全体解释变量之间的线
性关系在总体上是否显著成立,即检验方程
ikikiii xxxy ????? ?????? ?22110 i=1,2,…,n
中参数(全体偏斜率系数)是否显著不为 0。
假设检验的原假设和备择假设
? 根据实际问题提出 两个互相对立 的假设
? 原假设 H0,与备择假设 H1,指出需要检验
的假设的具体内容;
? 我们进行假设检验的目的就是 判断原假设
是否可以被拒绝 。
假设检验的思想 —反证法+小概率事件原理
? 假设检验的具体操作步骤,
? 第一步:作出假设 —H0,; H1:
? 第二步:根据有关信息,对 H0的真伪进行判断
? 在原假设成立的情况下:
? 构造一个小概率事件 ——“小概率事件”在一次试验中几
乎是不可能发生的
? 如果在仅有的一次试验中 小概率事件发生,有理由认为 原
假设不成立
? 反之,若 小概率事件没有出现,就 没有理由拒绝 H0。
? 原假设成立(一个命题)小概率事件发生(一个反例)
? 用一个反例去推翻一个命题,理由是充足的。
方程显著性检验操作步骤
? 第二步:根据有关样本信息,对原假设 H0的真伪进行判断
( 1)构造 F统计量并计算在给定样本下的 F值
( 2)在给定的显著水平 α下,
查表得临界值 Fα(k,n-k-1)
第一步:提出原假设与备择假设
H k0 1 20 0 0:,,,? ? ?? ? ??
1H, j? 不全为零
)1( ??
?
kn
R S S
k
E S S
F
( 3)比较 F值与 F ?(k,n-k-1)
F > F k n ka (,)? ?1 在给定的 1- α下,拒绝 H0
或 F ? F k n ka (,)? ?1 在给定的 1- α下,不能 拒绝 H0
? F临界值与显著水平 α以及两个自由度( k,n-k-1)
均有关
? 临界值表明 —当给定显著水平和自由度时,
? P{F> Fα}=α
? 变量显著性的 t检验
t 检验是要检验模型中 具体的每一个解释变量是否对
被解释变量有显著影响
对于模型
ikikiii xxxy ????? ?????? ?22110 i=1,2,…,n
从而,t检验是要检验模型中每一个 ?j是否显著不为 0。
( j=1,2,…,k)
如果解释变量 xj对 y影响显著,则模型中 xj前的系数
?j应该不为 0,反之,应该为 0。
变量显著性检验步骤回顾
第二步:根据有关样本信息,对原假设 H0的真伪进行判断
( 1)构造 t统计量并计算在给定样本下的 t值
( 2)在给定的显著水平 α下,
查表得临界值
第一步:提出原假设与备择假设
H0 j 0:? ?
1H, j? = 0
j
St
j
?
?
?
?
?
t n ka
2
1( )? ?
若 t > t n ka2 1( )? ?
或 t ? t n ka
2
1( )? ?
则在给定的( 1- α)下,拒绝 H0
( 3)比较 t值与 t n ka2 1( )? ?
则在给定的( 1- α)下,不能拒绝 H0
回归结果的表述形式
? 两种规范格式:
一、
10357.588.158
? xy +=
t,( 0.4128) (6.540)
r 2 =0.8774
二、
10357.588.158
? xy +=
se:( 21.3630) (6.540)
r 2 =0.8774
表示标准差的估计值
表示 t统计量的值
“:”也可记为“=”
总体方差的无偏估计量
= 残差平方和/残差自由度
? 对于一元而言,总体方差的无偏估计量为
( P28页)
? 对于多元而言,总体方差的无偏估计量为
( P40页)
? k为斜率或偏斜率系数的个数。
2?
2
2
??
?
n
ei?
k-1?
2
2
??
?
n
ei?
如果出现
V a r i i( )? ?? 2 i=1,2,?,n
即对于不同的样本点, 随机误差项的方差不再是
常数而是互不相同, 则认为出现了 异方差性或称
为非同方差, 非常量方差 。
ikikiii xxxy ????? ??…???? 22110
对于模型
i=1,2,…,n
同方差性假设为 2)( ?? ?iVar i=1,2,…,n
1、异方差的概念
2.异方差的性质
1,现实社会经济中异方差是很常见的,处理
截面数据 时,尤应注意。
2,一般地,大多数异方差是有规律的:随机
误差项的方差随着解释变量观测值的变化
而呈现出规律性的变化 。
? 我们主要考虑有规律可循的异方差问题。
1、检验方法的共同思路
? 由于 大多数异方差是有规律的:随机误差项的方
差随着解释变量观测值的变化而呈现出规律性的变
化 。于是:
检验异方差性,也就是检验随机误差项的方差与
解释变量观测值之间是否存在联系(相关性及其相
关的“形式”)。
一般的处理方法:
对于未知的随机误差项的方差
OLSiii yye )?(
~ ??
Var E ei i i( ) ( ) ~? ?? ?2 2 (2.6.1)
即 用 ~ei2(残差平方)来表示相应随机误差项的方差 。2?i
i=1,2,…,n
首先采用 OLS 法估计模型,以求得 残差
书中称之为, 近 似估计量,,用 ~ei 表示。
于是有
3、图示检验法
? 图示检验法 是利用残差序列绘制出各种图
形,以供分析检验使用 。
? 异方差是指随机误差项的方差随着 x的变
化而变化。
? 故可以根据 x-y或残差 x-e2的散点图,对
异方差是否存在及其类型作出判断。
序列相关的概念
如果对于不同的样本点,随机误差项之间不再是
不相关的,而是存在某种相关性,则认为出现了 序
列相关性,又称为自相关性 。
对于模型
ikikiii xxxy ????? ?????? ?22110 i=1,2,…,n
随机误差项互不相关的基本假设表现为:
COV(?i,? j) =E(?i? j)=0 i ≠ j,i,j=1,2,…,n
1,经济变量的一个显著特点是大多数都具有惯性,
尤其在 经济时间序列 的分析中,这个特点更加明
显,进而产生了序列相关性。所以在处理 时间序
列数据 时,尤其要注意序列相关问题。
2,而且经济模型中的误差项之间经常 出现序列正相
关 的情况。
序列相关的几点性质
3,一阶自回归模式 (模型)是一种在经济分析中非常重要的
序列相关模式。
? 对于序列相关,在实践中,证明 AR(1)假设是非常有用的。
主要考虑一阶自回归形式的序列相关问题
ii ?i
?μ? ?? ?
1 11 <<? ? i=2,…,n
(?满足模型的 0均值、同方差、无序列相关 )
称为 一阶自回归模式, 记为 AR(1)。
其中,?被称为 自协方差系数 或 一阶自相关系数 。
? 所谓“一阶”是指序列相关只涉及 ?i和它
的上一期值 ?i-1,也就是说,最大间隔是
一个时期(单位)。
? 如果模型是
? 它将是 AR(2)或者说二阶自回归过程
ii ?i
?1μ? ? ?2μi-2+? ?
1 i=3,…,n
检验方法的共同思路
? 由于序列相关性表现为随机误差项之间存在某种联
系,因此不同的 序列相关性检验方法的基本思路是
相同的:
?检验序列相关性,也就是检验不同的随机误差项之
间是否存在联系(相关性及其相关的“形式”)。
? 一般处理方法,
? 由于真实的 ?i是无法观察的,首先采用普通最
小二乘法估计模型,以求得随机误差项的, 近
似估计量, —残差:
? 用残差 来表示相应的随机误差项 ?i。
O LS)?(
~
iii yye ??
?通过分析这些 残差之间的相关性,以达到判断随
机误差项是否具有序列相关性的目的。
ie
~
i=1,2,…,n
问题:用什么来表示未知的随机误差项?
一阶
一阶
时间顺序图 将时刻 t的残差对时刻( t-1)的残差
描点
一阶自相关图形特征
? 一阶正自相关图形表现为:
1,时序图 ——一段正一段负 (起点段正负均可 )
2,两相邻残差散点图 ——散点基本上分布在一、
三象限
? 一阶负自相关图形表现为:
1,残差序列图 ——一正一负的恒常运动 (起点正负
均可 )
2,两相邻残差散点图 ——散点基本上分布在二、
三象限