线性模型 —— 线性回归模型
单方程模型
计量经济学模型 非线性模型
有因果关系 回归分析
联立方程模型
一元线性回归模型
多元线性回归模型
第二章 单方程计量经济学模型
理论与方法
Theory and Methodology of Single-
Equation Econometric Model
?线性单方程计量经济学模型的理论基础和参数估计(2.1;2.2;2.3)
?线性单方程计量经济学模型的统计检验和置信区间(2.4;2.5)
?违背古典假设的计量经济学问题
(2.6;2.7;2.8;2.9)
教学基本要求
本章是课程的重点和主要内容,占总课内学时的
2/3左右。通过教学,要求同学达到:
? 了解(最低要求):
? 线性单方程计量经济学模型的基本理论与方法;
? 了解普通最小二乘法有关的参数估计过程和结论;
? 能够进行线性单方程模型的普通最小二乘估计;
? 独立完成建立线性单方程计量经济学模型的全过程
工作。
? 掌握(较高要求):
? 关于线性单方程计量经济学模型的基本
假设,以及各类违背基本假设的模型的
经济背景;
? 各类违背基本假设的计量经济学模型的
主要检验方法和主要克服方法及它们的
基本原理;
? 有关加权最小二乘法、广义差分法和工
具变量法的应用。
本次课内容介绍
? § 2.1 线性回归模型概述
? § 2.2、一元线性回归模型的参数估计
之一元线性回归模型一般形式介绍
? 内容调整部分
? (1)2.1中关于, 线性回归模型的普遍性, 的具体
介绍移至第三章
? (2)2.1中关于, 线性回归模型的基本假设, 介绍
移至 2.2和 2.3节,针对一元和多元不同的情况分别
介绍
重点内容
? (1)设置随机误差项的原因
? (2) 一元线性回归模型的一般形式
§ 2.1 线性回归模型概述
Introduction of Linear Regression Model
一、线性回归模型的特征
二,设置随机误差项的原因
销售量 (万台 ) 销售收入(百万元 ) 销售量 (万台 ) 销售收入(百万元 )
10 50 50 250
20 100 60 300
30 150 70 350
40 200
0、基本概念
1,经济变量间的关系
2、例子 1
某商品的销售收入与销售量之间的关系
——函数关系
函数关系:确定性关系
相关关系:不确定关系
函数关系的散点图 ( scatter diagram)显示
商品销售收入与销售量散点图
0
200
400
0 50 100
销售量
销售收入
系列1
例子:研究家庭收入与家庭消费支出之间的关系
某社区家庭收入与家庭消费支出数据的散点
图 ( scatter diagram)
其中 c为家庭消费支出; y为家庭收入
500
700
900
1100
1300
1500
1700
0 500 1000 1500 2000 2500 3000
y
c
? 散点图近似于一条直线,单个点不完全落在直线上,而是
均匀分布在一条直线的附近。
? 散点图表示消费与收入之间呈现出线性相关关系。
? 在设计理论模型阶段:
凯恩斯绝对收入假设消费理论,消费( c)是由收入( y)
唯一决定的,是收入的线性函数:
c= ? + ?y (2.1.1)
但实际上 上述等式不能准确实现 。
? 因此, 一个更符合实际的数学描述为,
c = ? + ?y+? (2.1.2)
其中,? 是一个随机误差项,是其他影响因素的“综 合体”;
c是被解释变量; y是解释变量; ?和 ?是参数
(2.1.2)是一个线性回归模型
一、线性回归模型的特征
? 计量经济学模型的特征:
? 计量经济学只讨论相关关系,所以模型的方程中一定含有
随机误差项 ?,?表示对确定部分的扰动。 计量经济学模
型与一般经济理论模型的主要区别就在于模型中添加随机
扰动项或误差项。引入随机扰动项是为了更准确地描述社
会经济系统。
? 线性回归模型的特征:
⑴ 通过引入随机误差项,将变量之间的关系用一个线性随
机方程来描述,并用随机数学的方法(回归分析方法)来
估计方程中的参数;
⑵ 在线性回归模型中,被解释变量的特征由解释变量
( ? + ?y )与随机误差( ? )项共同决定。
二、设置随机误差项的原因 (随机误差项的影
响因素 )
( 1) 在解释变量中被忽略的因素的影响 ——模型
中被省略了的解释变量包含在随机扰动项 ?中。。
? ( 2) 变量观测值的观测误差的影响 ——在收集和
整理加工数据时,测量误差致使观察值不等于实
际值,汇总也存在误差。
? ( 3) 模型关系的设定造成的误差的影响 ——由于
认识不足或者简化。例如将非线性设定成线性模
型。
? ( 4) 其它随机因素的影响 ——客观现象的随机性。
由于经济活动是人类参与的,因此不可能像科学
实验那样精确。此外还有社会环境和自然环境的
随机性。
? 原因
⑴消费除受收入影响外,还受其他因素(商品价
格、家庭收入、家庭人口)的影响;
⑵收集数据时存在误差,收入数据本身并不绝对
准确地反映收入水平,总会出现测量误差,从而,
收入变量观测值只是近似的 。
⑶线性关系只是一个近似描述,并不是两变量关
系的严格描述;(这一点由散点图也可知)
(4)人在消费时,由于消费心理,广告宣传等不确
定性因素的影响,使得消费具有一定的随机性。
线性回归模型 是计量经济学模型的主要形式,许
多实际经济活动中经济变量间的复杂关系都可以通
过一些简单的数学处理,使之化为数学上的线性关
系。
结论:
? 实际经济活动中的许多问题,都可以最终化为线
性问题,所以,线性回归模型有其普遍意义。
? 即使对于无法采取任何变换方法使之变成线性
的非线性模型,目前使用得较多的参数估计方
法 ——非线性最小二乘法,其原理仍然是以线性
估计方法为基础。
? 线性模型理论方法在计量经济学模型理论方法的
基础。
下面进入对一元线性回归
模型的讨论
先讨论一元线性回归模型的原因
1,两个变量之间的线性因果关系在现实经济中相当
普遍 。
2,虽然许多经济问题涉及到多变量关系或不是线性
的, 但多变量关系与两变量线性关系分析方法相
似, 非线性关系多数可转化为线性关系, 因此先
讨论一元线性回归模型有方便之处 。
3,一元线性回归模型的原理和方法, 正是所有计量
经济分析的基本原理和方法, 对理解计量经济分
析的思想方法, 进一步学习各种复杂的计量经济
分析技术有很大帮助 。
§ 2.2 一元线性回归模型及其参数估计
Simple Linear Regression Model and
Its Estimation
一、一元线性回归模型的一般形式
二、一元线性回归模型的基本假设
三、一元线性回归模型的参数估计
四、普通最小二乘估计量的统计性质
五、一元线性回归模型的案例分析
敬请注意本节所有内容
一、一元线性回归模型的一般形式
? 1、一元线性回归模型的一般形式
?
? (2.2.1)
? 被解释变量 y (dependent variable),
? 解释变量 x ( independent variable)
? 随机误差项 ?( disturbance term or
stochastic error )
? 参数 ?0, ?1
? 斜率 ?1 ( slope parameter )
? 截距 ?0 ( intercept parameter)
? 样本观测值的下标 i
? 样本容量 n
)( ni,,2,1xy 10 ????? iii ???
一元线性回归模型一般形式
的说明
? 由于总体的信息往往无法掌握,现实的情况只能是在一次
观测中得到总体的一组样本,计量经济研究是利用样本数
据进行对被解释变量与解释变量之间数量关系说明的。
? (xi,yi) 表示一对具体的样本观测值,抽取样本后它们的值
就确定了。
? 共 n 组样本观测值(样本数据) (x1,y1),(x2,y2) ……..,
(xn,yn) i=1,2,……,n
? ?i 表示对应于每对 (xi,,yi)的随机误差,它是随机变量,是
未知的。
? ?0 和 ?1是反映研究总体中变量间真实数量关系的,由于总
体的未知性,所以它们是未知的,但是为确定的常数。
)( ni,,2,1xy 10 ????? iii ???
对下标的一点说明:
? 作为一种惯例,观测值的下标 i将用于 截面
数据 (在一个时间点上收集的数据);
? 而下标 t将用于 时间序列数据 (对一个时期
收集的数据) 。
2、为什么
称为一元线性回归模型?
①,一元” —指模型中只有一个解释变量 x。这个解释变
量可以解释引起被解释变量 y变动的部分原因。
②,线性” —包含两重含义:
I,y与 x之间为线性关系:
II,y与参数 ?0, ?1 之间 也为线性关系
③,回归” —指用回归分析的方法求解模型
④,模型” —这里指计量经济学模型
)( ni,,2,1xy 10 ????? iii ???
0x y;xy 2
2
1 ??
??
?
? ?
3、一元线性回归模型的参数含义说明
? 在例题中,由散点图可知,家庭的消费支出方程
为:
ci = ? + ?yi+?i (2.1.2)
? 由于不确定因素的影响,对同一收入水平 yi,不
同家庭的消费支出 ci不完全相同。 即,给定收入
水平,家庭的消费支出 ci并不是唯一确定的。
? 如何理解社区中某个 (个别 )家庭的消费支出 ci呢?
? 假设:该社区共有 56户家庭的月收入为 2000元,
这 56户家庭的月平均家庭消费为 1100元。在这 56
户中随机抽取一户,该家庭的消费支出为 1300元。
高于平均水平 1100。
1300= 1100+ 200
? 单个家庭的消费支出=
总体中相同收入水平下的所有家庭的平均消费支出
± 某一数量
? 回到模型中:
? 对于式 (2.1.2) ci = ? + ?yi+?i
? ci由两部分组成:
? ( 1) 一部分由直线 ?+ ?yi组成,称为 确定部分
或系统性部分 。
? 它被认为是所研究问题的总体 —该社区全体家庭
中收入同为 yi的那部分家庭的 平均消费支出(平
均值的含义) ;
? ( 2)另一部分由随机误差项 ?i组成,称为 随机部
分或非系统性部分 。
? 它被认为是由收入以外因素决定的,个别家庭对
总体中收入同为 yi的那部分家庭的 平均消费支出
的偏移 。
一元线性回归模型
的参数含义说明
? 斜率 ?1 —度量了 x每变动 1个单位,平均而言,
y的变动( y的平均改变量 )
? 截距 ?0—度量了在 x = 0是,平均而言, y的
取值
? 例子:
? 需求量与价格的一元线性回归模型(假设总
体可得)
iii μy ?? P*88.305.76 -
)( ni,,2,1xy 10 ????? iii ???
二、一元线性回归模型的基本假设
( 1) 解释变量 x是确定性变量, 不是随机变
量
( 2) 随机误差项具有0均值和同方差,
E(?i)=0 i=1,2,…,n
Var (?i)=??2 i=1,2,…,n
( 3)随机误差项在不同样本点之间是独立的,
不存在序列相关:
Cov(?i,?j)=0 i≠j i,j= 1,2,…,n
( 5) 随机误差项服从正态分布
即随机误差项服从0均值、同方差的正态分布:
?i~N(0,??2 ) i=1,2,…,n
( 4)随机误差项与解释变量之间不相关:
Cov(xi,?i)=0 i=1,2,…,n
假设 2 随机误差项期望为零
? 每个 xi对应的随机误差项 ?i的期望为零。
? 即随机误差项 ?i对被解释变量 yi有着或正或
负的影响,平均来看,?i对 yi没有影响。
? 我们总是可以采用适当方法保证 随机误差
项的期望为零,因此随机误差项的期望为
零假设可以认为是合理的。
假设 2 随机误差项同方差
( Constant Error Variance)
? Var(?i)=??2 (i=1,2,……, n)
? 表明对所有的 ?i,变动的方差是相同的,称为同
方差。
? 在同方差时,可将 ??2 的下标去掉,用 ?2表示即
可。
? 否则,
? Var(?i)=?2i (i=1,2,……, n)
? ?2i是一个变量(随 i而变)。这种情形称为异方差。
(在 2.6中讨论)
同方差
x1 x2
X
?
Y
随着 x变化随机误差项 ?的方差不变
y= ? 0+ ? 1x
异方差
x1 x2
X
u 随着 x增加随机误
差项方差增大Y
假设 3随机误差项无序列相关
( Error Independent)
? 假设 3表明 不同 的 随机误差项之间 没有 相关 关系 (见图 )
? ? i与 ? j不相关,也就是说,对所有的 i j,有
COV(?i,?j) =0
? 因为 COV(? i,? j)=E[?i -E(?i)][?i -E(?j)]
? 由 0均值假设,E(?i )=0,E(?j)=0
? 从而假设 3可表为,COV(?i,?j) =E(?i ? j)=0
? 表明 ?i与 ?j不相关( i j),
? 如果 COV(?i,?j)= E(?i ? j) 0,称为随机误差项序列
相关(自相关)( Autocorrelation)。(在 2.7中讨
论)
?
?
?
假设 3随机误差项无序列相关
i?
0 0 0
i?
i?
1?i? 1?i? 1?i?
() 无序列相关a ()正序列相关b () 负序列相关c
假设 4 所有 xi与对应的 ?i不相关
? 即对所有 i来说
COV(xi,?i)=0
? 这保证了 ?i的取值与 xi的取值之间没有相
关关系。
注意:
? 如果第 (1)条假设满足,则第 (4)条也满
足 ;
假设 5 随机误差项服从0均值、
同方差的正态分布
??
?i
?i ?N(0,??2)
E(?i)??
? 经验表明:对于取值依赖于众多微小因素,
每一因素均产生微小的或正或负影响的连
续型随机变量来说,正态分布是一个相当
好的近似分布形式。
? 一般说来,对于随机误差项 ?i而言,在大样
本下正态分布的假设一般自动成立的,小
样本下则需考察;
对于基本假设的重要提示
? 计量分析的方法中,特定的方法适用的模型形式是有条件限
制的,因此在建模和估计模型之前,必须对模型先作设定;
? 几乎没有哪个实际问题能够同时满足所有基本假设;
? 0均值的假设是合理的;
? 在大样本下正态分布的假设一般自动成立的,小样本下则需
考察;
? 违背基本假设问题的处理构成了单方程线性计量经济学理论
方法的主要内容:
异方差问题(违背同方差假设)
序列相关问题(违背序列不相关假设)
多重共线性问题(违背解释变量不相关假设)
随机解释变量(违背解释变量确定性假设)
? 通过模型理论方法的发展,可以克服违背基本假设带来的问
题;
满足基本假设的一元线性回归模型的一般形式为
满足基本假设
( 1)随机误差项均值为 0 E(?i)=0 ;
( 2)随机误差项同方差 Var (?i)=??2;
( 3)随机误差项无序列相关 Cov(?i,?j)=0;
( 4) x是确定性的,非随机变量 Cov(xi,?i)=0;
( 5)随机误差项服从正态分布 ?i~N(0,??2 )
i,j=,2,…,n; i≠j
)( ni,,2,1xy 10 ????? iii ???
三、一元线性回归模型的参数估计
⒈ 问题的提出
? 在经济研究中,当我们建立起一个理论模型
? 并收集和加工好符合模型要求的样本数据后
? 我们的一个 主要目的 是什么?
? 既然认为总体中的变量 y与 x之间存在线性关系,
就应该尽可能精确地描述它们之间的这种关系,
即尽可能准确的估计模型中的未知参数 ?0 和 ?1
iii ??? ??? xy 10
2、在参数估计中需要考虑的问题
由于总体的信息往往无法掌握,现实的情况只能是在一次
观测中得到总体的一组样本。
? 需考虑的两个问题:
? ( 1)能从一次抽样所得的样本中获得总体变量关系的近
似的信息吗?
? 能。统计知识能够帮助我们解决 ——采取适当的抽样方法
能够保证在一定程度上样本是对总体的近似
? ( 2)如果可以,如何从样本中获得总体变量关系的近似
信息?即如何找出反映变量关系的参数近似值,以及如何
评价近似值。
? 在计量中需要解决的问题
例子
Y 70 0 65 0 90 0 95 0 1 1 0 0 1 1 5 0 120 0 140 0 155 0 150 0
X 80 0 100 0 120 0 140 0 160 0 180 0 200 0 220 0 240 0 260 0
)( 1.2.2 xy 10 iii ??? ???
例 2.1,一个假想的社区有 60户家庭组成,要研究该社区每月
家庭消费支出 y与每月家庭可支配收入 x的关系。
通过调查得到一组关于家庭收入影响家庭消费支出的样本数
据
由凯恩斯绝对收入假设消费理论和样本数据散点图建立理论模
型
问:能否从该样本估计未知参数 ?0 和 ?1?
该样本的散点图( scatter diagram):
样本散点图近似于一条直线,画一条直线 使其尽可能
好地拟合该散点图,由于样本取自总体,可认为该线近
似地代表总体变量 y与 x间的关系 。该线称为 样本回归线
( sample regression line) SRL,其函数形式记为:
500
700
900
1100
1300
1500
1700
0 500 1000 1500 2000 2500 3000
X
Y
iii xxfy 10 ??)(? ?? ??? ( 2.2.2)
称为 样本回归函数 (方程)( sample regression function ) SRF。
xy ii 10 ??? ?? ??
SRL
(” ?, 读作“帽”,有, ?“的变量表示它是一个估计量(估
计值))
i?? 为 i? 的估计值 )1,0(?i
的估计值是在具体样本下,ii yy?
iii xxfy 10
??)(? ?? ???
在样本回归函数中注意:
? 在具体样本下,
? ei称为 残差( residual )它是实际的样本观测值
yi与估计值 之差,
? ei代表了其他影响 yi的随机因素的集合体,ei共
有 n个。
? 由于样本只是总体的一部分,从而样本回归线或
者说样本回归函数仅仅是近似描述了总体变量关
系
xyyy iiii 10 ??? ?? ?????e i
iy?
⒊ 进行一元线性回归 模型参数估计的主要目的
寻找一种好方法求样本回归函数,使得它
对总体的近似是一种尽可能“接近”的近
似。或者说构造样本回归函数,使 和
尽可能接近真实的 ?1和 ?0 1
?? 0??
怎么达到这一目的呢?
4,一元线性回归模型参数估计的基本思路
基本思路:用拟合样本趋势的方法,寻找
一条 尽可能好地拟合所有样本点 的样本回
归线 SRF—— 以该直线近似 地
代表总体中变量 y与 x间的关系 ——
。 或者说,得到参数近似值
和 。
? 寻找变量之间直线关系的方法多多。一种优良的
方法就是本节介绍的 普通最小二乘法 。
1??
0??iii ??? ??? xy 10
ii xy 10 ??? ?? ??
4,一元线性回归 模型的参数估计方法 —
普通最小二乘法 ( Ordinary Least Square,OLS)
? 思路:共有 n对样本观测值 (x1,y1),(x2,y2) ……..,
(xn,yn) i=1,2,……,n
? 对于某一个观测值 yi而言,
? 式中 是 yi 的估计值,ei是 残差( residual )
它是实际观测值 yi与估计值 之差,ei可看成对
?i的估计。
iii ??? ??? xy 10
iiiii ee ????? xyy 10 ??? ??
iy?
iy?
y
x
纵
向
距
离
( )yxA 11,
( )yxB ? 11,
A和 C为实际点,B
和 D为拟合直线上
与之对应的点
图示说明
( )yxC 22,
xyyy iiii 10 ??? ?? ?????ei纵向距离
( )yxD ? 22,
残差为正
残差为负
? 纵向距离是实际观测值 y与估计值之差,即残差。
? 对于每一个点而言,残差的绝对值大,说明拟合
不好(估计值与实际观测值相差大),残差的绝
对值小拟合好,因此残差的绝对值越小越好。
? 为了精确地描述 y与 x之间的关系,尽可能好地拟
合所有样本点,必须使用这两个变量的每一对样
本观测值,才不至于以点概面(作到全面)。
? 因此需要考虑所有样本点的残差。使所有残差的
绝对值都尽可能很小。
? 如何达到这一要求呢?
? 对所有残差的绝对值求和 ——不便于进一步的讨
论
? 将所有残差平方后相加,得残差平方和,使残差
平方和最小。
我们希望做到的 ——寻找一条尽可能好地拟
合所有样本点的样本回归线
? 使所有样本点的残差平方和最小的直线就是“最
好”的拟合“所有样本点”的直线。
? 这条最好的直线就是所要求的样本回归线。
? 于是在给定样本下,
? 求样本回归线 的问题
? 转换为
? 在给定样本下,找到使残差平方和最小的直线
ii xy 10 ??? ?? ??
):(注 xyyy iiii 10 ??1 ? ?? ?????e i
ii xy 10 ??? ?? ??
我们希望做到的 ——寻找一条尽可能好地拟
合所有样本点的样本回归线
给定一组样本观测值 xi,yi( i=1,2,… n), 残差平
方和是 和 的函数。选择不同的 和 将给出
不同的残差平方和
? 于是在给定样本下,
? 求样本回归线 的问题
? 最终转换为
? 即在给定样本下找到使得残差平方和最小的参数
估计值
ii xy 10 ??? ?? ??
1?? 0?? 0??1??
2
10
2 ??2)?(? ?? ????? )( xyyy
iiii ??e i
2、普通最小二乘法( Ordinary Least
Square,OLS)的具体操作
给定一组样本观测值 xi,yi( i=1,2,… n), 选
择估计的 和, 使残差即实际观测值与相应
估计值之差的平方和最小。
2
1
)?( i
n
i yyminQ= ∑ ei2 ??? =
2
10
1
))??(( i
n
i xy ?? ??? ( 2.2.3)
0??1??
根据求极值的原理,可推得用于估计 0??, 1?? 的下列方程组:
??
???
???
???
?
?
0)??(
0)??(
10
10
iii
ii
xyx
yx
??
?? (2.2.4)
或
?
?
?
S?S?S
S??S
2
10
10
??
??
iiii
ii
xxxy
xny
??
?? (2.2.5)
解得:
?
?
?
???
?
S?S
SS?S?
S?S
SS?SS?
221
22
2
0
)(
?
)(
?
ii
iiii
ii
iiiii
xxn
xyxyn
xxn
xyXyx
?
?
(2.2.6)
方程组 ( 2.2.5) 称为 正规方程组 ( normal equations) 。
推导参看教材 P26,27
3、参数估计的离差形式 (deviation form)
xxx ii -?? yy ii -?y?
)(
=
7.2.2
?-?
?
10
21
?
?
?
?
?
?
?
?
xy
x
yx
i
ii
??
?
?
??
?? ixx n1 ?? iyy n
1
则( 2.2.6)的参数估计量可以写成:
由于 0??, 1?? 的估计结果是从最小二乘原理得到的,故称为
普通最小二乘估计量 (OLS estimators)
.在变量上为离差
案例分析 1
?( 1)家庭收入和家庭消费支出
问题
?( 2)教材 P34页
家庭收入和家庭消费支出问题
Y 70 0 65 0 90 0 95 0 1 1 0 0 1 1 5 0 120 0 140 0 155 0 150 0
X 80 0 100 0 120 0 140 0 160 0 180 0 200 0 220 0 240 0 260 0
)( 1.2.2 xy 10 iii ??? ???
例,一个假想的社区有 60户家庭组成,要研究该社区每月家庭
消费支出 y与每月家庭可支配收入 x的关系。
通过调查得到一组关于家庭收入影响家庭消费支出的样本数
据
由凯恩斯绝对收入假设消费理论和样本数据散点图建立理论模
型
请从该样本估计未知参数 ?0 和 ?1?
在 收入 -消费支出例 中,参数估计的计算
如下:
收入 x
(元)
支出 y
(元)
xx ? yy ? ))(( yyxx ?? 2)( xx ? 2x y 2)?( yy ?
1 800 700 -900 -410 369000 810000 640000 652 2321
2 1000 650 -700 -460 322000 490000 1000000 754 10740
3 1200 900 -500 -210 105000 250000 1440000 855 1984
4 1400 950 -300 -160 48000 90000 1960000 957 53
5 1600 1100 -100 -10 1000 10000 2560000 1059 1674
6 1800 1150 100 40 4000 10000 3240000 1161 119
7 2000 1200 300 90 27000 90000 4000000 1263 3935
8 2200 1400 500 290 145000 250000 4840000 1365 1257
9 2400 1550 700 440 308000 490000 5760000 1466 6995
10 2600 1500 900 390 351000 810000 6760000 1568 4649
平均 1700 1110
求和 1680000 330000032200000 11100 33727
5091.033000001680000)( ))((? 21 ??? ??? ?? xx yyxx?
5.24417005091.01110?? 10 ?′???? xy ??
居民家庭收入与消费支出的样本回归函数为:
ii xy 5091.05.244? ??
注意
? 在计算过程中应该注意,中间计算结果要
保留足够多的有效数字位数。
? 例如,在计算过程中,均值、离差、残差
等都要保留比较多的有效数字位数,否则
在计算残差平方和以及其后的计算中将出
现较大误差。
? 作为最终计算结果,通常保留四位有效数
字就足够了。
四、普通最小二乘估计量
的统计性质
高斯 -马尔可夫定理
引
? 和 是常数还是随机变量?
? 和 是根据样本观测值 (xi,yi) 求得的。样本不
同,、的取值也就会各不相同。即 给出多个
样本,就会得到多组参数估计值。 因此,和
均为 随机变量。
? 它们分别是 ?1和 ?0的 估计量 。
? 在给定的一个具体样本下,我们根据 OLS公式
可计算出的 和 一个具体估计值作为对总体参
数的估计。
1??
1?? 0??
0??
0??1??
0??1??
1?? 0??
问题的提出
? 对于设计模型:
? yi=?0+?1xi+?i
(i=1,2,?????,n)
? 采用普通最小二乘法,得到普通最小二乘估
计量( OLS估计量)对真实的总体参数进行估
计。当然我们希望这种估计越准确越好。
? 在给定样本下,利用 OLS法得到的参数 估计
值到底能否 代表(准确估计)总体参数的真
值呢?这就要看 OLS估计量是不是一个好的
估计量。
在计量研究中,一个用于考察总体的参
数估计量,可从三个方面考察其优劣性:
( 1)线性性 (linear),即是否是另一随机
变量的线性函数;
( 2)无偏性 (unbiased),即它的均值或期
望值是否等于总体的真实值;
( 3)有效性 (efficient),即它是否在所有
线性无偏估计量中具有最小方差。
1、线性性:参数估计量可以表示为被解释变量观测值
yi的线性函数(线性组合)。
? 同理可证,也是 yi的线性函数;
? 而且,和 也是随机误差项 ?i的线性函数
( )
( ) ( )
( )
是线性的。的线性组合,即是说明
令
=
111
2
2221
???
,
?
???
?
yyw
xx
x
w
y
xx
x
y
xx
x
x
yx
ii
i
i
i
i
i
i
ii
i
i
x
i
x
i
x
i
?
? ?
?
? ?? ?
?
?
?
??
?
?
?
?
?
??
?
??
0??1??
0??
? 线性性的意义:参数估计量与被解释变量服
从相同名称的分布,也与随机误差项服从相
同名称的分布。利于进行模型的检验。
2.无偏性( unbiased):
参数估计量的均值等于总体回归系数真值
? 参数估计量的均值就是真实值:
? 意义:
参数估计量是以参数真实值为分布中心
的随机变量,反复抽样估计可得真实值。
? 利用线性性表达和模型假设 1和 2证明 。
00 ]?[ ?? ?E 11 ]
?[ ?? ?E
无偏性证明
( ) ( ) ( )
( ) ( )
( ) ( )
( )
的无偏估计量。是说明
而
又
11
?
1
1
1
0
0101
?
101
?
1010
1
?
0)(
101
?
??
??????
???
????
?
???
?
??????????
? ???
?????
????
??????
x iw iw iE
x iw iE
x iu ix iEy
i
E
y
i
Ew
i
y
i
w iEE
u iEu ix iy
i
y
i
w i ??
3、有效性(又称最小方差性):
在所有线性无偏估计量中,最小二乘估计量
具有最小方差。
? 方差小是对参数估计量价值的重要支持。
? 证明的思想:设参数的任意其他线性无偏估计量,
证明它们的方差大于最小二乘估计量。
? 在对 OLS估计量有效性的证明过程中,利用了基
本假设 1,2,3,4。
? 假设 是通过其它方法得到的关于 的线性无偏
估计量
)?var()?var( 1*1 ?? ?
*
1
?? ?1
Sampling distribution of OLS estimator 1?? and alternative estimator *1??
1
1
*
11 )?()?( ??? ?? EE
1?? *
1??
同理可证明 )?var()?var( 0*0 ?? ?
高斯 — 马尔可夫定理
(Gauss-Markov theorem)
在给定线性回归的基本假设下, 普通最小二
乘估计量是具有最小方差的线性无偏估计量 。
4,结论
在模型满足基本假设的条件下, 普通最小二乘估
计量具有线性性, 无偏性, 最小方差性等优良性质 。
具有这些优良性质的估计量又称为 最佳线性无偏
估计量, 即 BLUE 估计量 ( the Best Linear
Unbiased Estimators) 。
普通最小二乘估计量具有 BLUE性质, 是 BLUE估
计量 。 这就是为什么最小二乘法在计量中被广泛应
用的原因 。
显然这些优良的性质依赖于对模型的基本假设 。
所有估计量集合 所有线性估计量集合
所有无偏估计量集合
最
小
二
乘
估
计
量
的
性
质
BLUE集合
? 在对 OLS估计量有效性的证明过程中,得
到最小二乘估计量的方差公式。
? 普通最小二乘估计量的方差公式
( ) ( )
?? ?
??
ix?
2
2
2
2
1
? ??? ??
xx i
V a r
( ) ( )
?
?
?
?
?
?
?
?
?
?
??
?? ?
?
ixn ?
2
22
2
2
2
0
? x
xxn
x
i
iV a r
??? ??
(2.2.13 )
(2.2.14 )
( ) ( )
?? ?
??
ix?
2
2
2
2
1
? ???
??
xx i
V a r
( ) ( ) ( )
( ) ( ) ( )
( )
( )
( )
( )? ?
? ?
??
??
??
??
??
????
??
xx
xx
ww
uwuxw
ywyw
i
i
ii
iiiii
i
i
i
i
Va r
Va r
Va rVa rVa r
Va rVa rVa r
2
2
1
2
2
2
2
1
2
10
2
1
2
1
?
1
?
?
?
?
?
?
?
???
?
?
? 而
五、案例分析
?( 1)奥肯定律
?( 2)汇率问题
一元线性回归模型参数估计
案例分析
奥肯定律
? 布鲁金斯学会主席,美前总统经济顾问委员会主席
奥肯( Arthur Okun)根据美国 1947- 1960年的
数据,得到如下回归方程,称之为奥肯定律
? 其中 yi表示失业率的变动数(百分数);
? xi表示实际产出的增长率(百分数),用实际
GNP度量;
? 2.5是对美国历史的观察得到的长期产出增长率
2, 5 )-(4.0-y ii x?
?
? 在这个回归方程中,斜率为- 0.4,奥肯定律说的
是实际 GNP增长每超过 2.5个百分点,平均而言,
失业率将降低 0.4个百分点。
? 奥肯定律被用来预测为使失业率减少到一定百分点
所需的实际 GNP的增长率。
? 若实际 GNP的增长率为 5%时,将使失业率减少一
个百分点,或者说若使增长率达到 7.5个百分点,
则需减少失业率 2个百分点。
? 通过整个例子,我们可以了解回归结果是如何被运
用到政策当中去的。
2, 5 )-(4.0-y ii x?
?
名义汇率与相对价格间的关系
? 令 y 代表德国马克对美元的汇率,x代表美国与德
国的消费者价格指数( CPI)之比,即 x表示了
两个国家的相对价格。利用 1980- 1994年间的
数据,可得如下结果:
tt x318.4-682.6y ?
?
? 在这个回归方程中,斜率为- 4.318,表示在
1980- 1994年期间,相对价格每上升一单位,平
均而言,马克对美元的汇率下降 4.318个单位,也
即美元将会贬值。因为一美元将兑换更少的德国
马克。斜率的经济含义是,如果价格在美国上涨
得比德国快,则美国的消费者将转向消费德国产
品,因此对马克的需求上升,从而导致马克的增
值。这就是购买力平价理论(单一价格法则)的
实质。
? 截距 6.682表是若相对价格为 0(不可能),则马
克对美元的汇率的均值为 6.682。即 1美元兑换
6.682德国马克,但是这种解释没什么经济意义。
tt x318.4-682.6y ?
?
本节内容扩展
? 一元线性回归模型的一般形式
?
?
(2.2.1)
? 被解释变量(应变量) y (dependent variable),
? 解释变量 ( 自变量) x ( independent variable)
? 随机误差项 (随机扰动项)(误差项) (扰动项 )
? ?( disturbance term or stochastic error )
? 参数(回归系数)(待估参数) ?0, ?1
? 斜率 ?1 ( slope parameter )
? 截距 ?0 ( intercept parameter)
? 一元线性回归模型又称为双(两)变量线性回归模型、简
单线性回归模型。
)( ni,,2,1xy 10 ????? iii ???
单方程模型
计量经济学模型 非线性模型
有因果关系 回归分析
联立方程模型
一元线性回归模型
多元线性回归模型
第二章 单方程计量经济学模型
理论与方法
Theory and Methodology of Single-
Equation Econometric Model
?线性单方程计量经济学模型的理论基础和参数估计(2.1;2.2;2.3)
?线性单方程计量经济学模型的统计检验和置信区间(2.4;2.5)
?违背古典假设的计量经济学问题
(2.6;2.7;2.8;2.9)
教学基本要求
本章是课程的重点和主要内容,占总课内学时的
2/3左右。通过教学,要求同学达到:
? 了解(最低要求):
? 线性单方程计量经济学模型的基本理论与方法;
? 了解普通最小二乘法有关的参数估计过程和结论;
? 能够进行线性单方程模型的普通最小二乘估计;
? 独立完成建立线性单方程计量经济学模型的全过程
工作。
? 掌握(较高要求):
? 关于线性单方程计量经济学模型的基本
假设,以及各类违背基本假设的模型的
经济背景;
? 各类违背基本假设的计量经济学模型的
主要检验方法和主要克服方法及它们的
基本原理;
? 有关加权最小二乘法、广义差分法和工
具变量法的应用。
本次课内容介绍
? § 2.1 线性回归模型概述
? § 2.2、一元线性回归模型的参数估计
之一元线性回归模型一般形式介绍
? 内容调整部分
? (1)2.1中关于, 线性回归模型的普遍性, 的具体
介绍移至第三章
? (2)2.1中关于, 线性回归模型的基本假设, 介绍
移至 2.2和 2.3节,针对一元和多元不同的情况分别
介绍
重点内容
? (1)设置随机误差项的原因
? (2) 一元线性回归模型的一般形式
§ 2.1 线性回归模型概述
Introduction of Linear Regression Model
一、线性回归模型的特征
二,设置随机误差项的原因
销售量 (万台 ) 销售收入(百万元 ) 销售量 (万台 ) 销售收入(百万元 )
10 50 50 250
20 100 60 300
30 150 70 350
40 200
0、基本概念
1,经济变量间的关系
2、例子 1
某商品的销售收入与销售量之间的关系
——函数关系
函数关系:确定性关系
相关关系:不确定关系
函数关系的散点图 ( scatter diagram)显示
商品销售收入与销售量散点图
0
200
400
0 50 100
销售量
销售收入
系列1
例子:研究家庭收入与家庭消费支出之间的关系
某社区家庭收入与家庭消费支出数据的散点
图 ( scatter diagram)
其中 c为家庭消费支出; y为家庭收入
500
700
900
1100
1300
1500
1700
0 500 1000 1500 2000 2500 3000
y
c
? 散点图近似于一条直线,单个点不完全落在直线上,而是
均匀分布在一条直线的附近。
? 散点图表示消费与收入之间呈现出线性相关关系。
? 在设计理论模型阶段:
凯恩斯绝对收入假设消费理论,消费( c)是由收入( y)
唯一决定的,是收入的线性函数:
c= ? + ?y (2.1.1)
但实际上 上述等式不能准确实现 。
? 因此, 一个更符合实际的数学描述为,
c = ? + ?y+? (2.1.2)
其中,? 是一个随机误差项,是其他影响因素的“综 合体”;
c是被解释变量; y是解释变量; ?和 ?是参数
(2.1.2)是一个线性回归模型
一、线性回归模型的特征
? 计量经济学模型的特征:
? 计量经济学只讨论相关关系,所以模型的方程中一定含有
随机误差项 ?,?表示对确定部分的扰动。 计量经济学模
型与一般经济理论模型的主要区别就在于模型中添加随机
扰动项或误差项。引入随机扰动项是为了更准确地描述社
会经济系统。
? 线性回归模型的特征:
⑴ 通过引入随机误差项,将变量之间的关系用一个线性随
机方程来描述,并用随机数学的方法(回归分析方法)来
估计方程中的参数;
⑵ 在线性回归模型中,被解释变量的特征由解释变量
( ? + ?y )与随机误差( ? )项共同决定。
二、设置随机误差项的原因 (随机误差项的影
响因素 )
( 1) 在解释变量中被忽略的因素的影响 ——模型
中被省略了的解释变量包含在随机扰动项 ?中。。
? ( 2) 变量观测值的观测误差的影响 ——在收集和
整理加工数据时,测量误差致使观察值不等于实
际值,汇总也存在误差。
? ( 3) 模型关系的设定造成的误差的影响 ——由于
认识不足或者简化。例如将非线性设定成线性模
型。
? ( 4) 其它随机因素的影响 ——客观现象的随机性。
由于经济活动是人类参与的,因此不可能像科学
实验那样精确。此外还有社会环境和自然环境的
随机性。
? 原因
⑴消费除受收入影响外,还受其他因素(商品价
格、家庭收入、家庭人口)的影响;
⑵收集数据时存在误差,收入数据本身并不绝对
准确地反映收入水平,总会出现测量误差,从而,
收入变量观测值只是近似的 。
⑶线性关系只是一个近似描述,并不是两变量关
系的严格描述;(这一点由散点图也可知)
(4)人在消费时,由于消费心理,广告宣传等不确
定性因素的影响,使得消费具有一定的随机性。
线性回归模型 是计量经济学模型的主要形式,许
多实际经济活动中经济变量间的复杂关系都可以通
过一些简单的数学处理,使之化为数学上的线性关
系。
结论:
? 实际经济活动中的许多问题,都可以最终化为线
性问题,所以,线性回归模型有其普遍意义。
? 即使对于无法采取任何变换方法使之变成线性
的非线性模型,目前使用得较多的参数估计方
法 ——非线性最小二乘法,其原理仍然是以线性
估计方法为基础。
? 线性模型理论方法在计量经济学模型理论方法的
基础。
下面进入对一元线性回归
模型的讨论
先讨论一元线性回归模型的原因
1,两个变量之间的线性因果关系在现实经济中相当
普遍 。
2,虽然许多经济问题涉及到多变量关系或不是线性
的, 但多变量关系与两变量线性关系分析方法相
似, 非线性关系多数可转化为线性关系, 因此先
讨论一元线性回归模型有方便之处 。
3,一元线性回归模型的原理和方法, 正是所有计量
经济分析的基本原理和方法, 对理解计量经济分
析的思想方法, 进一步学习各种复杂的计量经济
分析技术有很大帮助 。
§ 2.2 一元线性回归模型及其参数估计
Simple Linear Regression Model and
Its Estimation
一、一元线性回归模型的一般形式
二、一元线性回归模型的基本假设
三、一元线性回归模型的参数估计
四、普通最小二乘估计量的统计性质
五、一元线性回归模型的案例分析
敬请注意本节所有内容
一、一元线性回归模型的一般形式
? 1、一元线性回归模型的一般形式
?
? (2.2.1)
? 被解释变量 y (dependent variable),
? 解释变量 x ( independent variable)
? 随机误差项 ?( disturbance term or
stochastic error )
? 参数 ?0, ?1
? 斜率 ?1 ( slope parameter )
? 截距 ?0 ( intercept parameter)
? 样本观测值的下标 i
? 样本容量 n
)( ni,,2,1xy 10 ????? iii ???
一元线性回归模型一般形式
的说明
? 由于总体的信息往往无法掌握,现实的情况只能是在一次
观测中得到总体的一组样本,计量经济研究是利用样本数
据进行对被解释变量与解释变量之间数量关系说明的。
? (xi,yi) 表示一对具体的样本观测值,抽取样本后它们的值
就确定了。
? 共 n 组样本观测值(样本数据) (x1,y1),(x2,y2) ……..,
(xn,yn) i=1,2,……,n
? ?i 表示对应于每对 (xi,,yi)的随机误差,它是随机变量,是
未知的。
? ?0 和 ?1是反映研究总体中变量间真实数量关系的,由于总
体的未知性,所以它们是未知的,但是为确定的常数。
)( ni,,2,1xy 10 ????? iii ???
对下标的一点说明:
? 作为一种惯例,观测值的下标 i将用于 截面
数据 (在一个时间点上收集的数据);
? 而下标 t将用于 时间序列数据 (对一个时期
收集的数据) 。
2、为什么
称为一元线性回归模型?
①,一元” —指模型中只有一个解释变量 x。这个解释变
量可以解释引起被解释变量 y变动的部分原因。
②,线性” —包含两重含义:
I,y与 x之间为线性关系:
II,y与参数 ?0, ?1 之间 也为线性关系
③,回归” —指用回归分析的方法求解模型
④,模型” —这里指计量经济学模型
)( ni,,2,1xy 10 ????? iii ???
0x y;xy 2
2
1 ??
??
?
? ?
3、一元线性回归模型的参数含义说明
? 在例题中,由散点图可知,家庭的消费支出方程
为:
ci = ? + ?yi+?i (2.1.2)
? 由于不确定因素的影响,对同一收入水平 yi,不
同家庭的消费支出 ci不完全相同。 即,给定收入
水平,家庭的消费支出 ci并不是唯一确定的。
? 如何理解社区中某个 (个别 )家庭的消费支出 ci呢?
? 假设:该社区共有 56户家庭的月收入为 2000元,
这 56户家庭的月平均家庭消费为 1100元。在这 56
户中随机抽取一户,该家庭的消费支出为 1300元。
高于平均水平 1100。
1300= 1100+ 200
? 单个家庭的消费支出=
总体中相同收入水平下的所有家庭的平均消费支出
± 某一数量
? 回到模型中:
? 对于式 (2.1.2) ci = ? + ?yi+?i
? ci由两部分组成:
? ( 1) 一部分由直线 ?+ ?yi组成,称为 确定部分
或系统性部分 。
? 它被认为是所研究问题的总体 —该社区全体家庭
中收入同为 yi的那部分家庭的 平均消费支出(平
均值的含义) ;
? ( 2)另一部分由随机误差项 ?i组成,称为 随机部
分或非系统性部分 。
? 它被认为是由收入以外因素决定的,个别家庭对
总体中收入同为 yi的那部分家庭的 平均消费支出
的偏移 。
一元线性回归模型
的参数含义说明
? 斜率 ?1 —度量了 x每变动 1个单位,平均而言,
y的变动( y的平均改变量 )
? 截距 ?0—度量了在 x = 0是,平均而言, y的
取值
? 例子:
? 需求量与价格的一元线性回归模型(假设总
体可得)
iii μy ?? P*88.305.76 -
)( ni,,2,1xy 10 ????? iii ???
二、一元线性回归模型的基本假设
( 1) 解释变量 x是确定性变量, 不是随机变
量
( 2) 随机误差项具有0均值和同方差,
E(?i)=0 i=1,2,…,n
Var (?i)=??2 i=1,2,…,n
( 3)随机误差项在不同样本点之间是独立的,
不存在序列相关:
Cov(?i,?j)=0 i≠j i,j= 1,2,…,n
( 5) 随机误差项服从正态分布
即随机误差项服从0均值、同方差的正态分布:
?i~N(0,??2 ) i=1,2,…,n
( 4)随机误差项与解释变量之间不相关:
Cov(xi,?i)=0 i=1,2,…,n
假设 2 随机误差项期望为零
? 每个 xi对应的随机误差项 ?i的期望为零。
? 即随机误差项 ?i对被解释变量 yi有着或正或
负的影响,平均来看,?i对 yi没有影响。
? 我们总是可以采用适当方法保证 随机误差
项的期望为零,因此随机误差项的期望为
零假设可以认为是合理的。
假设 2 随机误差项同方差
( Constant Error Variance)
? Var(?i)=??2 (i=1,2,……, n)
? 表明对所有的 ?i,变动的方差是相同的,称为同
方差。
? 在同方差时,可将 ??2 的下标去掉,用 ?2表示即
可。
? 否则,
? Var(?i)=?2i (i=1,2,……, n)
? ?2i是一个变量(随 i而变)。这种情形称为异方差。
(在 2.6中讨论)
同方差
x1 x2
X
?
Y
随着 x变化随机误差项 ?的方差不变
y= ? 0+ ? 1x
异方差
x1 x2
X
u 随着 x增加随机误
差项方差增大Y
假设 3随机误差项无序列相关
( Error Independent)
? 假设 3表明 不同 的 随机误差项之间 没有 相关 关系 (见图 )
? ? i与 ? j不相关,也就是说,对所有的 i j,有
COV(?i,?j) =0
? 因为 COV(? i,? j)=E[?i -E(?i)][?i -E(?j)]
? 由 0均值假设,E(?i )=0,E(?j)=0
? 从而假设 3可表为,COV(?i,?j) =E(?i ? j)=0
? 表明 ?i与 ?j不相关( i j),
? 如果 COV(?i,?j)= E(?i ? j) 0,称为随机误差项序列
相关(自相关)( Autocorrelation)。(在 2.7中讨
论)
?
?
?
假设 3随机误差项无序列相关
i?
0 0 0
i?
i?
1?i? 1?i? 1?i?
() 无序列相关a ()正序列相关b () 负序列相关c
假设 4 所有 xi与对应的 ?i不相关
? 即对所有 i来说
COV(xi,?i)=0
? 这保证了 ?i的取值与 xi的取值之间没有相
关关系。
注意:
? 如果第 (1)条假设满足,则第 (4)条也满
足 ;
假设 5 随机误差项服从0均值、
同方差的正态分布
??
?i
?i ?N(0,??2)
E(?i)??
? 经验表明:对于取值依赖于众多微小因素,
每一因素均产生微小的或正或负影响的连
续型随机变量来说,正态分布是一个相当
好的近似分布形式。
? 一般说来,对于随机误差项 ?i而言,在大样
本下正态分布的假设一般自动成立的,小
样本下则需考察;
对于基本假设的重要提示
? 计量分析的方法中,特定的方法适用的模型形式是有条件限
制的,因此在建模和估计模型之前,必须对模型先作设定;
? 几乎没有哪个实际问题能够同时满足所有基本假设;
? 0均值的假设是合理的;
? 在大样本下正态分布的假设一般自动成立的,小样本下则需
考察;
? 违背基本假设问题的处理构成了单方程线性计量经济学理论
方法的主要内容:
异方差问题(违背同方差假设)
序列相关问题(违背序列不相关假设)
多重共线性问题(违背解释变量不相关假设)
随机解释变量(违背解释变量确定性假设)
? 通过模型理论方法的发展,可以克服违背基本假设带来的问
题;
满足基本假设的一元线性回归模型的一般形式为
满足基本假设
( 1)随机误差项均值为 0 E(?i)=0 ;
( 2)随机误差项同方差 Var (?i)=??2;
( 3)随机误差项无序列相关 Cov(?i,?j)=0;
( 4) x是确定性的,非随机变量 Cov(xi,?i)=0;
( 5)随机误差项服从正态分布 ?i~N(0,??2 )
i,j=,2,…,n; i≠j
)( ni,,2,1xy 10 ????? iii ???
三、一元线性回归模型的参数估计
⒈ 问题的提出
? 在经济研究中,当我们建立起一个理论模型
? 并收集和加工好符合模型要求的样本数据后
? 我们的一个 主要目的 是什么?
? 既然认为总体中的变量 y与 x之间存在线性关系,
就应该尽可能精确地描述它们之间的这种关系,
即尽可能准确的估计模型中的未知参数 ?0 和 ?1
iii ??? ??? xy 10
2、在参数估计中需要考虑的问题
由于总体的信息往往无法掌握,现实的情况只能是在一次
观测中得到总体的一组样本。
? 需考虑的两个问题:
? ( 1)能从一次抽样所得的样本中获得总体变量关系的近
似的信息吗?
? 能。统计知识能够帮助我们解决 ——采取适当的抽样方法
能够保证在一定程度上样本是对总体的近似
? ( 2)如果可以,如何从样本中获得总体变量关系的近似
信息?即如何找出反映变量关系的参数近似值,以及如何
评价近似值。
? 在计量中需要解决的问题
例子
Y 70 0 65 0 90 0 95 0 1 1 0 0 1 1 5 0 120 0 140 0 155 0 150 0
X 80 0 100 0 120 0 140 0 160 0 180 0 200 0 220 0 240 0 260 0
)( 1.2.2 xy 10 iii ??? ???
例 2.1,一个假想的社区有 60户家庭组成,要研究该社区每月
家庭消费支出 y与每月家庭可支配收入 x的关系。
通过调查得到一组关于家庭收入影响家庭消费支出的样本数
据
由凯恩斯绝对收入假设消费理论和样本数据散点图建立理论模
型
问:能否从该样本估计未知参数 ?0 和 ?1?
该样本的散点图( scatter diagram):
样本散点图近似于一条直线,画一条直线 使其尽可能
好地拟合该散点图,由于样本取自总体,可认为该线近
似地代表总体变量 y与 x间的关系 。该线称为 样本回归线
( sample regression line) SRL,其函数形式记为:
500
700
900
1100
1300
1500
1700
0 500 1000 1500 2000 2500 3000
X
Y
iii xxfy 10 ??)(? ?? ??? ( 2.2.2)
称为 样本回归函数 (方程)( sample regression function ) SRF。
xy ii 10 ??? ?? ??
SRL
(” ?, 读作“帽”,有, ?“的变量表示它是一个估计量(估
计值))
i?? 为 i? 的估计值 )1,0(?i
的估计值是在具体样本下,ii yy?
iii xxfy 10
??)(? ?? ???
在样本回归函数中注意:
? 在具体样本下,
? ei称为 残差( residual )它是实际的样本观测值
yi与估计值 之差,
? ei代表了其他影响 yi的随机因素的集合体,ei共
有 n个。
? 由于样本只是总体的一部分,从而样本回归线或
者说样本回归函数仅仅是近似描述了总体变量关
系
xyyy iiii 10 ??? ?? ?????e i
iy?
⒊ 进行一元线性回归 模型参数估计的主要目的
寻找一种好方法求样本回归函数,使得它
对总体的近似是一种尽可能“接近”的近
似。或者说构造样本回归函数,使 和
尽可能接近真实的 ?1和 ?0 1
?? 0??
怎么达到这一目的呢?
4,一元线性回归模型参数估计的基本思路
基本思路:用拟合样本趋势的方法,寻找
一条 尽可能好地拟合所有样本点 的样本回
归线 SRF—— 以该直线近似 地
代表总体中变量 y与 x间的关系 ——
。 或者说,得到参数近似值
和 。
? 寻找变量之间直线关系的方法多多。一种优良的
方法就是本节介绍的 普通最小二乘法 。
1??
0??iii ??? ??? xy 10
ii xy 10 ??? ?? ??
4,一元线性回归 模型的参数估计方法 —
普通最小二乘法 ( Ordinary Least Square,OLS)
? 思路:共有 n对样本观测值 (x1,y1),(x2,y2) ……..,
(xn,yn) i=1,2,……,n
? 对于某一个观测值 yi而言,
? 式中 是 yi 的估计值,ei是 残差( residual )
它是实际观测值 yi与估计值 之差,ei可看成对
?i的估计。
iii ??? ??? xy 10
iiiii ee ????? xyy 10 ??? ??
iy?
iy?
y
x
纵
向
距
离
( )yxA 11,
( )yxB ? 11,
A和 C为实际点,B
和 D为拟合直线上
与之对应的点
图示说明
( )yxC 22,
xyyy iiii 10 ??? ?? ?????ei纵向距离
( )yxD ? 22,
残差为正
残差为负
? 纵向距离是实际观测值 y与估计值之差,即残差。
? 对于每一个点而言,残差的绝对值大,说明拟合
不好(估计值与实际观测值相差大),残差的绝
对值小拟合好,因此残差的绝对值越小越好。
? 为了精确地描述 y与 x之间的关系,尽可能好地拟
合所有样本点,必须使用这两个变量的每一对样
本观测值,才不至于以点概面(作到全面)。
? 因此需要考虑所有样本点的残差。使所有残差的
绝对值都尽可能很小。
? 如何达到这一要求呢?
? 对所有残差的绝对值求和 ——不便于进一步的讨
论
? 将所有残差平方后相加,得残差平方和,使残差
平方和最小。
我们希望做到的 ——寻找一条尽可能好地拟
合所有样本点的样本回归线
? 使所有样本点的残差平方和最小的直线就是“最
好”的拟合“所有样本点”的直线。
? 这条最好的直线就是所要求的样本回归线。
? 于是在给定样本下,
? 求样本回归线 的问题
? 转换为
? 在给定样本下,找到使残差平方和最小的直线
ii xy 10 ??? ?? ??
):(注 xyyy iiii 10 ??1 ? ?? ?????e i
ii xy 10 ??? ?? ??
我们希望做到的 ——寻找一条尽可能好地拟
合所有样本点的样本回归线
给定一组样本观测值 xi,yi( i=1,2,… n), 残差平
方和是 和 的函数。选择不同的 和 将给出
不同的残差平方和
? 于是在给定样本下,
? 求样本回归线 的问题
? 最终转换为
? 即在给定样本下找到使得残差平方和最小的参数
估计值
ii xy 10 ??? ?? ??
1?? 0?? 0??1??
2
10
2 ??2)?(? ?? ????? )( xyyy
iiii ??e i
2、普通最小二乘法( Ordinary Least
Square,OLS)的具体操作
给定一组样本观测值 xi,yi( i=1,2,… n), 选
择估计的 和, 使残差即实际观测值与相应
估计值之差的平方和最小。
2
1
)?( i
n
i yyminQ= ∑ ei2 ??? =
2
10
1
))??(( i
n
i xy ?? ??? ( 2.2.3)
0??1??
根据求极值的原理,可推得用于估计 0??, 1?? 的下列方程组:
??
???
???
???
?
?
0)??(
0)??(
10
10
iii
ii
xyx
yx
??
?? (2.2.4)
或
?
?
?
S?S?S
S??S
2
10
10
??
??
iiii
ii
xxxy
xny
??
?? (2.2.5)
解得:
?
?
?
???
?
S?S
SS?S?
S?S
SS?SS?
221
22
2
0
)(
?
)(
?
ii
iiii
ii
iiiii
xxn
xyxyn
xxn
xyXyx
?
?
(2.2.6)
方程组 ( 2.2.5) 称为 正规方程组 ( normal equations) 。
推导参看教材 P26,27
3、参数估计的离差形式 (deviation form)
xxx ii -?? yy ii -?y?
)(
=
7.2.2
?-?
?
10
21
?
?
?
?
?
?
?
?
xy
x
yx
i
ii
??
?
?
??
?? ixx n1 ?? iyy n
1
则( 2.2.6)的参数估计量可以写成:
由于 0??, 1?? 的估计结果是从最小二乘原理得到的,故称为
普通最小二乘估计量 (OLS estimators)
.在变量上为离差
案例分析 1
?( 1)家庭收入和家庭消费支出
问题
?( 2)教材 P34页
家庭收入和家庭消费支出问题
Y 70 0 65 0 90 0 95 0 1 1 0 0 1 1 5 0 120 0 140 0 155 0 150 0
X 80 0 100 0 120 0 140 0 160 0 180 0 200 0 220 0 240 0 260 0
)( 1.2.2 xy 10 iii ??? ???
例,一个假想的社区有 60户家庭组成,要研究该社区每月家庭
消费支出 y与每月家庭可支配收入 x的关系。
通过调查得到一组关于家庭收入影响家庭消费支出的样本数
据
由凯恩斯绝对收入假设消费理论和样本数据散点图建立理论模
型
请从该样本估计未知参数 ?0 和 ?1?
在 收入 -消费支出例 中,参数估计的计算
如下:
收入 x
(元)
支出 y
(元)
xx ? yy ? ))(( yyxx ?? 2)( xx ? 2x y 2)?( yy ?
1 800 700 -900 -410 369000 810000 640000 652 2321
2 1000 650 -700 -460 322000 490000 1000000 754 10740
3 1200 900 -500 -210 105000 250000 1440000 855 1984
4 1400 950 -300 -160 48000 90000 1960000 957 53
5 1600 1100 -100 -10 1000 10000 2560000 1059 1674
6 1800 1150 100 40 4000 10000 3240000 1161 119
7 2000 1200 300 90 27000 90000 4000000 1263 3935
8 2200 1400 500 290 145000 250000 4840000 1365 1257
9 2400 1550 700 440 308000 490000 5760000 1466 6995
10 2600 1500 900 390 351000 810000 6760000 1568 4649
平均 1700 1110
求和 1680000 330000032200000 11100 33727
5091.033000001680000)( ))((? 21 ??? ??? ?? xx yyxx?
5.24417005091.01110?? 10 ?′???? xy ??
居民家庭收入与消费支出的样本回归函数为:
ii xy 5091.05.244? ??
注意
? 在计算过程中应该注意,中间计算结果要
保留足够多的有效数字位数。
? 例如,在计算过程中,均值、离差、残差
等都要保留比较多的有效数字位数,否则
在计算残差平方和以及其后的计算中将出
现较大误差。
? 作为最终计算结果,通常保留四位有效数
字就足够了。
四、普通最小二乘估计量
的统计性质
高斯 -马尔可夫定理
引
? 和 是常数还是随机变量?
? 和 是根据样本观测值 (xi,yi) 求得的。样本不
同,、的取值也就会各不相同。即 给出多个
样本,就会得到多组参数估计值。 因此,和
均为 随机变量。
? 它们分别是 ?1和 ?0的 估计量 。
? 在给定的一个具体样本下,我们根据 OLS公式
可计算出的 和 一个具体估计值作为对总体参
数的估计。
1??
1?? 0??
0??
0??1??
0??1??
1?? 0??
问题的提出
? 对于设计模型:
? yi=?0+?1xi+?i
(i=1,2,?????,n)
? 采用普通最小二乘法,得到普通最小二乘估
计量( OLS估计量)对真实的总体参数进行估
计。当然我们希望这种估计越准确越好。
? 在给定样本下,利用 OLS法得到的参数 估计
值到底能否 代表(准确估计)总体参数的真
值呢?这就要看 OLS估计量是不是一个好的
估计量。
在计量研究中,一个用于考察总体的参
数估计量,可从三个方面考察其优劣性:
( 1)线性性 (linear),即是否是另一随机
变量的线性函数;
( 2)无偏性 (unbiased),即它的均值或期
望值是否等于总体的真实值;
( 3)有效性 (efficient),即它是否在所有
线性无偏估计量中具有最小方差。
1、线性性:参数估计量可以表示为被解释变量观测值
yi的线性函数(线性组合)。
? 同理可证,也是 yi的线性函数;
? 而且,和 也是随机误差项 ?i的线性函数
( )
( ) ( )
( )
是线性的。的线性组合,即是说明
令
=
111
2
2221
???
,
?
???
?
yyw
xx
x
w
y
xx
x
y
xx
x
x
yx
ii
i
i
i
i
i
i
ii
i
i
x
i
x
i
x
i
?
? ?
?
? ?? ?
?
?
?
??
?
?
?
?
?
??
?
??
0??1??
0??
? 线性性的意义:参数估计量与被解释变量服
从相同名称的分布,也与随机误差项服从相
同名称的分布。利于进行模型的检验。
2.无偏性( unbiased):
参数估计量的均值等于总体回归系数真值
? 参数估计量的均值就是真实值:
? 意义:
参数估计量是以参数真实值为分布中心
的随机变量,反复抽样估计可得真实值。
? 利用线性性表达和模型假设 1和 2证明 。
00 ]?[ ?? ?E 11 ]
?[ ?? ?E
无偏性证明
( ) ( ) ( )
( ) ( )
( ) ( )
( )
的无偏估计量。是说明
而
又
11
?
1
1
1
0
0101
?
101
?
1010
1
?
0)(
101
?
??
??????
???
????
?
???
?
??????????
? ???
?????
????
??????
x iw iw iE
x iw iE
x iu ix iEy
i
E
y
i
Ew
i
y
i
w iEE
u iEu ix iy
i
y
i
w i ??
3、有效性(又称最小方差性):
在所有线性无偏估计量中,最小二乘估计量
具有最小方差。
? 方差小是对参数估计量价值的重要支持。
? 证明的思想:设参数的任意其他线性无偏估计量,
证明它们的方差大于最小二乘估计量。
? 在对 OLS估计量有效性的证明过程中,利用了基
本假设 1,2,3,4。
? 假设 是通过其它方法得到的关于 的线性无偏
估计量
)?var()?var( 1*1 ?? ?
*
1
?? ?1
Sampling distribution of OLS estimator 1?? and alternative estimator *1??
1
1
*
11 )?()?( ??? ?? EE
1?? *
1??
同理可证明 )?var()?var( 0*0 ?? ?
高斯 — 马尔可夫定理
(Gauss-Markov theorem)
在给定线性回归的基本假设下, 普通最小二
乘估计量是具有最小方差的线性无偏估计量 。
4,结论
在模型满足基本假设的条件下, 普通最小二乘估
计量具有线性性, 无偏性, 最小方差性等优良性质 。
具有这些优良性质的估计量又称为 最佳线性无偏
估计量, 即 BLUE 估计量 ( the Best Linear
Unbiased Estimators) 。
普通最小二乘估计量具有 BLUE性质, 是 BLUE估
计量 。 这就是为什么最小二乘法在计量中被广泛应
用的原因 。
显然这些优良的性质依赖于对模型的基本假设 。
所有估计量集合 所有线性估计量集合
所有无偏估计量集合
最
小
二
乘
估
计
量
的
性
质
BLUE集合
? 在对 OLS估计量有效性的证明过程中,得
到最小二乘估计量的方差公式。
? 普通最小二乘估计量的方差公式
( ) ( )
?? ?
??
ix?
2
2
2
2
1
? ??? ??
xx i
V a r
( ) ( )
?
?
?
?
?
?
?
?
?
?
??
?? ?
?
ixn ?
2
22
2
2
2
0
? x
xxn
x
i
iV a r
??? ??
(2.2.13 )
(2.2.14 )
( ) ( )
?? ?
??
ix?
2
2
2
2
1
? ???
??
xx i
V a r
( ) ( ) ( )
( ) ( ) ( )
( )
( )
( )
( )? ?
? ?
??
??
??
??
??
????
??
xx
xx
ww
uwuxw
ywyw
i
i
ii
iiiii
i
i
i
i
Va r
Va r
Va rVa rVa r
Va rVa rVa r
2
2
1
2
2
2
2
1
2
10
2
1
2
1
?
1
?
?
?
?
?
?
?
???
?
?
? 而
五、案例分析
?( 1)奥肯定律
?( 2)汇率问题
一元线性回归模型参数估计
案例分析
奥肯定律
? 布鲁金斯学会主席,美前总统经济顾问委员会主席
奥肯( Arthur Okun)根据美国 1947- 1960年的
数据,得到如下回归方程,称之为奥肯定律
? 其中 yi表示失业率的变动数(百分数);
? xi表示实际产出的增长率(百分数),用实际
GNP度量;
? 2.5是对美国历史的观察得到的长期产出增长率
2, 5 )-(4.0-y ii x?
?
? 在这个回归方程中,斜率为- 0.4,奥肯定律说的
是实际 GNP增长每超过 2.5个百分点,平均而言,
失业率将降低 0.4个百分点。
? 奥肯定律被用来预测为使失业率减少到一定百分点
所需的实际 GNP的增长率。
? 若实际 GNP的增长率为 5%时,将使失业率减少一
个百分点,或者说若使增长率达到 7.5个百分点,
则需减少失业率 2个百分点。
? 通过整个例子,我们可以了解回归结果是如何被运
用到政策当中去的。
2, 5 )-(4.0-y ii x?
?
名义汇率与相对价格间的关系
? 令 y 代表德国马克对美元的汇率,x代表美国与德
国的消费者价格指数( CPI)之比,即 x表示了
两个国家的相对价格。利用 1980- 1994年间的
数据,可得如下结果:
tt x318.4-682.6y ?
?
? 在这个回归方程中,斜率为- 4.318,表示在
1980- 1994年期间,相对价格每上升一单位,平
均而言,马克对美元的汇率下降 4.318个单位,也
即美元将会贬值。因为一美元将兑换更少的德国
马克。斜率的经济含义是,如果价格在美国上涨
得比德国快,则美国的消费者将转向消费德国产
品,因此对马克的需求上升,从而导致马克的增
值。这就是购买力平价理论(单一价格法则)的
实质。
? 截距 6.682表是若相对价格为 0(不可能),则马
克对美元的汇率的均值为 6.682。即 1美元兑换
6.682德国马克,但是这种解释没什么经济意义。
tt x318.4-682.6y ?
?
本节内容扩展
? 一元线性回归模型的一般形式
?
?
(2.2.1)
? 被解释变量(应变量) y (dependent variable),
? 解释变量 ( 自变量) x ( independent variable)
? 随机误差项 (随机扰动项)(误差项) (扰动项 )
? ?( disturbance term or stochastic error )
? 参数(回归系数)(待估参数) ?0, ?1
? 斜率 ?1 ( slope parameter )
? 截距 ?0 ( intercept parameter)
? 一元线性回归模型又称为双(两)变量线性回归模型、简
单线性回归模型。
)( ni,,2,1xy 10 ????? iii ???