第三章 最小二乘法(一)
一元线性回归
2
郝东林同学的来信
? 席老师:
? 你好。
? 我是 97经济学班的学生。我在网上浏览了你的计量
经济学园地网址,觉得比看课本有趣易懂多了。可以
看出,您在上面一定花费了大量的心血。
? 平时,我也比较喜欢玩电脑,如果在文字录入、编
辑排版等方面需要我帮忙的话,我很乐意为您和您精
心建立的网页尽自己的一份力量。当然,这对我也是
一种锻炼和提高。课后和其他同学聊天,我们都由衷
的称赞您关心我们(是您使我们班同学切身体会到了
学好电脑的重要性),同时,我们有信心把计量经济
学这门课学好。
3
? 不过,我还有一点疑问,到现在为止,我们在课堂上
学习的还都是数学方面的内容,根本看不出与经济方
面有多少密切的联系。不知道当我们学完这门功课后,
凭我们那一丁点儿计量经济学知识,能否在日常工作
生活中对自己有所帮助?
? 再次感谢席老师。
? 学生:郝东林
? 2000年 3月 6日
4
答郝东林同学问
? 首先,感谢小郝反馈了关于教学方面的意见。
? 现在作如下的回答:
? 1、习惯于将经济理论转换为用方程或模型来表示。经济学
研究的,也就是这里要讨论的。只是表现形式不同。
? 2、经济现象间的关系转换为变量间的关系,这种关系的具
体形式就是模型。比如,投入生产要素与产出间的关系。
? 3、本课程教学目的:为同学们进行研究、探索属于你自己
亲自证实出来的经济规律,作最基本的准备 ——提供最基本
的方法和手段。这些方法是数学、统计学的,不可回避。但
应把注意力集中在这些方法的运用的 条件、背景和所得结论
的解释上,而不是数学上的推证。并相信这些方法是学者们
已经证实了的。
? 4、同学们要真正看到计量经济学的经济学“味道”,只能
通过案例教学和作上机练习来解决。
5
问题的提出 ——必要性
? 通过协方差或相关系数证实变量之间存在关系,仅仅
只是知道变量之间线性相关的性质 ——正(负)相关
和相关程度的大小。
? 既然它们之间存在线性关系,接下来必须探求它们之
间关系的表现形式是什么?
? 最好用数学表达式将这种关系尽可能准确、严谨的表
示出来 ——y=a+bx+u——把它们之间的内在联系挖掘
出来。也就是直线中的截距 a=?;直线的斜率 b=?
? 消费 =基本生存 +边际消费倾向 X可支配收入 +随机扰动

6
解决问题的思路 ——可能性
? 寻找变量之间直线关系的方法多多。于是,再接下
来则是从众多方法中,寻找一种优良的方法,运用
方法去求出线性模型 ——y=a+bx+u中的截距 a=?;
直线的斜率 b=? 正是 是本章介绍的最小二乘法。
? 根据该方法所得,即表现变量之间线性关系的直线
有些什么特性?
? 所得直线可靠吗?怎样衡量所得直线的可靠性?
? 最后才是如何运用所得规律 ——变量的线性关系?
7
最小二乘法产生的历史
? 最小二乘法最早称为回归分析法。由著
名的英国生物学家、统计学家道尔顿
( F.Gallton) ——达尔文的表弟所创。
? 早年,道尔顿致力于化学和遗传学领域
的研究。
? 他研究父亲们的身高与儿子们的身高之
间的关系时,建立了回归分析法。
8
最小二乘法的地位与作用
? 现在回归分析法已远非道尔顿的本意
? 已经成为探索变量之间关系最重要的方
法,用以找出变量之间关系的具体表现
形式。
? 后来,回归分析法从其方法的数学原
理 ——误差平方和最小(平方乃二乘也)
出发,改称为最小二乘法。
9
父亲们的身高与儿子们的身高之间
关系的研究
? 1889年 F.Gallton和他的朋友 K.Pearson收
集了上千个家庭的身高、臂长和腿长的
记录
? 企图寻找出儿子们身高与父亲们身高之
间关系的具体表现形式
? 下图是根据 1078个家庭的调查所作的散
点图(略图)
y
x160
165
170
175
180
185
140 150 160 170 180 190 200
Y
X
儿子们身高向着平均身高“回归”,以保持种族的稳定
11
―回归”一词的由来
? 从图上虽可看出,个子高的父亲确有生出个子
高的儿子的倾向,同样地,个子低的父亲确有
生出个子低的儿子的倾向。得到的具体规律如
下:
? 如此以来,高的伸进了天,低的缩入了地。他
百思不得其解,同时又发现某人种的平均身高
是相当稳定的。最后得到结论:儿子们的身高
回复于全体男子的平均身高,即“回归” ——
见 1889年 F.Gallton的论文, 普用回归定律, 。
? 后人将此种方法普遍用于寻找变量之间的规律
xy
ubxay
516.033.84? ??
???
12
最小二乘法的思路
? 1.为了精确地描述 Y与 X之间的关系,必须使
用这两个变量的每一对观察值,才不至于以点
概面(作到全面)。
? 2,Y与 X之间是否是直线关系(协方差或相关
系数)?若是,将用一条直线描述它们之间的
关系。
? 3.在 Y与 X的散点图上画出直线的方法很多。
? 任务? ——找出一条能够最好地描述 Y与 X
(代表所有点)之间的直线。
? 4.什么是最好? —找出判断“最好”的原则。
? 最好指的是找一条直线使得这些点到该直线的
纵向距离的和(平方和)最小。
13
三种距离
y
x




横向距离
距离
? ?yx iiA,
? ?yx iiB ?,
A为实际点,B为拟
合直线上与之对应
的点
xyyyu iiiii ba ????? ?纵向距离
14
距离是度量实际值与拟合值
是否相符的有效手段
? 点到直线的距离 ——点到直线的垂直线
的长度。
? 横向距离 ——点沿(平行) X轴方向到直
线的距离。
? 纵向距离 ——点沿(平行) Y轴方向到直
线的距离。也就是实际观察点的 Y坐标减
去根据直线方程计算出来的 Y的拟合值。
? 这个差数以后称为误差 ——残差(剩
余)。
15
最小二乘法的数学原理
? 纵向距离是 Y的实际值与拟合值之差,差
异大拟合不好,差异小拟合好,所以又
称为拟合误差或残差。
? 将所有纵向距离平方后相加,即得误差
平方和,“最好”直线就是使误差平方
和最小的直线。
? 于是可以运用求极值的原理,将求最好
拟合直线问题转换为求误差平方和最小。
16
数学推证过程
? ? ? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ? ? ?
? ?
)6(
?
)5(
?
?
)4(
)3(
)2(02
)1(02
m i nm i n
2
2
22
2
2
2
2
22
2
?
?
?
??
??
xx
yx
yx
y
xx
x
yxxx
yx
xxy
u
xy
u
xbayu
xbayyyu
xyyyu
n
yxn
bxbya
b
an
ba
bna
ba
b
ba
a
ii
iiii
ba
i
i
i
i
i
i
ii
i
i
iii
i
i
ii
i
i
i
i
i
i
i
i
iii
i
?
?
???
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
??
??
?
?
?
?
?
?
?
?????
?
?
?????
?
?
???
??
?????
?
?
?
?
??
?
???
??
?
?
?
?
? ???
? ??? ??

17
关于所得直线方程的结论
? 结论之一:
? 由( 5)式,得
? 即拟合直线过 y和 x的平均数点。
? 结论之二:
? 由( 2)式,得
? 残差与自变量 x的乘积和等于 0,即两者不相关。
? ?
? ? 两者不相关。
)式,由(
?????
?????
?????
??
0
?
0,c o v
002
,
?
?
??
?
xu
ba
ba
ii
xu
xuxxy
xyyyu
ii
iiiii
iiiii
?
xbayxbya ????5 ?????)式:由(
18
第一节 拟合直线的性质
? 1.估计残差和为零
? 2,Y的真实值和拟合值有共同的均值
? 3.估计残差与自变量不相关
? 4.估计残差与拟合值不相关
19
1.估计残差和为零
( Residuals Sum to zero)
? 由( 1)式直接得此结论无须再证明。并
推出残差的平均数也等于零。 ? ?
? ?
? ?
0
00
)1(02
?
?
?
?
??
2
???
??????
?????
?
?
?????
?
??
?
?
u
u
uxy
xy
u
xyyyu
i
i
iii
ii
i
iiiii
n
ba
ba
a
ba
20
2,Y的真实值和拟合值有共同的均值
( The actual and fitted values of yi have
the same mean)
yy
baba
yy
u
uyyuyy
xyuxy
ii
i
i
ii
i
ii
i
i
ii
i
?
01
?
?
?
?
????
?
??
??
?
?????
?????
??
?
???
:性质

?
21
3.估计残差与自变量不相关
( Residuals are unrelated with
independent variable)
? ?
? ? ? ?
? ?
? ? ? ?? ? ? ?
? ?
? ??
??? ?
? ? ?
??
? ? ??
???
??????
????
???????
???
?
?
0
0,20
00?
1
?,c o v
0?,c o v0
11
?,c o v
?
????
???
??
??
22?,
ux
uxuxuux
uuxux
uxux
uuxx
ii
iiiiiii
iiiii
iiii
ux
x
xx
xx
xux
n
ux
ux
inin
ux
)式由(
?
22
4.估计残差与拟合值不相关
( Residuals are unrelated with fitted
value of yi)? ? ? ? ? ?
? ?
00
?
0??
?
??
?
?
???
?
???
??????????
0???0???
1
?,?c o v
???????
?????
?????
??????
??
????
?? ?? ?
??
baubua
ubuaubauy
uyuyuyuyuy
uyyuyy
n
uy
x
xx
i
ii
23
关于回归直线性质的总结
uxuyy iiiii ba ??? ?? ?????
残差和 =0
平均数相等
拟合值与残差不相关 自变量与残差不相关
注意:这里的残差与
随机扰动项不是一个
概念。随机扰动项是
总体的残差。
24
第二节 拟合优度的评价
25
问题的提出
? 由最小二乘法所得直线究竟能够对这些
点之间的关系加以反映吗?
? 对这些点之间的关系或趋势反映到了何
种程度?
? 于是必须经过某种检验或者找出一个指
标,在一定可靠程度下,根据指标值的
大小,对拟合的优度进行评价。
? 分四个问题进行讨论:平方和分解、方
差分析、拟合优度、拟合优度与简单相
关系数的关系。
26
一、平方和与自由度的分解
? 1、总平方和、回归平方和、残差平方和
的定义
? 2、平方和的分解
? 3、自由度的分解
27
1、总平方和、回归平方和、残
差平方和的定义
? TSS度量 Y自身的差异程度,RSS度量因
变量 Y的拟合值自身的差异程度,ESS度
量实际值与拟合值之间的差异程度。
? ?
? ?
? ? ?? ?
? ?
? ?
??
?
?
uyy
yy
yy
iii
ERS
i
R S S
i
T S S
??
?
22
2
2
28
2、平方和的分解
? ?
? ? ? ?? ?
? ? ? ?? ? ? ?
? ? ? ? ? ?? ?
? ?? ?
? ?? ? ? ?
E S SR S ST S S
yy
yyy
yR S SE S S
y
iii
i
y
ii
iii
i
T S S
uyu
uyuyuyyy
yyy
yyyyyyy
yyyyyyy
yyyy
yy
i
i
i
i
i
i
i
i
iii
iii
iii
iii
???
??????
??????
?????
?????
?
?
?
?
?
?
?????
?
?
? ?
? ???
?
? ? ???
? ??
? ???
? ?
000
2
2
2
???
???????
??
????
????
??
22
22
2
2
29
平方和分解的意义
? TSS=RSS+ESS
? 被解释变量 Y总的变动(差异) =
? 解释变量 X引起的变动(差异)
? +除 X以外的因素引起的变动(差异)
? 如果 X引起的变动在 Y的总变动中占很大
比例,那么 X很好地解释了 Y;否则,X
不能很好地解释 Y。
30
3、自由度的分解
? 总自由度
? dfT=n-1
? 回归自由度
? dfR=1(自变量的个数,k元为 k)
? 残差自由度
? dfE=n-2
? 自由度分解
? dfT=dfR+dfE
31
平方和分解图
yy?
yy??
1 60
1 65
1 70
1 75
1 80
1 85
1 40 1 50 1 60 1 70 1 80 1 90 2 00
Y
X
yy ??
y
正交分解
yy?
yy??
yy ??
yy??
32
为什么回归平方和是由 X引起的变动
? ? ? ?? ?
? ? ? ?? ? ? ?? ?? ?? ?? ?
? ???? ?
???
??
??????
xxtgxxbxbxb
xbaxbayy
xyuyy
iii
i
iiiii
R S S
i
R S S
xbayba
?
222
22
???
?????
??? ????
? ?yx,
xxi?
yyi??
yi
xi
?
A B
C
33
二、方差分析
? 模型,y=a+bx+u ==>LS估计,y^=a^+b^x
? H0:b=0 HA:b<>0
±? òì à′ ?′ ?? ·? oí ×? óé ?è ?ù ·? F í3 ?? á?
?? 1é μ? R S S 1 ?? 1é ·? 2? = R S S / 1 F= ?? 1é ·? 2? / ?ó 2? ·? 2?
ê£ óà μ? E S S n - 2 ?ó 2? ·? 2? = E S S / ( n - 1 )
×ü μ? T S S n - 1
·? 2? ·? ?? ±í
34
关于 F检验
? 零假设 H0,b=0 备择 HA,b<>0
? H0,b=0 <==>RSS中的 X不起作用,RSS变动
无异于随机变动 ==>
? 分子方差与分母方差是一回事 ==>F=1
? 如果 F显著地大于 1,甚至 F>F?==>小概率事件发生了,
根据小概率原理,小概率事件在一次试验中是不可能
发生的,于是 H0不成立。 就不能认为 X没有作用。则
直线是有意义的。可靠性 =1- ?
成立成立,HFH
s
s
A
e
r FF
n
E S S
R S S
F,1
2
1
02
2
?
????
?
?
35
三、拟合优度(或称判定系数、
决定系数)
? 目的:企图构造一个不含单位,可以相互进行
比较,而且能直观判断拟合优劣。
? 拟合优度的定义:
? 意义:拟合优度越大,自变量对因变量的解释
程度越高,自变量引起的变动占总变动的百分
比高。观察点在回归直线附近越密集。
? 取值范围,0-1
T S S
E S S
T S S
R S S
T S S
E S S
T S S
R S S
E S SR S ST S S
R ???
?????
1
1
2
36
拟合优度与 F统计量之间的联系
? F显著 ==>拟合优度必然显著 ? ? ? ?
? ?
? ?
? ?
R
R
s
s
k
kn
F
T S S
R S ST S S
k
T S S
R S S
kn
R S ST S Sk
R S Skn
k E S S
R S Skn
F
kn
E S S
k
R S S
F
e
r
2
2
2
2
1
1
1
)(
11
1
?
??
?
?
?
?
?
?
? ?
??
?
?
??
?
??
?
?
??
?
37
四、拟合优度等于实际值与拟合值之
间简单相关系数的平方
? ?? ?
? ? ? ?
? ?? ? ? ?? ? ? ?? ?
? ?? ? ? ? ? ? ? ?
拟合得约好。说明
的相关程度的,与实际的一样,也是说明拟合的和
分母
分子
分子
分子中的
分母
y
yyR
R
R S S
n
R S S
n
yuyyyuyy
yuyyuyyy
yyyy
yyyy
n
i
iiyy
yy
i
i
i
i
ii
i
i
ii
i
iii
yy
T S S
R S S
R S S
n
T S S
n
R S Sy
i
yyy
yyyyyy
R S S
n
T S S
n
i
n
i
n
ii
?
?
1
1
???????
???????
?
?
1
2
2
?,
2
2
2
?,
2
2
22
2
2
?,
11
0
11
11
?
?
?
??????
??????????
? ????? ????? ??
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?? ?? ?
? ? ??
?
?
?
?
?
?
??
38
第三节 复习与提高
? ?
y=a+bx+u
xn+1 yn+1
xn yn
? ?
x2 y2
x1 y1
根据已知样
本采用 LS得
一拟合直线
拟合直线性质,
残差和 =0
残差与自变量无关
拟合值与残差值无关
两个平均数均值相等
R2?0
TSS RSS
ESS
R2
R2?1用直线反映总体
Good?no
Yes
39
案例分析一:教科书 LX1 \ P82
? 教学目的:
– 1.掌握依据已有序列生成新的序列
– 2.掌握模型函数形式设定对估计结果的影

– 3.掌握估计参数的性质
40
案例分析二,LX1 \ HXQ50我
国人均消费函数研究
? 教学目的:
– 1.掌握最小二乘法的流程
– 2.认识最小二乘法估计结果中的各种统计
量的含义与定义
– 3.所得结论的经济学解释
41
案例分析三,LX1 \ WSB3大气
压强与水的沸点的关系
42
案例分析四,LX2 \ LCHF84平
均成本 U形曲线的拟合
? 教学目的:
– 1.掌握非线性最小二乘法估计的流程
– 2.认识最小二乘法估计结果中的各种统计
量的含义与定义
– 3.所得结论的经济学解释