1
概率论与数理统计第 15讲本文件可从网址
http://math.vip.sina.com
上下载
(单击 ppt讲义后选择 '工程数学 '子目录 )
2
§ 3 一元线性回归
3
在客观世界中普遍存在着变量之间的关系,变量之间的关系一般来说可分为确定性的与非确定性的两种,确定性关系是指变量之间的关系可以用函数关系来表达的,另一种非确定性的关系即所谓相关关系,例如人的身高与体重之间存在着关系,一般来说,人高一些,体重要重一些,但同样高度的人,体重往往不相同,人的血压与年龄之间也存在着关系,但同年龄的人的血压往往不同,这些变量关系都是非确定性的,回归分析是研究相关关系的一种数学工具,能够帮助我们从一个变量取得的值估计另一变量所取的值,
4
(一 )一元线性回归 设随机变量 Y与 x之间存在着某种相关关系,这里,x是可以控制或可以精确观察的变量,如年龄,试验时的温度,施加的压力,电压与时间等等,即可以随意指定 n个值 x1,x2,...,xn,因此干脆不把 x看成随机变量,而将它当作普通的变量,
若 Y的数学期望 E(Y)存在,其值随 x的取值而定,是 x的函数,将此函数记为 mY|x 或 m(x),称为 Y关于 x的回归函数,讨论 E(Y)=m(x)与 x的函数关系,
5
对 x取定一组不完全相同的值 x1,x2,...,xn,设
Y1,Y2,...,Yn分别是在 x1,x2,...,xn处对 Y的独立观察的结果,称
(x1,Y1),(x2,Y2),...,(xn,Yn) (3.1)
是一个样本,对应的样本值记为
(x1,y1),(x2,y2),...,(xn,yn).
现希望知道 m(x)的形式,在一些问题中,可由专业知识知道,否则,可将每对观察值 (xi,yi)在直角坐标系中描出它的相应的点,这种图称为散点图,
6
例 1 为研究某一化学反应过程中,温度 x(° C)
对产品得率 Y(%)的影响,测得数据如下,
温度
x(° C) 100 110 120 130 140 150 160 170 180 190
得率 Y(%) 45 51 54 61 66 70 74 78 85 89
40
60
80
100
100 120 140 160 180 200
7
这里自变量 x是普通变量,Y是随机变量,由散点图大致看出 m(x)具有线性函数 a+bx的形式,
设 Y关于 x的回归函数为 m(x),利用样本来估计
m(x)的问题称为求 Y关于 x的回归问题,特别,
若 m(x)为线性函数,m(x)=a+bx,此时估计 m(x)
的问题称为求一元线性回归问题,
8
假设对于 x(在某个区间内 )的每个值有
Y~N(a+bx,s2),
其中 a,b及 s2都是不依赖于 x的未知参数,记
e=Y-(a+bx),对 Y作这样的正态假设,相当于假设
Y=a+bx+e,e~N(0,s2),(3.2)
其中未知参数 a,b及 s2都不依赖于 x,(3.2)称为一元线性回归模型,其中 b称为回归系数,
则 Y由两部分组成,一部分是 x的线性函数
a+bx,另一部分 e~N(0,s2)是随机误差,是人们不可控制的,
9
(二 )a,b的估计 取 x的 n个不全相同的值
x1,x2,...,xn作独立试验,得到样本
(x1,Y1),(x2,Y2),...,(xn,Yn),由 (3.2)式
Yi=a+bxi+ei,ei~N(0,s2),各 ei相互独立,(3,3)
于是 Yi~N(a+bxi,s2),i=1,2,...,n,由 Y1,Y2,...,Yn的独立性知 Y1,Y2,...,Yn的联合密度为
)4.3(.)(
2
1
e x p
2
1
)(
2
1
e x p
2
1
1
2
2
1
2
2
---?
---?
n
i
ii
n
n
i
ii
bxay
bxyL
s?s
s?s
10
现用最大似然估计法来估计未知参数 a,b,对于任意一组观察值 y1,y2,...,yn,(3.4)式就是样本的似然函数,显然,要 L取最大值,只要 (3.4)右端方括弧中的平方和部分为最小,即只需
)5.3()(),(
1
2?
--?
n
i
ii bxaybaQ
)6.3(
.0)(2
,0)(2
1
1
---?
---?
n
i
iii
n
i
ii
xbxay
b
Q
bxay
a
Q取最小值,令 Q关于 a,b的偏导数等于零,
11
得方程组
)7.3(
.
11
2
1
11
n
i
ii
n
i
i
n
i
i
n
i
i
n
i
i
yxbxax
ybxna
(3.7)式称为 正规方程组,
12
由于 xi不全相同,正规方程组的系数行列式
.0)(
1
2
2
11
2
1
2
1
1
-?
-?
n
i
i
n
i
i
n
i
in
i
i
n
i
i
n
i
i
xxn
xxn
xx
xn
故 (3.7)有唯一的一组解,
13
解得 b,a的最大似然估计值为
.
1
,
1
)8.3(
,
1
,
)(
)()(
11
11
1
2
1
2
11
2
111
-?-?
-
--
-
-
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
ii
y
n
yx
n
x
xbyx
n
b
y
n
a
xx
yyxx
xxn
yxyxn
b
其中
14
称为 Y关于 x的经验回归方程,简称 回归方程,
其图形称为 回归直线,
)9.3(
:,?
.
),(
)(?
,)(
,,
,?,
xbay
yxba
xYxbax
bxaxxba
xbaba
方程记数的经验回归函关于称为即的估计作为回归函数就取对于给定的后的估计在得到
m
m
15
今后将视方便而使用 (3.9)或 (3.10).
).,(
),,(
,),,(),,(,)10.3(
)10.3()(
,)9.3(?)8.3(
2211
yx
yx
yxyx
xxbyy
a
nn
几何中心回归直线通过散点图的对于样本值表明程可写成则回归方式的表达式代入中将
-
16
为了计算上的方便,引入下述记号,
)11.3(
.
1
))((
,
1
)(
,
1
)(
1111
2
11
2
1
2
2
11
2
1
2
-?--?
-?-?
-?-?
n
i
i
n
i
i
n
i
ii
n
i
iixy
n
i
i
n
i
i
n
i
iyy
n
i
i
n
i
i
n
i
ixx
yx
n
yxyyxxS
y
n
yyyS
x
n
xxxS
17
这样 a,b的估计值可写成
)12.3(
.
11
,
11
-?
bx
n
y
n
a
S
S
b
n
i
i
n
i
i
xx
xy
18
例 2(续 例 1) 设在例 1中的随机变量 Y符合 (3.2)
所述的条件,求 Y关于 x的线性回归方程,
解 现在 n=10,所需计算列表如下 (表 9.17):
x y x2 y2 xy
100 45 10000 2025 4500
110 51 12100 2601 5610
120 54 14400 2916 6480
130 61 16900 3721 7930
140 66 19600 4356 9240
150 70 22500 4900 10500
160 74 25600 5476 11840
170 78 28900 6084 13260
180 85 32400 7225 15300
190 89 36100 7921 16910
1450 673 218500 47225 101570
19
于是得到回归直线方程
,739 35.2483 03.0145 0
10
1
673
10
1
,483 03.0
,398 5673145 0
10
1
101 570
,825 0145 0
10
1
218 500
2
--
-?
-?
a
SSb
S
S
xxxy
xy
xx
故得
).145(48303.03.67?
.48303.073935.2?
-
-?
xy
xy
或
20
(三 )s2的估计由 (3.2),
E{[Y-(a+bx)]2}=E(e2)=D(e)+[E(e)]2=s2
这表示 s2愈小,以回归函数 m(x)=a+bx作为 Y的近似导致的均方误差就愈小,这样,利用回归函数 m(x)=a+bx去研究随机变量 Y与 x的关系就愈有效,然而 s2是未知的,因而需要利用样本去估计 s2.
21
为了估计 s
2
,先引入下 述 残 差 平方 和,
记
i
xx
i
xbayy
i
|
,称 ii
yy?-
为 x
i
处 的 残 差,
平方 和
--?-?
n
i
ii
n
i
iie
xbayyyQ
1
2
1
2
)
()?(
(3.13)
称 为 残 差 平 方 和,它 是 经验 回 归 函 数 在 x
i
处 的 函数 值 ii
xbax
)(m
与 x
i
处 的 观察 值 y
i
的 偏 差 平方 和,
22
为了计算 Qe,将 Qe作如下分解,
)14.3(.
)
(
2)()
(
))((
2)(
)](
[)?(
2
1
22
11
2
1
2
1
2
xyyye
xxxyyy
n
i
i
n
i
ii
n
i
i
n
i
ii
n
i
iie
SbSQ
SbSbSxxb
yyxxbyy
xxbyyyyQ
-?
-?-?
----?
---?-?
最后得
23
可以证明,作为统计量的残差平方和 Qe服从分布
,2
)17.3(),2(~
2
2
2
-
-
n
Q
E
n
Q
e
s
s
于是
)18.3(].?[
2
1
2
2 xyyye SbS
nn
Q -
-
-
s
即知 E(Qe/(n-2))=s2,这样就得到了 s2的无偏估计量,
24
例 3(续 例 2) 求例 2中 s2的无偏估计,
解 由表 9.17,得
.90.08/23.7)2(?
,23.7
,48303.0
,3985
.0.1932
673
10
1
47225
1
2
3
2
11
2
-?
-?
-?
-
nQ
SbSQ
bS
y
n
yS
e
xyyye
xy
n
i
i
n
i
iyy
s
即得又已知
25
(四 )线性假设的显著性检验 在以上的讨论中,
我们假定了关于 x的回归 m(x)具有形式 a+bx,
在处理实际问题时,m(x)是否为 x的线性函数,
首先要根据有关专业知识和实践来判断,其次要根据实际观察得到的数据运用假设检验的方法来判断,这就是说,求得的线性回归方程是否具有实用价值,一般来说,需要经过假设检验才能确定,若线性假设 (3.2)符合实际,则 b
不应为零,因为若 b=0,则 E(Y)=m(x)就不依赖于 x了,
26
因此需要检验假设
H0,b=0,
H1,b?0,(3.19)
使用 t检验法来进行检验,可以证明,
)20.3().,(~? 2 xxSbNb s
.?
)21.3(),2(~
)2(
2
22
2
独立与且
e
e
Qb
n
Qn
-?
-
ss
s
又由 (3.17),(3.18)知
27
故有
.
)22.3().2(~
),2(~)2(
)2(
2
2
2
2
ss
s
s
s
s
-
-
--
--
这里即 ntS
bb
ntn
n
S
bb
xx
xx
28
当 H0为真时 b=0,此时
)24.3(),2(
|
|
||
,0)
(
)23.3().2(~
2/
0
-
-?
ntS
b
t
HbbE
ntS
b
t
xx
xx
s
s
的拒绝域为即得且此处?为显著性水平,
29
当假设 H0:b=0被拒绝时,认为回归效果是显著的,反之,就认为回归效果不显著,回归效果不显著的原因可能有如下几种,
1,影响 Y取值的,除 x及随机误差外还要其它不可忽略的因素,
2,E(Y)与 x的关系不是线性的,而存在着其它的关系,
3,Y与 x不存在关系,
因此需要进一步分析原因,分别处理,
30
例 4(续 例 2) 检验例 2中的回归效果是否显著,
取?=0.05.
解 由例 2,例 3已知
Sxx=8250,查表得 t0.05/2(n-2)=t0.025(8)=2.3060.
由 (3.24),假设 H0:b=0的拒绝域为
,9.0?,4 8 3 0 3.0? 2 sb
.3 0 6 0.225.468 2 5 0
90.0
4 8 3 0 3.0
||
.3 0 6 0.2?|?|||
t
Sbt
xx
现在
s
故拒绝 H0:b=0,认为回归效果是显著的,
31
(五 )系数 b的置信区间 当回归效果显著时,常需要对系数 b作区间估计,可由 (3.22)式得到 b
的置信水平为 1-?的置信区间为
)25.3(.
)2(? 2/
-?
xxS
ntb
s
).5 0 71 2.0,4 5 89 4.0(
8 2 50
90.0
3 0 60.24 8 30 3.0
例如,例 1中 b的置信水平为 0.95的置信区间为
32
(六 )回归函数 m(x)=a+bx函数值的点估计和置信区间 设 x0是自变量 x的某一指定值,由 (3.9)
000)( xbayxxbaxy 的函数值在可用 m
无偏的因此这一估计量是可以证明考虑相应的估计量
,)
(
)27.3(,
:
)26.3(.
)(
00
00
000
bxaYE
xbaY
xbaxy
m
作为 m(x0)=a+bx0的点估计,即
33
下面求 m(x0)=a+bx0的置信区间,由本章附录 3
知
).1,0(~
)(1
)(?
2
0
00
N
S
xx
n
bxaY
xx
-
-
s
)28.3(),2(~
)2( 2
22
2
-?
-
n
Qn e
ss
s
又由 (3.17)(3.18)知
34
且由本章附录 6知
).2(~
)(1
)(
),2(~)2(
)2(
)(1
)(
,
,
2
0
00
2
2
2
0
00
0
-
-
-
--
-
-
-
nt
S
xx
n
bxaY
ntn
n
S
xx
n
bxaY
YQ
xx
xx
e
s
s
s
s
即于是相互独立
35
于是得到 m(x0)=a+bx0的置信水平为 1-?的置信区间为
.,
||,
)'29.3(.
)(1
)2(
)29.3(,
)(1
)2(
0
00
2
0
2/0
2
0
2/0
时为最短当的增加而增加它随的函数这一置信区间的长度是或
xx
xxx
S
xx
n
ntxba
S
xx
n
ntY
xx
xx
-
-
-
-
-?
s
s
36
(七 )Y的观察值的点预测和预测区间若对指定点 x=x0处因变量 Y的观察值 Y0感兴趣,
然而我们在 x=x0处并未进行观察或者暂时无法观察,经验回归函数的一个重要应用是,可利用它对因变量 Y的新观察值 Y0进行点预测或区间预测,
37
若 Y0是 x=x0处对 Y的观测结果,由 (3.2)知它满足
Y0=a+bx0+e0,e0~N(0,s2),(3.30)
随机误差 e0可正也可负,其值无法预料,就用
x0处的经验回归函数值
000
)( xbaxY m
作为 Y0=a+bx0+e0的点预测,下面求 Y0的预测区间,
38
因 Y0是将要做的一次独立试验的结果,因此它与已经得到的试验的结果 Y1,Y2,...,Yn相互独立,
)31.3().1,0(~
)(1
1
,]
)(1
1[,0~
.
.,,
)(
,,,,
2
0
00
2
2
0
00
0021
021
N
S
xx
n
YY
S
xx
n
NYY
YYYYY
xxbYYYYYb
xx
xx
n
n
-
-
-
-
-
s
s
即可证相互独立与故的线性组合是故的线性组合是因
39
再由 (3.28),(3.31)及 的相互独立性知
eQYY,?,00
),2(~)2(
)2(
)(1
1
2
2
2
0
00
--
-
-
-
ntn
n
S
xx
n
YY
xx
s
s
s
即
).2(~
)(1
1?
2
0
00
-
-
-
nt
S
xx
n
YY
xx
s
40
于是对于给定的置信水平 1-?有
,1)2()(1
1?
|?|
2/
2
0
00
s
-?
-?-
-
nt
S
xx
n
YY
P
xx
.1
)(1
1?)2(
)(1
1?)2(
2
0
2/0
0
2
0
2/0
s
s
-?
-
-
-
--
xx
xx
S
xx
n
ntY
Y
S
xx
n
ntYP
或
41
称为 Y0的置信水平为 1-?的 预测区间,
)'32.3(
)(1
1?)2(
)32.3(,
)(1
1?)2(
2
0
2/0
2
0
2/0
-
-
-
-?
xx
n
xx
n
S
xx
n
ntxba
S
xx
n
ntY
s
s
即区间
42
这一预测区间的长度是 x0的函数,它随 |x0 -`x|
的增加而增加,当 x0 =`x时为最短,将 (3.32)与
(3.29)比较,知道在相同的置信水平下,回归函数值 m(x0)的置信区间要比 Y0的预测区间要短,
这是因为 Y0=a+bx+e0比 m(x0)=a+bx0多了一项 e
的缘故,
43
例 5(续 例 2) (1)求回归函数 m(x)在 x=125处的值
m(125)的置信水平为 0.95的置信区间,求在
x=125处 Y的新观察值 Y0的置信水平为 0.95的预测区间 ; (2)求在 x=x0处 Y的新观察值 Y0的置信水平为 0.95预测区间,
解 (1) 由例 2,例 3已知
,64.57]4 8 30 3.07 3 93 5.2[
,3 0 60.2)8(
,145,9.0?,8 2 50,7 3 93 5.2?
,4 8 39 3.0
125
125
0
2/05.0
2
|-
-?
x
x
xx
xYY
t
xSa
b
即得查表得
s
44
得 m(125)的 0.95置信区间为 (57.64?0.84)
得 x0=125处 Y0的 0.95预测区间为 (57.64?2.34)
,34.2
)(1
1?)2(
84.0
82 50
)145125(
10
1
9.030 60.2
)(1
)2(
2
0
2/
2
2
0
2/
-
-
-
-
-
xx
xx
S
xx
n
nt
S
xx
n
nt
s
s
45
(2) 在 x=x0处 Y的新观察值 Y0的置信水平为
0.95的预测区间为
.
8250
)145(
10
1
1?)8(|?
2
0
025.00
-
x
tY xx s
)29.230.67(145
)34.296.76(165)30.288.64(140
)32.255.74(160)31.247.62(135
)31.213.72(155)32.205.60(130
)30.272.69(150)34.264.57(125
0000
的预测区间的预测区间 YxYx
取 x0不同的值算得下表,
46
分别将这些区间的下端点和上端点连起来,得到曲线 L1和 L2,回归直线位于 L1,L2所围成的带域中心线上,
40
60
80
100
100 120 140 160 180 200
êy?Y
1é?±
L2
L1
47
(八 )可化为一元线性回归的例子 在实际中常会遇到更为复杂的回归问题,但在某些情况下,
可以通过适当的变量变换,化成一元线性回归来处理,下面介绍几种常见的可转化为一元线性回归的模型,
1,Y=?ebx?e,lne~N(0,s2),(3.33)
其中?,b,s2是与 x无关的未知参数,将 Y=?ebx?e
两边取对数,得
lnY=ln?+bx+lne.
令 lnY=Y',ln?=a,b=b,x=x',lne=e',(3.33)式变为一元线性回归模型,
Y'=a+bx'+e',e'~N(0,s2),(3.34)
48
2,Y=?xb?e,lne~N(0,s2),(3.35)
其中?,b,s2是与 x无关的未知参数,将 Y=?xb?e
两边取对数,得 lnY=ln?+blnx+lne.
令 lnY=Y',ln?=a,b=b,lnx=x',lne=e',(3.35)可转化为一元线性回归模型,
Y'=a+bx'+e',e'~N(0,s2),(3.36)
3,Y=?+bh(x)+e,e~N(0,s2),(3.37)
其中?,b,s2是与 x无关的未知参数,h(x)是 x的已知函数,令?=a,b=b,h(x)=x',(3.37)可转化为一元线性回归模型,
Y=a+bx'+e,e~N(0,s2),(3.38)
49
若在原模型下,例如在模型 (3.37)下,对于 (x,Y)
有样本 (x1,y1),(x2,y2),...,(xn,yn)就相当于在新模型 (3.38)下有样本 (x1',y1),(x2',y2),...,(xn',yn),其中 xi'=h(xi),于是就能利用上节的方法来估计
a,b或对 b作假设检验,或对 Y进行预测,在得到
Y关于 x'的回归方程后,再将原自变量 x代回,
就得到 Y关于 x的回归方程,它的图形是一条曲线,也称为 曲线回归方程,
50
例 6 表 9.18是 1957年美国旧轿车价格的调查资料,今以 x表示轿车的使用年数,Y表示相应的平均价格,求 Y关于 x的回归方程,
表 9.18
2042262904845387651087149419432651)( 10987654321yx美元平均价格 使用年数
0
500
1000
1500
2000
2500
3000
0 2 4 6 8 10
51
解 从散点图看 Y与 x呈指数关系,于是采用模型 (3.33),即 Y=?ebx?e,lne~N(0,s2),
经变量变换后就转化为 (3.34).
Y'=a+bx'+e',e'~N(0,s2),
其中 lnY=Y',ln?=a,b=b,x=x',lne=e',数据经变换后得到
3181.54205.56699.51821.62879.6ln'
109876'
6399.69912.63092.75720.78827.7ln'
54321'
yy
xx
yy
xx
52
经计算得
,3060.2)8(3693.32
||
.29768.0164585.8'?
,164585.8?,29768.0
2/05.0
-?
-?
tS
b
t
xy
ab
xx
s
又可求得从而有
.e26.3514)'?e x p (? 29768.0 xyy -
即知线性回归的效果是高度显著的,代回原变量,得曲线回归方程,
53
§ 4 多元线性回归
54
在实际问题中,随机变量 Y往往与多个普通变量 x1,x2,...,xp(p>1)有关,对于自变量 x1,x2,...,xp
的一组确定的值,Y有它的分布,若 Y的数学期望存在,则它是 x1,x2,...,xp的函数,记为
m(x1,x2,...,xp),它就是 Y关于 x的回归函数,我们感兴趣的是 m(x1,x2,...,xp)是 x1,x2,...,xp的线性函数的情况,仅讨论下述多元线性回归模型,
Y=b0+b1x1+...+bpxp+e,e~N(0,s2),(4.1)
其中 b0,b1,...,bp,s2都是与 x1,x2,...,xp无关的未知参数,
55
设
(x11,x12,...,x1p,y1),...,(xn1,xn2,...,xnp,yn) (4.2)
是一个样本,和一元线性回归的情况一样,用最大似然估计法来估计参数,即取
)3.4()(
,,?,,,?,?
1
2
110
110010
----?
n
i
ippii
ppp
xbxbbyQ
bbbbbbbbb
时使当达到最小,
56
求 Q分别关于 b0,b1,...,bp的偏导数,并令它们等于零,得
)4.4(
.,,2,1
,0)(2
,0)(2
1
110
1
110
0
-----?
-----?
pj
xxbxbby
b
Q
xbxbby
b
Q
n
i
ijippii
j
n
i
ippii
化简 (4.4)式得
57
(4.5)式称为 正规方程组,)5.4(
.
,
,
1
1
2
1
22
1
11
1
0
1
1
1
1
1
212
1
2
11
1
10
111
22
1
110
n
i
iip
n
i
ipp
n
i
iip
n
i
iip
n
i
ip
n
i
ii
n
i
ipip
n
i
ii
n
i
i
n
i
i
n
i
i
n
i
ipp
n
i
i
n
i
i
yx
xbxxbxxbxb
yx
xxbxxbxbxb
yxbxbxbnb
58
为了求解的方便,将上式写成矩阵形式,为此,
引入矩阵,
pn
npnn
p
p
b
b
b
B
y
y
y
Y
xxx
xxx
xxx
X
2
1
2
1
21
22221
11211
,,
1
1
1
(4.5)式可写成
X'XB=X'Y,(4.5)'
这就是正规方程组的矩阵形式,
59
在 (4.5)'式两边左乘 X'X的逆阵 (X'X)-1(设
(X'X)-1存在 )得到 (4.5)'的解
)6.4(,')'(
11
0
YXXX
b
b
b
B
p
-
这就是我们要求的 (b0,b1,...,bp)'的最大似然估计,
60
作为 m(x1,x2,...,xp)=b0+b1x1+...+bpxp的估计,方程
yxbxbb pp 110取
)7.4( 110 pp xbxbby
称为 p元经验线性回归方程,简称回归方程,
61
作业 第九章习题第 325页第 6题
62
请提问
概率论与数理统计第 15讲本文件可从网址
http://math.vip.sina.com
上下载
(单击 ppt讲义后选择 '工程数学 '子目录 )
2
§ 3 一元线性回归
3
在客观世界中普遍存在着变量之间的关系,变量之间的关系一般来说可分为确定性的与非确定性的两种,确定性关系是指变量之间的关系可以用函数关系来表达的,另一种非确定性的关系即所谓相关关系,例如人的身高与体重之间存在着关系,一般来说,人高一些,体重要重一些,但同样高度的人,体重往往不相同,人的血压与年龄之间也存在着关系,但同年龄的人的血压往往不同,这些变量关系都是非确定性的,回归分析是研究相关关系的一种数学工具,能够帮助我们从一个变量取得的值估计另一变量所取的值,
4
(一 )一元线性回归 设随机变量 Y与 x之间存在着某种相关关系,这里,x是可以控制或可以精确观察的变量,如年龄,试验时的温度,施加的压力,电压与时间等等,即可以随意指定 n个值 x1,x2,...,xn,因此干脆不把 x看成随机变量,而将它当作普通的变量,
若 Y的数学期望 E(Y)存在,其值随 x的取值而定,是 x的函数,将此函数记为 mY|x 或 m(x),称为 Y关于 x的回归函数,讨论 E(Y)=m(x)与 x的函数关系,
5
对 x取定一组不完全相同的值 x1,x2,...,xn,设
Y1,Y2,...,Yn分别是在 x1,x2,...,xn处对 Y的独立观察的结果,称
(x1,Y1),(x2,Y2),...,(xn,Yn) (3.1)
是一个样本,对应的样本值记为
(x1,y1),(x2,y2),...,(xn,yn).
现希望知道 m(x)的形式,在一些问题中,可由专业知识知道,否则,可将每对观察值 (xi,yi)在直角坐标系中描出它的相应的点,这种图称为散点图,
6
例 1 为研究某一化学反应过程中,温度 x(° C)
对产品得率 Y(%)的影响,测得数据如下,
温度
x(° C) 100 110 120 130 140 150 160 170 180 190
得率 Y(%) 45 51 54 61 66 70 74 78 85 89
40
60
80
100
100 120 140 160 180 200
7
这里自变量 x是普通变量,Y是随机变量,由散点图大致看出 m(x)具有线性函数 a+bx的形式,
设 Y关于 x的回归函数为 m(x),利用样本来估计
m(x)的问题称为求 Y关于 x的回归问题,特别,
若 m(x)为线性函数,m(x)=a+bx,此时估计 m(x)
的问题称为求一元线性回归问题,
8
假设对于 x(在某个区间内 )的每个值有
Y~N(a+bx,s2),
其中 a,b及 s2都是不依赖于 x的未知参数,记
e=Y-(a+bx),对 Y作这样的正态假设,相当于假设
Y=a+bx+e,e~N(0,s2),(3.2)
其中未知参数 a,b及 s2都不依赖于 x,(3.2)称为一元线性回归模型,其中 b称为回归系数,
则 Y由两部分组成,一部分是 x的线性函数
a+bx,另一部分 e~N(0,s2)是随机误差,是人们不可控制的,
9
(二 )a,b的估计 取 x的 n个不全相同的值
x1,x2,...,xn作独立试验,得到样本
(x1,Y1),(x2,Y2),...,(xn,Yn),由 (3.2)式
Yi=a+bxi+ei,ei~N(0,s2),各 ei相互独立,(3,3)
于是 Yi~N(a+bxi,s2),i=1,2,...,n,由 Y1,Y2,...,Yn的独立性知 Y1,Y2,...,Yn的联合密度为
)4.3(.)(
2
1
e x p
2
1
)(
2
1
e x p
2
1
1
2
2
1
2
2
---?
---?
n
i
ii
n
n
i
ii
bxay
bxyL
s?s
s?s
10
现用最大似然估计法来估计未知参数 a,b,对于任意一组观察值 y1,y2,...,yn,(3.4)式就是样本的似然函数,显然,要 L取最大值,只要 (3.4)右端方括弧中的平方和部分为最小,即只需
)5.3()(),(
1
2?
--?
n
i
ii bxaybaQ
)6.3(
.0)(2
,0)(2
1
1
---?
---?
n
i
iii
n
i
ii
xbxay
b
Q
bxay
a
Q取最小值,令 Q关于 a,b的偏导数等于零,
11
得方程组
)7.3(
.
11
2
1
11
n
i
ii
n
i
i
n
i
i
n
i
i
n
i
i
yxbxax
ybxna
(3.7)式称为 正规方程组,
12
由于 xi不全相同,正规方程组的系数行列式
.0)(
1
2
2
11
2
1
2
1
1
-?
-?
n
i
i
n
i
i
n
i
in
i
i
n
i
i
n
i
i
xxn
xxn
xx
xn
故 (3.7)有唯一的一组解,
13
解得 b,a的最大似然估计值为
.
1
,
1
)8.3(
,
1
,
)(
)()(
11
11
1
2
1
2
11
2
111
-?-?
-
--
-
-
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
ii
y
n
yx
n
x
xbyx
n
b
y
n
a
xx
yyxx
xxn
yxyxn
b
其中
14
称为 Y关于 x的经验回归方程,简称 回归方程,
其图形称为 回归直线,
)9.3(
:,?
.
),(
)(?
,)(
,,
,?,
xbay
yxba
xYxbax
bxaxxba
xbaba
方程记数的经验回归函关于称为即的估计作为回归函数就取对于给定的后的估计在得到
m
m
15
今后将视方便而使用 (3.9)或 (3.10).
).,(
),,(
,),,(),,(,)10.3(
)10.3()(
,)9.3(?)8.3(
2211
yx
yx
yxyx
xxbyy
a
nn
几何中心回归直线通过散点图的对于样本值表明程可写成则回归方式的表达式代入中将
-
16
为了计算上的方便,引入下述记号,
)11.3(
.
1
))((
,
1
)(
,
1
)(
1111
2
11
2
1
2
2
11
2
1
2
-?--?
-?-?
-?-?
n
i
i
n
i
i
n
i
ii
n
i
iixy
n
i
i
n
i
i
n
i
iyy
n
i
i
n
i
i
n
i
ixx
yx
n
yxyyxxS
y
n
yyyS
x
n
xxxS
17
这样 a,b的估计值可写成
)12.3(
.
11
,
11
-?
bx
n
y
n
a
S
S
b
n
i
i
n
i
i
xx
xy
18
例 2(续 例 1) 设在例 1中的随机变量 Y符合 (3.2)
所述的条件,求 Y关于 x的线性回归方程,
解 现在 n=10,所需计算列表如下 (表 9.17):
x y x2 y2 xy
100 45 10000 2025 4500
110 51 12100 2601 5610
120 54 14400 2916 6480
130 61 16900 3721 7930
140 66 19600 4356 9240
150 70 22500 4900 10500
160 74 25600 5476 11840
170 78 28900 6084 13260
180 85 32400 7225 15300
190 89 36100 7921 16910
1450 673 218500 47225 101570
19
于是得到回归直线方程
,739 35.2483 03.0145 0
10
1
673
10
1
,483 03.0
,398 5673145 0
10
1
101 570
,825 0145 0
10
1
218 500
2
--
-?
-?
a
SSb
S
S
xxxy
xy
xx
故得
).145(48303.03.67?
.48303.073935.2?
-
-?
xy
xy
或
20
(三 )s2的估计由 (3.2),
E{[Y-(a+bx)]2}=E(e2)=D(e)+[E(e)]2=s2
这表示 s2愈小,以回归函数 m(x)=a+bx作为 Y的近似导致的均方误差就愈小,这样,利用回归函数 m(x)=a+bx去研究随机变量 Y与 x的关系就愈有效,然而 s2是未知的,因而需要利用样本去估计 s2.
21
为了估计 s
2
,先引入下 述 残 差 平方 和,
记
i
xx
i
xbayy
i
|
,称 ii
yy?-
为 x
i
处 的 残 差,
平方 和
--?-?
n
i
ii
n
i
iie
xbayyyQ
1
2
1
2
)
()?(
(3.13)
称 为 残 差 平 方 和,它 是 经验 回 归 函 数 在 x
i
处 的 函数 值 ii
xbax
)(m
与 x
i
处 的 观察 值 y
i
的 偏 差 平方 和,
22
为了计算 Qe,将 Qe作如下分解,
)14.3(.
)
(
2)()
(
))((
2)(
)](
[)?(
2
1
22
11
2
1
2
1
2
xyyye
xxxyyy
n
i
i
n
i
ii
n
i
i
n
i
ii
n
i
iie
SbSQ
SbSbSxxb
yyxxbyy
xxbyyyyQ
-?
-?-?
----?
---?-?
最后得
23
可以证明,作为统计量的残差平方和 Qe服从分布
,2
)17.3(),2(~
2
2
2
-
-
n
Q
E
n
Q
e
s
s
于是
)18.3(].?[
2
1
2
2 xyyye SbS
nn
Q -
-
-
s
即知 E(Qe/(n-2))=s2,这样就得到了 s2的无偏估计量,
24
例 3(续 例 2) 求例 2中 s2的无偏估计,
解 由表 9.17,得
.90.08/23.7)2(?
,23.7
,48303.0
,3985
.0.1932
673
10
1
47225
1
2
3
2
11
2
-?
-?
-?
-
nQ
SbSQ
bS
y
n
yS
e
xyyye
xy
n
i
i
n
i
iyy
s
即得又已知
25
(四 )线性假设的显著性检验 在以上的讨论中,
我们假定了关于 x的回归 m(x)具有形式 a+bx,
在处理实际问题时,m(x)是否为 x的线性函数,
首先要根据有关专业知识和实践来判断,其次要根据实际观察得到的数据运用假设检验的方法来判断,这就是说,求得的线性回归方程是否具有实用价值,一般来说,需要经过假设检验才能确定,若线性假设 (3.2)符合实际,则 b
不应为零,因为若 b=0,则 E(Y)=m(x)就不依赖于 x了,
26
因此需要检验假设
H0,b=0,
H1,b?0,(3.19)
使用 t检验法来进行检验,可以证明,
)20.3().,(~? 2 xxSbNb s
.?
)21.3(),2(~
)2(
2
22
2
独立与且
e
e
Qb
n
Qn
-?
-
ss
s
又由 (3.17),(3.18)知
27
故有
.
)22.3().2(~
),2(~)2(
)2(
2
2
2
2
ss
s
s
s
s
-
-
--
--
这里即 ntS
bb
ntn
n
S
bb
xx
xx
28
当 H0为真时 b=0,此时
)24.3(),2(
|
|
||
,0)
(
)23.3().2(~
2/
0
-
-?
ntS
b
t
HbbE
ntS
b
t
xx
xx
s
s
的拒绝域为即得且此处?为显著性水平,
29
当假设 H0:b=0被拒绝时,认为回归效果是显著的,反之,就认为回归效果不显著,回归效果不显著的原因可能有如下几种,
1,影响 Y取值的,除 x及随机误差外还要其它不可忽略的因素,
2,E(Y)与 x的关系不是线性的,而存在着其它的关系,
3,Y与 x不存在关系,
因此需要进一步分析原因,分别处理,
30
例 4(续 例 2) 检验例 2中的回归效果是否显著,
取?=0.05.
解 由例 2,例 3已知
Sxx=8250,查表得 t0.05/2(n-2)=t0.025(8)=2.3060.
由 (3.24),假设 H0:b=0的拒绝域为
,9.0?,4 8 3 0 3.0? 2 sb
.3 0 6 0.225.468 2 5 0
90.0
4 8 3 0 3.0
||
.3 0 6 0.2?|?|||
t
Sbt
xx
现在
s
故拒绝 H0:b=0,认为回归效果是显著的,
31
(五 )系数 b的置信区间 当回归效果显著时,常需要对系数 b作区间估计,可由 (3.22)式得到 b
的置信水平为 1-?的置信区间为
)25.3(.
)2(? 2/
-?
xxS
ntb
s
).5 0 71 2.0,4 5 89 4.0(
8 2 50
90.0
3 0 60.24 8 30 3.0
例如,例 1中 b的置信水平为 0.95的置信区间为
32
(六 )回归函数 m(x)=a+bx函数值的点估计和置信区间 设 x0是自变量 x的某一指定值,由 (3.9)
000)( xbayxxbaxy 的函数值在可用 m
无偏的因此这一估计量是可以证明考虑相应的估计量
,)
(
)27.3(,
:
)26.3(.
)(
00
00
000
bxaYE
xbaY
xbaxy
m
作为 m(x0)=a+bx0的点估计,即
33
下面求 m(x0)=a+bx0的置信区间,由本章附录 3
知
).1,0(~
)(1
)(?
2
0
00
N
S
xx
n
bxaY
xx
-
-
s
)28.3(),2(~
)2( 2
22
2
-?
-
n
Qn e
ss
s
又由 (3.17)(3.18)知
34
且由本章附录 6知
).2(~
)(1
)(
),2(~)2(
)2(
)(1
)(
,
,
2
0
00
2
2
2
0
00
0
-
-
-
--
-
-
-
nt
S
xx
n
bxaY
ntn
n
S
xx
n
bxaY
YQ
xx
xx
e
s
s
s
s
即于是相互独立
35
于是得到 m(x0)=a+bx0的置信水平为 1-?的置信区间为
.,
||,
)'29.3(.
)(1
)2(
)29.3(,
)(1
)2(
0
00
2
0
2/0
2
0
2/0
时为最短当的增加而增加它随的函数这一置信区间的长度是或
xx
xxx
S
xx
n
ntxba
S
xx
n
ntY
xx
xx
-
-
-
-
-?
s
s
36
(七 )Y的观察值的点预测和预测区间若对指定点 x=x0处因变量 Y的观察值 Y0感兴趣,
然而我们在 x=x0处并未进行观察或者暂时无法观察,经验回归函数的一个重要应用是,可利用它对因变量 Y的新观察值 Y0进行点预测或区间预测,
37
若 Y0是 x=x0处对 Y的观测结果,由 (3.2)知它满足
Y0=a+bx0+e0,e0~N(0,s2),(3.30)
随机误差 e0可正也可负,其值无法预料,就用
x0处的经验回归函数值
000
)( xbaxY m
作为 Y0=a+bx0+e0的点预测,下面求 Y0的预测区间,
38
因 Y0是将要做的一次独立试验的结果,因此它与已经得到的试验的结果 Y1,Y2,...,Yn相互独立,
)31.3().1,0(~
)(1
1
,]
)(1
1[,0~
.
.,,
)(
,,,,
2
0
00
2
2
0
00
0021
021
N
S
xx
n
YY
S
xx
n
NYY
YYYYY
xxbYYYYYb
xx
xx
n
n
-
-
-
-
-
s
s
即可证相互独立与故的线性组合是故的线性组合是因
39
再由 (3.28),(3.31)及 的相互独立性知
eQYY,?,00
),2(~)2(
)2(
)(1
1
2
2
2
0
00
--
-
-
-
ntn
n
S
xx
n
YY
xx
s
s
s
即
).2(~
)(1
1?
2
0
00
-
-
-
nt
S
xx
n
YY
xx
s
40
于是对于给定的置信水平 1-?有
,1)2()(1
1?
|?|
2/
2
0
00
s
-?
-?-
-
nt
S
xx
n
YY
P
xx
.1
)(1
1?)2(
)(1
1?)2(
2
0
2/0
0
2
0
2/0
s
s
-?
-
-
-
--
xx
xx
S
xx
n
ntY
Y
S
xx
n
ntYP
或
41
称为 Y0的置信水平为 1-?的 预测区间,
)'32.3(
)(1
1?)2(
)32.3(,
)(1
1?)2(
2
0
2/0
2
0
2/0
-
-
-
-?
xx
n
xx
n
S
xx
n
ntxba
S
xx
n
ntY
s
s
即区间
42
这一预测区间的长度是 x0的函数,它随 |x0 -`x|
的增加而增加,当 x0 =`x时为最短,将 (3.32)与
(3.29)比较,知道在相同的置信水平下,回归函数值 m(x0)的置信区间要比 Y0的预测区间要短,
这是因为 Y0=a+bx+e0比 m(x0)=a+bx0多了一项 e
的缘故,
43
例 5(续 例 2) (1)求回归函数 m(x)在 x=125处的值
m(125)的置信水平为 0.95的置信区间,求在
x=125处 Y的新观察值 Y0的置信水平为 0.95的预测区间 ; (2)求在 x=x0处 Y的新观察值 Y0的置信水平为 0.95预测区间,
解 (1) 由例 2,例 3已知
,64.57]4 8 30 3.07 3 93 5.2[
,3 0 60.2)8(
,145,9.0?,8 2 50,7 3 93 5.2?
,4 8 39 3.0
125
125
0
2/05.0
2
|-
-?
x
x
xx
xYY
t
xSa
b
即得查表得
s
44
得 m(125)的 0.95置信区间为 (57.64?0.84)
得 x0=125处 Y0的 0.95预测区间为 (57.64?2.34)
,34.2
)(1
1?)2(
84.0
82 50
)145125(
10
1
9.030 60.2
)(1
)2(
2
0
2/
2
2
0
2/
-
-
-
-
-
xx
xx
S
xx
n
nt
S
xx
n
nt
s
s
45
(2) 在 x=x0处 Y的新观察值 Y0的置信水平为
0.95的预测区间为
.
8250
)145(
10
1
1?)8(|?
2
0
025.00
-
x
tY xx s
)29.230.67(145
)34.296.76(165)30.288.64(140
)32.255.74(160)31.247.62(135
)31.213.72(155)32.205.60(130
)30.272.69(150)34.264.57(125
0000
的预测区间的预测区间 YxYx
取 x0不同的值算得下表,
46
分别将这些区间的下端点和上端点连起来,得到曲线 L1和 L2,回归直线位于 L1,L2所围成的带域中心线上,
40
60
80
100
100 120 140 160 180 200
êy?Y
1é?±
L2
L1
47
(八 )可化为一元线性回归的例子 在实际中常会遇到更为复杂的回归问题,但在某些情况下,
可以通过适当的变量变换,化成一元线性回归来处理,下面介绍几种常见的可转化为一元线性回归的模型,
1,Y=?ebx?e,lne~N(0,s2),(3.33)
其中?,b,s2是与 x无关的未知参数,将 Y=?ebx?e
两边取对数,得
lnY=ln?+bx+lne.
令 lnY=Y',ln?=a,b=b,x=x',lne=e',(3.33)式变为一元线性回归模型,
Y'=a+bx'+e',e'~N(0,s2),(3.34)
48
2,Y=?xb?e,lne~N(0,s2),(3.35)
其中?,b,s2是与 x无关的未知参数,将 Y=?xb?e
两边取对数,得 lnY=ln?+blnx+lne.
令 lnY=Y',ln?=a,b=b,lnx=x',lne=e',(3.35)可转化为一元线性回归模型,
Y'=a+bx'+e',e'~N(0,s2),(3.36)
3,Y=?+bh(x)+e,e~N(0,s2),(3.37)
其中?,b,s2是与 x无关的未知参数,h(x)是 x的已知函数,令?=a,b=b,h(x)=x',(3.37)可转化为一元线性回归模型,
Y=a+bx'+e,e~N(0,s2),(3.38)
49
若在原模型下,例如在模型 (3.37)下,对于 (x,Y)
有样本 (x1,y1),(x2,y2),...,(xn,yn)就相当于在新模型 (3.38)下有样本 (x1',y1),(x2',y2),...,(xn',yn),其中 xi'=h(xi),于是就能利用上节的方法来估计
a,b或对 b作假设检验,或对 Y进行预测,在得到
Y关于 x'的回归方程后,再将原自变量 x代回,
就得到 Y关于 x的回归方程,它的图形是一条曲线,也称为 曲线回归方程,
50
例 6 表 9.18是 1957年美国旧轿车价格的调查资料,今以 x表示轿车的使用年数,Y表示相应的平均价格,求 Y关于 x的回归方程,
表 9.18
2042262904845387651087149419432651)( 10987654321yx美元平均价格 使用年数
0
500
1000
1500
2000
2500
3000
0 2 4 6 8 10
51
解 从散点图看 Y与 x呈指数关系,于是采用模型 (3.33),即 Y=?ebx?e,lne~N(0,s2),
经变量变换后就转化为 (3.34).
Y'=a+bx'+e',e'~N(0,s2),
其中 lnY=Y',ln?=a,b=b,x=x',lne=e',数据经变换后得到
3181.54205.56699.51821.62879.6ln'
109876'
6399.69912.63092.75720.78827.7ln'
54321'
yy
xx
yy
xx
52
经计算得
,3060.2)8(3693.32
||
.29768.0164585.8'?
,164585.8?,29768.0
2/05.0
-?
-?
tS
b
t
xy
ab
xx
s
又可求得从而有
.e26.3514)'?e x p (? 29768.0 xyy -
即知线性回归的效果是高度显著的,代回原变量,得曲线回归方程,
53
§ 4 多元线性回归
54
在实际问题中,随机变量 Y往往与多个普通变量 x1,x2,...,xp(p>1)有关,对于自变量 x1,x2,...,xp
的一组确定的值,Y有它的分布,若 Y的数学期望存在,则它是 x1,x2,...,xp的函数,记为
m(x1,x2,...,xp),它就是 Y关于 x的回归函数,我们感兴趣的是 m(x1,x2,...,xp)是 x1,x2,...,xp的线性函数的情况,仅讨论下述多元线性回归模型,
Y=b0+b1x1+...+bpxp+e,e~N(0,s2),(4.1)
其中 b0,b1,...,bp,s2都是与 x1,x2,...,xp无关的未知参数,
55
设
(x11,x12,...,x1p,y1),...,(xn1,xn2,...,xnp,yn) (4.2)
是一个样本,和一元线性回归的情况一样,用最大似然估计法来估计参数,即取
)3.4()(
,,?,,,?,?
1
2
110
110010
----?
n
i
ippii
ppp
xbxbbyQ
bbbbbbbbb
时使当达到最小,
56
求 Q分别关于 b0,b1,...,bp的偏导数,并令它们等于零,得
)4.4(
.,,2,1
,0)(2
,0)(2
1
110
1
110
0
-----?
-----?
pj
xxbxbby
b
Q
xbxbby
b
Q
n
i
ijippii
j
n
i
ippii
化简 (4.4)式得
57
(4.5)式称为 正规方程组,)5.4(
.
,
,
1
1
2
1
22
1
11
1
0
1
1
1
1
1
212
1
2
11
1
10
111
22
1
110
n
i
iip
n
i
ipp
n
i
iip
n
i
iip
n
i
ip
n
i
ii
n
i
ipip
n
i
ii
n
i
i
n
i
i
n
i
i
n
i
ipp
n
i
i
n
i
i
yx
xbxxbxxbxb
yx
xxbxxbxbxb
yxbxbxbnb
58
为了求解的方便,将上式写成矩阵形式,为此,
引入矩阵,
pn
npnn
p
p
b
b
b
B
y
y
y
Y
xxx
xxx
xxx
X
2
1
2
1
21
22221
11211
,,
1
1
1
(4.5)式可写成
X'XB=X'Y,(4.5)'
这就是正规方程组的矩阵形式,
59
在 (4.5)'式两边左乘 X'X的逆阵 (X'X)-1(设
(X'X)-1存在 )得到 (4.5)'的解
)6.4(,')'(
11
0
YXXX
b
b
b
B
p
-
这就是我们要求的 (b0,b1,...,bp)'的最大似然估计,
60
作为 m(x1,x2,...,xp)=b0+b1x1+...+bpxp的估计,方程
yxbxbb pp 110取
)7.4( 110 pp xbxbby
称为 p元经验线性回归方程,简称回归方程,
61
作业 第九章习题第 325页第 6题
62
请提问