? 在实际问题中我们常常会遇到多个变量同处于一
个过程之中,它们互相联系、互相制约,在有的变量间
有完全确定的函数关系,例如电压 V、电阻 R与电流 I
之间有关系式,V=IR;在圆面积 S与半径 R之间有关系
式 S=πR2,
? 自然界众多的变量之间,除了以上所说的那种确定
性的关系外,还有一类重要的关系,即所谓的相关关系,
比如,人的身高与体重之间的关系,虽然一个人的身高
并不能确定体重,但是总的说来,身高者,体重也大,我
们称身高与体重这两个变量具有相关关系,
? 回归分析方法是一种常用的数理统计方法,是处理
多个变量变之间相关的一种数学方法,
第十章 回归分析
? 实际上,由于实验误差的影响,即使是具有确定性
关系的变量之间,也常表现出某种程度的不确定性,
? 回归分析方法是处理变量间相关关系的有力工
具,它不仅为建立变量间关系的数学表达式 (经验
公式 )提供了一般的方法,而且还能判明所建立的
经验公式的有效性,从而达到利用经验公式预测,
控制等目的,因此,回归分析方法的应用越来越
广泛,其方法本身也在不断丰富和发展,
? 在一元线性回归分析里,我们要考察随机变
量 Y与一个普通变量 x之间的联系,
§ 1.1 一元线性回归模型
? 对于有一定联系的两个变量,x与 Y,通过观
测或实验得到 n对数据
(x1,Y1),(x2,Y2),...,(xn,Yn)
用什么方法可以得到这两个变量之间的经验
公式呢?为此举例如下,
§ 1 一元线性回归
? 例,维尼纶纤维的耐热水性能好坏可以用指标“缩
醛化度” Y(克分子 %)来衡量,这个指标越高,耐热水
性能也越好,而甲醛浓度是影响缩醛化度的重要因
素,在生产中常用甲醛浓度 x(克 /升 )去控制这一指标,
为此必须找出它们之间的关系,现安排了一批试验,
获得如下数据, 甲醛浓度 18 20 22 24 26 28 30
缩醛化度 2 6, 8 6 2 8, 3 5 2 8, 7 5 2 8, 8 7 2 9, 7 5 3 0, 0 0 3 0, 3 6
? 若重复这些试验,在同一甲醛浓度 x下,所获得的缩
醛化度 Y不完全一致,这表明 x与 Y之间不能用一个
完全确定的函数关系来表达,
y
31
30
29
28
27
26
18 20 22 24 26 28 30 x
散点与近似直线图
? 为了看出它们之间是否有关及存在什么样的关系,
我们在直角坐标系下作出了这些点,从图上可看出,随
甲醛浓度 x的增加,缩醛化度 Y也增加,且这些点近似
在一条直线附近,但又不完全在一条直线上,引起这些
点与直线偏离的原因是由于在生产和测试过程中还
存在一些不可控的因素,它们都在影响着试验结果,
? 这样我们可以把试验结果 Y看成由两部分叠加而成,
一部分是由 x的线性函数引起,记为 a+bx;另一部分是
由随机因素引起,记为 ε,即
Y=a+bx+ε
一般假设随机误差 ε~N(0,σ2).即
Y~ N(a+bx,σ2)
? 在 Y=a+bx+ε中,x是一般变量,它可以精确测量或
可以加以控制,Y是可观察其值的随机变量,ε~
N(0,σ2)是不可观察的随机变量,a,b是未知参数,
? 为了获得未知参数 a,b的估计,需要进行若干次独
立试验,设试验结果为
(x1,Y1),(x2,Y2),...,(xn,Yn)
? 则 Y1=a+bx1+ε1 ε1~ N(0,σ2)
Y2=a+bx2+ε2 ε2~ N(0,σ2)
Yn=a+bxn+εn εn~ N(0,σ2)
这里 ε1,...,εn相互独立,这就是一元线性回归模型,
? 设给定 n个点
(x1,y1),(x2,y2),……,( xn,yn)
那么对于平面上任意一条直线 l,
y=a+bx
§ 1.2 经验公式与最小二乘法
? 我们用数量
[yt-(a+bxt)]2
来刻画点 (xt,yt)到直线 l的远近程度 (利用解析几何知
识不难看出,| yt-(a+bxt)|的几何意义是点 (xt,yt)沿着
平行于 y轴的方向到 l的最短距离,而不是沿着垂直于 l
的方向到 l的最短距离 ),
?
?
??
?
n
t
tt
bxay
1
2
)]([
于是
就定量地描述了直线 l跟这 n个点的总的远近程度,
这个量是随着不同的直线而且变化,或是说是随
不同的 a与 b而变化的,也就是说它是 a,b的二元函
数,记为 Q(a,b),
?
?
???
n
t
tt bxaybaQ
1
2)]([),(
? 于是,要找一条直线使得它总的来看最, 接近
” 这 n个点的问题,就转化为以下的问题,
.
?,?
),(?,?
处达到是最小
在使二元函数找两个数
bbaa
baQba
??
?
.
?
,?.
,
),(,),(
二乘法
的方法称为最小根据最小二乘原则找二乘原则
习惯上称为最小最小原则最小的原则称为平方和
所以使个数的平方和是由于
ba
baQnbaQ
? ?
? ??
?
?
?
?????
?
?
?????
?
?
?
n
t
ttt
n
t
tt
xbxay
b
Q
bxay
a
Q
ba
1
1
0)(2
0)(2
:
,
?
,?
组原理来解一个二元方程
通常用微积分中的极值根据最小二乘原则找
.,,
1 1
2
的平均数分别是其中

tt
n
t
n
t
ttt
yxyx
yxbxaxn
ynbxnna
?
?
?
?
?
??
??
?
? ?
? ?
0)()(
,
1
22
1
2
1
2 ?????
?
??
?
??
?
n
t
t
n
t
t
n
t
t
t
xxnxnxn
xxn
xnn
x
的系数行列式
所以此方程组不会全部相同由于原始数据
xbya
xx
yyxx
xnx
yxnyx
b
n
t
t
n
t
tt
n
t
t
n
t
tt
?
?
)(
))((
?
2
1
1
2
1
2
1
??
?
??
?
?
?
?
?
?
?
?
?
?
?
?
?
于是解出
).,
,(
?
??
)
?
,?(
?
,?,
),(),.,,,,(),,(
,
2211
回归直线直线
经验回归或经验公式方程称这条直线为经验回归
从而得到一条直线
都为随机变量估计用最小二乘法得到了
对于给定的样本值于是
xbay
bababa
yxyxyx
nn
??
?
并且这个解是唯一的,数学上还可证明,它们确实
使 Q(a,b)达到最小,
§ 1.3 平方和分解公式与线性相关关系
?
??
?
??
???????
??????
n
t
tttttt
n
t
ttt
n
t
tT
yyyyyyyy
yyyyyyS
1
22
1
2
1
2
])?()?)(?(2)?[(
)]?()?[()(
0])(
?
))([(
?
)](
?
) ] [(
?
)[(
?
?
]
?
?) ] [
?
?([)?)(?(
1
2
1
11
??????
??????
???????
?
?
??
?
?
??
n
t
ttt
n
t
ttt
n
t
ttt
n
t
ttt
xxbxxyyb
xxbxxbyyxbya
yxbaxbayyyyy又
? 对面 n组数据 (x1,y1),(x2,y2),……,( xn,yn),有
?? ?
?? ?
?????
n
t
t
n
t
n
t
ttt yyyyyy
1
2
1 1
22 )?()?()(所以
?
?
??
n
t
tT yyS
1
2)(
是 y1,y2,…, yn这 n个数据的偏差
平方和,它的大小描述了这 n个数据的
分散程度,记作 lyy,
几个平方和的意义,
tt xbay ??? ??
由此可知,它的几何意义是,在回归直
线上,其横坐标为 n的点的纵坐标,
nyyy ?,...,?,? 21 平均数也是 y
yxbax
n
baba
n
y
n
n
t
t
n
t
t
n
t
t ??????? ???
???
??1??)??(1?1
111
这是因为
.?,...,?,?.
?,...,?,?)?(
21
21
1
2
的分散程度它描述了平方和
个数的偏差这就是于是
n
n
n
t
tR
yyy
nyyyyyS ?
?
??
??
??
??
??
????
??????
n
t
tt
n
t
n
t
t
n
t
tR
xxbxxb
xbaxbayyS
1
222
1
2
1
2
1
2
)(?)(?
)]??(??[)?(
.,
,...,,?,...,?,?,2121
的线性相关关系引起的对并且是通过的分散性
的分散性来源于由此可见
Yx
xxxyyy nn?
.,.,,,,.,
,.,,,,)(
21
21
1
2
的分散程度它描述了记作平方和
个数的偏差这就是而
nxx
n
n
t
t
xxxS
nxxxxx?
?
??
.,),(
)?,?()]??([)?(
1
2
1
2
称为残差平方和的最小值
就是
baQ
baQxbayyyS
n
t
tt
n
t
ttE
?????? ??
??
? 由上面的分析可知,y1,y2,… yn分散程度可以分解
为两部分 ST=SR+SE,其中一部分是通过 x对于 Y的线
性相关关系而引起的 Y的分散性,另一部分是剩余
部分引起的 Y的分散性,
? 现在来回答 x,Y之间是否存在线性相关关系的
问题,不难想到把回归平方和 SR与剩余平方和 SE
进行比较,即在数理统计中,选取统计量
)2/( ?
?
nS
SF
E
R
来体现 x与 Y的线性相关关系的相对大小,若 F值相
当大,则表明 x对 Y的线性影响较大,这时可以认为 x
与 Y之间有线性相关关系,反之,若 F值较小,则没有
理由认为 x与 Y之间有线性相关关系,
衡量 F值的大小需要有一个定量的界限,可以证
明在假定
Y1=a+bx1+ε1
Y2=a+bx2+ε2
… … … …
Yn=a+bxn+εn
下,此定量界限 F就是自由度为 1,n-2的 F分布的
临界值, 其中 ε1,ε2,…,εn服从 N(0,σ2)的独立随机
变量,
§ 1.4 数学模型与相关性检验
? F值究竟多大才能认为 x与 Y之间有线性相关关
系呢?为此对数据结构提出下列假定,
Y1=a+bx1+ε1
Y2=a+bx2+ε2
… … … …
Yn=a+bxn+εn
其中 ε1,ε2,…,εn服从 N(0,σ2)的独立随机变量,
? 判断 x与 Y之间是否有线性相关关系,就是要检
验假设
H0:b=0
? 对数据结构,
Y1=a+bx1+ε1
Y2=a+bx2+ε2
… … … …
Yn=a+bxn+εn
其中 ε1,ε2,…,ε n服从 N(0,σ2)的独立随机变量,
? 如果 b=0,则数学上可以证明
SR/σ2~χ2(1)
SE/σ2~χ2(n-2)
且 SR与 SE相互独立,
由此可知,若 H0:b=0成立,则
)2,1(~
)2/(
?
?
? nF
nS
SF
E
R
而且 b偏离 0越远,即 b的绝对值越大,F也越大,
? 相关性检验的一般程序,
(1)计算 SR,SE,再计算 F;
(2)对于给定的显著性水平 α,查 Fα(1,n-2);
(3)若 F> Fα(1,n-2),则否定 H0:b=0,即认为 x与 Y之间具
有线性相关关系 ;否则,就认为 x与 Y之间不具有线性
相关关系,
具体计算时常用以下公式,
)2/(
,
??
?
?,
?
)(
1
)(
))((
1
)()(
)(
1
)(
2
2
11
2
1
2
1111
2
11
2
1
2
?
?
????
???
?????
?????
????
???
????
???
???
????
???
nS
S
F
SSSSbSbS
xbya
S
S
b
y
n
yyySS
yx
n
yxyyxxS
x
n
xxxS
E
R
RyyExyxxR
xx
xy
n
t
t
n
t
t
n
t
tTyy
n
t
t
n
t
t
n
t
ttt
n
t
txy
n
t
t
n
t
t
n
t
txx
? 例,为了了解某校学生的学习情况,现将该校 7
名学生期中考试的总成绩与期末考试的总成绩
列表如下,
编 号 1 2 3 4 5 6 7
期中分数 x 360 320 400 372 300 515 605
期末分数 y 430 441 482 380 453 513 610
试作出期末分数与期中分数的回归方程,并作线
性相关性检验,
? 解,为了简化计算,令
得,480,400 ?????? yyxx
编号 1 2 3 4 5 6 7 合计
x ? - 4 0 - 8 0 0 - 2 8 - 1 0 0 1 1 5 205 72
y ? - 5 0 - 3 9 2 - 1 0 0 - 2 7 33 130 - 5 1
yx ?? 2000 3120 0 2800 2700 3795 26650 41065
3 2 7 4 3)(7 4 0 3 4)(
:
7
1
2
7
1
2
???? ??
?? t
t
t
t
yx
计算得
xy
xy
xy
xbya
S
S
b
yx
n
yxSS
y
n
ySS
x
n
xSS
xx
xy
t
t
t
tt
t
tyxxy
t
t
t
tyyyy
t
t
t
txxxx
57.088.238?
)400(57.012.13480?
57.012.13?
12.13
?
?57.0
?
571.41589))((
1
429.32371)(
1
)(
429.73293)(
1
)(
7
1
7
1
7
1
2
7
1
7
1
2
2
7
1
7
1
2
??
?????
?????
?????????
????????
??????
??????
???
??
??
???
??
??
??
??
??
数的回归方程为即得期末分数对期中分
代回原变量有
从而
? 下面对该回归方程作线性相关性检验,
68.13
)2/(
37.8 6 6 506.2 3 7 0 6?
?
?
?
?????
nS
S
F
SSSlbS
E
R
RyyExxR
查 F-分布表得,
F0.05(1,5)=6.61,F0.01(1,5)=16.3
从而有 F0.05(1,5)<F< F0.01(1,5).故认为直线回归是
显著的,但不是高度显著的,
? ?? ?
? ? ? ???
?
??
?
??
??
?
n
t
t
n
t
t
n
t
tt
yyxx
yyxx
R
1
2
1
2
1
? 为了检验相关性,有的书上采用统计量
当 |R|较大时,否定假设, b=0”,
? 不难验正,有
SR=SyyR2
因此有
SE=Syy(1-R2)
§ 1.5 相关系数的显著性检验
Ⅰ,|R|≤1
Ⅱ,当 Syy固定时,|R|越接近 1,SE就越小,特别地,|R|=1
时,SE=0,即 n个点在一条直线上,而 R=0时,SE=Syy,
? ? ? ? ? ? 2
2
2
2
1
2
)1(
22
R
R
n
RS
RS
n
S
S
nF
yy
yy
E
R
?
??
?
????
? 表面上看,对于假设 H0,由 F和 R提供了两种形式
上不同的检验方法,而实质上它们是一回事,这是
因为
上式表明
§ 1.6 预报与控

? 设
Y=a+bx+ε
其中 ε~N(0,σ2),
? 所谓预报问题就是问当 x=x0时,Y=?
从数据 (x1,y1),(x2,y2),……,( xn,yn)出发,利用最小
二乘法得到了经验公式,
xbay ??? ??
.
.
???
000
00
所谓的预报精度
道然而实际问题还需要知的值来预报
这样自然想到用
????
??
bxaY
xbay
.)2/(
)2(~
)(1
1
?
,
,,...,1,0),,0(~,
2
0
00
2
??
?
?
??
?
?
??
nSs
nt
l
xx
n
s
yY
T
niN
E
xx
i
其中
则随机变量且相互独立
若数学上可以证明 ??
.
)(1
1)2(2,?
]
)(1
1)2(?
,
)(1
1)2(?[
:1
1)}2(|{|
,1,
2
0
2/10
2
0
2/10
2
0
2/10
0
2/1
xx
xx
xx
l
xx
n
nsty
l
xx
n
nsty
l
xx
n
nsty
Y
ntTP
?
???
?
????
?
????
??
?????
???
??
??
??
??
长度为为中点该区间以
的置信区间的置信度为由此得到
就有对给定的置信度这样
? 控制问题是预报问题的反问题,在此不多叙述,
§ 2 曲线回归
? 对于线性类型的问题,可以用前面介绍的方
法直接得到其经验公式,并对其线性相关性进
行检验,然而,大量的实际问题并非线性类型,对
于这种情况该如何处理呢?
? 在实际问题中,根据给出的一批数据,在直角坐
标系中绘出其散点图,将散点图分布的形状与已
知函数的图形进行比较,确定曲线类型,再作变
量替换,将曲线改为直线,然后通过配回归直线
的方法来配出曲线,
.,1,1,1.1 xbay
x
x
y
y
x
ba
y
?????????? 则有作变换双曲线
a>0
b<0
a>0
b>0
.,ln,ln
,ln),(.2
xbayaaxx
yyaxyaxy bb
?????????
???? ?
则有
作变换或幂函数
b>1 b=1
0<b<1
)0( ?? baxy b
0<b<1
b>1
b=1
)0( ?? ? baxy b
.,ln
,ln),(.3
bxayaa
yyaeyaey bxbx
??????
???? ?
则有
作变换或指数函数
)0( ?? baey bx )0( ?? ? baey bx
.,ln,
1
,ln),(.4
xbayaa
x
x
yyaeyaey x
b
x
b
?????????
????
?
则有
作变换或指数函数
a
)0( ?? ? baey x
b
a
)0( ?? baey x
b
.,ln,ln.5 xbayxxxbay ??????? 则有作变换对数曲线
)0(ln ??? bxbay )0(ln ??? bxbay
§ 3 多元线性回归
? 设随机变量 Y与 p个变量 x1,x2,...,xp有关,它们之
间满足,
E(Y)=β0+β1x1+β2x2+...+βpxp
进一步假设
Y~N(β0+β1x1+β2x2+...+βpxp,σ2)

??
?
?
?
??
???????????
),0(~
...
2
22110
N
xxxY pp
式中 x1,x2,...,xp都是可精确测量或可控制的一般
变量,Y是可观察的随机变量,β0,β1,β2,...,βp是未
知参数,ε是不可观察的随机误差,
? 假如我们要获得 n组相互独立的样本,
(Yi; x1i,x2i,...,xpi),i=1,2,...,n
则可知有数据结构
Yi=β0+β1x1i+β2x2i+...+βpxpi+ εi i=1,2,...,n
其中 εi ~N(0,σ2),i=1,2,...,n且相互独立,这就是
p元线性回归模型,
§ 3.1 参数估计
.
?
...
????
:
,?,...,?,?,?,...,,,
22110
210210
元线性回归方程称为
元线性方程得到一个
则可的估计分别为设
p
xxxy
p
pp
pp
?????????
?????????
).,,(
?...????
),...,,(
22110
21
拟合值等也称为预测值在某些情况下称为回归值
求得的相应值对每一个样本点
pipiii
piii
xxxy
xxx
?????????
?
? 若已给出样本观察值 (yi; x1i,x2i,...,xpi),i=1,2,...,n.我
们希望对参数 β0,β1,β2,...,βp及 σ2作出估计,
)
?
,...,
?
,
?
(),...,,(m i n
:,
)...(),...,,(
:.?
?
,...,
?
,
?
1010
,.,,,,
1
2
11010
10
10
pp
n
i
pipiip
ii
p
QQ
xxyQ
yy
p
???????
???????????
????
???
?
?
即要求理则根据最小二乘法的原
为此定义之间的偏差达到最小与使一切
所定出的回归方程能我们希望由估计
?
?
?
?
?
?
?
?
?
?
?
??????????
??
?
??????????
??
?
??????????
??
?
?
?
?
?
?
?
0)...(2
...,,,,,,,,,.,,,,,,,,,.,,,,,,,,,.,,,,,,,,,.,,,,,,,,,.,,,,,,,,,.,,,,,,,,,
0)...(2
0)...(2
1
110
1
1
110
1
1
110
0
pi
n
i
pipii
p
i
n
i
pipii
n
i
pipii
xxxy
Q
xxxy
Q
xxy
Q
由于 Q是 β0,β1,β2,...,βp的一个非负二次型,故其
极小值必存在,根据微积分的理论知道,这只需
求解下列方程组,
.,...,,,
...
.,,,,,.,,,,,,,,,.,,,,,,,,,.,,,,,,,,,.,,,,,,,,,.,,,,,,,,,.,,,,,,,,,
...
...
,...,,
10
11
2
1
11
1
0
1
1
1
1
1
1
2
1
1
01
111
110
10
的最小二乘估计其解称为称为正规方程组
的一个线性方程组经过整理得到关于
p
n
i
ipi
n
i
ppi
n
i
ipi
n
i
pi
n
i
ii
n
i
ppii
n
i
i
n
i
i
n
i
i
n
i
ppi
n
i
i
p
yxxxxx
yxxxxx
yxxn
???
?
?
?
?
?
?
?
?
?
?
?
???????
???????
???????
????
????
????
???
????
????
???
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
??
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
pnpnn
p
p
y
y
y
Y
xx
xx
xx
X
......
...1
............
...1
...1
1
0
2
1
1
212
111

?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
??
?
pnn
p
p
pnpp
n
xx
xx
xx
xxx
xxx
XX
...1
............
...1
...1
...
............
...
1...11
1
212
111
21
11211
由于
A
xxxx
xxxx
xxn
n
i
pi
n
i
ipi
n
i
pi
n
i
pii
n
i
i
n
i
i
n
i
pi
n
i
i
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
???
???
??
???
???
??
1
2
1
1
1
1
1
1
2
1
1
1
11
1
...
............
...
...
B
yx
yx
y
y
y
y
xxx
xxx
YX
n
i
ipi
n
i
ii
n
i
i
npnpp
n
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
??
?
?
?
?
?
?
1
1
1
1
2
1
21
11211
...
...
...
............
...
1...11
? 所以正规方程用矩阵形式表示即为,
YXXX ????
.
,
.,
规方程组的常数项矩阵
为正阵为正规方程组的系数矩
的数学期望的结构它说明称为结构矩阵
YXBXXA
YX
????
?
YXXX
A
???
?
?
?
1
1
)(?
:?
,,
?
? 可表示为计
这时最小二乘估存在通常在回归分析中
pp
p
xx
xxy
???
?
??
?...??
?),...,,1(?
:?
110
1
????
?
? 即可得到回归方程的最小二乘估计由
.?? 称为残差的差与回归值实测值 iiii yyyy ??
为了求 σ2的估计,先给出几个名词
.
])([??~ 1
称为残差向量
YXXXXIXYYYY n ????????? ??
).(
])([
?
????
)
?
)(
?
(
)
?
()
?
(
~~
)?(
1
1
2
或剩余平方和称为残差平方和
YXXXXIYYXYY
XXXYYXYYXYXY
XYXYYYyyS
n
n
i
iiE
??????????
????????????????
?????????
?
?
?
?
??????
??
2)1()(,????? pnSE E定理
)~~()~~(
)~~()~~()(:
YYt rEYYtrE
YYtrEYYESE E
????
????证明
0)(
])([)?()~(
1
1
?????
??????
?
?
??
?
XXXXXX
YXXXXYEXYEYE又
])([
])(][)([
])()[(])([
]))([()
~
()
~~
(
12
211
11
1
XXXXI
XXXXIXXXXI
XXXXIYDXXXXI
YXXXXIDYDYYE
n
nn
nn
n
????
???????
????????
??????
?
??
??
?
?
?

)1()(
])([
])([)(
2
1
2
12
12
?????
????
????
?
?
?
pnt r In
XXXt r Xt r I
XXXXItrSE
p
n
nE
??
?
?所以
.
1
?
2
2
的无偏估计是
由此可知
?
??
??
?
pn
S
E
§ 3.2 参数最小二乘估计的性质
21
)()?(
,
?,?:
???
?????
?
XXD
T
其方差协方差矩阵为无偏估计
的线性是则的最小二乘估计是若定理
.
?
)(
)()(])[()
?
(
.
?
,
,...,,
?
)(
?
:
1
11
21
1
的无偏估计是所以

是一个线性估计所以函数
的线性是知由证明
??
????
???
?
????
?
??
?
XXXX
YEXXXYXXXEE
yyyYXXX
TT
TTTT
n
TT
.)(
)()()(
])) [ (()(
])[()?(
1
21211
11
1
为相关矩阵称
?
???
??
?
????
?
???
XX
XXXXXXXX
XXXYDXXX
YXXXDD
T
TTTT
TTTTT
TT
.
?,)()?(,21
一般并不独立
的各分量之间知由注 ????? ?XXD T
0)?,~(,?? ?YC o v定理
)?,?()?,~(,??? XYC o vYC o v ??? 证明
)?,?()?,( ??? XC o vYC o v ??
)?())(,( 1 ?XDYXXXYC o v TT ?? ?
)?(]))[(( 1 ?XDXXXYD TTT ?? ?
0)()( 2121 ??? ?? ?? XXXXXX TT
.
)(~
))(,(~
?
,
?
,),(~:
2
2
12
2
的秩为矩阵其中
且相互独立与时当定理
Xq
qn
S
XXN
SIXNY
E
T
Enn
??
?
???
????
?
.
?
,
~~~
.
~
?
,
?
~
,
~
?
0)
?
,
~
()2(
).)(,(~
?
)()
?
()
?
(
,
?
,
,...,,
?
)1(:
12
12
21
相互独立与所以函数
的仅为又相互独立与故服从正态分布
且不相关与知由
所以
又因为仍服从正态分布故的线性组合
是相互独立的正态变量因为证明
E
E
T
T
n
S
YYYSY
YYYYYC o v
XXN
XXDE
yyy
?
???
?????
???
??????
?
??
?
?
使及交矩阵
故必存在正相同其秩与这是一个非负定矩阵
为此令变量的平方和即可
个独立的变换为只要设法将
所以要证由于
.,...,2,1,0
,,
)(
.),0(
),(~
,])([)3(
1
2
2
2
1
qiC
X
XXXXG
N
qnSqn
S
YXXXXIYS
i
TT
E
E
TTT
E
???
?
?
???
?
??
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
00
...
0
...
0
2
1
q
T
C G C
GXXXX
XXXXXXXXG
TT
TTTT
??
??
?
??
1
112
)(
)()(
又因为
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
???
00
...
0
...
0
2
2
2
2
1
2
q
TTTT
C G CC G CCCGC G C
?
?
?

qi
qi
i
ii
,...,2,1,1
,...,2,1,2
??
??
?
??所以
???
?
???
??
00
0qT IC G C从而
)( ?XYCZ ??作变换
n
TT
ICCCYCD
CYDXYCDZD
XYECXYCEZE
Z
22
)(
)()]([)(
0])([)]([)(
,
??
?
??
???
???
?????
且仍服从正态分布则
).,0(~,,...,,221 ?NZZZZZ in 且相互独立的分量这说明
YXXXIYS TTE ])([ 1???
)]()([)( 1 ?? XZCXXXIXZC TTTT ???? ?
ZC G CZZZXCGICZ TTTTT ???? )(
Z
I
ZZZ qTT ??
?
?
???
???
00
0
)...()......( 22221222221 qnq zzzzzzz ??????????
22
2
2
1,.,nqq zzz ???? ??
,),0( 2 变量的平方和个独立是所以 ?NqnS E ?
)(~1 22 qnS E ???从而
§ 3.3 假设检验
? 对多元线性回归模型,除了参数估计问题外,还有
些假设检验问题,
0...:
.0,
,...,,)1(
210
21
???????
??
?
p
i
p
H
xxxy
当于检验假设
这相则对一切关系如果它们之间没有线性
之间是否确有线性关系与变量
pjH
yx
xxxy
jj
j
j
p
,...,2,10:
:.0,
,,...,,)2(
0
21
???
?
?
这相当于检验假设应该是那么著
的作用不显对如果用呢每个变量都起着显著作
但是否之间确有线性关系与假若
? y1,y2,...,yn之间的差异一般由两个原因引起,
一是当 y与 x1,x2,...,xp之间确有线性关系时,由
于 x1,x2,...,xp取值不同,而引起 yi取值的不同 ;
另一个是除去 y与 x1,x2,...,xp之间线性关系以外
的一切因素引起的,包括 x1,x2,...,xp对 y的非线性影
响及其它一切未加控制的随机因素,
通常用总的偏差平方和来衡量 y1,y2,...,yn波动
的大小,
?
?
??
n
i
iT yyS
1
2)(
RE
n
i
i
n
i
ii
n
i
iT
T
SS
yyyyyyS
S
??
?????? ???
??? 1
2
1
2
1
2
)?()?()(
进行平方和分解得到对
.
,...,,
,)?(
21
1
2
的波动素引起的数据
切因之间的线性关系以外一与除去
它反映了称为剩余平方和
i
p
n
i
iiE
y
xxxy
yyS ?
?
???
.,...,,
,)?(
21
1
2
间的波动的变化引起由变量
它主要反映了称为回归平方和
ip
n
i
iR
yxxx
yyS ?
?
???
? ?
? ? ?
? ??
? ?
? ? ?
? ??
??????????
?????
?
?
?
?
?
?
??????
p
u
p
v
pypyyuvvu
vvi
n
i
p
u
p
v
uuivu
n
i
p
u
uuiu
n
i
iR
llll
xxxx
xxyyS
1 1
2211
1 1 1
1
2
11
2
?
...
????
)()(
??
)(
?
)?(
))((
1
))((
))((
1
))((
)(
1
)(
:
1111
1111
2
11
2
1
2
????
????
???
????
????
???
?????
?????
????
?
n
i
i
n
i
ui
n
i
iui
n
i
iuuiuy
n
i
vi
n
i
ui
n
i
viui
n
i
vviuuiuv
n
i
i
n
i
i
n
i
iyy
yx
n
yxyyxxl
xx
n
xxxxxxl
y
n
yyyl
的记号在此给出在计算中常用
1)1(
,,
)1(~
1
2
2
?????
???
?
nppn
pS
pnS
R
E
故且其自由度为是正态变量的平方和而
又因为
)1(~
1
,,,...,2,1
),,(~,0...:
2
2
2
0210
??
?
?
??????????
nS
ni
NyH
T
ip
这时有且相互独立
一切为真时当
)1,(~
)1/(
/
0...:
210
??
??
?
???????
pnpF
pnS
pS
F
H
E
R
p
为真时有于是在
)(~
1
,
11
,0...:
2
2
22210
pS
SSH
R
REp
?
?
??
???????
且相互独立
与为真时从而在
.,...,,
,)1,(,
,
21
0
之间确有线性关系与
即认为时拒绝假设当下平
在给定的显著性水程序按照一般显著性检验的
p
xxxy
HpnpFF ???
?
?
?
.
,),1,()6(
)1,()5(
)1/(
/
)4(
)3(
?
...
??
)2(
)1(
:
,0...:
0
0
2211
210
H
HpnpFF
pnpF
pnS
pS
F
SSS
lllS
lS
H
E
R
ETE
pypyyR
yyT
p
接受
否则则拒绝假设若
查表得
计算
计算
计算
计算
步骤进行
按以下时在具体检验
???
??
??
?
??
????
?
?????
?
?
???
???
.;
,)1(||
,,
)1(~
?
?
0:.
?
?
,1)(
),,(~
?
),)(,(~
?
0
02/
0
21
212
j
jjj
jj
j
j
jj
j
T
jj
jjjj
T
H
yxHpntt
pnt
c
T
H
jXXc
cNXXN
否则接受影响是显著的
的对即认为因素时拒绝假设
当对给定的显著性水平序按照一般显著性检验程
为真时有因此在假设立
相互独与且个对角元素中第为中
其所以由于
???
???
?
?
?
?
?
?
?
?
?
?
??
??????
.,,)4(;,,)3(;)2(;)1(
.49.
,
.
,,:
321
321
2
3
21
的影响的显著性分别对检验
的线性相关性与检验
的估计
回归方程
求组数据如下表所列经实测某号平炉的有关
及熔化时间与所加的二种矿石的量的去碳量
一炉钢在冶炼初期总降低铁水的总含碳量在不断
作用由于矿石与炉气的氧化在平炉炼钢中例
yxxx
xxxy
x
xxy
?
?
编号 x
1
x
2
x
3
y 编号 x
1
x
2
x
3
y
1 2 18 50 4, 3 3 0 2 14 6 14 51 5, 4 8 4 9
2 7 9 40 3, 6 4 8 5 15 0 21 51 4, 5 9 6 0
3 5 14 46 4, 4 8 3 0 16 3 14 51 5, 6 6 4 5
4 12 3 43 5, 5 4 6 8 17 7 12 56 6, 0 7 9 5
5 1 20 64 5, 4 9 7 0 18 16 0 48 3, 2 1 9 4
6 3 12 40 3, 1 1 2 5 19 6 16 45 5, 8 0 7 6
7 3 17 64 5, 1 1 8 2 20 0 15 52 4, 7 3 0 6
8 6 5 39 3, 8 7 5 9 21 9 0 40 4, 6 8 0 5
9 7 8 37 4, 6 7 0 0 22 4 6 32 3, 1 2 7 2
10 0 23 55 4, 9 5 3 6 23 0 17 47 2, 6 1 0 4
11 3 16 60 5, 0 0 6 0 24 9 0 44 3, 7 1 7 4
12 0 18 49 5, 2 7 0 1 25 2 16 39 3, 8 9 4 6
13 8 4 50 5, 3 7 7 2 26 9 6 39 2, 7 0 6 6
编号 x
1
x
2
x
3
y 编号 x
1
x
2
x
3
y
27 12 5 51 5, 6 3 1 4 39 9 8 51 4, 5 9 1 9
28 6 13 41 5, 8 1 5 2 40 6 13 54 5, 1 5 8 8
29 12 7 47 5, 1 3 0 2 41 5 8 100 5, 4 3 7 3
30 0 24 61 5, 3 9 1 0 42 5 11 44 3, 9 9 6 0
31 5 12 37 4, 4 5 3 3 43 8 6 63 4, 3 9 7 0
32 4 15 49 4, 6 5 6 9 44 2 13 55 4, 0 6 2 2
33 0 20 45 4, 5 2 1 2 45 7 8 50 2, 2 9 0 5
34 6 16 42 4, 8 6 5 0 46 4 10 45 4, 7 1 1 5
35 4 17 48 5, 3 5 6 6 47 10 5 40 4, 5 3 1 0
36 10 4 48 4, 6 0 9 8 48 3 17 64 5, 3 6 3 7
37 4 14 36 2, 3 8 1 5 49 4 15 72 6, 0 7 7 1
38 5 13 36 3, 8 7 4 6
? 解,首先进行数据整理得
582.4204.49
49
1
796.11
49
1286.5
49
1
49
1
49
1
33
49
1
22
49
1
11
????
????
??
??
??
??
i
i
i
i
i
i
i
i
yyxx
xxxx
959.6247492124879
959.1753498572
00.662492031
2
3
49
1
2
333
49
1
2
3
2
2
49
1
2
222
49
1
2
2
2
1
49
1
2
111
49
1
2
1
????
????
????
??
??
??
??
??
??
xxlx
xxlx
xxlx
i
i
i
i
i
i
i
i
i
i
i
i
041.776492 9 2 1 6
857.388491 2 3 5 5
143.918492137
905.4449592.1073
32
49
1
323223
49
1
32
31
49
1
313113
49
1
31
21
49
1
212112
49
1
21
2
49
1
2
49
1
2
?????
??????
??????
????
??
??
??
??
??
??
??
??
xxxxllxx
xxxxllxx
xxxxllxx
yyly
i
ii
i
ii
i
ii
i
ii
i
ii
i
ii
i
iyy
i
i
571.2454972.11292
130.694951.2717
433.64930.1180
3
49
1
33
49
1
3
2
49
1
22
49
1
2
1
49
1
11
49
1
1
????
????
?????
??
??
??
??
??
??
yxyxlyx
yxyxlyx
yxyxlyx
i
iiy
i
ii
i
iiy
i
ii
i
iiy
i
ii
?
?
?
?
?
???????
???????
???????
???
571.245959.6247041.776857.388
130.69041.776959.1753143.918
433.6857.388143.918000.662
:
?
,
?
,
?
321
321
321
321
解出可从下面的正规方程组于是
0 3 5 9.0?1 0 7 6.0?1 6 0 4.0? 321 ??????
解此方程组得
321
3322110
0359.01076.01604.07014.0?
7014.0????
xxxy
xxxy
????
?????
所以回归方程为
又 ????
6 8 4.29
2 2 1.15???
9 0 5.44
332211
???
???????
??
RTE
yyyR
yyT
SSS
lllS
lS
.01.0
,0:,)45,3(
.24.7)45,3(
69.7
1/
/
660.0
1349
684.29
1
?
321001.0
01.0
2
水平下有显著意义
量的回归方程在即去碳量关于这三个变
故拒绝
由于分布表得查
所以
?
????
?
?
??
?
?
??
?
??
?
?
???
?
HFF
FF
pnS
pS
F
pn
S
E
R
E
42.3
?
?
88.2
?
?
84.2
?
?
81.0??
0 0 0 1 6 9 4.0
0 0 2 1 2 2.00 0 5 5 1 5.0
)(
33
3
3
22
2
2
11
1
1
2
33
2211
1
?
?
?
?
?
?
?
??
?
?
?
????
?
??
?
c
t
c
t
c
t
c
cc
XX
T
所以

得到由
.
01.0,3,2,1
,0:01.0
),45(||,70.2)45(
0
0 0 5.00 0 5.0
都有显著影响
水平下对去碳量即三个变量在以
下拒绝所以在显著性水平
由于分布表得查
?
??
??
j
H
tttt
jj
j
??