方差分析例 1 假定某型号的电子管的使用寿命服从正态分布,并且原料差异只影响平均寿命,不影响方差 。
现用 三种不同来源的材料 各试生产了一批电子管 。
从每批中各抽取若干只做寿命实验,得数据如下表 。
2?
试问测试结果是否说明这批电子管的寿命有明显差异?
材料批号 寿命测定值(单位:小时)
1
2
3
1600 1610 1650 1680 1700 1700 1800
1580 1640 1640 1700 1750
1460 1550 1600 1620 1640 1660 1740 1820
1.引例例 2 设对 四种玉米品种 进行对比实验,每个品种都在同一块田的五个小区各做一次实验,实验结果如下表所示。试问不同品种对玉米的平均产量是否有显著影响?
品种 产量(斤 /小区)
32.3 34.0 34.3 35.0 36.5
33.3 33.0 36.3 36.8 34.5
30.8 34.3 35.3 32.3 35.8
1A
2A
3A
4A
29.3 26.0 29.8 28.0 29.8
类似问题高等数学、线性代数、数理统计等许多基础课实行选课制,
如何认定主讲教师对学生成绩有一定影响?
假定:张老师的学生平均 72.5,李老师的学生平均成绩 71.8,
王老师的学生平均成绩 70.9,
能否说明三位老师的教学水平有差异?
根据假设检验的原理,即检验 1 2 3= =?
解决此类问题,1是重复检验,2是方差分析在实践中,
人们总是要通过试验,观察各种因素的影响,例如,
不同型号的机器,不同的原材料、不同的技术人员以及不同的操作方法等等,对产品的产量、性能都会有影响。当然,有的因素影响大,有的因素影响小,
有的因素可以控制,有的因素不能控制。如果从多种可控制因素中找出主要因素,通过对主要因素的控制,
调整,提高产品的产量、性能,这是人们所希望的,解决这个问题的有效方法之一就是方差分析。
影响一个事物的因素往往是很多的,
前面提到的产品的产量、性能等称为试验指标,
他们受因素的影响,因素的不同状态称为水平,一个因素可采取多个水平。
通过观察可以得到试验指标的数据,这些数据可以看成从不同的总体中得到的样本数值。
统计学上,不同的因素,不同的水平 可以看作是不同的总体。
二、统计分析一,总平方和的分解单因素试验的方差分析设在试验中,因素 A有 S个不同水平 12,,.,,,,sA A A
在水平下的试验结果 2~ (,) ( 1,2,.,,,)
jjX N j s 。
其中 和 是未知参数。在水平 下作 次独立实验,
其结果如表 1所示 。
j? 2? jA jn
数学模型
1
2
3
in
1 1 1 2 1 sX X X
2 1 2 2 2 sX X X
3 1 3 2 3 sX X X
11nX sns
X
样本均值
jX
22nX
.1X,sX.2X
序号 样 本水平
1A 2A sA
是来自总体 的容量为 的一个 样本,其观察值为12 jj j n jX X X,,,j
X jn
0 1 2,sH
1 1 2:,,,,sH 不 全 相 等
(1)
由于 相互独立,且
ijX
2~ (,)i j jXN 1,2,.,,,; 1,2,,ji n j s
若记则
( 1,2,,; 1,2,,)i j i j j jX i n j s
2~ ( 0,),ij N 且相互独立要判断因素的各水平间是否有显著差异,也就是要 判断各正态总体的均值是否相等,即检验假设
12 jj j n jx x x,,,
2
~ ( 0,)
1,2,,1,2,,
i j j i j
i j i j
j
X
N
i n j s





相 互 独 立其 中
(2)
其中 与 均为未知参数。
式( 2)称为 单因素方差分析的数学模型 。
j? 2?
则 μ是各水平下总体均值的加权平均,称为 总平均值 ;
代表了第 j水平下的总体均值与平均值的差异,
这个差异称为 的效应,j
jA
1
0
s
jj
j
n?
(4)
由式 (2),(3)可以得到单因素方差分析的 等价数学模型它满足
1
1 s
jj
j
jj
n
n




( 1,2,,)im?
(3)
再令
1
s
j
j
nn

式 (5)表明:样本由 总平均值因素的 水平效应随机误差 三部分叠加而成。
因而式 (5)也称为 线性可加模型 。
(5)
1
2
0 1,2,,; 1,2,,
~ ( 0,)
ij j ij
m
j j j
i
ij
X
n j s i n
N




且 相 互 独 立方差分析的任务:
检验线性统计模型( 1.1)中的 s个总体 2(,)jN
j?中 的 各 的 相 等 性,即 有
0 1 2
1
:
,1.2
,
j
ij
H
H
ij




( )
至 少 有 一 对
0 1 2
1
,= 0
1.2 '
:0
s
j
H
Hj



等 价 假 设,
( )
至 少检验此假设的适当程序就是方差分析
jj
1,总平方和的分解
jA记 在 水 平 下 的 样 本 看 作 一 组,记 组 内 平 均 为
.
1
1 jn
j ij
ij
XX
n?

.
1 1 1
1
11
,
jnjj
ij j j
j i j
s
j
j
X X n X
nn
nn



其 中样本总平均
A1( X1) A2( X2) A3 A4( X4)
.1X
X
.2X
.4X
14
X
14,4XX?
.4XX?
总离差平方和为
2
11
()
jns
T ij
ji
S X X


--全部数据与总平均之间的差异,又叫总变差
2
..
11
[ ( ) ( ) ]
jns
ij j j
ji
X X X X


分 解

22
..
1 1 1 1
( ) ( )jj
nnss
ij j j
j i j i
X X X X


..
11
2 ( ) ( )
jns
ij j j
ji
X X X X


交叉项为 0,因为
..
11
2 ( ) ( )
jns
j ij j
ji
X X X X


..
11
2 ( ) ( ) 0
jns
j ij j j
ji
X X X n X


..
11
2 ( ) ( )
jns
ij j j
ji
X X X X


总离差平方和分解为
ES A
S

(组内离差) (组间离差) EA
SS
22
..
1 1 1 1
( ) ( )
jjnnss
ij j j
j i j i
X X X X


2
11
()
jns
T ij
ji
S X X


2
E.
11
S ( )
jns
ij j
ji
XX

组 内 差反映 Ai水平下的子样均值与样本值之间的差异,
则有总平方和的分解 TS ( 1,3 )AESS
22
..
1 1 1
( ) ( )
jnsS
A j j j
j i J
S X X n X X

= = 组 间 差反映 Ai水平下的子样均值与总平均值之间的差异,
叫水平 Ai效应的平方和它是由随机误差引起的,叫误差平方和
SE,SA的统计特性
2
E.
11
S ( )
jns
ij j
ji
XX


2
.
21
2
()
1
jn
ij j
i
j
XX
n?
~ ( )
2
2
.
21E
22
11
()
S
~ ( ( 1 ) )
jn
ij jss
i
j
jj
XX
n



由 分 布 的 可 加 性,有

2E
2
S ~ ( ) ( 1,4) ns?

2()EE S n s
2E
E2
2EE
2
S
~ ( ) S,
SS
[ ],[ ]
n s n s
E n s E
ns


,知,的 自 由 度 为 并 且 有即 =
22
22
.
11
[ ] (,)
Ss
A j j j j
Jj
ES E n X n X n E X n EX


22
1
( 1 ) ( 1,5 )
s
A j j
j
ES s n

22
22
1
( ) ( )
s
jj
j j
nnnn

2 2 2 2
1 1 1
( 1 ) 2
s s s
j j j j j
j j j
s n n n n


22
1
( 1 )
s
jj
j
sn

1
1
0
s
j j j j j
j
s
j
j
j A n
nn


- - 第 个 水 平 的 效 应

2 2 2
1
( 1 )
s
jj
j
s n n

2
.
1
( )
S
A j j
J
S n X X

22
1
( 1 )
s
A j j
j
ES n s

2~ (,)ij jXN 且 独 立,
2 2 2 2
11
/ ( ( ) ) / ( - 1 )
jns
T ij
ji
S X X n


0 1 2,sH若
AE
T A E
SS
S S S
与 相 互 独 立 ( 证 明 略 ),
SA的自由度为 S-1
2 2 2
2
2
2
2
~ ( 1 ),
~ ( ),
T A E
T
E
S S S
S
n
S
ns



0 2
2 ~ ( 1 )
H
AS s?

2
2
2
2
2
2
~ ( 1 ),
~ ( ),
~ ( 1 )
T
E
A
S
n
S
ns
S
s


0,0 iH在 成 立 的 条 件 下,
F取 统 计 量
~ ( 1,) F F s n s
2
2
/( 1 )
/( )
A
E
S
s
S
ns
F 分布的分位点回顾对于给定的正数 称满足条件的点 为 分位点。分布的上查出给定即认为因素对试验结果无显著影响。
方差来源平方和自由度均方 F值因素 A SA s-1
误差 E SE n-s
总和 T ST n-1
1AA
SS
s
EE SS ns
A
E
SF
S?
一元方差分析表
~ ( 1,)A
E
SF F s n s
S
1
11
,1 2 s
,
j
j
n
j ij
i
ns
ij
ji
T x j
Tx



=,
为了计算的方便,常采用下面的简便计算方式,记
2
22,.
1 1 1 1
2
2
.2
.
11
()
( )
jj
nn
ss
T ij ij
j i j i
ss
j
A j j
jj i
E T A
T
S X X X
n
T T
S n X X
nn
S S S








2
22
1 1 1 1
1122
11
2
2 2 2..,.
1 1 1 1
()
()
()
jj
j
j
jj
nn
ss
T ij ij
j i j i
n
s
n ij
s
jj
ij
ji
nn
ss
ij ij
j i j i
S X X X n X
X
Xn
n
TT
X n X
nn











例 2 设对 四种玉米品种 进行对比实验,每个品种都在同一块田的五个小区各做一次实验,实验结果如下表所示。试问不同品种对玉米的平均产量是否有显著影响? (α=0.01)
品种 产量(斤 /小区)
32.3 34.0 34.3 35.0 36.5
33.3 33.0 36.3 36.8 34.5
30.8 34.3 35.3 32.3 35.8
1A
2A
3A
4A 29.3 26.0 29.8 28.0 29.8
解 分别以 表示不同品种玉米平均产量总体的均值,按题意需检验假设 1 2 3 4
,,,
0 1 2 3 4:H
1 1 2 3 4:,,,H 不全相等
1 2 3 4n n n n =5,
1 2 3 4n n n n n =20
6 5 6,4,ijx 2 2 1 6 7 7,5 0ijx
4S?
品种地块产量
1A 2A 4A3A?
1 32.3 33.3 30.8 29.3
172.1 173.9 168.5 141.9 656.4
5 36.5 34.5 35.8 28.8
4 35.0 36.8 32.3 28.0
3 34.3 36.3 35.3 29.8
2 34.0 33.0 34.3 26.0
.jT
2jT
2 /5jT
5
2
1
ij
j
x
5923.682 6048.242 5678.45 4027.122 21677.50
29618.41 30241.21 28392.25 20135.61
5933.03 6060.07 5696.15 4035.97 21725.22
表 3
245
2
11 20
T i j
ij
TSx


4 7,7 2E T AS S S
2 24
.
1 5 2 0
j
A
i
T T
S

1 3 4,4 5 2?
注意到
4,m? 1 2 3 4 5,n n n n
可得方差分析表
656,4217 25.22 182,172
20
26 5 6,4
2 1 6 7 7,5
20

表 4
方差来源误差 E
因素 A
总和均 方自由度平方和 显著性F 比
47.72ES? 2.98ES?
15.0 4F?4 4,8 1 7AS?
1 8 2,1 7 2TS?
1 3 4,4 5 2AS?
当 时,0.01 由 F分布表可查得
0,0 1( 3,1 6 ) ( 3,1 6 ) 5,2 9FF
由于
0,0 11 5,0 4 5,2 9 ( 3,1 6 ),FF
故拒绝
0,H
即认为这四个品种对玉米平均产量的影响高度显著。
3
19
16
由上面讨论,可得未知参数 2,,
j
的估计
2? ES
ns
是 的无偏估计 。2?
.
11
11jjnn
j i j j j
jjjj
E X E X
nn




1 1 1
11 jnss
i j i i
j i j
E X E X n
nn



.,jjXX
4.未知参数的估计如果检验结果为拒绝,
0H

12,,,s
不全相等。 有时需要对第 j个水平及第 k个水平均值差 作出区间估计。
jk
为此,我们可以取作为 的点估计,
..jkXX
jk
注意到
..()j k j kE X X
2
..
11( ) ( )
jk
jk
D X X
nn

..
()
~ ( 0,1 )
11
j k j k
jk
XX
N
nn




2? /ES n s 是 的无偏估计,2?

2/~ES? 2 ( ),ns
可以证明 与 相互独立。
..jkXX? ES
..
2
()
1 / 1 /
()
j k j k
jk
E
XX
nn
T
S
ns



..
()
~ ( )
11
()
j k j k
E
jk
XX
t n s
S
n s n n


jk
的置信度为 的置信区间为1
..
2
11
( ) ( )j k E
jk
X X t n s S
nn?



例 3 求 例 2中未知参数 的点估计及均值差的置信度为 0.95的区间估计。
2 J,,
解 的点估计为2?
2? 2.98E
E
S S
ns==
及 的无偏估计分别为? J?
45
11
1 6 5 6,4? 3 2,8 2
20ijij
x
n


.? ( 1,2,3,4 )5
j
jj
T
xj
.1
1? 3 4,4 2,5
T 2
2? 34.7 8,5
T
3? 3 3,7 0, 4? 2 8,3 8 。
当 0,0 5 时,
/ 2 0,0 2 5(2 0 4 ) ( 1 6 ) 2,1 1 9 9tt
0,0 2 5
11( 1 6 ) ( )
E
ik
tS
nn

12, 13, 13
的置信度为 0.95的置信区间分别为
22,1 1 9 9 2,9 8 2,3 1 5
5

( 3 4,4 2 3 3,7 0 2,3 1 5,3 4,4 2 3 3,7 0 2,3 1 5 )
( 1,5 9 5,3,0 3 5 )
3 4,4 2 2 8,3 8 2,3 1 5,3 4,4 2 2 8,3 8 2,3 1 5
( 3,7 2 5,8,3 5 5 )?
( 3 4,4 2 3 4,7 8 2,3 1 5,3 4,4 2 3 4,7 8 2,3 1 5 )
( 2,6 7 5,1,9 5 5 )
12
13
41
在现实问题中,处于同一个过程中的一些变量,
往往是相互依赖和相互制约的,它们之间的相互关系大致可分为两种:
相关关系问题
( 1)确定性关系 —— 函数关系;
( 2)非确定性关系 —— 相关关系;
相关关系表现为这些变量之间有一定的依赖关,
但这种关系并不完全确定,它们之间的关系不能精确地用函数表示出来,这些变量其实是随机变量,或至少有一个是随机变量。
相关关系举例例如:在气候、土壤、水利、种子和耕作技术等条件基本相同时,某农作物的亩产量 Y 与施肥量 X 之间有一定的关系,
但施肥量相同,亩产量却不一定相同。 亩产量是一个随机变量。
又如:人的血压 Y 与年龄 X 之间有一定的依赖关系,一般来说,年龄越大,血压越高,但年龄相同的两个人的血压不一定相等。 血压是一个随机变量。
农作物的亩产量与施肥量、血压与年龄之间的这种关系称为相关关系,在这些变量中,施肥量、年龄是可控变量,亩产量、血压是不可控变量。一般在讨论相关关系问题中,可控变量称为自变量,不可控变量称为因变量。
对于 x的一组不完全相同的值 x1,x2,…,xn作独立观察,得到随机变量 y相应的观察值
y1,y2,…,yn,构成 n对数据,用这 n对数据可作出一个散点图,直观地描述一下两变量之间的关系,
y
xo
· ··
··
··
···
·
·
这里有三幅散点图,
y
xo
· ··
··
··
···
(1)
o
y
x
···
· ····
· ···
(2)
y
xo
·
···· ·
···
·
·
··
·
·
·
····
(3)
根据散点图,考虑以下几个问题,
(1)两变量之间的关系是否密切,或者说我们能否由 x来估计 y.
(2)两变量之间的关系是呈一条直线还是呈某种曲线,
(3)是否存在某个点偏离过大,
(4)是否存在其它规律,
y
xo
· ··
··
··
···
(1)
o
y
x
···
· ····
· ···
(2)
y
xo
·
···· ·
···
·
·
··
·
·
·
····
(3)
考虑采用线性方程拟合采用非线性方程拟合以下重点讨论前者函数关系与相关关系的区别相关关系 —— x 影响
Y
的值,
x Y函数关系 —— 决定 的值,
因此,统计学上讨论两变量的相关关系时,是设法确定:在给定自变量 的条件下,因变量 的条件数学期望
xX? Y
( | )E Y x
不能确定。
回归分析的概念研究一个随机变量与一个(或几个)可控变量之间的相关关系的统计方法称为回归分析。
只有一个自变量的回归分析称为一元回归分析;多于一个自变量的回归分析称为多元回归分析。
)|()( xYEx引进回归函数称为回归方程( ) ( | )y x E Y x
Y x回归方程反映了因变量 随自变量 的变化而变化的平均变化情况,
回归分析主要包括三方面的内容
( 1)提供建立有相关关系的变量之间的数学关系式(称为经验公式)的一般方法;
( 2)判别所建立的经验公式是否有效,并从影响随机变量的诸变量中判别哪些变量的影响是显著的,哪些是不显著的;
回归分析的内容
( 3)利用所得到的经验公式进行预测和控制。
一元线性回归模型如果试验的散点图中各点呈直线状,则假设这批数据的数学模型为设随机变量 Y依赖于自变量 x,作 n次独立试验,
得 n对观测值:
称这 n对观测值为容量为 n的一个子样,若把这 n对观测值在平面直角坐标系中描点,得到试验的 散点图,
1 1 2 2(,) (,) (,)nnx y x y x y
,i i iy a b x ni,,2,1
其中,且相互独立,2~ (0,)
i N
ni,,2,12~,
iiy N a b x


图 9-1
x
y
O
i?
(,)iixy
i i iy a b x
ni,,2,1
其中
i?
同服从于正态分布相互独立,
),0( 2?N
因此
2~ (,)iiy N a b x
ni,,2,1
2
Y a b x,( b 0 )
~ N( 0,)


2ab?、,x其中 是与 无关的 未知常数 。
( 9.1)
一元线性回归模型一般地,称如下数学模型为一元线性模型而 称为回归函数或回归方程。
Y a b x
称为回归系数。
ab、
1.最小二乘估计设 是 的一组观测值,对每个样本观测值 考虑 与其回归值的离差综合考虑每个离差值,定义离差平方和所谓 最小二乘法,就是寻找参数 的估计值使得离差平方和达到极小值,即选择使得满足上式的 称为回归参数二乘估计 。
的 最小由于的极小值总是存在的因此 应满足即整理得 正规方程组若记
- Y 对 x 的经验回归直线方程
- 经验回归系数代入回归直线方程,得:
表明:对于一组样本观察值,经验回归直线始终通过散点图的几何中心在经验回归直线上例 1 在钢线碳含量 x对于电阻效应 y的研究中,得到了以下数据,
碳含量( %) 0.10 0.30 0.40 0.55 0.70 0.80 0.95
电阻(微欧) 15 18 19 21 22.6 23.8 26
假设对于给定的 x,y 为正态变量,且方差与 x 无关,如果 x,y满足经验公式
,y a b x
求线性回归方程?y a b x
解 设,y a b x2,0~ N
现在 7,n? 3,8,
ix 4.1 4 5 iy
595.22ix 61.85ii yx 2.3 1 0 42iy
xy 5 5 0 3.129 5 8 4.13
所求的线性回归方程为
1
2
1
( ) ( )
()

=
n
ii
i
n
i
i
x x Y Y
b
xx
= 11
22
11
( ) ( )
( ) ( )
nn
i i i
nn
ii
ii
x x Y x x Y
x x x x






= 1
2
1
()
()
n
i
i
in
i
i
xx
Y
xx
定理 5.1.1( 1)
证明:
1
2
1
()
()
=
n
i
i
in
i
i
xx
E b E Y
xx
1
2
1
()
()
()
n
i
i
in
i
i
xx
a bx
xx
=
11
22
11
( ) ( )
( ) ( )
nn
ii
ii
inn
ii
ii
x x x x
a b x
x x x x






=
1
2
1
( ) ( )
()
=0
n
i
n
i
i
x x x x
b
xx?b
1
2
1
()
()
=
n
ii
i
n
i
i
x x Y
Db D
xx
=
22 1
1
1
( ( ) )
( ( ) )
n
iin
i
i
i
D x x Y
xx?
= 2
22 1
1
1
( ) ( )
( ( ) )
n
iin
i
i
i
x x D Y
xx?
= 2
2
1
1
()
n
i
i
xx

21(,)
xx
b N b S?
(,)C o v Y b
11
()
(,)
nn
i i i
ii
Y x x Y
C o v
n Sx x


=
11
(,( ) )
nn
i i i
iixx
C o v Y x x YnS

1=
1
( ) ( )
n
ii
ixx
x x D YnS
1=
2
1
( ) 0
n
i
ixx
xxnS?
1=
定理 5.1.1( 3)
定理 5.1.1( 2)
( ) ( )证明,E a E Y b x
()+E a b x b x?a
a y bx
( ) ( )D a D Y b x
2 (,)( ) ( ) 2 C o v YD D b x bxY
2 2 2
0
xx
x
nS

2
2 1
S
i
n
i
xx
x
n

22
221( ) ( )xx
x x x x
S nxx
n S nS
+
2 5,1,1 4 (,)
xx
xCov a b
S定 理 ( )
(,) (,)C o v a b C o v y b x b
(,) (,)C o v y b C o v b x b
0 (,) x D b b
2
xx
x S
证明:
2.σ 的估计定理 5.1.2
从而 的无偏估计为残差 /剩余平方和 --因随机因素引起的误差
Qe 的计算例 2求例 1中 的无偏估计,
解 由例 1得定 理 5.1.2
2
2
1( 1 ) 2
eQn服 从 自 由 度 为 的 分 布
2?( 2 ),分别与 独立 ab?
我们注意到 只反映了 x对 y的影响,所以回归值 就是 yi中只受 xi影响的那一部分,而 则是除去 xi的影响后,
受其它种种因素影响的部分,故将 称为 残差,
xbay
iy?
ii yy
ii yy
y
x
iy
ix
a?ii yy
bxay
y? y
o
3 相关系数分析
y
x
iy
ix
a?ii yy
bxay
y? y
o
称为变差,可分解为两部分,yy i?
)?()?( iiii yyyyyy
因此,y1,y2,…,yn 的总变差为,
2
1
()
n
Ti
i
S y y

符 号 定 义
2
1
()
n
Ri
i
S y y

2
1
()
n
e i i e
i
S y y Q

2
22
eeQS
nn
回归平方和残差平方和(或剩余平方和)
总离差平方和
2
1
()
n
i
i
S y y
T


n
i
n
i
iii yyyy
1 1
22 )?()?(
可以证明
RS
eS
TS
即 可以分解为两部分,回归平方和与残差平方和,
RS
eS
TS
2
1
()
n
Ri
i
S y y

2
1
()
n
e i i
i
S y y
(10)
T R ES S S
2 2 2
1 1 1
( ) ( ) ( )n n ni i i i
i i i
y y y y y y

即 = +
22
11
( ) ( )nni i i i
ii
y y y y y y


22
1 1 1
= ( ) ( ) ( ) ( )
n n n
i i i i i i
i i i
y y y y y y y y


11
( ) ( ) ( ) ( ) 0nni i i i i i
ii
y y y y y y b x x


因 为 正 规 方 程得出
0=
T R ES S S所以
2
1
()
n
Ri
i
S y y

2
1
()
n
e i i
i
S y y

反映了由于自变量 x的变化引起的因变量 y 的差异,体现了 x对 y的影响;
RS
ES而 反映了种种其它因素对 y的影响,这些因素没有反映在自变量中,它们可作为随机因素看待,
T R ES S S
RS
eS
T
相 关 系 数 的 定 义
xy
x x y y
Sr
SS
2
2 xy
xx y y
Sr
SS
2
1
()
n
i
i
S y y
R = 2
1
()
n
i
i
a bx a bx

2 2 2 2 2
11
( ) ( )
nn
xy
i i x x x x
ii xx
Sb x b x b x x b S S
S= = ( )
2
2 xy
xx y y y y
S Sr
S S S
R2 x y R x xS S S从 而 =
2r相 关 系 数 恰 好 代 表 了 回 归 平 方 和 占 总 离 差 平 方 和
2
2 xy
x x y y T
S Sr
S S S
R
的 比 率 xY其 值 越 大,越 说 明 的 变 化 引 起 的 的 变 化就 越 大越大,变量 与 之间的线性相关程度越强。
R xy
( 1)
1R?
( 2) 时,
1R? 0,E T RS S S
( 3) 时,
0R? 0,R T ES S S
与 有线性相关关系;x
y
与 无线性相关关系;x
y
4 线性回归方程的显著性检验
( 1) t检验检验假设由于,因此当原假设成立时,有与且 相互独立从而对于给定的显著性水平 α,该假设检验问题的拒绝域为例 3 检验例 1中的线性回归是否显著,
解 检验假设 拒绝域为由例 2得 0.5321xxS?
拒绝 即认为线性回归显著
( 2) F 检验定理 5.1.3 当 时检验假设选取统计量对给定的显著性水平 的拒绝域为
5.回归系数的区间估计
~ ( 2 )
/
bb tn
S x x?

6.预测
( 1)单值预测设回归方程 为
2 (,)
xx
xC ov a b
S
222
2 2 2 200
0
2 ( )11 ()
xx xx xx xx
x x x xx x
n S S S n S


( 2)区间预测标准化后又 且 相互独立由 t分布的定义则回归方程 为例 4 求例 1中当碳含量为 0.50时,电阻的置信水平为 0.95的置信区间解 由例 1和例 2可得编号 1 2 3 4 5 6 7 8 9
脂肪含量
%
15.4 17.5 18.9 20.0 21.0 22.8 15.8 17.8 19.1
蛋白质含量 %
44.0 39.2 41.8 38.9 37.4 38.1 44.6 40.7 39.8
试求出 与 的关系,并判断是否有效。x
y
例 1 为了研究大豆脂肪含量 和蛋白质含量 的关系,
测定了九种大豆品种籽粒内的脂肪含量和蛋白质含量,
得到如下数据
x y
( 2)建立模型由散点图,设变量 与 为线性相关关系:x
y y a b x
确定回归系数 和,a b
编号 1 2 3 4 5 6 7 8 9?
x 15.4 17.5 18.9 20.0 21.0 22.8 15.8 17.8 19.1 168.3
y 44.0 39.2 41.8 38.9 37.4 38.1 44.6 40.7 39.8 364.5
x2 237.16 306.25 357.21 400 441 519.84 249.64 316.84 364.81 3192.75
y2 1936 1536.64 1747.24 1513.21 1398.76 1451.61 1989.16 1656.49 1584.04 14813.2
xy 677.6 686 790.02 778 785.4 868.68 704.68 724.46 760.18 6775.02
解 ( 1)描散点图
1 6 8,3 3 6 4,51 8,7 ; 4 0,5
99
xy
6 7 7 5,0 2 9 1 8,7 4 0,5 4 1,1 3xyS
23 1 9 2,7 5 9 1 8,7 4 5,5 4xxS
21 4 8 1 3,2 9 4 0,5 5 0,9 5
yyS
0,90 32xy
xx
S
b
S
5 7,3 8 9 1a y b x
所以,所求的回归方程为
0,9 0 3 2 5 7,3 8 9 1yx
利用回归方程进行预测
1、点预测
0xx?
时,即为 的点预测值。
0?y a b x y
2、区间预测统计量

00
2
0
~ ( 2 )
1
1
( 2 )
E
xx
yy
T t n
xxS
n n L


对给定的置信水平,的预测区间为1
0y

20
2
01( 2 ) 1
( 2 )
E
xx
xxS
tn
n
y
nL?

( 3)检验回归方程的有效性
0,8 5 3 9xy
x x y y
S
R
SS

0,0 1 0,7 9 7 7R?
2 9 2 7d f n
查相关系数临界值表因为
0,0 1RR?
所以回归方程在 的检验水平下有统计意义。0,0 1
即可以认为大豆的蛋白质含量与脂肪含量有线性相关性。
前一节,我们学习了一元线性回归分析问题,在实际应用中,有些变量之间并不是线性相关关系,但可以经过适当的变换,把非线性回归问题转化为线性回归问题。
可线性化的一元非线性回归常见的几种变换形式:
1、双曲线 1 b
a
yx

11,yx
yx
y a b x

2、幂函数曲线
by a x?
l n,l n,l ny y x x a ay a b x令化非线性回归为线性回归变形 l n l n l ny a b x
3、指数函数曲线
bxy a e?
l n,l ny y a a y a b x令变形 l n l ny a b x
4、负指数函数曲线 bxy a e?
1l n,,l ny y x a a
x
y a b x
令化非线性回归为线性回归变形
l n l n bya
x

5、对数函数曲线 lny a b x
lnxx y a b x令
6,S型( Logistic)曲线
1 x
Ky
Ae
l n,l nKyy a A
y
y a x令化非线性回归为线性回归变形
( 1 )xxy A e K y A y e K
l n l nx K y K yA e A x
yy



例 1 测定某肉鸡的生长过程,每两周记录一次鸡的重量,
数据如下表
x/周 2 4 6 8 10 12 14
y/kg 0.3 0.86 1.73 2.2 2.47 2.67 2.8
由经验知鸡的生长曲线为 Logistic曲线,且极限生长量为 k=2.827,试求 y对 x的回归曲线方程。
解 由题设可建立鸡重 y与时间 x的相关关系为
2,8 2 7
1 x
y
Ae
2,8 2 7l n,l nyy a A
y
y a x令 则有列表计算序号 x y y' X2 y'2 xy'
1 2 0.3 2.131 4 4.541 4.262
2 4 0.86 0.827 16 0.684 3.309
3 6 1.73 -0.456 36 0.208 -2.733
4 8 2.2 -1.255 64 1.576 -10.042
5 10 2.47 -1.934 100 3.741 -19.342
6 12 2.67 -2.834 144 8.029 -34.003
7 14 2.8 -4.642 196 21.544 -64.982
56 13.03 -8.162 560 40.323 -123.531
所以 8,0 0x?
1.1 66y
112xxL? 3 0,8 0 7
yyL
5 8,2 3 6xyL
0,51 99 67xy
xx
L
L

2,9 9 3 7 6 2a y x
1 9,9 6 0 6 3aAe
所以所求曲线方程为
0,5 1 9 9 7
2,8 2 7
1 1 9,9 6 0 6 x
y
e?
前一节,我们学习了一元线性回归分析问题,在实际应用中,有些变量之间并不是线性相关关系,但可以经过适当的变换,把非线性回归问题转化为线性回归问题。
可线性化的一元非线性回归常见的几种变换形式:
1、双曲线 1 b
a
yx

11,yx
yx
y a b x

2、幂函数曲线
by a x?
l n,l n,l ny y x x a ay a b x令化非线性回归为线性回归变形 l n l n l ny a b x
3、指数函数曲线
bxy a e?
l n,l ny y a a y a b x令变形 l n l ny a b x
4、负指数函数曲线 bxy a e?
1l n,,l ny y x a a
x
y a b x
令化非线性回归为线性回归变形
l n l n bya
x

5、对数函数曲线 lny a b x
lnxx y a b x令
6,S型( Logistic)曲线
1 x
Ky
Ae
l n,l nKyy a A
y
y a x令化非线性回归为线性回归变形
( 1 )xxy A e K y A y e K
l n l nx K y K yA e A x
yy



例 1 测定某肉鸡的生长过程,每两周记录一次鸡的重量,
数据如下表
x/周 2 4 6 8 10 12 14
y/kg 0.3 0.86 1.73 2.2 2.47 2.67 2.8
由经验知鸡的生长曲线为 Logistic曲线,且极限生长量为 k=2.827,试求 y对 x的回归曲线方程。
解 由题设可建立鸡重 y与时间 x的相关关系为
2,8 2 7
1 x
y
Ae
2,8 2 7l n,l nyy a A
y
y a x令 则有列表计算序号 x y y' X2 y'2 xy'
1 2 0.3 2.131 4 4.541 4.262
2 4 0.86 0.827 16 0.684 3.309
3 6 1.73 -0.456 36 0.208 -2.733
4 8 2.2 -1.255 64 1.576 -10.042
5 10 2.47 -1.934 100 3.741 -19.342
6 12 2.67 -2.834 144 8.029 -34.003
7 14 2.8 -4.642 196 21.544 -64.982
56 13.03 -8.162 560 40.323 -123.531
所以 8,0 0x?
1.1 66y
112xxL? 3 0,8 0 7
yyL
5 8,2 3 6xyL
0,51 99 67xy
xx
L
L

2,9 9 3 7 6 2a y x
1 9,9 6 0 6 3aAe
所以所求曲线方程为
0,5 1 9 9 7
2,8 2 7
1 1 9,9 6 0 6 x
y
e?
多重回归分析在实际问题中,自变量的个数可能多于一个,随机变量 y与多个可控变量 x1,x2,x3,…,xk之间是否存在相关关系,则属于多重
(元)回归问题。本节讨论多重线性回归。
多重线性回归模型随机变量 与 之间的线性关系
y 12,,,kx x x
0 1 1 2 2 kpy x x x
(1)
其中
2~ 0,N 0 1 2,p,,,,
未知则( 1)式称为多重线性回归模型。
多重线性回归模型若对变量 与 分别作 n次观测,则可得一个容量为 n的子样y 12
,,,kx x x
0 1 1 2 2i i i k i p iy x x x
(2)
其中
2~ 0,,( 1,2,,)
i N i n
0 1 2 p,,,,
为待定参数,称为回归系数。
( 2)式含有 p+1个参数,故观测次数应满足 n>p+1。
12,,,,,1,2,,i i i p ix x x y i n?
则有多重线性回归模型的矩阵形式记
1
2
n
y
y
Y
y






1 1 1 2 1
2 1 2 2 2
12
1
1
1
p
p
n n n p
x x x
x x x
X
x x x





0
1
p







1
2
n
e






则( 2)有矩阵形式
Y X e
2~ 0,e N E?其中确定 的最小二乘法?
考虑多元函数
20 1 1
1
n
i i p ip
i
Q y x x

目标:确定 使 最小
01,,,kQ?
方法:
0,1,2,,
i
Q ip

0 1 1 2 2
10
2 ( ) 0
n
i i i p ip
i
Q y x x x



0 1 1 2 2 1
11
2 ( ) 0
n
i i i p ip i
i
Q y x x x x



0 1 1 2 2
1
2 ( ) 0
n
i i i p i p i p
ip
Q y x x x x



也 称 为 正 规 方 程 组
0 1 1 2 2( ) ( ) ( )i i i p p i
i i i i
n x x x y
2
1 0 1 1 1 2 2 1 1( ) ( ) ( ) ( )i i i i i i p p i ii i i i ix x x x x x x y
2
0 1 1 1 2 2( ) ( ) ( ) ( )i p i p i i i i p p i p ii i i i ix x x x x x x y
写 成 矩 阵 形 式,则 有
TTX X X Y 1? ()TTX X X
解得
0 1 1 2 2 ppy x x x
—— 多重线性回归方程可证:
从而
22
1
()n i
i
Q y y
T
同一元线性回归一样
1
()n i
i
Q y y

22
1
()n ii
i
Q y y

2 2 2Q Q QT 回 剩
2R相 关 系 数 恰 好 代 表 了 回 归 平 方 和 占 总 离 差 平 方 和的 比 率 xY其 值 越 大,越 说 明 的 变 化 引 起 的 的 变 化就 越 大相 关 系 数 的 定 义
2 SR
S?
回总越大,变量 与 之间的线性相关程度越强。
R xy
( 1)
1R?
( 2) 时,
1R? 0,E T RS S S
( 3) 时,
0R? 0,R T ES S S
与 有线性相关关系;x
y
与 无线性相关关系;x
y
1性 质 也 是 的 无 偏 估 计
1? ()TTX X X Y说 明,
Y ( 1,2,)i in是 的 线 性 函 数,也 服 从 正 态 分 布
1?( ) [ ( ) ]TTE E X X X Y
1()TTX X X E Y
1()TTX X X X
2 性 质 21(,) ( )TC o v X X
3性 质 与 线 性 无 关,) 0C o v即 有 (
线性回归方程的显著性检验
0 1 2:0 pH
线性回归方程是否有统计意义,可检验假设 0 1 1 2 2 kky x x x
是否成立方法:方差分析法,将总离差平方和分解

222
1 1 1
n n n
T i i i i
i i i
Q y y y y y y


QQ回 剩线性回归方程的显著性检验
2
1
n
Ri
i
Q y y

2
1
n
E i i
i
Q y y

—— 回归平方和,反映线性关系对观测结果产生的数据波动,QR越大,线性相关关系越强。
—— 剩余平方和(或残差平方和),反映除线性因素之外的其它因素对观测结果产生的数据波动,QE越大,
则其它因素对 Y的影响越大。
22 ~1TQ n?
在 H0成立的条件下,可以证明:
22 ~RQ p?
22 ~1EQ np?

( n为观测次数,p为自变量个数)
构造 F统计量

~,1
1
R
E
Sp
F F p n p
S n p


当 时,拒绝 H0。
,1F F p n p
方 差 分 析 表来 源 离 差 自 由 度 均 方 离 差 F值回 归 R T EQ Q Q P 2 RR QS p=
2
2
SF
S? 剩回剩 余 EQ 1np 1e Qs np剩总 和 TQ 1n?
回归系数的统计检验回归方程的有效性检验,只是解决了 与之间是否有线性相关关系,至于变量 对 的影响是否有统计意义,无从看出,因此,还需对回归系数 是否为 0作统计检验。
y 12,,,kx x x
ix y
i?
提出假设
01,0 ;,0iiHH如果 H
0成立,可以证明统计量
~1
( 1 )
i
i i E
T t n p
C S S n p


当 时,拒绝 H0。
2 1T t n p 2 ( 1 )
1
n
i i k i
k
Cx?

利用回归方程作预测及控制对于给定的
12,,,kx x x
0 0 1 1 2 2 kky x x x
点估计值置信水平为 的预测区间为1
10 2 0 0 0 01
1
TTESy t X X X X
nk?



例 2 某种水泥在凝固时放出的热量 Y( cal/g)与水泥中下列 4种化学成分有关:
1 2 3:3 ax c o A l o?
的成分( %)
22:3 ax c o S i o?
的成分( %)
3 2 3 2 3:4 ax c o A l o F e o
的成分( %)
42:2 ax c o S i o?
的成分( %)
现记录了 13组观测数据,列在下表中,试求 对的线性回归方程。
y 12,,xx
34,xx
1 1 2 2 3 3 4 4y a b x b x b x b x
编号 X1(%) X2(%) X3(%) X4(%) Y(cal/g)
1 7 26 6 60 78.5
2 1 29 15 52 74.3
3 11 56 8 20 104.3
4 11 31 8 47 87.6
5 7 52 6 33 95.9
6 11 55 9 22 109.2
7 3 71 17 6 102.7
8 1 31 22 44 72.5
9 2 54 18 22 93.1
10 21 47 4 26 115.9
11 1 40 23 34 83.8
12 11 66 9 12 113.3
13 10 68 8 12 109.4