Multiple Linear Regression Analysis
第十五章
多元线性回归分析
一、多元线性回归模型
第一节 多元线性回归
表 15 — 2 2 7 名糖尿病人的血糖及有关变量的测量结果
总胆固醇 甘油三酯 胰岛素 糖化血红蛋白 血糖
(mmol/L) (mmol/L) ( ? U/ml) (%) (mmol/L)
序号
i
X
1
X
2
X
3
X
4
Y
1 5.68 1.90 4.53 8.2 11.2
2 3.79 1.64 7.32 6.9 8.8
3 6.02 3.56 6.95 10.8 12.3
? ? ? ? ? ?
27 3.84 1.20 6.45 9.6 10.4
表 15 - 1 多元回归分析数据格式
例号 X
1
X
2
? X
m
Y
1 X
11
X
12
? X
1m
Y
1
2 X
21
X
22
? X
2m
Y
2
? ? ? ? ? ?
n X
n1
X
n2
? X
nm
Y
n
eXXXY mm22110 ?????????? ?
影响后的随机误差。个自变量对去除
的平均变化量。增加或减少一个单位时
时在其它自变量保持不变偏回归系数
常数项
Ym e
Y
X,;
jj
0
?
?
多元线性回归模型应用条件:
1.Y与 X1,X2,?,Xm之间具有线性关系;
2.各个 Yi间相互独立;
3.e服从均数为 0、方差为 ?2的正态分布。
多元线性回归分析步骤:
1.根据样本数据求得模型参数估计值:
2.对回归方程及各 Xj作假设检验。
mm XbXbXbbY ????? ?22110?
二、多元线性回归方程的建立
y
x
? bXaY ??
110? XbbY ??
l
11
b
1
+ l
12
b
2
+ ? + l
1 m
b
m
= l
1 y
l
21
b
1
+ l
22
b
2
+ ? + l
2 m
b
m
= l
2 y
??
l
m 1
b
1
+ l
m 2
b
2
+ ? + l
mm
b
m
= l
my
11
1
1
l
l
b Y?
110
? XbbY ??
110 XbYb ??
Ylbl 1111 ?
x1
x2
y
22110? XbXbbY ???
22110? XbXbbY ???
)( 22110 XbXbYb ???
Ylblbl 1212111 ??
Ylblbl 2222121 ??
? ?
? ?? ? 最小
使
解正规方程组
最小二乘法
2
22110
2
XbXbbY
Y
?
YQ
?????
???
mm XbXbXbbY ????? ?22110?
)( mm XbXbXbYb ????? ?22110
Ymm lblblbl 11212111 ???? ?
??
? Ymm lblblbl 22222121 ????
mYmmmmm lblblbl ???? ?2211
? ?
? ?? ? 最小
使
解正规方程组
最小二乘法
2
mm22110
2
XbXbXbbY
Y
?
YQ
???????
???
?
表 15 — 2 2 7 名糖尿病人的血糖及有关变量的测量结果
总胆固醇 甘油三酯 胰岛素 糖化血红蛋白 血糖
(mmol/L) (mmol/L) ( ? U/ml) (%) (mmol/L)
序号
i
X
1
X
2
X
3
X
4
Y
1 5.68 1.90 4.53 8.2 11.2
2 3.79 1.64 7.32 6.9 8.8
3 6.02 3.56 6.95 10.8 12.3
? ? ? ? ? ?
27 3.84 1.20 6.45 9.6 10.4
? ?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
2 2 2, 5 5 1 9 8 4, 5 5 7 0 1 4 2, 4 3 4 7- 8 9, 8 0 2 5 6 7, 6 9 6 2
8 4, 5 5 7 0 8 6, 4 4 0 7 5 7, 3 8 6 3- 2 6, 7 2 8 6 3 1, 3 6 8 7
1 4 2, 4 3 4 7- 5 7, 3 8 6 3- 3 5 0, 3 1 0 6 9, 4 9 2 9- 5 3, 9 5 2 3-
8 9, 8 0 2 5 2 6, 7 2 8 6 9, 4 9 2 9- 1 7 2, 3 6 4 8 6 7, 3 6 0 8
6 7, 6 9 6 2 3 1, 3 6 8 7 5 3, 9 5 2 3- 6 7, 3 6 0 8 0 1 0 3.66
l
ij
8 4, 5 5 7 0 b8 6, 4 4 0 7b 5 7, 3 8 6 3-b2 6, 7 2 8 6b3 1, 3 6 8 7
1 4 2, 4 3 4 7- b5 7, 3 8 6 3-b3 5 0, 3 1 0 6b9, 4 9 2 9-b5 3, 9 5 2 3-
8 9, 8 0 2 5b2 6, 7 2 8 6b9, 4 9 2 9-b1 7 2, 3 6 4 8 b6 7, 3 6 0 8
6 7, 6 9 6 2 b3 1, 3 6 8 7 b5 3, 9 5 2 3- b6 7, 3 6 0 8 b0 1 0 3.66
4321
4321
4321
4321
???
??
???
???
6 3 8 2.0b 2 7 0 6.0b 3 5 1 5.0b 1 4 2 4.0b 4321 ?????
9 2 5 9.11Y
1 1 8 5.9X 1 4 6 7.6X 8 4 0 7.2X 8 1 2 6.5X
6 3 8 2.0b 2 7 0 6.0b 3 5 1 5.0b 1 4 2 4.0b
4321
4321
?
????
?????
9 4 3 3.5XbXbXbYb mm22110 ?????? )( ?
4321 X6 3 8 2.0X2 7 0 6.0X3 5 1 5.0X1 4 2 4.09 4 3 3.5Y? ?????
三、多元线性回归方程的
假设检验及其评价
(一)回归方程的假设检验及评价
(二)各自变量的假设检验及评价
(一)回归方程的假设检验及评价
残
回
残
回
回总残
回
)(
不全为
方差分析法
MS
MS
1mn /SS
m/SS
F
SSSSSS
lblblbSS
0)m,,2,1j(:H
0:H
.1
mYmY22Y11
j1
m210
?
??
?
??
????
??
???????
?
?
?
表 15 - 3 多元线性回归方差分析表
变异来源 自由度 SS MS F P
总变异 n - 1 SS 总
回 归 m SS 回 SS 回 / m MS 回 / MS 残
残 差 n - m - 1 SS 残 SS 残 / (n - m - 1)
表 15 - 4 多元线性回归方差分析表
变异来源 自由度 SS MS F P
总变异 26 222.5519
回 归 4 133.7107 33.4277 8.28 < 0.01
残 差 22 88.8412 4.0382
F
0, 0 1 (4,2 2 )
=4, 3 1
的变异解释。
化血红蛋白甘油三酯、胰岛素和糖
可由总胆固醇、血糖含量变异的
决定系数
总
回
60%
6008.0
5519.222
7107.133
SS
SS
R
R,2
2
2
???
之间的相关程度。与估计值
相关程度;与多个自变量间的线性
复相关系数
Y
?
Y
Y
7 7 5 1.06 0 0 8.0RR
R,3
2
???
(二)各自变量的假设检验及评价
)(
)(
愈重要。愈大说明相应的自变量
其值的回归贡献。条件下该自变量对
个自变量的表示模型中含有其它
偏回归平方和
残
回
1mn/SS
1/XSS
F
0:H,0:H
Y
1-m
,1
j
j
j1j0
??
?
????
对例 15 - 1 数据作回归分析的部分中间结果
平方和(变异)
回归方程中包含的自变量
SS
回
SS
残
X
1
X
2
X
3
X
4
1 3 3, 7 1 0 7 8 8, 8 4 1 2
X
2
X
3
X
4
1 3 3, 0 9 7 8 8 9, 4 5 4 0
X
1
X
3
X
4
1 2 1, 7 4 8 0 1 0 0, 8 0 3 8
X
1
X
2
X
4
1 1 3, 6 4 7 2 1 0 8, 9 0 4 7
X
1
X
2
X
3
1 0 5, 9 1 6 8 1 1 6, 6 3 5 1
? ?
? ?
? ?
? ? 7 9 3 9.279 1 6 8.1 0 57 1 0 7.1 3 3XSS
0 6 3 5.206 4 7 2.1 1 37 1 0 7.1 3 3XSS
9 6 2 7.117 4 8 0.1 2 17 1 0 7.1 3 3XSS
6 1 2 9.00 9 7 8.1 3 37 1 0 7.1 3 3XSS
4
3
2
1
???
???
???
???
回
回
回
回
30.4F
0, 0 5P 883.6
1427/8 4 1 2.88
1/7 9 3 9.27
F
0, 0 5P 968.4
1427/8 4 1 2.88
1/0 6 3 5.20
F
0, 0 5P 962.2
1427/8 4 1 2.88
1/9 6 2 7.11
F
0, 0 5P 152.0
1427/8 4 1 2.88
1/6 1 2 9.0
F
)22,1(05.0
4
3
2
1
?
??
??
?
??
??
?
??
??
?
??
??
?
)(
)(
)(
)(
胰岛素 (X3)与糖化血红蛋白 (X4)与血糖 (Y)有线性回归关系。
jb
j
j
S
b
t
t,2
?
检验法
2 4 3 3.0S 1 2 1 4.0S 2 0 4 2.0S 3 6 5 6.0S
6 3 8 2.0b 2 7 0 6.0b 3 5 1 5.0b 1 4 2 4.0b
4321 bbbb
4321
????
?????
074.2t
0, 0 5P 623.2
2433.0
6382.0
t
0, 0 5P 229.2
1214.0
2706.0
t
0, 0 5P 721.1
2042.0
3515.0
t
0, 0 5P 390.0
3656.0
1424.0
t
22,2/05.0
4
3
2
1
?
???
???
?
?
???
???
胰岛素 (X3)与糖化血红蛋白 (X4)与血糖 (Y)有线性回归关系。
标准化回归方程
标准化回归系数
S
XX
X
3.
j
jj'
j ?
?
?
标准化回归系数用来比较各个自变量 Xj 对
Y的影响程度;
标准化回归方程的截距为 0。
??
?
?
??
?
?
??
Y
j
j
YY
jj
j
'
j S
S
b
l
l
bb
对血糖影响大小的顺序依次为糖化血红蛋
白 (X4)、胰岛素 (X3)、甘油三酯 (X2)与总胆
固醇 (X1)。
第二节 自变量选择方法
一、全局选择法
二、逐步选择法
一、全局选择法
对自变量各种不同的组合所建立的回归方程
进行比较,从全部组合中挑出一个“最优”
的回归方程。
总
残
)(
选择法校正决定系数
MS
MS
1
1pn
1n
R11R
R,1
22
c
2
c
??
??
?
???
R2可用来评价回归方程优劣;
随着自变量增加,R2不断增大,对两个不同个数自
变量回归方程比较,须考虑方程包含自变量个数影
响,应对 R2进行校正。
所谓“最优”回归方程指 最大者。
2cR
? ?? ?
的回归方程为最优。最接近应选择
)(
)(
选择法
残
残
1pCp
mp 1p2n
MS
SS
C
C,2
m
p
p
p
?
?????
P为方程中自变量个数。
所有回归方程( 2
4
- 1 = 1 5 )的
2
c
R 和 C
p
统计量的值
方程中自变量
2
c
R
C
p
方程中自变量
2
c
R
C
p
X
2
X
3
X
4
0,5 4 6 3,1 5 X
2
X
3
0,4 0 8 9,1 4
X
1
X
2
X
3
X
4
0,5 2 8 5,0 0 X
1
X
3
0,3 7 5 1 0,7 8
X
1
X
3
X
4
0,4 8 8 5,9 6 X
4
0,3 4 7 1 1,6 3
X
1
X
2
X
4
0,447 7,9 7 X
1
0,2 8 4 1 4,9 2
X
1
X
4
0,4 4 1 7,4 2 X
1
X
2
0,2 7 5 1 5,8 9
X
2
X
4
0,4 4 0 7,5 1 X
3
0,2 3 1 1 7,7 7
X
3
X
4
0,4 3 5 7,7 2 X
2
0,1 7 9 2 0,5 3
X
1
X
2
X
3
0,4 0 8 9,8 8
二、逐步选择法
全局选择计算量很大:
6个变量,计算 26-1=63个方程;
10个变量,计算 210-1=1023个方程;
按选入变量顺序不同分前进法、后退法与逐步
回归法,共同特点是每一步只引入或剔除一个
自变量 Xj。
对 Xj的取舍要进行 F检验:
? ?
? ? )(
)(
残
回
1/
1/
??
?
pnSS
XSS
F
l
j
l
j
计算进行到第 l步时:
p,方程中自变量个数
SS回,Xj的偏回归平方和
SS残,残差平方和
1.前进法(只选不剔)
开始方程中无自变量,然后从方程外选取偏
回归平方和最大的自变量作 F检验以决定是否
选入方程,直至无自变量可以引入方程为止。
入选j)1pn,1(j XFF s l e ????
缺点:后续变量的引入可能使先前引入的变量
变的不重要。
selection entry
2.后退法(只剔不选)
开始方程中包含全部自变量,然后从方程中选
取偏回归平方和最小的自变量作 F检验以决定
是否从方程中剔除,直至无自变量可以从方程
中剔除为止。
剔除j)1pn,1(j XFF s l s ????
缺点:当某些自变量高度相关时,可能得不出
正确结果。
selection stay
3.逐步回归法(先选后剔,双向筛选)
?开始方程中无自变量,从方程外选偏回归平方
和最大自变量作 F检验以决定是否选入方程;
?每引一个自变量进入方程后,从方程中选偏回
归平方和最小自变量作 F检验以决定是否从方
程中剔除;
?直至方程外无自变量可引入,方程内无自变量
可剔除为止。
严进严出
越少。被选入方程内自变量数越严,
变量标准值定的越小表示选取自
剔除内剔
入选外引
XFF
XFF
s l ss l e
j)1pn,1(j
j)1pn,1(j
s l s
s l e
???
?
?
?
???
???
27 名糖尿病人血糖及有关变量逐步回归过程 ( ?
s l e
= 0, 1 0,?
s l s
= 0, 1 5 )
步骤
( l )
引入
变量
剔除
变量
变量数
( p )
R
2
? ?
? ?
j
l
XSS
回
? ?l
SS
残
F 值 P 值
1 X 4 1 0.372 82.714 139.837 14.788 0.0007
2 X 1 2 0.484 25.076 114.762 5.244 0.0311
3 X 3 3 0.547 13.958 100.804 3.185 0.0875
4 X 2 4 0.601 11.963 88.841 2.962 0.0993
5 X 1 3 0.598 0.613 88.841 0.152 0.7006
? ?
? ?
0, 1 0P 92.2FF
788.14
)1127/(837.139
714.82
1pn/SS
1/XSS
F
X
0.10( 1,25)
1
4
1
4
???
?
??
?
??
?
)(
)(
)第一步(选:
残
回
? ?
? ?
0, 1 0P 93.2FF
2 4 4.5
)1227/(7 6 2.1 1 4
0 7 6.25
1pn/SS
1/XSS
F
X
0.10( 1,24)
2
1
2
1
???
?
??
?
??
?
)(
)(
)第二步(剔:无,选:
残
回
? ?
? ?
0, 1 0P 94.2FF
1 8 5.3
)1327/(8 0 4.1 0 0
9 5 8.13
1pn/SS
1/XSS
F
X
0.10( 1,23)
3
3
3
3
???
?
??
?
??
?
)(
)(
)第三步(剔:无,选:
残
回
? ?
? ?
0, 1 0P 95.2FF
9 6 2.2
)1427/(8 4 1.88
9 6 3.11
1pn/SS
1/XSS
F
X
0.10( 1,22)
4
2
4
2
???
?
??
?
??
?
)(
)(
)第四步(剔:无,选:
残
回
? ?
? ? 1 5 2.0
)1427/(8 4 1.88
6 1 3.0
1pn/SS
1/XSS
F
X
5
1
5
1
?
??
?
??
?
)(
)(
)第五步(剔:
残
回
0, 1 5P 92.2FF 0, 1 5 ( 1,2 2 ) ???
逐步回归方程的方差分析表
变异来源 自由度 SS MS F P
总变异 26 2 2 2,5 5 1 9
回 归 3 1 3 3,0 9 8 0 4 4,3 6 6 1 1,4 1 0,0 0 0 1
残 差 23 8 9,4 5 4 0 3,8 8 9
回归系数的估计与假设检验结果
变量 b S
b
b’ t P
常数项 6.4996 2.3962 0 2.713 0.0124
X
2
( 甘油三酯 ) 0.4023 0.1540 0.3541 2.612 0.0156
X
3
( 胰岛素 ) - 0.2870 0.1117 - 0.3601 - 2.570 0.0171
X
4
( 糖化血红蛋白 ) 0.6632 0.2303 0.4133 2.880 0.0084
432 X6 6 3 2.0X2 8 7 1.0X4 0 2 3.04 9 9 6.6Y? ????
第三节 多元线性回归的应用
及其注意事项
一、多元线性回归的应用
二、多元线性回归应用的注意事项
一、多元线性回归的应用
1.影响因素分析,
年龄 (X1)
饮食习惯 (X2)
吸烟状况 (X3)
工作紧张度 (X4)
家族史 (X5)
?
高血压 (Y)
2.估计与预测,
心脏表面积 (Y)=b0+b1心脏横径 (X1)+ b2心
脏纵径 (X2)+ b3心脏宽径 (X3)
新生儿体重 (Y)=b0+b1胎儿孕龄 (X1)+ b2 胎
儿头径 (X2)+ b3胎儿胸径 (X3)+ b4胎儿腹径
(X4)
3.统计控制,
利用回归方程进行逆估计,确定 Y后控制 X 。
采用射频治疗仪治疗脑肿瘤:
脑皮质毁损半径 (Y)
=b0+b1射频温度 (X1)+ b2照射时间 (X2)
二、多元线性回归应用的注意事项
1.指标的数量化
应变量 Y为连续变量
自变量 X可为连续、有序分类或无序分类变量
(1)连续变量,X
(2)有序分类变量:
1 轻
X= 2 中
3 重
(3)无序分类变量
职 业 无 序 分 类 变 量
X X 1 X 2 X 3
工 人 0 0 0
农 民 1 0 0
干 部 0 1 0
职 员 0 0 1
哑变量 (dummy variables)
2.样本含量:
n至少是 X个数 m的 5~ 10倍
3.关于逐步回归:
不要盲目信任,结合专业知识。
4.多重共线性:
实际应用中非常普遍,可使最小二乘法建
立的回归方程失效;
消除方法:剔除某个造成共线性的自变量。
5.变量间的交互作用:
某一自变量对 Y的作用大小与另一自变量的
取值有关。
432 X6 6 3 2.0X2 8 7 1.0X4 0 2 3.04 9 9 6.6Y? ????
血糖 (Y)与总胆固醇 (X1)、甘油三酯 (X2)、胰
岛素 (X3)、糖化血红蛋白 (X4)间逐步回归方程:
X3与 X4间有交互作用。
43
432
XX1 7 8 5.0
X5 0 9 7.1X2 2 6 7.1X3 6 9 0.07 8 9 8.0Y?
??
?????
6.残差分析:
标准化残差
残
MS
e
e
Y?Ye
i'
i
iii
?
??
e’
0
y?
y?
y?
y?
00
0 0
e’
e’e’
e’
y?
输入 y
输入 x r
进入 LR
MODE 2
a
b SHIFT
DEL
第十五章
多元线性回归分析
一、多元线性回归模型
第一节 多元线性回归
表 15 — 2 2 7 名糖尿病人的血糖及有关变量的测量结果
总胆固醇 甘油三酯 胰岛素 糖化血红蛋白 血糖
(mmol/L) (mmol/L) ( ? U/ml) (%) (mmol/L)
序号
i
X
1
X
2
X
3
X
4
Y
1 5.68 1.90 4.53 8.2 11.2
2 3.79 1.64 7.32 6.9 8.8
3 6.02 3.56 6.95 10.8 12.3
? ? ? ? ? ?
27 3.84 1.20 6.45 9.6 10.4
表 15 - 1 多元回归分析数据格式
例号 X
1
X
2
? X
m
Y
1 X
11
X
12
? X
1m
Y
1
2 X
21
X
22
? X
2m
Y
2
? ? ? ? ? ?
n X
n1
X
n2
? X
nm
Y
n
eXXXY mm22110 ?????????? ?
影响后的随机误差。个自变量对去除
的平均变化量。增加或减少一个单位时
时在其它自变量保持不变偏回归系数
常数项
Ym e
Y
X,;
jj
0
?
?
多元线性回归模型应用条件:
1.Y与 X1,X2,?,Xm之间具有线性关系;
2.各个 Yi间相互独立;
3.e服从均数为 0、方差为 ?2的正态分布。
多元线性回归分析步骤:
1.根据样本数据求得模型参数估计值:
2.对回归方程及各 Xj作假设检验。
mm XbXbXbbY ????? ?22110?
二、多元线性回归方程的建立
y
x
? bXaY ??
110? XbbY ??
l
11
b
1
+ l
12
b
2
+ ? + l
1 m
b
m
= l
1 y
l
21
b
1
+ l
22
b
2
+ ? + l
2 m
b
m
= l
2 y
??
l
m 1
b
1
+ l
m 2
b
2
+ ? + l
mm
b
m
= l
my
11
1
1
l
l
b Y?
110
? XbbY ??
110 XbYb ??
Ylbl 1111 ?
x1
x2
y
22110? XbXbbY ???
22110? XbXbbY ???
)( 22110 XbXbYb ???
Ylblbl 1212111 ??
Ylblbl 2222121 ??
? ?
? ?? ? 最小
使
解正规方程组
最小二乘法
2
22110
2
XbXbbY
Y
?
YQ
?????
???
mm XbXbXbbY ????? ?22110?
)( mm XbXbXbYb ????? ?22110
Ymm lblblbl 11212111 ???? ?
??
? Ymm lblblbl 22222121 ????
mYmmmmm lblblbl ???? ?2211
? ?
? ?? ? 最小
使
解正规方程组
最小二乘法
2
mm22110
2
XbXbXbbY
Y
?
YQ
???????
???
?
表 15 — 2 2 7 名糖尿病人的血糖及有关变量的测量结果
总胆固醇 甘油三酯 胰岛素 糖化血红蛋白 血糖
(mmol/L) (mmol/L) ( ? U/ml) (%) (mmol/L)
序号
i
X
1
X
2
X
3
X
4
Y
1 5.68 1.90 4.53 8.2 11.2
2 3.79 1.64 7.32 6.9 8.8
3 6.02 3.56 6.95 10.8 12.3
? ? ? ? ? ?
27 3.84 1.20 6.45 9.6 10.4
? ?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
2 2 2, 5 5 1 9 8 4, 5 5 7 0 1 4 2, 4 3 4 7- 8 9, 8 0 2 5 6 7, 6 9 6 2
8 4, 5 5 7 0 8 6, 4 4 0 7 5 7, 3 8 6 3- 2 6, 7 2 8 6 3 1, 3 6 8 7
1 4 2, 4 3 4 7- 5 7, 3 8 6 3- 3 5 0, 3 1 0 6 9, 4 9 2 9- 5 3, 9 5 2 3-
8 9, 8 0 2 5 2 6, 7 2 8 6 9, 4 9 2 9- 1 7 2, 3 6 4 8 6 7, 3 6 0 8
6 7, 6 9 6 2 3 1, 3 6 8 7 5 3, 9 5 2 3- 6 7, 3 6 0 8 0 1 0 3.66
l
ij
8 4, 5 5 7 0 b8 6, 4 4 0 7b 5 7, 3 8 6 3-b2 6, 7 2 8 6b3 1, 3 6 8 7
1 4 2, 4 3 4 7- b5 7, 3 8 6 3-b3 5 0, 3 1 0 6b9, 4 9 2 9-b5 3, 9 5 2 3-
8 9, 8 0 2 5b2 6, 7 2 8 6b9, 4 9 2 9-b1 7 2, 3 6 4 8 b6 7, 3 6 0 8
6 7, 6 9 6 2 b3 1, 3 6 8 7 b5 3, 9 5 2 3- b6 7, 3 6 0 8 b0 1 0 3.66
4321
4321
4321
4321
???
??
???
???
6 3 8 2.0b 2 7 0 6.0b 3 5 1 5.0b 1 4 2 4.0b 4321 ?????
9 2 5 9.11Y
1 1 8 5.9X 1 4 6 7.6X 8 4 0 7.2X 8 1 2 6.5X
6 3 8 2.0b 2 7 0 6.0b 3 5 1 5.0b 1 4 2 4.0b
4321
4321
?
????
?????
9 4 3 3.5XbXbXbYb mm22110 ?????? )( ?
4321 X6 3 8 2.0X2 7 0 6.0X3 5 1 5.0X1 4 2 4.09 4 3 3.5Y? ?????
三、多元线性回归方程的
假设检验及其评价
(一)回归方程的假设检验及评价
(二)各自变量的假设检验及评价
(一)回归方程的假设检验及评价
残
回
残
回
回总残
回
)(
不全为
方差分析法
MS
MS
1mn /SS
m/SS
F
SSSSSS
lblblbSS
0)m,,2,1j(:H
0:H
.1
mYmY22Y11
j1
m210
?
??
?
??
????
??
???????
?
?
?
表 15 - 3 多元线性回归方差分析表
变异来源 自由度 SS MS F P
总变异 n - 1 SS 总
回 归 m SS 回 SS 回 / m MS 回 / MS 残
残 差 n - m - 1 SS 残 SS 残 / (n - m - 1)
表 15 - 4 多元线性回归方差分析表
变异来源 自由度 SS MS F P
总变异 26 222.5519
回 归 4 133.7107 33.4277 8.28 < 0.01
残 差 22 88.8412 4.0382
F
0, 0 1 (4,2 2 )
=4, 3 1
的变异解释。
化血红蛋白甘油三酯、胰岛素和糖
可由总胆固醇、血糖含量变异的
决定系数
总
回
60%
6008.0
5519.222
7107.133
SS
SS
R
R,2
2
2
???
之间的相关程度。与估计值
相关程度;与多个自变量间的线性
复相关系数
Y
?
Y
Y
7 7 5 1.06 0 0 8.0RR
R,3
2
???
(二)各自变量的假设检验及评价
)(
)(
愈重要。愈大说明相应的自变量
其值的回归贡献。条件下该自变量对
个自变量的表示模型中含有其它
偏回归平方和
残
回
1mn/SS
1/XSS
F
0:H,0:H
Y
1-m
,1
j
j
j1j0
??
?
????
对例 15 - 1 数据作回归分析的部分中间结果
平方和(变异)
回归方程中包含的自变量
SS
回
SS
残
X
1
X
2
X
3
X
4
1 3 3, 7 1 0 7 8 8, 8 4 1 2
X
2
X
3
X
4
1 3 3, 0 9 7 8 8 9, 4 5 4 0
X
1
X
3
X
4
1 2 1, 7 4 8 0 1 0 0, 8 0 3 8
X
1
X
2
X
4
1 1 3, 6 4 7 2 1 0 8, 9 0 4 7
X
1
X
2
X
3
1 0 5, 9 1 6 8 1 1 6, 6 3 5 1
? ?
? ?
? ?
? ? 7 9 3 9.279 1 6 8.1 0 57 1 0 7.1 3 3XSS
0 6 3 5.206 4 7 2.1 1 37 1 0 7.1 3 3XSS
9 6 2 7.117 4 8 0.1 2 17 1 0 7.1 3 3XSS
6 1 2 9.00 9 7 8.1 3 37 1 0 7.1 3 3XSS
4
3
2
1
???
???
???
???
回
回
回
回
30.4F
0, 0 5P 883.6
1427/8 4 1 2.88
1/7 9 3 9.27
F
0, 0 5P 968.4
1427/8 4 1 2.88
1/0 6 3 5.20
F
0, 0 5P 962.2
1427/8 4 1 2.88
1/9 6 2 7.11
F
0, 0 5P 152.0
1427/8 4 1 2.88
1/6 1 2 9.0
F
)22,1(05.0
4
3
2
1
?
??
??
?
??
??
?
??
??
?
??
??
?
)(
)(
)(
)(
胰岛素 (X3)与糖化血红蛋白 (X4)与血糖 (Y)有线性回归关系。
jb
j
j
S
b
t
t,2
?
检验法
2 4 3 3.0S 1 2 1 4.0S 2 0 4 2.0S 3 6 5 6.0S
6 3 8 2.0b 2 7 0 6.0b 3 5 1 5.0b 1 4 2 4.0b
4321 bbbb
4321
????
?????
074.2t
0, 0 5P 623.2
2433.0
6382.0
t
0, 0 5P 229.2
1214.0
2706.0
t
0, 0 5P 721.1
2042.0
3515.0
t
0, 0 5P 390.0
3656.0
1424.0
t
22,2/05.0
4
3
2
1
?
???
???
?
?
???
???
胰岛素 (X3)与糖化血红蛋白 (X4)与血糖 (Y)有线性回归关系。
标准化回归方程
标准化回归系数
S
XX
X
3.
j
jj'
j ?
?
?
标准化回归系数用来比较各个自变量 Xj 对
Y的影响程度;
标准化回归方程的截距为 0。
??
?
?
??
?
?
??
Y
j
j
YY
jj
j
'
j S
S
b
l
l
bb
对血糖影响大小的顺序依次为糖化血红蛋
白 (X4)、胰岛素 (X3)、甘油三酯 (X2)与总胆
固醇 (X1)。
第二节 自变量选择方法
一、全局选择法
二、逐步选择法
一、全局选择法
对自变量各种不同的组合所建立的回归方程
进行比较,从全部组合中挑出一个“最优”
的回归方程。
总
残
)(
选择法校正决定系数
MS
MS
1
1pn
1n
R11R
R,1
22
c
2
c
??
??
?
???
R2可用来评价回归方程优劣;
随着自变量增加,R2不断增大,对两个不同个数自
变量回归方程比较,须考虑方程包含自变量个数影
响,应对 R2进行校正。
所谓“最优”回归方程指 最大者。
2cR
? ?? ?
的回归方程为最优。最接近应选择
)(
)(
选择法
残
残
1pCp
mp 1p2n
MS
SS
C
C,2
m
p
p
p
?
?????
P为方程中自变量个数。
所有回归方程( 2
4
- 1 = 1 5 )的
2
c
R 和 C
p
统计量的值
方程中自变量
2
c
R
C
p
方程中自变量
2
c
R
C
p
X
2
X
3
X
4
0,5 4 6 3,1 5 X
2
X
3
0,4 0 8 9,1 4
X
1
X
2
X
3
X
4
0,5 2 8 5,0 0 X
1
X
3
0,3 7 5 1 0,7 8
X
1
X
3
X
4
0,4 8 8 5,9 6 X
4
0,3 4 7 1 1,6 3
X
1
X
2
X
4
0,447 7,9 7 X
1
0,2 8 4 1 4,9 2
X
1
X
4
0,4 4 1 7,4 2 X
1
X
2
0,2 7 5 1 5,8 9
X
2
X
4
0,4 4 0 7,5 1 X
3
0,2 3 1 1 7,7 7
X
3
X
4
0,4 3 5 7,7 2 X
2
0,1 7 9 2 0,5 3
X
1
X
2
X
3
0,4 0 8 9,8 8
二、逐步选择法
全局选择计算量很大:
6个变量,计算 26-1=63个方程;
10个变量,计算 210-1=1023个方程;
按选入变量顺序不同分前进法、后退法与逐步
回归法,共同特点是每一步只引入或剔除一个
自变量 Xj。
对 Xj的取舍要进行 F检验:
? ?
? ? )(
)(
残
回
1/
1/
??
?
pnSS
XSS
F
l
j
l
j
计算进行到第 l步时:
p,方程中自变量个数
SS回,Xj的偏回归平方和
SS残,残差平方和
1.前进法(只选不剔)
开始方程中无自变量,然后从方程外选取偏
回归平方和最大的自变量作 F检验以决定是否
选入方程,直至无自变量可以引入方程为止。
入选j)1pn,1(j XFF s l e ????
缺点:后续变量的引入可能使先前引入的变量
变的不重要。
selection entry
2.后退法(只剔不选)
开始方程中包含全部自变量,然后从方程中选
取偏回归平方和最小的自变量作 F检验以决定
是否从方程中剔除,直至无自变量可以从方程
中剔除为止。
剔除j)1pn,1(j XFF s l s ????
缺点:当某些自变量高度相关时,可能得不出
正确结果。
selection stay
3.逐步回归法(先选后剔,双向筛选)
?开始方程中无自变量,从方程外选偏回归平方
和最大自变量作 F检验以决定是否选入方程;
?每引一个自变量进入方程后,从方程中选偏回
归平方和最小自变量作 F检验以决定是否从方
程中剔除;
?直至方程外无自变量可引入,方程内无自变量
可剔除为止。
严进严出
越少。被选入方程内自变量数越严,
变量标准值定的越小表示选取自
剔除内剔
入选外引
XFF
XFF
s l ss l e
j)1pn,1(j
j)1pn,1(j
s l s
s l e
???
?
?
?
???
???
27 名糖尿病人血糖及有关变量逐步回归过程 ( ?
s l e
= 0, 1 0,?
s l s
= 0, 1 5 )
步骤
( l )
引入
变量
剔除
变量
变量数
( p )
R
2
? ?
? ?
j
l
XSS
回
? ?l
SS
残
F 值 P 值
1 X 4 1 0.372 82.714 139.837 14.788 0.0007
2 X 1 2 0.484 25.076 114.762 5.244 0.0311
3 X 3 3 0.547 13.958 100.804 3.185 0.0875
4 X 2 4 0.601 11.963 88.841 2.962 0.0993
5 X 1 3 0.598 0.613 88.841 0.152 0.7006
? ?
? ?
0, 1 0P 92.2FF
788.14
)1127/(837.139
714.82
1pn/SS
1/XSS
F
X
0.10( 1,25)
1
4
1
4
???
?
??
?
??
?
)(
)(
)第一步(选:
残
回
? ?
? ?
0, 1 0P 93.2FF
2 4 4.5
)1227/(7 6 2.1 1 4
0 7 6.25
1pn/SS
1/XSS
F
X
0.10( 1,24)
2
1
2
1
???
?
??
?
??
?
)(
)(
)第二步(剔:无,选:
残
回
? ?
? ?
0, 1 0P 94.2FF
1 8 5.3
)1327/(8 0 4.1 0 0
9 5 8.13
1pn/SS
1/XSS
F
X
0.10( 1,23)
3
3
3
3
???
?
??
?
??
?
)(
)(
)第三步(剔:无,选:
残
回
? ?
? ?
0, 1 0P 95.2FF
9 6 2.2
)1427/(8 4 1.88
9 6 3.11
1pn/SS
1/XSS
F
X
0.10( 1,22)
4
2
4
2
???
?
??
?
??
?
)(
)(
)第四步(剔:无,选:
残
回
? ?
? ? 1 5 2.0
)1427/(8 4 1.88
6 1 3.0
1pn/SS
1/XSS
F
X
5
1
5
1
?
??
?
??
?
)(
)(
)第五步(剔:
残
回
0, 1 5P 92.2FF 0, 1 5 ( 1,2 2 ) ???
逐步回归方程的方差分析表
变异来源 自由度 SS MS F P
总变异 26 2 2 2,5 5 1 9
回 归 3 1 3 3,0 9 8 0 4 4,3 6 6 1 1,4 1 0,0 0 0 1
残 差 23 8 9,4 5 4 0 3,8 8 9
回归系数的估计与假设检验结果
变量 b S
b
b’ t P
常数项 6.4996 2.3962 0 2.713 0.0124
X
2
( 甘油三酯 ) 0.4023 0.1540 0.3541 2.612 0.0156
X
3
( 胰岛素 ) - 0.2870 0.1117 - 0.3601 - 2.570 0.0171
X
4
( 糖化血红蛋白 ) 0.6632 0.2303 0.4133 2.880 0.0084
432 X6 6 3 2.0X2 8 7 1.0X4 0 2 3.04 9 9 6.6Y? ????
第三节 多元线性回归的应用
及其注意事项
一、多元线性回归的应用
二、多元线性回归应用的注意事项
一、多元线性回归的应用
1.影响因素分析,
年龄 (X1)
饮食习惯 (X2)
吸烟状况 (X3)
工作紧张度 (X4)
家族史 (X5)
?
高血压 (Y)
2.估计与预测,
心脏表面积 (Y)=b0+b1心脏横径 (X1)+ b2心
脏纵径 (X2)+ b3心脏宽径 (X3)
新生儿体重 (Y)=b0+b1胎儿孕龄 (X1)+ b2 胎
儿头径 (X2)+ b3胎儿胸径 (X3)+ b4胎儿腹径
(X4)
3.统计控制,
利用回归方程进行逆估计,确定 Y后控制 X 。
采用射频治疗仪治疗脑肿瘤:
脑皮质毁损半径 (Y)
=b0+b1射频温度 (X1)+ b2照射时间 (X2)
二、多元线性回归应用的注意事项
1.指标的数量化
应变量 Y为连续变量
自变量 X可为连续、有序分类或无序分类变量
(1)连续变量,X
(2)有序分类变量:
1 轻
X= 2 中
3 重
(3)无序分类变量
职 业 无 序 分 类 变 量
X X 1 X 2 X 3
工 人 0 0 0
农 民 1 0 0
干 部 0 1 0
职 员 0 0 1
哑变量 (dummy variables)
2.样本含量:
n至少是 X个数 m的 5~ 10倍
3.关于逐步回归:
不要盲目信任,结合专业知识。
4.多重共线性:
实际应用中非常普遍,可使最小二乘法建
立的回归方程失效;
消除方法:剔除某个造成共线性的自变量。
5.变量间的交互作用:
某一自变量对 Y的作用大小与另一自变量的
取值有关。
432 X6 6 3 2.0X2 8 7 1.0X4 0 2 3.04 9 9 6.6Y? ????
血糖 (Y)与总胆固醇 (X1)、甘油三酯 (X2)、胰
岛素 (X3)、糖化血红蛋白 (X4)间逐步回归方程:
X3与 X4间有交互作用。
43
432
XX1 7 8 5.0
X5 0 9 7.1X2 2 6 7.1X3 6 9 0.07 8 9 8.0Y?
??
?????
6.残差分析:
标准化残差
残
MS
e
e
Y?Ye
i'
i
iii
?
??
e’
0
y?
y?
y?
y?
00
0 0
e’
e’e’
e’
y?
输入 y
输入 x r
进入 LR
MODE 2
a
b SHIFT
DEL