第四军医大学卫生统计学教研室 2009-7-28
制作,Dr.宇传华第 七章 回归与相关regression and correlation
变量间关系问题,年龄 ~身高,肺活量 ~体重,药物剂量与动物死亡率等 。
y
第一节 直线回归第二节 直线相关第三节 Spearman等级相关两个关系:
(1) 依存关系,应变量 (dependent variable)Y随自变量 (independent
variable)X变化而变化 。 ——回归分析
(2) 互依关系,应变量 Y与自变量 X间 的彼此关系 —— 相关分析
Today,2009-7-28
àà 7 - 1?3 ò? éú?a á? ì? ì? è± μa μ· ó¤ TSH μμ £? ó| óa ò? 2? é? 2 2a?¨ á? 1 60D
·? £¨?D?ü 15 - 17 w £° 2 ê±?ê ′a TSH £¨ mU/L £? £ oú 3é è? 10 êy?Y è £? êó?ê
′a TSH Y·?a TSH X μ± oé 2? 3ì?£
±′ 1? 1 2 3 4 5 6 7 8 9 10
·?a TSH X 1.21 1.30 1.39 1.42 1.47 1.56 1.68 1.72 1.98 2.10
ê ′a TSH Y 3.90 4.50 4.20 4.83 4.16 4.93 4.32 4.99 4.70 5.20
X,3à ±à àà (independent varia ble) àà ਠàà àà àà àà à° àà àà ±à àà à± (explanatory variabl e )
àà àà àà àà 3à ±à àà àà àà àò àà àà àé ਠsimple regression àà àà
à′ àà 3à ±à àà àà àà à′ àà àà àé (multiple regre ssion)
Y,àò ±à àà (dependent variab le) àà ਠàà àà àà àà à° 2à àà ±à àà à± (response variable)
实 例
Today,2009-7-28散点图图7 - 1 母血与新生儿脐带血T S H 水平散点图
3.5
4.0
4.5
5.0
5.5
1.0 1.2 1.4 1.6 1.8 2.0 2.2
母血T S H 水平(m U / L )X
新生儿脐带血T
S
H
水平
(m
U
/
L
)Y
X
Today,2009-7-28
第一节 直线回归函数关系,确定。例如 园周长与半径,y=2πr。
回归关系,不确定 。 例如血压和年龄的关系,称为 直线回归 (linear regression)。
目的,
建立直线回归方程 ( linear regression equation)
Today,2009-7-28
一,直线回归方程一般表达式,
a:截距 (intercept),直线与 Y轴交点的纵坐标 。
b:斜率 (slope),回归系数 (regression coefficient)。
意义,X每改变一个单位,Y平均改变 b个单位 。
b>0,Y随 X的 增大 而 增大 ( 减少 而 减少 ) ——斜上 ;
b<0,Y随 X的 增大 而 减小 ( 减少 而 增加 ) ——斜下 ;
b=0,Y与 X无直线关系 —— 水平 。
| b| 越大,表示 Y随 X变化越快,直线越陡峭 。
bXaY
XY 9973.09943.2?17 资料的回归方程:例
Today,2009-7-28
二、回归方程参数的 计算最小二乘法原则 (least square method):使各散点到直线的纵向距离的平方和最小 。 即使 最小 。?2 YY

XX
XY
l
l
nXX
nYXXY
XX
YYXXb?




/
/
)(
))((
222
XbYa



n
i
ii
n
i
ii bXaYYYYYQ
1
2
1
22 )?()?(
因为直线一定经过,均数,

Today,2009-7-28散点图图7 - 1 母血与新生儿脐带血T S H 水平散点图
2.5
3.0
3.5
4.0
4.5
5.0
5.5
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2
母血T S H 水平(m U / L ) X
新生儿脐带血T
S
H
水平
(m
U
/
L

Y
X
X
Y
Today,2009-7-28
编号 母 X 脐 Y X2 Y2 XY
1 1.21 3.90 1.4641 15.2100 4.7190
2 1.30 4.50 1.6900 20.2500 5.8500
3 1.39 4.20 1.9321 17.6400 5.8380
4 1.42 4.83 2.0164 23.3289 6.8586
5 1.47 4.16 2.1609 17.3056 6.1152
6 1.56 4.93 2.4336 24.3049 7.6908
7 1.68 4.32 2.8224 18.6624 7.2576
8 1.72 4.99 2.9584 24.9001 8.5828
9 1.98 4.70 3.9204 22.0900 9.3060
10 2.10 5.20 4.4100 27.0400 10.9200
合计 15.83 45.73 25.8083 210.7319 73.1380
X?Y?X2?Y2?XY


99 73.0
74 94.0
74 74.0
10/83.1580 83.25
10/73.4583.1513 8.73
/
/
2
22





nXX
nYXXY
l
l
b
XX
XY
5 7 3.410/73.45/ nYY
回归参数计算的实例
9943.2
583.19973.0573.4

XbYa
5 8 3.110/83.15/ nXX
XY 9973.09943.2?17 资料的回归方程:例
Today,2009-7-28
三、回归系数的假设检验
b≠0原因,① 由于抽样误差引起,总体回归系数 β=0
② 存在回归关系,总体回归系数 β≠0
公式,υ= n- 2
bb S
b
S
bt =0
Sb为回归系数的标准误
XX
XY
XX
XY
b l
SSS,.
2


SY.X为 Y的剩余标准差 ——扣除 X的影响后 Y的变异程度。

2
2

n
YYs
XY



2
22
2
XX
YYXXYYYY =
(一) t 检验 ; (二) 方差分析
Today,2009-7-28
编号 母 X 脐 Y X2 Y2 XY
1 1.21 3.90 1.4641 15.2100 4.7190
2 1.30 4.50 1.6900 20.2500 5.8500
3 1.39 4.20 1.9321 17.6400 5.8380
4 1.42 4.83 2.0164 23.3289 6.8586
5 1.47 4.16 2.1609 17.3056 6.1152
6 1.56 4.93 2.4336 24.3049 7.6908
7 1.68 4.32 2.8224 18.6624 7.2576
8 1.72 4.99 2.9584 24.9001 8.5828
9 1.98 4.70 3.9204 22.0900 9.3060
10 2.10 5.20 4.4100 27.0400 10.9200
合计 15.83 45.73 25.8083 210.7319 73.1380
X?Y?X2?Y2?XY




745 4.0747 4.0997 3.0
/
)]/[
2
22
2
2
2
2





XXXY
XX
XY
lbbl
nXX
nYXXY
l
l
XX
YYXX
6086.110/73.457319.210
/)()(
2
222

YYlnYYYY
8632.07454.06086.12? 222


XX
YYXXYYYY =
2
.
.
0,05 / 2,8
0.8 63 2
0.3 28 5
2 10 2
0.9 97 3
2.6 28 4
/ 0.3 28 5 / 0.7 49 4
2.3 06 0 0.0 5
YX
Y X X X
YY
S
n
b
t
Sl
tP





Today,2009-7-28
YYYYYY
回归部分)?( YY?
)( YY?总情况
Y
剩余部分)?( YY?
实测点),( YXP
Y
X
Today,2009-7-28
回剩总回剩总
+=
同样有:
即所以有因为等式两边平方后再求和

SSSSSS
YYYYYY
YYYY
YYYYYY





222
)
()
()(
:
,0)
)(
(2,
)
()
()(
Y的离均差平方和的分解
Today,2009-7-28
SS 总 =
2
)( YY,Y 的 离 均 差 平 方 和 ( t ot al s u m o f s q u ar e s ),
未 考 虑 X 与 Y 的 回 归 关 系 时 Y 的 总 变 异 。 1 n?
SS 剩 =
2
)
( YY,为 剩 余 平 方 和 ( r e s i d u al s u m o f s q u ar e s ),
X 对 Y 的 线 性 影 响 之 外 的 一 切 因 素 对 Y 的 变 异,即 总 变 异 中,
无 法 用 X 解 释 的 部 分 。 SS 剩 越 小,回 归 效 果 越 好 。 2 n?
SS 回 =
2
)
( YY,为 回 归 平 方 和 ( r e gr e s s i on s u m o f s q u ar e s ),
由 于 X 与 Y 的 直 线 关 系 而 使 Y 变 异 减 小 的 部 分,即 总 变 异 中,
可 以 用 X 解 释 的 部 分 。 SS 回 越 大,回 归 效 果 越 好 。 1
几个 平方和的意义
Today,2009-7-28
222
2
2
2
.

( ) ( ) ( )
()
22
YY
XY
X Y X X
XX
YX
Y Y Y Y Y Y
SS SS SS
SS l
l
SS bl b l
l
SSYY
S M S
nn






剩 总 回总回剩剩公 式 可 写 成,
= -




再看公式,


2
22
2
XX
YYXXYYYY =
Today,2009-7-28SS剩 的另一种解法编号
( 1)
X Y
( 2) ( 3) ( 4) (5)=(3)-(4) (6)=(5)2
1 1.21 3.90 4.2010 -0.3010 0.0906
2 1.30 4.50 4.2908 0.2092 0.0438
3 1.39 4.20 4.3805 -0.1805 0.0326
4 1.42 4.83 4.4104 0.4196 0.1761
5 1.47 4.16 4.4603 -0.3003 0.0902
6 1.56 4.93 4.5501 0.3799 0.1443
7 1.68 4.32 4.6698 -0.3498 0.1244
8 1.72 4.99 4.7096 0.2804 0.0786
9 1.98 4.70 4.9689 -0.2689 0.0723
10 2.10 5.20 5.0886 0.1114 0.0124
合计 15.83 45.73 45.7300 0.0000 0.8632
Y? 2)?( YY?YY
XY 9 9 7 3.09 9 4 3.2备注:
Today,2009-7-28(二 )方差分析剩回剩剩回回
MS
MS
SS
SS
F
; 21 n
剩回
,
统计量 F 服从自由度为剩回
, 的 F 分布。
例 7 - 2 检验例 7 - 1 求得脐 TSH 对母 TSH 的直线关系是否成立?
解,1,建立假设并确定检验水准。 H o,β = 0 ; H
1
,β ≠ 0 ;? = 0,05
2,计算检验统计量 F
变异来源 SS DF MS F P 值总变异 1.6086 9
回 归 0,7454 1 0.7454 6.9084 0.0303
剩 余 0.8632 8 0.1079
3,确定 P 值下结论。 本例 P = <0.01,按? = 0.05 水准拒绝 H
o
,…
注意,两种 检验 是 完全 等价 的,即 6284.29084.6 Ft
Today,2009-7-28
四,直线回归方程的区间估计
( 一 ) 总体 回归系数的区间估计
( b - t
/ 2 ( n - 2)
S
b
,b + t
/ 2 ( n - 2)
S
b
)简记为 b? t
/ 2 ( n - 2)
S
b
求本例 β 的 95 %可信区间
(0,9973 - 2.3 06 3 0.3 794,0.9973 + 2,306 3 0.3 794)
= (0.1224,1,8722)
( 二 )
Y
的 区间 估计
( 三 ) 个体 Y 值的容许区间
Today,2009-7-28(二 ) 的区间估计
)
,
(
)2(2/?)2(2/
Y
n
Y
n
StYStY



缩 写 为
Y
n
StY
)2(2/
XX
XYXY
Y
l
Xx
n
S
XX
Xx
n
SS
2
0
.2
2
0
.?
)(1
)(
)(1?



本 例,当
0
x = 1,5 时,
1086.0
7494.0
)583.15.1(
10
1
3285.0
2

Y
S
Y
的 95 % 可 信 区 间,
( 4,4903 - 2,306 3 0,1086,4,4903 + 2,306 3 0,1086)
= ( 4,2399,4,7407)
Yu?
Today,2009-7-28(三 ) 个体 的容许区间估计
)
,
(
)2(2/?)2(2/
YY
n
YY
n
StYStY


缩写为
YY
n
StY
)2(2/
XX
XYXY
YY
l
Xx
n
S
XX
Xx
n
SS
2
0
.2
2
0
.?
)(1
1
)(
)(1
1



本例:当
0
x = 1.5 时,
3460.0
7494.0
)583.15.1(
10
1
13285.0
2

YY
S
Y 个体值 的 95 % 容许 区间,
(4.4 9 03 - 2.30 6 3 0,3460,4,4 903 + 2.30 6 3 0,3460 )
= ( 3.69,5,2 9 )
Y
Today,2009-7-28
95% 的可信区间与 个体 的容许区间图示YYu?
í? 7 - 3?·?a óè D? éú?ù?ê ′a T S H é¢ μ? í?
3,0
3,5
4,0
4,5
5,0
5,5
6,0
6,5
1,0 1,2 1,4 1,6 1,8 2,0 2,2
·?a T S H £¨ m U / L £? X
D?
éú
ù
ê
′?
a
TSH


£¨mU/
L£
Y
Today,2009-7-28
五、回归方程的应用
1,预测( forecast) (给定 X值,估计 Y)
2,控制 (给定 Y值范围,求 X值范围)
Today,2009-7-28
第二节 直线相关回归 ---- 变量间的依存关系相关 ---- 变量间的互依关系直 线 相 关 (linear correlation),简 单 相 关 (simple
correlation),用于 双变量 正态分布资料 。
Today,2009-7-28
图 7- 4 相关系数示意图散点呈椭圆形分布,
X,Y 同时 增减 ---正 相关
( positive correlation);
X,Y 此增彼减 ---负 相关
(negative correlation) 。
散点在一条直线上,
X,Y 变化趋势 相同 ----
完全正相关 ;
反向 变化 ----完全负相关。
Today,2009-7-28
图 7- 5 相关系数示意图
X,Y 变化互不影响 ----零相关 (zero correlation)
Today,2009-7-28
一,相关系数概念相关系数 (correlation coefficient),又称积差相关系数 ( coefficient of product – moment correlation),
或 Pearson 相关系数 ( 软件中常用此名称 )
说明相关的 密切程度 和 方向 的指标 。
r ——样本相关系数
Today,2009-7-28

YYXX
XY
ll
l
YYXX
YYXXr?



22
r无单位,-1≤r ≥ 1。 r 值为正 ——正相关,
为负 ——负相关;
( 与回归系数 b的符号相同 )
|r|=1 --- 完全相关,
|r|=0 --- 零相关 。
二、相关系数的意义
Today,2009-7-28
三,相关系数的计算例 7 - 6 就 7 - 1 资料 ( 见表 7 - 1) 试计算母血 TSH 水平与新生儿脐带血 T SH 水平的相关系数。
解,由例 7 - 1 已算得,
XX
l = 0,74 94,
XY
l = 0,74 74,
YY
l = 1,60 86
按公式 7 - 1 7,6807.0
6086.17494.0
7474.0
r
Today,2009-7-28
四,相关系数的假设检验
r≠0原因,① 由于抽样误差引起,ρ=0
② 存在相关关系,ρ≠0
公式
2
1
0
2
n
r
r
S
r
t
r
=,υ= n-2
Sr---- 相关系数的标准误
Today,2009-7-28
例 7 - 7 就 例 7 - 1 资 料,检 验 母 血 T S H 水 平 与新 生 儿 脐 带 血 T S H 水 平 间 是 否 有 直 线 相 关 关 系 。
解,1,建 立 假 设 并 确 定 检 验 水 准
H
0
,? = 0 ; H
1
,? ≠ 0 ;? = 0,05 。
2,计 算 检 验 统 计 量
628.2
210
)6807.0(1
6807.0
2
t
=10 - 2=8
3,确 定 P 值 下 结 论
t = 2,56 8> t
0,0 5 /2,8
=2,306,按? = 0,05 水 准 拒 绝 H
o
,…
注意:对于同一资料,tb= tr,检验完全等价
Today,2009-7-28
五、总体相关系数?的区间估计必须先对 r 作 z 变换
rz
1
tanh

)1(
)1(
ln
2
1
r
r
z
zr tanh? 或
1
1
2
2
z
z
e
e
r
公式中 tan h 为双曲正切函数; t anh
- 1
为反双曲正切函数,
r 的取值范围 - 1 < r < 1,相应的 z 值范围 - ∞ < z < + ∞。
按正态近似原理,z 的 1 -? 可信区间为,
3,3(
2/2/
nuznuz

)
Today,2009-7-28
例 7 - 8 求 r = 0,6807,n =10 的 总 体 相 关 系 数 的 95 % 可 信 区 间解,z = t an h
- 1
0,6807=
)6807.01(
)6807.01(
ln
2
1
= 0,8304,
z 的 95 % 可 信 区 间 为 0,8304 ± 1,96/ 310? = ( 0,0896,1,5712 ) 。
将 z 作 反 变 换
zr t a n h?
下限
= t an h 0,0896= 0894.0
1
1
1
1
0896.02
0896.02
2
2
e
e
e
e
z
z
zr t a n h?
上限
= t an h 1,5712= 9480.0
1
1
1
1
5712.12
5712.12
2
2
e
e
e
e
z
z
总 体 相 关 系 数 95 % 可 信 区 间 为 ( 0,0894,0,9480 )
Today,2009-7-28
区别:
六、直线回归与相关的区别与联系
1,资料:
② X,Y服从双变量正态分布
① Y正态随机变量,X为选定变量回归
2,应用,
回归 —— 由一个变量值推算另一个变量值相关 —— 只反映两变量间互依关系相关
3,回归系数有单位,相关系数无单位
Today,2009-7-28
1,方 向 一 致,r 与 b 的 正 负 号 一 致 。
2,假 设 检 验 等 价,t
r
= t
b
3,
YYXX
llbr?
4,用 回 归 解 释 相 关决 定 系 数 ( c o e f f i c i e n t o f d e t e r m i n at i on )
总剩总总回

SS
SSSS
SS
SS
l
ll
ll
l
r
YY
XXXY
YYXX
XY

22
2
联系:
Today,2009-7-28
七、直线回归与相关的应用注意事项
⑴ 要有实际意义
⑵ 不能任意,外延,
⑶绘制 散点图
Today,2009-7-28
第三节 等级相关
rank correlation
适用资料,⑴ 不服从双变量正态分布
⑵ 总体分布类型未知
⑶ 原始数据用等级表示等级相关系数 rs( 即 Spearman Correlation Coefficient) ——
反映两变量间相关的密切程度与方向 。
Today,2009-7-28
表 7-3 等级相关系数计算表综合评分 存活天数编号
(1)
X
(2)
秩次 U
(3)
Y
(4)
秩次 V
(5)
d
(6)=(3)-(5)
d 2
(7)=(6)2
1
2
3
4
5
6
7
79
80
91
90
70
87
92
2
3
6
5
1
4
7
>45
30
16
24
28
25
14
7
6
2
3
5
4
1
-5
-3
4
2
-4
0
6
25
9
16
4
16
0
36
合计 106
8929.0
77
)106(6161
33
2



nn
d
r s
注意:相同秩次较多时应校正 rs。
8 9 2 9.077 )1 0 6(6161 33 2 nn dr s
Today,2009-7-28
Spearman等级相关系数的另一种计算方法
① 分别将 X与 Y从小到大编秩,若遇相同值取平均秩次;
② 然后按前面介绍的 Pearson相关系数 的计算方法求解当相同秩次较多时,计算反而更简单,且结果与校正结果相同。
(谢谢!)