第九章
双变量回归与相关
Bivariate
Regression & Correlation
第 2、第 3、第 4章介绍计量资料 单变量 统计分布
特征或比较该变量的组间差别:
P.9 例 2-1 计算 101名成年女子 血清总胆固
醇 的平均指标与变异指标。
P.33 例 3-7 比较阿卡波糖(试验组)与拜
糖苹(对照组)降低糖尿病人的 空腹血糖值 有
无差别。
P.54 例 4-2 比较安慰剂组、降血脂新药 2.4g
组、降血脂新药 4.8g组、降血脂新药 7.2g组降低
患者的 低密度脂蛋白含量 有无差别。
在医学研究中常要分析变量间的关系:如
年龄与血压,药物剂量与动物死亡率,肺
活量与体重、胸围和肩宽等指标的关系。
第一节 直线回归
一、直线回归的概念
,回归”是一个借用已久因而相沿成习的统计
学术语。返回原来的地方。
生物遗传学上的“回归”,英国统计学家
Pearson K( 1857~ 1936)1903年搜集了 1078个
家庭人员的身高、前臂长等指标的记录,发现
儿子身高( Y,英寸)与父亲身高( X,英寸)
存在线形关系,=33.73+0.516 X,即高个子父
代的子一
Y?
代在成年之后的身高平均来说不是比其父代更高,
而是稍矮于其父代水平;而矮个子父代的子一代,
成年之后的身高平均来说不是比其父代更矮,而
是稍高于其父代水平。英国生物遗传学和统计学
家 Galton F( 1822~ 1911)将这种趋向于种族稳
定的现象称之为“回归”。
天文学上的“回归”,地球绕太阳公转,在公转
的同时,本身还自转,本身自转的同时,地球的
轴心(假设)还来回摆动,由于地球轴心的来回

动,太阳光垂直照射到地球上就有南、北两个
极限位置(南、北纬度 23027’),分别称为南、
北回归线,分别为我国农历的冬至与夏至。以
上现象称为太阳光对赤道的“回归”。
日常生活中的“回归”现象,穿军装 … ;智商高或低
的父代与子代 … ; 1岁姜二狗,7岁姜二狗同学,20岁小姜同志,
30岁姜科长,40岁姜处长,50岁姜老,60岁老姜; 70岁姜二狗。
目前“回归”已成为表示变量之间某种数量关
系的统计术语,并且衍生出“回归方程”、
“回归系数”等统计学概念。
表 9 – 1 8 名正常儿童的年龄 X( 岁 ) 与尿肌酐含量 Y ( m m o l / 2 4 h )
编 号 1 2 3 4 5 6 7 8
年 龄 X 13 11 9 6 8 10 12 7
尿肌酐含量 Y 3.5 4 3.0 1 3.0 9 2.4 8 2.5 6 3.3 6 3.1 8 2.6 5
8 ?? ?ùíˉ μ? ?êá? ó? ?? ?ò?? ?? o? á?
2, 4
2, 6
2, 8
3
3, 2
3, 4
3, 6
4 6 8 10 12 14
年龄(岁) X
尿




Y
bXaY ???
y
x
XXY ??? ??
二、直线回归方程的求法
6 6 1 7.15.91 3 9 2.09 8 3 8.2
1 3 9 2.0
42
8 4 5 0.5
/)(
/))((
)(
))((
)
?
Y
22
2
2
??????
??
???
????
?
??
???
??
??
XbYa
nXX
nYXXY
XX
YYXX
l
l
b
Y
XX
XY
最小(最小二乘法
CASIO fx-3600计算器
计算 a,b与 r的步骤
步骤 键盘 说 明
1 MODE 2 进入线性回归模式 LR
2 SHIFT(INV) KAC 清除原来储存数据
3 13 XDYD 3.54 DATA 数据输入
11 XDYD 3.01 DATA
9 XDYD 3.09 DATA
? ?
4 SHIFT (INV) r 显示相关系数
5 SHIFT (INV) a 显示截距
6 SHIFT (INV) b 显示回归系数
8 ?? ?ùíˉ μ? ?êá? ó? ?? ?ò?? ?? o? á?
2, 4
2, 6
2, 8
3
3, 2
3, 4
3, 6
4 6 8 10 12 14
年龄(岁) X
尿




Y
XY 1 3 9 2.06 6 1 7.1 ???
三、直线回归方程中的统计推断
(一)回归方程的假设检验
1.方差分析
( 1)建立检验假设并确定检验水准
H0:β =0 H1,β ≠0
α =0.05
的分解)( YYl 2
y
x
YY ??
Y-Y?
Y
X
Y
Y
y
x
YY ??
Y-Y?
Y
X
Y
Y-Y?
Y
)?(?( YYYYYY ????? ) )?(( YYYYY ????? )
222 )?)?) YYYYYY ???????? (((
SS总 =SS回 +SS残
XXllXbYabXaY
YYYY
/b,,?
0)?)(?2
XY?????
????(
222 )?()?)(?2?()( YYYYYYYYYY ???????? ()
222 )?()?)(?2?()( YYYYYYYYYY ???????????? ()
(3)计算检验统计量 F值
97.200388.0 8134.0// ????


残残
回回
MS
MS
vSS
vSSF
SS总 =lYY =1.0462
SS回 =blXY=l2XY/lXX=5.8452/42=0.8134
SS残 = SS总 - SS回 =1.0462-0.8134=0.2328
v总 =v回 +v剩
v总 =n-1,v回 =1,v残 =n-2
表 9 – 2 例 9 - 1 的方差分析表
变异来源 自由度 SS MS F P
总变异 7 1,0 4 6 2
回 归 1 0,8 1 3 4 0,8 1 3 4 2 0,9 7 < 0,0 1
残 差 6 0,2 3 2 8 0,0 3 8 8
2.t 检验
bS
bt 0??
XX
XY
b
l
S
S
.
?
2-n2
)?
2
.
残( SS
n
YYS XY ?
?
???
2?? n?
( 2)计算检验统计量 t值
1 9 7 0.028 2 3 2 8.0,???XYS 0 3 0 4.0421 9 7 0.0 ??bS
( 1)建立检验假设并确定检验水准
579.40304.0 1392.0 ??t
( 3)确定 P值下结论
tF ??? 5 7 9.497.20
0, 0 0 5P 3 1 7.45 7 9.4 6,2/0 0 5.0 ???? tt
(二)总体回归系数 ?的可信区间
),( 0.2 13 6 0648.0
0304.0447.21392.0
,2/
?
???
?
b
stb
??
此区间不包括 0
(三)利用回归方程进行估计与预测
0,2/0Y
? YSt ???
1.总体均数 的可信区间
XY?
0?,2/0
Y? YSt ???
平均有 100× ( 1-?)个可信区间包括总体均数
2.个体 Y值的预测区间
平均将有 100× ( 1-?)个个体值在求出的范围内
第二节 直线相关
不要求由 X估计 Y
先不考虑由 X估计 Y
相关关系不一定是因果关系
一、直线相关的概念
- 1< r < 0
r = 1
正相关 负相关
完全相关
0< r <1
r = - 1
不相关 r = 0
相 关 示 意 图
二、相关系数的意义与计算
? ?? ?
? ? ? ?
8818.0
1, 0 4 642
5, 8 4 5
22
?
?
?
?
????
???
?
YYXX
XY
ll
l
YYXX
YYXX
r
三、相关系数的统计推断
(一)相关系数的假设检验
0:0 ??H
尿肌酐含量与年龄之间无直线相关关系
0, 0 0 5P 8 7 0.0r0, 8 8 1 8r
0, 0 0 5P 3 1 7.45 7 9.4
5 7 9.4
28
8 8 1 8.01
8 8 1 8.0
2
1
0
t
0, 0 5 0:
0..005/ 2,6
6,2/005.0
r
1
????
????
??
?
?
?
?
?
?
?
?
??
tt
t
n
r
r
S
r
H
r
b
r
??
(二)总体相关系数的可信区间
相关系数的抽样分布在 ?≠0时呈偏态分布
1
1e
r )t an h (
3
1
)1(
)1(
ln
2
1
Z t an h
2
2Z
2/
1
?
?
??
?
??
?
?
??
?
Z
e
Zr
n
u
Z
r
r
rZ
或可信限变换:
可信区间:

?
?
四、决定系数
7775.08818.0/ 2
2
2 ???? )(


YY
XXXY
l
ll
SS
SS
R
? 0﹤ R2﹤ 1,回归贡献的相对程度
Y的总变异中回归关系所能解释的百分比
年龄可解释尿肌酐含量变异性的 77.75%
? 直线回归拟合优度检验等价对 ?假设检验
? ? ? ? ? ?2/
1/
2/1 2
2
?
?
??
?
nSS
SS
nR
RF


五、直线回归与相关应用的注意事项
1.根据分析目的选择变量及统计方法
相关,X与 Y没有主次,为双向。
回归,Y依 X变化而变化,为单向;把易

精确测量的变量作为 X。
要有实际意义。
孩子的身高与小树的高度间
显示出着显著的相关性
100
104
102
106
108
o¢
×
ó
μ?
éí
·?
(
c
m
)
D? ê÷μ? ·? ?è ( c m )
140 150 160 170 180 190
7 ?ê ×é
8 ?ê ×é
9 ?ê ×é
1 0 ?ê ×é
1 1 ?ê ×é
貌似有相关性, 实际上无相关性的
分层资料:某人关于一所小学的小学生
生长发育情况与家庭收入关系的调查
2.进行相关、回归分析前要绘制散点图
有无异常点,谨慎剔除。
相关,X与 Y服从正态双变量。
回归:同上或 X为严格控制的非随机变量。
3.用残差图考察数据是否符合模型假设条件
回归模型应用前提条件:
Y与 X为线形关系、误差服从均数为 0的正态
分布且方差相等、各观察独立。
iii YYe ???
e
0
y?
y?
时间y?
y?
00
0 0
e
ee
e
4.结果的解释及正确应用
P值越小越有理由认为变量间直线关系存在,
不能说关系越密切。
直线回归用于预测时不能外延。
第三节 秩相关
1.不服从双变量正态分布而不宜作积差
相关分析;
2.总体分布类型未知;
3.原始数据用等级表示。
一,Spearman秩相关
表 9 – 3 某省 1995 年到 1999 年居民死因构成与 W Y P L L 构成
死因类别 死因构成( % ) W Y P L L 构成( % ) d d
2
PQ
( 1 ) X ( 2 ) P ( 3 ) Y ( 4 ) Q ( 5 ) ( 6 ) =( 3 ) -( 5 ) ( 7 ) = ( 6 )
2
( 8 ) =( 3 )( 5 )
1 0.03 1 0.05 1 0 0 1
2 0.14 2 0.34 2 0 0 4
3 0.20 3 0.93 6 - 3 9 18
4 0.43 4 0.69 4 0 0 16
5 0.44 5 0.38 3 2 4 15
6 0.45 6 0.79 5 1 1 30
7 0.47 7 1.19 8 - 1 1 56
8 0.65 8 4.74 12 - 4 16 96
9 0.95 9 2.31 9 0 0 81
10 0.96 10 5.95 14 - 4 16 140
11 2.44 11 1,1 1 7 4 16 77
12 2.69 12 3.53 11 1 1 132
13 3.07 13 3.48 10 3 9 130
14 7.78 14 5.65 13 1 1 182
15 9.82 15 33.95 18 - 3 9 270
16 18.93 16 17.16 17 - 1 1 272
17 22.59 17 8.42 15 2 4 255
18 27.96 18 9.33 16 2 4 288
合 计 — 171 — 171 — 92 2063
Work years of
potential life lost
表 9 – 3 某省 1995 年到 1999 年居民死因构成与 W Y P L L 构成
死因类别 死因构成( % ) W Y P L L 构成( % ) d d
2
PQ
( 1 ) X ( 2 ) P ( 3 ) Y ( 4 ) Q ( 5 ) ( 6 ) =( 3 ) -( 5 ) ( 7 ) = ( 6 )
2
( 8 ) =( 3 )( 5 )
1 0.03 1 0.05 1 0 0 1
2 0.14 2 0.34 2 0 0 4
3 0.20 3 0.93 6 - 3 9 18
4 0.43 4 0.69 4 0 0 16
5 0.44 5 0.38 3 2 4 15
6 0.45 6 0.79 5 1 1 30
7 0.47 7 1.19 8 - 1 1 56
8 0.65 8 4.74 12 - 4 16 96
9 0.95 9 2.31 9 0 0 81
10 0.96 10 5.95 14 - 4 16 140
11 2.44 11 1,1 1 7 4 16 77
12 2.69 12 3.53 11 1 1 132
13 3.07 13 3.48 10 3 9 130
14 7.78 14 5.65 13 1 1 182
15 9.82 15 33.95 18 - 3 9 270
16 18.93 16 17.16 17 - 1 1 272
17 22.59 17 8.42 15 2 4 255
18 27.96 18 9.33 16 2 4 288
合 计 — 171 — 171 — 92 2063
0, 0 0 1P 7 2 8.0
9 0 5.0
1818
926
1
)1(
6
1
05.0 0,0:
18 0,001,
3
2
10
???
?
?
?
??
?
?
??
???
?nSS
S
SS
rr
nn
d
r
HH ???
或用秩 Pi,Qi直接作积差相关系数 r计算
第六节 两条回归直线的比较
一、两个回归系数的比较
二、两个截距的比较
表 9 – 7 1 0 名大骨节病患儿的年龄 X ( 岁 ) 与尿肌酐含量 Y ( m m o l / 2 4 h )
编 号 1 2 3 4 5 6 7 8 9 10
年 龄 X 10 9 11 12 15 16 8 7 10 15
尿肌酐含量 Y 3.01 2.83 2.92 3.09 3.98 3.89 2.21 2.39 2.74 3.36
表 9 – 1 8 名正常儿童的年龄 X( 岁 ) 与尿肌酐含量 Y ( m m o l / 2 4 h )
编 号 1 2 3 4 5 6 7 8
年 龄 X 13 11 9 6 8 10 12 7
尿肌酐含量 Y 3.5 4 3.0 1 3.0 9 2.4 8 2.5 6 3.3 6 3.1 8 2.6 5
y
X
bc
b2
b1
bc
0
第七节 曲线拟合
一、曲线拟合的一般步骤
1.依据分析目的确定 X与 Y,根据两变量
散点图、结合专业知识选择曲线类型。
2.求回归方程:曲线直线化。
3.拟合优度,R2。
标准 CRF( X )刺激大鼠垂体前叶细胞 分泌 ACTH( Y )测定结果
编 号 X Y
1 0, 0 0 5 3 4, 1 1
2 0, 0 5 0 5 7, 9 9
3 0, 5 0 0 9 4, 4 9
4 5, 0 0 0 1 2 8, 5 0
5 2 5, 0 0 0 1 6 9, 9 8
合 计 — 4 8 5, 0 7
CRF:促肾上腺皮质激素释放因子 ACTH:肾上腺皮质激素
20
60
100
140
180
-1 0 0 10 20 30
图 9-11 例 9-14数据散点图
CRF(nmol/L) x
y
AC
TH(pm
ol/
L)
标准 C R F (X )刺激大鼠垂体前叶细胞分泌 A C T H (Y )测定结果
编 号 X X ’ = l g X Y
1 0.005 - 2.30 34,1 1
2 0.050 - 1.30 57.99
3 0.500 - 0.30 94.49
4 5.000 0.70 128.50
5 25.000 1.40 169.98
合 计 — - 1.80 485.07
图 9-12 例 9-14数据对 X作对数变换散点图
20
60
100
140
180
-3 -2 -1 0 1 2
y
AC
TH(p
mo
l/L)
lg [CRF(nmol/L)] x’
98.0
lg 171.3611.110?
2 ?
??
R
XY
15 名重伤病人的住院天数 X ( 天 ) 与预后指数 Y
编 号 1 2 3 4 5 6 7
住院天数 X 2 5 7 10 14 19 26
预后指数 Y 54 50 45 37 35 25 20
编 号 8 9 10 11 12 13 14 15
住院天数 X 31 34 38 45 52 53 60 65
预后指数 Y 16 18 13 8 11 8 4 6
0
10
20
30
40
50
60
0 10 20 30 40 50 60 70
图 9-13 例 9-15数据散点图
病人住院天数(天) x
y




0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
0 10 20 30 40 50 60 70
y’




图 9-14 例 9-15数据对 Y作对数变换散点图
病人住院天数(天) x
Ln y
)bXa(
)bXa(
'
eY?
elnY?ln
bXaY?lnY?
?
?
?
?
???
估计”应用“非线性最小二乘
最小)(回代不能保证将
最小)(证用最小二乘估计只能保
)( 2bXa
2''
Y?YeY?
Y?Y
???
??
?
二、曲线拟合的用途
1.定量刻画 X与 Y的关系。
2.用相关指数 反应两变量曲线关系的
密切程度。
三、常见的几种曲线拟合
2R
y
X0
图 9- 15 a
XbaY lg??
y
X0
图 9- 15 b
)( bXaeY ??
y
x0
图 9- 15 c
y = b0 + b1 x + b2 x2
y
x
y = b0 + b1 x + b2 x2 + b3 x3
0
y
x
b > 0b < 0
Y = k +l
Y = l
0
图 9- 15 d
Logistic曲线
y
x
Y = k / [ 1 + a ·exp ( bX ) ] + l
b > 0b < 0
Y = k +l
Y = l
0
k – ( Y – l ) ln
Y – l = l n a + b X
作业:
一、
三,1,2,3,6
改错:
页 行 错误 正确
144 21
149 倒 1
XYgS XYS ?
ii YYe ?? ?? iii YYe ???
157 (9-39)下
21 SS SS 残残,
21 SS SS cc 残残,
163 图 9-11
图 9-12
166 6 D.加大可信度 D.减小可信度
纵横标目错排 纵横标目对调