第九章 双变量回归与相关分析统计学假设检验是通过指标数量上的差异判断有无质量上的区别,也可理解为分析事物间有无关系。分析两个事物间的关系时有以下三种情况:
甲事物 乙事物 分析方法
1.分类变量 ( 分组 ) 数值变量 ( 指标 ) t检验 F检验
2.分类变量 ( 分组 ) 分类变量 ( 效应 ) 卡方检验
3.数值变量 ( 指标 ) 数值变量(指标)相关与回归两个数值变量间的关系可分为:
确定性关系(函数关系)和非确定性关系(统计关系)。
统计关系又可分为:
相关关系(协同变化关系)和回归关系(因果依存变化关系)、
直线关系和曲线关系、
一元关系和多元关系等。
第一节 直线回归一、直线回归的概念
1,直线回归关系:
如果 Y变量随 X变量的变化呈直线状的增加或减少趋势,且具有专业上的因果依存关系,以及统计学上的显著性,但又不是直线函数关系,则称 Y变量与 X变量之间有直线回归关系。
例 9-1 某地方病研究所调查了 8名正常儿童的尿肌酐含量( mmol/24h)如表 9-1。估计尿肌酐含量
( Y)对其年龄( X)的回归方程。
表 9-1 8名正常儿童的年龄 ( 岁 ) 与尿肌酐含( mmol/24h)
编 号 1 2 3 4 5 6 7 8
年 龄 13 11 9 6 8 10 12 7
尿肌酐含量 3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65
3.4
3.2
3.0
2.8
2.6
2.4
3.6
肌酐含量

)Y?
4 6 8 10 12 14
图 9-1 8名正常儿童的年龄(岁)与尿肌酐含( mmol/24h)
年龄 (X)
2,直线回归分析:
直线回归分析是求直线回归方程,描述 x与 y间的直线回归关系,或者在坐标图中的散点中找出一条最能代表两变量关系的回归直线,从而根据 x
的值推算出 y的估计值。
直线回归方程的表达式为:
bXaY
为回归系数。为常数项,的估计值,为 baYY?
XXY|
的估计值。为的估计值,为
b
a
的估计值,为 XYY |
X X0
Y
0| XY

0
图 9-2 直线回归的概念示意图要求,Y为正态分布,总体方差相等,各次观测相互独立。
3.直线方程及其图示
bxayY
X0
a a
bx
直线方程示意图
x
x
X为自变量,
Y为应变量,
a 为截距,
b 为斜率。
y
二、直线回归方程的求法:
bxay
xbya
l x xl x yb /?
为离均差积和l xy
的离均差平方和为 Xl x x
nyy /
nxx /
三、直线回归分析方法
1,绘制散点图,
以 x变量为横坐标,y变量为纵坐标,绘制散点图,以观察 x与 y之间有无直线变化趋势。见图 9-1。
注意,将 x和 y的实测范围画满整个尺度。
2,求直线回归方程:
(1)计算基础数据:
61.2 3 2,3 6 8 3.72,7 6 4
,87.23,76
22

xyyx
yx
(2)计算,
8 4 5 0.58 87.237661.2 3 2))(( n yxxyl x y
yyxyxx lllyx,,,,
5.98/76/ nxx
9 8 3 8.28/87.23/ nyy
42
8
76764)( 222
n
xxl
xx
0 4 6 2.1
8
87.232 6 8 3.72)( 222
n
yyl
yy
(3)计算 b和 a:
(4)列出直线回归方程:
1392.042/8450.5/ l x xl x yb
6 6 1 7.15.91 3 9 2.09 8 3 8.2 xbya
xy 1932.06617.1
3.绘制回归直线在 x实测范围的远端取易于读数的 x值代入回归方程求得 y值,并得到一个坐标点 。 以 x与 y的均数作为另一个坐标点,将两坐标点相连即是回归直线。
如取 x=6,代入回归方程求得 =2.4969。
以( 6,2.4969)和( 9.5,2.9838)相连。
4.直线回归中的方程统计推断(见后)
,5.9?x 9 8 3 8.2?y
y?
3.4
3.2
3.0
2.8
2.6
2.4
3.6
肌酐含量

)Y?
4 6 8 10 12 14
图 9-1 8名正常儿童的年龄(岁)与尿肌酐含( mmol/24h)
年龄 (X)
x
y?
二、直线回归中的方程统计推断
(一) 回归系数的检验:
回归系数的检验方法有 F 检验,t 检验等。由于回归系数的检验和相关系数的检验结果相同,故可用相关系数的检验结果代替更为方便。
1.方差分析
222 )?()?( YYYYYY )(
残回总 SSSSSS
2)(
总 YYSS
2)?( YYSS

2)?( YYSS

P
y
yy
yy
yy?
图 9-4 应变量平方和划分示意图
Y
X
y
)?()?( YYYYYY
将全部数据点都按上式处理,并将等式两端平方后再求和可得:
数学上可以证明:
故得:
222 )?()?)(?(2)?( YYYYYYYYYY +)(
222 )?()?( YYYYYY )(
0)?)(?(2 YYYY
为回归平方和,反映在 Y的总变异中可以用 X与 Y的直线关系解释的那部分变异。
为残差平方和,反映除了 X对 Y的线影响之外的一切其它因素对 Y变异的作用,也就是 Y
变异中无法用 X解释的那部分变异,即随机误差。
在散点图中可以看出,各实测点离回归直线越近,也就越小,说明直线回归的估计误差越小,回归的作用明显。
2)?( YYSS回
2)?( YYSS残回SS
回归平方和的自由度分别为:
,+= 残回总,=总 1?n?
。=残 2?n?,=
回 1?
残回残残回回
MS
MS
SS
SS
F
/
/
yylYYSS
2)(

xxxy llb /?
xxxxxyxy lbllblSS
22 /
回回总残 -= SSSSSS
xx
xx
xxxy
xxxx
xxxy
lb
l
ll
ll
ll
2
2
22?
2,t 检验
xx
xy
b
l
S
S
2?

n
SS
S xy 残
2,
0

n
S
b
t
b
b?
为回归的剩余标准差为样本回归系数标准误
xy
b
S
S
本例方差分析如下:
。05.0,0:,0,10 HH
8 1 4 3.042/8 4 5.5/ 22xxxy llSS =回
2328.08143.00462.1 回总残 SSSSSS
0 4 6 2.1=总 yylSS?
表 9-3 方差分析表变异来源 自由度 SS MS F P
总变异 7 1.462
回归 1 0.8143 0.8143 20.97 <0.05
残差 6 0.2328 0.0388
本例 t 检验如下:
0 3 0 4.0
42
1 9 7 0.0

xx
xy
b
l
S
S
1917.0
28
2328.0
2

n
SS
S xy 残
6282
579.4
0304.0
1392.00


n
S
b
t
b
b
97.205 7 9.4?
(二 )总体回归系数 β的可信区间可信度为( 1- α)的可信区间为:
本例,bStb,2/?
447.26,2/05.0?t
)2 1 3 6.0,0 6 4 8.0(
0 3 0 4.04 4 7.21 3 9 2.00 3 0 4.04 4 7.21 3 9 2.0 ),-(
三、利用回归方程进行估计和预测
1.总体均数 的可信区间可信区间为:-的时,=给定 10|0 XYXX
时为最小。当的标准误,为
XX
YS
Y
0
0?
0
0|XY?
2
0
)(
)(1
0 XX
XX
n
SS xy
Y

0
,2/0
Y
StY
5.0
4.0
3.0
2.0
1.0
0.0
0 2 4 6 8 10 12 14
尿肌酐含量(
) Y
年龄(岁) X
mm
ol
/24
h
图 9-5 总体均数 的可信区间和个体 Y值的预测区间示意图
XY|?
X
2.个体 Y值的预测区间
2
0
)(
)(1
1
0
XX
XX
n
SS xyY


0,2/0
YStY
时为最小。当的标准差,为
XX
YS Y
0
00
例 9-4 用例 9-1所得直线回归方程,计算当 =12
时,的 95%可信区间和相应个体值的 95%
预测区间。 0|YX?
1 0 3 1.0
42
)5.912(
8
11 9 7 0.0
)(
)(1
2
0
0



XX
XX
n
SS xyY
0?,2/0
YStY
总体均数 的可信区间为:
0|YX?
)5 8 4.3,0 8 0.3(1 0 3 1.04 4 7.23 3 2 1.3
个体 Y值的预测区间为:
2 2 2 3.0
42
)5.912(
8
111 9 7 0.0
)(
)(11
2
0
0



XX
XX
n
SS xyY
0,2/0
YStY
)876.3,788.2(2223.0447.23321.3
四、直线回归分析的应用:
1.通过容易测定的 x变量 估计 较难测定的 y变量。
2.通过已知的 x变量对未发生的 y变量进行 预测 。
3.通过对 x变量的控制,达到 控制 y变量的目的。
4.通过现在的 x变量过去发生的 y变量进行 回顾 。
第二节 直线相关一、直线相关的概念
1,如果变量 y 随变量 x 的改变而发生直线状上升或下降变化,而且具有统计学意义,则称两变量间存在直线相关关系。
2,直线相关分析就是计算相关系数并进行检验后对 x与 y变量间有无直线相关关系以及相关的方向作出判断。
二、相关系数的意义及计算
1,相关系数的意义:
相关系数又称积差相关系数,以 r表示样本相关系数,以小写希腊字母 ρ 表示总体相关系数。其意义是描述 x 与 y 变量之间关系的密切程度和相关方向。
图 9-6 直线相关示意图
2,相关系数的计算公式为:
yyxxxy lllr /?
]/)(][/)([
/))((
2222


nyynxx
nyxxy
r
3.直线相关分析例 9-5 对例 9-1数据(表 9-1),计算 8名儿童的尿肌酐含量与年龄的相关系数(严格地讲,直线相关分析要求资料服从双变量正态分布,参见后述直线回归与相关应用的注意事项,这里为了节省篇幅并说明二者的联系,回归与相关采用同一例题示意)。
( 1)绘制散点图:
以 x变量为横坐标,y变量为纵坐标,绘制散点图,以观察 x与 y之间有无直线变化趋势。见图 9-1。
( 2)计算相关系数:
①计算基础数据:本例 Σ x=76,Σ x2 =764,
Σ y =23.87,Σ y2 =72.2683,Σ xy=232.61。
②计算本例:
③计算 r
( 3)相关系数的假设检验(见后)
42?l x x 0462.1?
yyl
yyxyxx lll,、
8 4 5 0.5?xyl
8818.0
0462.142
845.5
r
三、相关系数的统计推断:
(一)相关系数的假设检验例 9-6 对例 9-5所得 r值,检验尿肌酐含量与年龄是否有直线相关关系?
1.建立假设:
2.计算检验统计量:
双侧检验。:,05.0,0,0,10 HH
5 7 9.4
8 8 1 8.01
28
8 8 1 8.0
1
2
2
1
0
222
r
n
r
n
r
r
S
r
t
r
r
3.确定 P值,作出判断:
自由度 =n-2=8-2=6,查 t值表得,t0.005/2(6)=4.317,
4.579>4.317,P<0.005,按 α =0.05水准拒绝 H0,接受 H1。说明 尿肌酐含量与年龄有直线相关关系 。
r的检验还可用直接查表法,查附表 13,第 828页。
(二)总体相关系数的可信区间
1.首先对 r作 z变换:
2.按正态近似原理计算 z的 1-α可信区间:
3.将上下限作如下变换:
)11l n (21t a n h 1 rrrz 或
3/2/ nuz?
1
1t a n h
2
2

z
z
e
erzr 或例 9-7 对例 9-5所得 r值,估计总体相关系数的 95%可信区间。
3 8 3 8.18 8 1 8.0t a n h 1 =z
)2 7 4 9.3,5 0 7 3.0(38/96.13 8 3 8.1
9971.0249.3t a n h,4678.05073.0t a n h
总体相关系数的 95%可信区间为( 0.4678,0.9971)
四、决定系数
%75.777 7 7 5.08 8 1 8.0
/ 2222

总回
SS
SS
l
ll
ll
l
R
yy
xxxy
yyxx
xy
97.20
6/)8818.01(
8818.0
/)2/()1( 2
2
2
2


残回残残回
MS
MS
SS
SS
nR
RF
97.20
0 3 7 1.0
7 7 7 5.0
0 4 6 2.1/0 3 8 8.0
0 4 6 2.1/8 1 3 4.0

残回
MS
MS
F
五,直线回归与相关应用的注意事项
1.作相关或回归分析要有实际意义。
2.正确选择自变量和应变量。
3.检验结果的 P值不能说明关系的密切程度在相关系数有显著性的基础上,按以下标准估计相关强度:
r≤0.4为低度相关,
0.4< r≤0.75为中度相关,
r>0.75为高度相关。
4.分析前应绘制散点图,初步观察关系类型和离群点。
5.注意对资料的要求:
相关要求 X和 Y为正态分布,回归有以下 2种情况:
① X为定值,Y为正态分布随机变量( Ⅰ 型回归)。
② X和 Y均为正态分布随机变量( Ⅱ 型回归)。
6.注意相关和回归的联系:
① r和 b的正负号一致;
② r和 b的假设检验等价。
6.注意回归方程的适用范围
7.用残差图考察数据是否符合模型假设条件
iii YYe
,残差
e
0







e
0



e
0

e
0


e
0






图 9-7 残差示意图
ed
cba
第三节 秩相关当资料虽然为两个数值变量,但不符合直线相关分析要求;或分析的两个变量中有一个或两个有序分类变量,此时可采用等级相关。
用以下公式计算等级相关系数:
式中 d为 X与 Y变量的等级差。
nn
d
r s
)1(
6
1
2
2

的统计意义可查附表 14( 830页)。
当 n超出查表范围可采用 u检验:
1 nru s
sr
如果有较多的相同等级(有序分类变量)
则应采用以下校正公式:
YX
YX
s
TnnTnn
dTTnn
r
26/)(26/)(
)(6/)(
33
23


式中 或
XT YT,12/)( 3 ii tt
组相同等级的个数。为第 it i
Spearman 等级相关分析方法:
1.排等级:注意求平均等级。
2.求等级差和 。
3.计算等级相关系数:本例需校正。
2d?
YX
YX
s
TnnTnn
dTTnn
r
26/)(26/)(
)(6/)(
33
23


6 4 1.0
406/)1212(06/)1212(
96)200(6/)1212(
33
3


单侧检验。:,05.0,0,0,10 ss HH
4.等级相关系数的检验:
查表法:
查附表 14得:单侧 = 0.503,0.641>0.503,
P<0.05,说明血小板数和出血症状之间有相关关系,
血小板数越少,出血症状越明显。
12,05.0sr
例 9-8 某省调查了 1995~1999年当地居民 18
类死因的构成以及每种死因导致的潜在工作损失年数( WYPLL)的构成,结果见表 9-3。以死因构成为 X,WYPLL构成为 Y,作等级相关分析。
表 9-3 某省 1995~1999年居民死因构成与 WYPLL构成死因类别 死因构成 (%) WYPLL构成 (%)
(1) X (2) P (3) Y (4) Q (5) (6)=(3)- (5) (7)
1 0.03 1 0.05 1 0 0
2 0.14 2 0.34 2 0 0
3 0.20 3 0.93 6 -3 9
4 0.43 4 0.69 4 0 0
5 0.44 5 0.38 3 2 4
6 0.45 6 0.79 5 1 1
7 0.47 7 1.19 8 -1 1
8 0.65 8 4.74 12 -4 16
9 0.95 9 2.31 9 0 0
10 0.96 10 5.95 14 -4 16
11 2.44 11 1.11 7 4 16
12 2.69 12 3.53 11 1 1
13 3.07 13 3.48 10 3 9
14 7.78 14 5.65 13 1 1
15 9.82 15 33.95 18 -3 9
16 18.93 16 17.16 17 -1 1
17 22.59 17 8.42 15 2 4
18 27.96 18 9.33 16 2 4
合 计 — 171 — 171 — 92
2dd
905.0
1818
9261
3

sr
双侧检验。:,05.0,0,0,10 ss HH
第四节 加权直线回归(略 )
第五节 两条回归直线的比较(略)
第六节 曲线拟合一、曲线回归的意义
1,如果 x与 y变量间数量变化呈现加速度趋势,且具有专业理论上的因果关系,则称 x与 y间具有曲线回归关系。
2,曲线回归分析是根据实测资料的曲线类型,求出相应的曲线回归方程 。 这一过程又称为曲线拟合。
二、常见的曲线回归类型
1,指数曲线:
bxaey
指数曲线示意图
2,对数曲线:
xbay lg
对数曲线示意图
3,双曲线:
xbay /?/1
双曲线示意图
4,多项式曲线:
m
m xbxbxbay
2
1 2?
二项式曲线示意图
5,S型曲线:
bxae
ky
1?
S型曲线示图三、曲线拟合的步骤
1.选择合适的曲线类型
2.直线化处理
3.检验后还原为曲线方程
4.绘制曲线
5.计算拟合优度指标四、曲线拟合的用途
1.定量刻画 Y与 X的曲线关系。
2.用相关指数反映两变量曲线关系的密切程度。
结束