第十二章
线性回归分析
双变量计量资料,每个个体有两个变量值
总体,无限或有限对变量值
样本,从总体随机抽取的 n对变量值
( X1,Y1),( X2,Y2),…,( Xn,Yn)
目的,研究 X和 Y的数量关系
方法,回归与相关
简单、基本 —— 直线回归、直线相关
英国人类学家 F.Galton首次在, 自然遗传,
一书中,提出并阐明了“相关”和“相关系数”
两个概念,为相关论奠定了基础。其后,他和
英国统计学家 Karl Pearson对上千个家庭的身
高、臂长、拃长(伸开大拇指与中指两端的最
大长度)做了测量,发现,
历史背景:
儿子身高 ( Y,英寸 ) 与父亲身高 ( X,
英寸 ) 存在线性关系,。
也即高个子父代的子代在成年之后的身
高平均来说不是更高, 而是稍矮于其父代水
平, 而矮个子父代的子代的平均身高不是更
矮, 而是稍高于其父代水平 。 Galton将这种
趋向于种族稳定的现象称之, 回归, 。
? 3 3, 7 3 0, 5 1 6YX??
目前,, 回归, 已成为表示变量
之间某种数量依存关系的统计学术语,
并且衍生出, 回归方程,,回归系数,
等统计学概念 。 如研究糖尿病人血糖
与其胰岛素水平的关系, 研究儿童年
龄与体重的关系等 。
第一节 两相关变量的散点图
一、直线回归的概念
目的,研究应变量 Y对自变量 X的数量依
存关系。
特点,统计关系。 X值和 Y的均数的关系,
不同于一般数学上的 X 和 Y的函数
关系。
为了直观地说明两相关变量的线性
依存关系,用表 12-1第( 2)、( 3)
列中大白鼠的进食量和体重增加量
的数据在坐标纸上描点,得图 12-1所
示的散点图( scatter plot)。
例 12-1 用某饲料喂养 12只大白鼠,
得出大白鼠的进食量与体重增加量
如表 12-1,试绘制其散点图 。
表 12-1 12只大白鼠的进食量( g)与体重增加量 (g)测量结果
序号 进食量 (g )X 体重增加量 (g ) Y
2
X
2
Y
XY
(1 ) (2 ) (3 ) (4 ) (5 ) (6 )
1 3 0 5,7 2 3,6 9 3 4 5 2,4 9 5 5 6,9 6 7 2 1 4,5 2
2 1 8 8,6 1 4,7 3 5 5 6 9,9 6 2 1 6,0 9 2 7 7 2,4 2
3 2 7 7,2 1 9,2 7 6 8 3 9,8 4 3 6 8,6 4 5 3 2 2,2 4
4 3 6 4,8 2 7,7 1 3 3 0 7 9,0 4 7 6 7,2 9 1 0 1 0 4,9 6
5 2 8 5,3 1 8,9 8 1 3 9 6,0 9 3 5 7,2 1 5 3 9 2,1 7
6 2 4 4,7 1 6,1 5 9 8 7 8,0 9 2 5 9,2 1 3 9 3 9,6 7
7 2 5 5,9 1 7,2 6 5 4 8 4,8 1 2 9 5,8 4 4 4 0 1,4 8
8 1 4 9,8 1 2,9 2 2 4 4 0,0 4 1 6 6,4 1 1 9 3 2,4 2
9 2 6 8,9 1 8,3 7 2 3 0 7,2 1 3 3 4,8 9 4 9 2 0,8 7
10 2 4 7,6 1 7,7 6 1 3 0 5,7 6 3 1 3,2 9 4 3 8 2,5 2
11 1 6 8,8 1 3,7 2 8 4 9 3,4 4 1 8 7,6 9 2 3 1 2,5 6
12 2 0 0,6 1 5,6 4 0 2 4 0,3 6 2 4 3,3 6 3 1 2 9,3 6
合计
2 9 5 7,9
( Σ X )
2 1 5,6
( Σ Y )
7 7 0 4 8 7,1 3
)(
2
? X
4 0 6 6,9
)(
2
? Y
5 5 8 2 5,2
( Σ XY )
图 1 2 - 1 1 2 只大白鼠进食量与体重增重量散点图
5
10
15
20
25
30
130 180 230 280 330 380
进食量(g ),X
体重增加量(g
)
,
Y
在定量描述大白鼠进食量与体重增
加量数量上的依存关系时,习惯上将进
食量作为 自变量 ( independent variable),
用 X表示;体重增加量作为 应变量
( dependent variable),用 Y表示。
由图 12-1可见, 体重增加量有随进食
量增加而增大的趋势, 且散点呈直线趋势,
但并非 12个点都在直线上, 此与两变量间
严格的直线函数关系不同, 称为 直线回归
( linear regression),其方程叫 直线回归方程, 以
区别严格意义的直线方程 。
回归是回归分析中最基本, 最简单的一种,
故又称简单回归 。
第二节
回归方程
? ( 1 2 1 )Y a b X? ??
直线回归方程的一般表达式为
?Y 为各 X处 Y的总体均数的估计。
公式( 12 - 1 )称为样本回归方程,它
是对两变量总体间线性关系的一个估计。
根据散点图我们可以假定,对于 X 各个取
值,相应 Y 的总体均数 |YX
?
在一条直线上
(图 9 - 2 ),表示为
| YX X? ? ???
Y
除了图中所示两变量呈直线关系外,一
般还假定每个 X 对应 的总体为正态分布,
各个正态分布的总体方差相等且各次观测
相互独立。这样,公式( 12 - 1 )中的
?
Y
实际
上是
X
所对应
Y
的总体均数
|YX
? 的一个样本
估计值,称为回归方 程的预测值 ( pre dicte d
va lue ),而
a
、
b
分别为
?
和 ? 的样本估计。
Y
?残差 (residual)或剩余值, 即实测值 Y与假定
回归线上的估计值 的纵向距离 。
?求解 a,b实际上就是, 合理地, 找到一条
能最好地代表数据点分布趋势的直线 。
?Y ?YY?
原则,最小二乘法 (least sum of squares),即可
保证各实测点至直线的纵向距离的平方和最小
二、直线回归方程的求法
式中 XYl 为 X 与 Y 的离均差乘积和,
( ) ( )( ) ( ) ( 1 2 6 )XYl X X Y Y X Y
XY n
??? ? ? ? ? ??
?
2
( ) ( )
()
XY
XX
X X Y Yl
b
l X X
??
??
?
?
?
( 12 - 2 )
a Y b X??
( 12-3)
例 12-2 ( 续例 12-1) 根据表 12-
1数据, 对大白鼠的体重增加量进行
回归分析 。
1,由原始数据及散点图(图 12 - 1 )
的观察,两变量间呈直线趋势,故作下
列计算。
2, 计算 X, Y 的均数 X, Y,离均
差平方和 XX
l
,YY
l
与离均差积和 XY
l
。
解题步骤
4, 求回归系数 和截距 。
2 6 8 1,6
0,0 6 4 8
4 1 3 8 9,4
XY
XX
l
b
l
? ? ?
1 7, 9 7 ( 0, 0 6 4 8 ) ( 2 4 6, 4 9 ) 2, 0 0a Y b X? ? ? ? ?
5, 列出回归方程 ( 回归直线绘制见 图 12 - 1 )
?
2, 0 0 0, 0 6 4 8YX??
b a
此直线必然通过点 (,)且与纵坐标轴
相交于截距 。如果散点图没有从坐标系
原点开始,可在 自变量实测范围内 远端取
易于读数的 值代入回归方程得到一个点
的坐标,连接此点与点 (,)也可绘出回
归直线。
X Y
a
X
X Y
第三节 回归系数的假设检验
建立样本直线回归方程,只是完成
了统计分析中两变量关系的统计描述,
研究者还须回答它所来自的总体的直线
回归关系是否确实存在,即是否对总体
有?0? ?
如图 9 - 3 中,无论 X 如何取值,
|YX
? 总在一条
水平线上,即
0? ?
,总体直线回归方程并不成立,
意即
Y
与
X
无直线关系,此时
|Y X Y
?? ? 。然而在一
次随机抽样中,如果所得样本为实心园点所示,则
会得到一个并不等于 0 的样本回归系数
b
。
b
与 0
相差到多大可以认为具有统计学意义? 可用方差
分析或与其等价的 t 检验来回答这一问题。
0
b
b
b
t
S
?
?, 2n? ?? ( 12 - 1 1 )
YX
b
XX
S
S
l
?
g
( 12 - 12 )
2
YX
SS
S
n
残
?
?
g ( 12 - 13 )
2.回归系数的 t 检验
对 0? ? 这一假设是否成立还可进行如下 检验 t
第五节 回归方程的应用
一, 线性回归的主要用途
1.研究因素间的依存关系 自变量和应变量之
间是否存在线性关系,即研究一个或多个自变
量对应变量的作用,或者应变量依赖自变量变
化而变化的规律。
2.估计与预测 可用易测定的一组给定的自变
量的观测值来推算较难测定的 Y值 。
3.统计控制 是利用回归方程进行逆估计,即
应变量 Y给出一个确定的值或在一定范围内波
动时,通过控制自变量的取值来实现 。
二, 线性回归应用的注意事项
1.在进行直线回归分析之前,应绘制散点
图。
2,作回归分析时, 要注意两变量间是否存在
实际意义 。
3,两变量间存在直线关系时, 不一定表明彼
此之间就存在因果关系 。
4,建立回归方程后, 须对回归系数进行假
设检验 。
5,使用回归方程进行估计与预测时, 一般
只适用于原来的观测范围, 即自变量的取
值范围, 不能随意将范围扩大 。
6,在线性回归分析时, 要注意远离群体的
极端值对回归效果的影响 。
线性回归分析
双变量计量资料,每个个体有两个变量值
总体,无限或有限对变量值
样本,从总体随机抽取的 n对变量值
( X1,Y1),( X2,Y2),…,( Xn,Yn)
目的,研究 X和 Y的数量关系
方法,回归与相关
简单、基本 —— 直线回归、直线相关
英国人类学家 F.Galton首次在, 自然遗传,
一书中,提出并阐明了“相关”和“相关系数”
两个概念,为相关论奠定了基础。其后,他和
英国统计学家 Karl Pearson对上千个家庭的身
高、臂长、拃长(伸开大拇指与中指两端的最
大长度)做了测量,发现,
历史背景:
儿子身高 ( Y,英寸 ) 与父亲身高 ( X,
英寸 ) 存在线性关系,。
也即高个子父代的子代在成年之后的身
高平均来说不是更高, 而是稍矮于其父代水
平, 而矮个子父代的子代的平均身高不是更
矮, 而是稍高于其父代水平 。 Galton将这种
趋向于种族稳定的现象称之, 回归, 。
? 3 3, 7 3 0, 5 1 6YX??
目前,, 回归, 已成为表示变量
之间某种数量依存关系的统计学术语,
并且衍生出, 回归方程,,回归系数,
等统计学概念 。 如研究糖尿病人血糖
与其胰岛素水平的关系, 研究儿童年
龄与体重的关系等 。
第一节 两相关变量的散点图
一、直线回归的概念
目的,研究应变量 Y对自变量 X的数量依
存关系。
特点,统计关系。 X值和 Y的均数的关系,
不同于一般数学上的 X 和 Y的函数
关系。
为了直观地说明两相关变量的线性
依存关系,用表 12-1第( 2)、( 3)
列中大白鼠的进食量和体重增加量
的数据在坐标纸上描点,得图 12-1所
示的散点图( scatter plot)。
例 12-1 用某饲料喂养 12只大白鼠,
得出大白鼠的进食量与体重增加量
如表 12-1,试绘制其散点图 。
表 12-1 12只大白鼠的进食量( g)与体重增加量 (g)测量结果
序号 进食量 (g )X 体重增加量 (g ) Y
2
X
2
Y
XY
(1 ) (2 ) (3 ) (4 ) (5 ) (6 )
1 3 0 5,7 2 3,6 9 3 4 5 2,4 9 5 5 6,9 6 7 2 1 4,5 2
2 1 8 8,6 1 4,7 3 5 5 6 9,9 6 2 1 6,0 9 2 7 7 2,4 2
3 2 7 7,2 1 9,2 7 6 8 3 9,8 4 3 6 8,6 4 5 3 2 2,2 4
4 3 6 4,8 2 7,7 1 3 3 0 7 9,0 4 7 6 7,2 9 1 0 1 0 4,9 6
5 2 8 5,3 1 8,9 8 1 3 9 6,0 9 3 5 7,2 1 5 3 9 2,1 7
6 2 4 4,7 1 6,1 5 9 8 7 8,0 9 2 5 9,2 1 3 9 3 9,6 7
7 2 5 5,9 1 7,2 6 5 4 8 4,8 1 2 9 5,8 4 4 4 0 1,4 8
8 1 4 9,8 1 2,9 2 2 4 4 0,0 4 1 6 6,4 1 1 9 3 2,4 2
9 2 6 8,9 1 8,3 7 2 3 0 7,2 1 3 3 4,8 9 4 9 2 0,8 7
10 2 4 7,6 1 7,7 6 1 3 0 5,7 6 3 1 3,2 9 4 3 8 2,5 2
11 1 6 8,8 1 3,7 2 8 4 9 3,4 4 1 8 7,6 9 2 3 1 2,5 6
12 2 0 0,6 1 5,6 4 0 2 4 0,3 6 2 4 3,3 6 3 1 2 9,3 6
合计
2 9 5 7,9
( Σ X )
2 1 5,6
( Σ Y )
7 7 0 4 8 7,1 3
)(
2
? X
4 0 6 6,9
)(
2
? Y
5 5 8 2 5,2
( Σ XY )
图 1 2 - 1 1 2 只大白鼠进食量与体重增重量散点图
5
10
15
20
25
30
130 180 230 280 330 380
进食量(g ),X
体重增加量(g
)
,
Y
在定量描述大白鼠进食量与体重增
加量数量上的依存关系时,习惯上将进
食量作为 自变量 ( independent variable),
用 X表示;体重增加量作为 应变量
( dependent variable),用 Y表示。
由图 12-1可见, 体重增加量有随进食
量增加而增大的趋势, 且散点呈直线趋势,
但并非 12个点都在直线上, 此与两变量间
严格的直线函数关系不同, 称为 直线回归
( linear regression),其方程叫 直线回归方程, 以
区别严格意义的直线方程 。
回归是回归分析中最基本, 最简单的一种,
故又称简单回归 。
第二节
回归方程
? ( 1 2 1 )Y a b X? ??
直线回归方程的一般表达式为
?Y 为各 X处 Y的总体均数的估计。
公式( 12 - 1 )称为样本回归方程,它
是对两变量总体间线性关系的一个估计。
根据散点图我们可以假定,对于 X 各个取
值,相应 Y 的总体均数 |YX
?
在一条直线上
(图 9 - 2 ),表示为
| YX X? ? ???
Y
除了图中所示两变量呈直线关系外,一
般还假定每个 X 对应 的总体为正态分布,
各个正态分布的总体方差相等且各次观测
相互独立。这样,公式( 12 - 1 )中的
?
Y
实际
上是
X
所对应
Y
的总体均数
|YX
? 的一个样本
估计值,称为回归方 程的预测值 ( pre dicte d
va lue ),而
a
、
b
分别为
?
和 ? 的样本估计。
Y
?残差 (residual)或剩余值, 即实测值 Y与假定
回归线上的估计值 的纵向距离 。
?求解 a,b实际上就是, 合理地, 找到一条
能最好地代表数据点分布趋势的直线 。
?Y ?YY?
原则,最小二乘法 (least sum of squares),即可
保证各实测点至直线的纵向距离的平方和最小
二、直线回归方程的求法
式中 XYl 为 X 与 Y 的离均差乘积和,
( ) ( )( ) ( ) ( 1 2 6 )XYl X X Y Y X Y
XY n
??? ? ? ? ? ??
?
2
( ) ( )
()
XY
XX
X X Y Yl
b
l X X
??
??
?
?
?
( 12 - 2 )
a Y b X??
( 12-3)
例 12-2 ( 续例 12-1) 根据表 12-
1数据, 对大白鼠的体重增加量进行
回归分析 。
1,由原始数据及散点图(图 12 - 1 )
的观察,两变量间呈直线趋势,故作下
列计算。
2, 计算 X, Y 的均数 X, Y,离均
差平方和 XX
l
,YY
l
与离均差积和 XY
l
。
解题步骤
4, 求回归系数 和截距 。
2 6 8 1,6
0,0 6 4 8
4 1 3 8 9,4
XY
XX
l
b
l
? ? ?
1 7, 9 7 ( 0, 0 6 4 8 ) ( 2 4 6, 4 9 ) 2, 0 0a Y b X? ? ? ? ?
5, 列出回归方程 ( 回归直线绘制见 图 12 - 1 )
?
2, 0 0 0, 0 6 4 8YX??
b a
此直线必然通过点 (,)且与纵坐标轴
相交于截距 。如果散点图没有从坐标系
原点开始,可在 自变量实测范围内 远端取
易于读数的 值代入回归方程得到一个点
的坐标,连接此点与点 (,)也可绘出回
归直线。
X Y
a
X
X Y
第三节 回归系数的假设检验
建立样本直线回归方程,只是完成
了统计分析中两变量关系的统计描述,
研究者还须回答它所来自的总体的直线
回归关系是否确实存在,即是否对总体
有?0? ?
如图 9 - 3 中,无论 X 如何取值,
|YX
? 总在一条
水平线上,即
0? ?
,总体直线回归方程并不成立,
意即
Y
与
X
无直线关系,此时
|Y X Y
?? ? 。然而在一
次随机抽样中,如果所得样本为实心园点所示,则
会得到一个并不等于 0 的样本回归系数
b
。
b
与 0
相差到多大可以认为具有统计学意义? 可用方差
分析或与其等价的 t 检验来回答这一问题。
0
b
b
b
t
S
?
?, 2n? ?? ( 12 - 1 1 )
YX
b
XX
S
S
l
?
g
( 12 - 12 )
2
YX
SS
S
n
残
?
?
g ( 12 - 13 )
2.回归系数的 t 检验
对 0? ? 这一假设是否成立还可进行如下 检验 t
第五节 回归方程的应用
一, 线性回归的主要用途
1.研究因素间的依存关系 自变量和应变量之
间是否存在线性关系,即研究一个或多个自变
量对应变量的作用,或者应变量依赖自变量变
化而变化的规律。
2.估计与预测 可用易测定的一组给定的自变
量的观测值来推算较难测定的 Y值 。
3.统计控制 是利用回归方程进行逆估计,即
应变量 Y给出一个确定的值或在一定范围内波
动时,通过控制自变量的取值来实现 。
二, 线性回归应用的注意事项
1.在进行直线回归分析之前,应绘制散点
图。
2,作回归分析时, 要注意两变量间是否存在
实际意义 。
3,两变量间存在直线关系时, 不一定表明彼
此之间就存在因果关系 。
4,建立回归方程后, 须对回归系数进行假
设检验 。
5,使用回归方程进行估计与预测时, 一般
只适用于原来的观测范围, 即自变量的取
值范围, 不能随意将范围扩大 。
6,在线性回归分析时, 要注意远离群体的
极端值对回归效果的影响 。