线性回归分析
公共卫生学院
一, 前言
?回归分析的目的,
设法找出变量间的依存 (数量 )关系,用函数关系
式表达出来
二、基本概念
1、应变量 ( dependent variable)
2、自变量 ( independent variable)
3、一元线性回归
直线回归方程的模型是,yi=a+bxi+ei
其中
(1) a是截距
(2) b是回归系数 (regression coefficient)(回归直线的
斜率)
回归系数的统计学意义是:自变量每变化一个单位,
应变量 平均 变化的单位数,
(3) ei是残差
因此直线回归方程的一般形式是,
? 其中 是应变量 y的预测值或称估计值。 ^
iy
^
iiy a b x??
4、多元线性回归
多元线性回归方程模型为,
yi=b0+b1x1i+b2x2i+…+b nxni+ei
其中
(1) b0是常数项,是各自变量都等于 0时,应变量的估计值。
有时,人们称它为本底值。
(2) b1,b2,…, bn是偏回归系数 ( pertial regression
coefficient ),其统计学意义是在其它所有自变量不变
的情况下,某一自变量每变化一个单位,应变量平均变化的单位数。
如果所有参加分析的变量都是标准化的变量,这时 b0
就等于 0,b1,b2,…, bn 就变成了标准化偏回归系
数,用符号 b1‘,b2’,…, bn‘表示。
bi’= bi*sxi/sy
由于 bi’没有量纲,因此可以相互比较大小,反映自变
量的相对作用大小。
(3) ei是残差
多元线性回归方程的一般形式是,
其中的符号含义同前。
^
0 1 1 2 2 nni ii iy b b x b x b x? ? ? ? ? ? ? ?
三、理论假设
? 自变量 x与应变量 y之间存在线性关系;
? 正态性:随机误差(即残差) e服从均值为 0,
方差为 ?2 的正态分布;
? 等方差:对于所有的自变量 x,残差 e的条件方
差为 ?2,且 ?为常数;
? 独立性:在给定自变量 x的条件下,残差 e的条
件期望值为 0(本假设又称零均值假设);
? 无自相关性:各随机误差项 e互不相关;
? 残差 e与自变量 x不相关:随机误差项 e与相
应的自变量 x不相关;
? 无共线性:自变量 x之间相互独立,
四、回归方程的建立
? 散点图
? 奇异点( ouliers)
? 最小二乘法( least square,LS)
? 残差平方和( sum of squares for residuals)
??
??
??????????????
??????
?
?
2
22110
2
22
)]([)(
)]([)(
nniii
iiii
xbxbxbbyyyQ
xbayyyQ
多元线性回归:
一元线性回归:
一元线性回归时,计算比较简单,
多元线性回归时,比较复杂,一般需要用计算机
处理。
n
x
b
n
y
xbya
l
l
nxx
nyxyx
xx
yyxx
b
xx
xy
??
??
???
?
?
??????
?
?
???
?
?
???
?
/)(
/
)(
)()(
222
五、线性回归的检验
1、回归方程的检验
方差分析法,
应变量的总变异
可分解为
回归平方和 (regression sum of squares):可用线
性回归解释的部分
_ 2
()yy??
_^
2()yy??
剩余平方和 (residual sum of squares):即残差平方
和,不能用线性回归解释的部分
以上三部分的自由度分别为 n-1,m和 n-m-1。其
中,n为样本数,m为自变量数。
方差分析的假设为
一元线性回归,H0,?=0 H1,??0
多元线性回归,
H0,?1= ?2=…= ?m=0
H1,?1,?2,…, ?m中至少有一个不等于零
因此方差分析的结论是线性回归方程是否显著,
是否有意义。
^
2()yy??
2、回归/偏回归系数的检验
检验回归系数是否为零,每一个偏回归系数是
否为零。用 t检验方法。
统计量
自由度
结论:回归/偏回归系数是否有意义,是否为零;
对应的自变量是否有意义。
i
i
b
b
t
s
?
1v n m? ? ?
3、常数项(截距)的检验
检验常数项(截距)是否为零。
用 t检验方法。
一元线性回归,
H0,?=0 H1,? ?0
2
a
a
t
s
vn
?
??
多元线性回归,
H0,?0=0 H1,?0?0
0
0
1
b
b
t
s
v n m
?
? ? ?
4、模型的预测效果检验
亦称回归模型的拟合优度检验。检验回归模型
对样本数据的拟合程度。
? 决定系数( determination coefficient)( R square)
? 调整(校正)决定系数( adjusted R square)
? 复相关系数 R ( multiple correlation coefficient)
^
2
2
2
()
()
yy
R
yy
?
?
?
?
?
?
?
22 11 ( 1 )nRR
nm
?? ?
? ? ?
?
5、线性回归适用性检验
(1)回归模型残差的正态性检验
?残差的直方图
?残差的累积概率图( P-P图)
(2)回归模型残差的独立性检验
用 Durbin--Watson检验,其参数称为 Dw或 D。
D的取值范围是 0<D<4。其统计学意义为,
D≈2,残差与自变量相互独立;
D<2,残差与自变量正相关;
D>2,残差与自变量负相关。
(3)残差的方差齐性检验
以上都是对残差的分析,称为残差分析。
残差分析还可以1)检出奇异点
2)评判预测效果。
(4)共线性诊断
?共线性( collinearity)
?共线性的危害
?共线性的鉴别
容差( tolerance)
方差膨胀因子( variance inflation factor)
六、自变量的选择
? 强迫引入法( Enter)
? 强迫剔除法( Remove)
? 前进法( Forward)
? 后退法( Backward)
? 逐步向前法( Forward stepwise)
? 逐步向后法( Backward stepwise)
七、线性回归的应用
? 预测
? 控制
? 鉴别影响因素
八、线性回归分析实例
九、线性回归分析的注意事项
? 应用条件
? 样本量
? 自变量的观察范围
? 分类/等级变量
谢谢!