线性回归分析的原理及应用概述在分析化学,特别是仪器分析中,常常需要做工作曲线 ( 也叫标准曲线,或校正曲线,或检量线 ) 。
例如,原子吸收法中作吸光度和浓度的工作曲线,极谱法中作波高和浓度的工作曲线等等 。 在分析化学中所使用的工作曲线,通常都是直线 。 一般是把实验点描在坐标纸上,横坐标 X表示被测物质的浓度,叫自变量 。
大都是把可以精确测量或严格控制的变量 ( 如标准溶液的浓度 ) 作为自变量;纵坐标 y表示某种特征性质
( 如吸光度,波高等 ) 的量,称因变量,一般设因变量是一组相互独立,其误差服从同一正态分布 N( Ο,
σ 2) 的随机变量 。 然后根据坐标纸上的这些散点 ( 实验点 ) 的走向,用直尺描出一条直线 。 这就是分析工作者习惯的制作工作曲线的方法 。
若吸光度 ----浓度的直线能通过所有实验点,在统计上就说溶液的吸光度和浓度有最密切的线性关系 。
吸光度完全依赖于浓度的改变而变,完全遵循比尔定律 。 实验条件中的各种偶然因素对它无任何影响 ( 亦即没有实验误差 ) 。 我们称这种关系为确定性关系或函数关系 。 这时做工作曲线图的任务比较简单,借助于一支直尺和一支铅笔,就能完成 。 但是由于实验中不可避免的有误差存在,实验点全部密集在 回归线 上的情况通常是极少见的,尤其当误差较大时,实验点比较分散,并不在一条线上,这时作图就有困难了 。
因为凭直觉很难判断怎样才能使所联的线对干所有实验点来说是误差最小的,亦即难于确定到底哪条线才是 最好的回归线 。
例如,用火焰原子吸收法测定镁,得到下表数据
Mg(ppm)0.00 0.20 0.40 0.60 0.80 1.00
A 0.00 0.202 0.410 0.553 0.641 0.736
- ×ó?ü ê? 2a
y = 0.7343x + 0.0565
R
2
= 0.9669
y = 0.9335x + 0.0112
R
2
= 0.9936
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1 1.2
ppm
A
一,最小二乘法原理若用 ( χ i,yi ) 表示 n个数据点 ( i=1,2,
3,...,n),而任意一条直线方程可写成,
在上式中,采用 y*符号,表示这是一条任意的直线,如果用这条直线来代表 x和 y的关系,即对每个已知的数据点 (xi,yi)来说,其误差为
bxay*
iii bxayyy *
令各数据点误差的平方的加和 (差方和 )为 Q,则
Q是总的误差:
2
1
* )(?
n
i
i yyQ
2
1
)( i
n
i
i bxay
回归直线就是在所有直线中,差方和 Q最小的一条直线,
换句话说,回归直线的系数 b及常数项 a,应使 Q达到极小值,
根据微积分求值的原理,要使 Q达到极小值,只需将上式分别对 a,b求偏微商,令它们等于 0.于是 a,b满足:
a
bxaybxay
a
Q iin
i
ii?
)()(2
1
n
i
ii bxay
1
0)(2
n
i
ii
ii
b
bxaybxay
b
Q
1
)()(2
0)(2
1
i
n
i
ii xbxay
n
i
n
i
n
i
iiii xbnaybxay
1 1 1
0)(
n
i
n
i
ii xbyna
1 1
xbya
x
n
by
n
a
n
i
n
i
ii
1 1
11
0
)(
1 1 1
1
2
n
i
n
i
n
i
iiii
n
i
iii
xbxayx
xbxay
0)(
1
2
11
n
i
i
n
i
i
in
i
i
ii xbx
n
x
b
n
y
yx
2)(1))((1 2
iiiiii x
n
xbyx
n
yx
22 xnx
yxnyx
b
i
ii
)2()( 222 xxxxxxl iiixx
22 22 1 xnxx
n
x iii
2)( yyl iyy
2222 )(1 ynyy
n
y iii
))(( yyxxl iixy
yxnyx ii
由观测值 ( 一组样本 ) 算出 a,b的值,称为参数 a,
b的估算值,用符号,表示,于是回归直线方程式便可确定如下:
l x x
l x y
xx
yyxx
x
n
x
yx
n
yx
b
i
ii
ii
iiii
2
22 )(
))((
)(
1
))((
1
xbay
ba?,?
式中 分别表示由样本求得的 y,a,
b的估算值 。 如果
,则有,
这种方法就称为最小二乘法,即也就是
,最小差方和法,。
bay?,?,?
xx?
yy
二,回归方程的类型这里的,线性,,是对 a,b而言,
对 y,x并不一定 。 只要通过适当变化,
a,b仅为一次待确定参数,就可使用这种方法求出 。
典型实例
1.双曲线 (令 )
2.抛物线
3.幂函数
4.指数函数
5.对数曲线
xbay
11
xxyy
1;1
acxby 2)( 2)( cxx
bdxy? ]l o g,l o g;l o g[ daxxyy
dayydey bx ln;ln........[
]l o g.,,,,,[l o g xxxbay
三,回归方程的显著性检验
1,相关系数 R
在求回归方程时,假定 y与 x存在线性关怎样判别这种关系的好坏呢? 引入 R这个相关系数的概念 。 首先让我们讨论一些有关概念:
回归平方和剩余平方和总离差平方和令:
22 )]([)?( xxbyyU
2)?( yyQ i
UQL yy
L x x L y y
LR xy?
L y y
U
L x xL yy
L x y
R
2
2
R的正负号由 Lxy的符号决定,即与 b同号 。 R
的绝对值为小于 1,大于 0的无量纲统计量 。
当 |R|≌ 1时,表明 y与 x之间线性关系密切。
|R|≌ 0时,表明 y与 x之间无线性关系。通常使用
R2,具有更实际的意义。
2.显著性检验 F
f1-回归差和自由度,f2-残余差方和自由度 。
F< Fa(临界 F值,见表),y与 x无线性关系; F> Fa,
表明回归方程是显著性的。
)2/(
)1/(
2
1
nfQ
fUF
)2(?
n
L x ybL y y
L x yb
,3,回归线的精度可以使用回归方程得到 y的平均值。那么实际的 y离值偏差多大呢?即回归的精度如何呢?
通常规定,剩余平方和 Q除以它的 fQ,所得商称为剩余方差:
2
2
n
Q
S
剩余方差的平方根称为剩余标准偏差:
又可得代入 R后
S值越小,说明精度越高。
2?
n
QS
2
)?( 2
n
yy
S
i
2
)1( 2
n
L y yR
S
四,使用 Excel回归计算
例如,原子吸收法中作吸光度和浓度的工作曲线,极谱法中作波高和浓度的工作曲线等等 。 在分析化学中所使用的工作曲线,通常都是直线 。 一般是把实验点描在坐标纸上,横坐标 X表示被测物质的浓度,叫自变量 。
大都是把可以精确测量或严格控制的变量 ( 如标准溶液的浓度 ) 作为自变量;纵坐标 y表示某种特征性质
( 如吸光度,波高等 ) 的量,称因变量,一般设因变量是一组相互独立,其误差服从同一正态分布 N( Ο,
σ 2) 的随机变量 。 然后根据坐标纸上的这些散点 ( 实验点 ) 的走向,用直尺描出一条直线 。 这就是分析工作者习惯的制作工作曲线的方法 。
若吸光度 ----浓度的直线能通过所有实验点,在统计上就说溶液的吸光度和浓度有最密切的线性关系 。
吸光度完全依赖于浓度的改变而变,完全遵循比尔定律 。 实验条件中的各种偶然因素对它无任何影响 ( 亦即没有实验误差 ) 。 我们称这种关系为确定性关系或函数关系 。 这时做工作曲线图的任务比较简单,借助于一支直尺和一支铅笔,就能完成 。 但是由于实验中不可避免的有误差存在,实验点全部密集在 回归线 上的情况通常是极少见的,尤其当误差较大时,实验点比较分散,并不在一条线上,这时作图就有困难了 。
因为凭直觉很难判断怎样才能使所联的线对干所有实验点来说是误差最小的,亦即难于确定到底哪条线才是 最好的回归线 。
例如,用火焰原子吸收法测定镁,得到下表数据
Mg(ppm)0.00 0.20 0.40 0.60 0.80 1.00
A 0.00 0.202 0.410 0.553 0.641 0.736
- ×ó?ü ê? 2a
y = 0.7343x + 0.0565
R
2
= 0.9669
y = 0.9335x + 0.0112
R
2
= 0.9936
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1 1.2
ppm
A
一,最小二乘法原理若用 ( χ i,yi ) 表示 n个数据点 ( i=1,2,
3,...,n),而任意一条直线方程可写成,
在上式中,采用 y*符号,表示这是一条任意的直线,如果用这条直线来代表 x和 y的关系,即对每个已知的数据点 (xi,yi)来说,其误差为
bxay*
iii bxayyy *
令各数据点误差的平方的加和 (差方和 )为 Q,则
Q是总的误差:
2
1
* )(?
n
i
i yyQ
2
1
)( i
n
i
i bxay
回归直线就是在所有直线中,差方和 Q最小的一条直线,
换句话说,回归直线的系数 b及常数项 a,应使 Q达到极小值,
根据微积分求值的原理,要使 Q达到极小值,只需将上式分别对 a,b求偏微商,令它们等于 0.于是 a,b满足:
a
bxaybxay
a
Q iin
i
ii?
)()(2
1
n
i
ii bxay
1
0)(2
n
i
ii
ii
b
bxaybxay
b
Q
1
)()(2
0)(2
1
i
n
i
ii xbxay
n
i
n
i
n
i
iiii xbnaybxay
1 1 1
0)(
n
i
n
i
ii xbyna
1 1
xbya
x
n
by
n
a
n
i
n
i
ii
1 1
11
0
)(
1 1 1
1
2
n
i
n
i
n
i
iiii
n
i
iii
xbxayx
xbxay
0)(
1
2
11
n
i
i
n
i
i
in
i
i
ii xbx
n
x
b
n
y
yx
2)(1))((1 2
iiiiii x
n
xbyx
n
yx
22 xnx
yxnyx
b
i
ii
)2()( 222 xxxxxxl iiixx
22 22 1 xnxx
n
x iii
2)( yyl iyy
2222 )(1 ynyy
n
y iii
))(( yyxxl iixy
yxnyx ii
由观测值 ( 一组样本 ) 算出 a,b的值,称为参数 a,
b的估算值,用符号,表示,于是回归直线方程式便可确定如下:
l x x
l x y
xx
yyxx
x
n
x
yx
n
yx
b
i
ii
ii
iiii
2
22 )(
))((
)(
1
))((
1
xbay
ba?,?
式中 分别表示由样本求得的 y,a,
b的估算值 。 如果
,则有,
这种方法就称为最小二乘法,即也就是
,最小差方和法,。
bay?,?,?
xx?
yy
二,回归方程的类型这里的,线性,,是对 a,b而言,
对 y,x并不一定 。 只要通过适当变化,
a,b仅为一次待确定参数,就可使用这种方法求出 。
典型实例
1.双曲线 (令 )
2.抛物线
3.幂函数
4.指数函数
5.对数曲线
xbay
11
xxyy
1;1
acxby 2)( 2)( cxx
bdxy? ]l o g,l o g;l o g[ daxxyy
dayydey bx ln;ln........[
]l o g.,,,,,[l o g xxxbay
三,回归方程的显著性检验
1,相关系数 R
在求回归方程时,假定 y与 x存在线性关怎样判别这种关系的好坏呢? 引入 R这个相关系数的概念 。 首先让我们讨论一些有关概念:
回归平方和剩余平方和总离差平方和令:
22 )]([)?( xxbyyU
2)?( yyQ i
UQL yy
L x x L y y
LR xy?
L y y
U
L x xL yy
L x y
R
2
2
R的正负号由 Lxy的符号决定,即与 b同号 。 R
的绝对值为小于 1,大于 0的无量纲统计量 。
当 |R|≌ 1时,表明 y与 x之间线性关系密切。
|R|≌ 0时,表明 y与 x之间无线性关系。通常使用
R2,具有更实际的意义。
2.显著性检验 F
f1-回归差和自由度,f2-残余差方和自由度 。
F< Fa(临界 F值,见表),y与 x无线性关系; F> Fa,
表明回归方程是显著性的。
)2/(
)1/(
2
1
nfQ
fUF
)2(?
n
L x ybL y y
L x yb
,3,回归线的精度可以使用回归方程得到 y的平均值。那么实际的 y离值偏差多大呢?即回归的精度如何呢?
通常规定,剩余平方和 Q除以它的 fQ,所得商称为剩余方差:
2
2
n
Q
S
剩余方差的平方根称为剩余标准偏差:
又可得代入 R后
S值越小,说明精度越高。
2?
n
QS
2
)?( 2
n
yy
S
i
2
)1( 2
n
L y yR
S
四,使用 Excel回归计算