前几章所讨论的内容,其目的在于寻求被测量的最佳值及其精度 。 在生产和科学实验中,还有另一类问题,即测量与数据处理的目的并不在于被测量的估计值,而是为了寻求两个变量或多个变量之间的内在关系,这就是本章所要解决的主要问题 。
表达变量之间关系的方法有散点图,表格,曲线,数学表达式等,其中数学表达式能较客观地反映事物的内在规律性,形式紧凑,且便于从理论上作进一步分析研究,对认识自然界量与量之间关系有着重要意义 。 而数学表达式的获得是通过回归分析方法完成的 。
回归分析一、回归分析的基本概念
函数关系 (即确定性关系 )
数学分析和物理学中的大多数公式属于这种类型 。 如以速度 作匀速运动的物体过的距离 与时间 之间,有如下确定的函数关系:
若上式中的变量有两个已知,则另一个就可借函数关系精确地求出 。
v s
t
s vt?
一、回归分析的基本概念
相关关系变量之间既存在着密切的关系,又不能由一个
(或几个 )变量 (自变量 )的数值精确地求出另一个变量 (因变量 )的数值,而是要通过试验和调查研究,
才能确定它们之间的关系,我们称这类变量之间的关系为相关关系 。
一、回归分析的基本概念
相关关系例如,在车床上加工零件,零件的加工误差与零件的直径之间有一定的关系,知道了零件直径可大致估计其加工误差,但又不能精确地预知加工误差 。 这是由于零件在加工过程中影响加工误差的因素很多,如毛坯的裕量,材料性能,切削深度,进给量,切削速度,零件长度等等,相互构成一个根复杂的关系,加工误差并不由零件直径这一因素所确定 。
一、回归分析的基本概念
相关关系相关关系,在实践中是大量存在的:
材料的抗拉强度与其硬度之间;
螺纹零件中螺纹的作用中径与螺纹中径之间;
齿轮各种综合误差与有关单项误差之间;
某些光学仪器,电子仪器等开机后仪器的读数变化与时间之间;
材料的性能与其化学成分之间 。
一、回归分析的基本概念
函数和相关一方面由于测量误差等原因,确定性的关系在实际中往往通过相关关系表现出来 。
另一方面,当对事物内部的规律性了解得更加深刻的时候,相关关系又能转化为确定性关系 。 事实上,实验科学 (包括物理学 )中的许多确定性的定理正是通过对大量实验数据的分析和处理,经过总结和提高,从感性到理性,最后才能得到更能深刻地反映变量之间关系的客观规律 。
一、回归分析的基本概念
回归分析回归分析就是应用数学的方法,对大量的观测数据进行处理,从而得出比较符合事物内部规律的数学表达式 。
回归分析 (Regression Analysis)是英国生物学家兼统计学家高尔顿 (Galton)在 1889年出版的
,自然遗传,一书中首先提出的,是处理变量之间相关关系的一种数理统计方法 。
一、回归分析的基本概念
回归分析的主要内容
从一组数据出发,确定这些变量之间的数学表达式 —— 回归方程或经验公式 。
对回归方程的可信程度进行统计检验 。
进行因素分析,例如对于共同影响一个变量的许多变量 (因素 )中,找出哪些是重要因素,
哪些是次要因素 。
一、回归分析的基本概念
回归分析回归分析是数理统计中的一个重要分支,
在工农业生产和科学研究中有着广泛的应用 。
当今在实验数据处理,经验公式的求得,因素分析,仪器的精度分析,产品质量的控制,某些新标准的制定,气象及地震预报,自动控制中的数学模型的制定及其他许多场合中,回归分析往往是一种很有用的工具 。
二、一元线性回归一元回归是处理两个变量之间的关系,即两个变量 和 之间若存在一定的关系,则通过试验,分析所得数据,找出两者之间关系的经验公式 。 假如两个变量之间的关系是线性的就称为 — 元线性回归,这就是工程上和科研中常遇到的直线拟合问题 。
yx
回归方程的求法测量某导线在一定温度下的电阻值,得到如下结果
19.1 25.0 30.1 36.0 40.0 46.5 50.0
76.30 77.80 79.75 80.80 82.35 83.90 85.10
x/ C?
y/?
试找出电阻 和 之间的内在关系。y x
二、一元线性回归二、一元线性回归
x/ C?
y/?
15 20 30 40 50
78
80
82
84
86
76
回归方程的求法二、一元线性回归我们假设 与 之间的内在关系是一条直线,这些点与直线的偏离是试验过程中其他一些随机因素的影响而引起的 。 这样就可以假设这组测量数据有如下结构形式:
y x
回归方程的求法
t 0 t t ttT Ty x,t 1,2,,N
1 2 N,,, 分别表示其它随机因素对电阻值
1 2 Ny,y,,y 影响的总和。
二、一元线性回归
回归方程的求法
1 2 N,,,
相互独立,服从同一正态分布的随机变量
1 2 Ny,y,,y
服从正态分布的变量
1 2 Nx,x,,x 一般变量
y 电阻值的估计值
0?
直线的截距
直线的斜率
0b
直线的截距的估计值
b 直线的斜率的估计值二、一元线性回归
t 0 t tyx
0?y b b x
一元线性回归的数学模型一元线性回归的回归方程
t t 0 tv y ( b b x ) 残余误差方程
10
20
30
40
50
60
70
76 30 19 1
77 80 25 0
79 75 30 1
80 80 36 0
82 35 40 0
83 90 46 5
85 10 50 0
v,( b,b )
v,( b,b )
v,( b,b )
v,( b,b )
v,( b,b )
v,( b,b )
v,( b,b )







1 19 1
1 25 0
1 30 1
1 36 0
1 40 0
1 46 5
1 50 0
.
.
.
A,
.
.
.











76 3
77 80
79 75
80 80
82 35
83 90
85 10
.
.
.
L.
.
.
.











0bb
b


回归方程的求法二、一元线性回归
b,b,b.
,b,b,b,/ C


0 0
0
7 2 4 6 7 5 6 6 0 0 7 0 9 0
2 4 6 7 9 4 5 4 0 7 2 0 1 6 1 9 6 0 2 8 2 4
正规方程正规方程的矩阵解
T b.b C A L
b,/ C


01 7 0 9 0
0 2 8 2 4
2
1111
2
2
111
1
NN
tt
ttT
NNN
ttt
ttt
xx
C ( A A )
xNN x x










1 2 3 4 5 6
1 1 1 1 1 1 1T
N
A x x x x x x x
1
2
3
4
5
6
7
y
y
y
Ly
y
y
y











回归方程的求法二、一元线性回归
N N N
t t t t
xyt t t
NN
xx
tt
tt
N x y ( x ) ( y ) l
b
l
N x x








1 1 1
2
2
11
N N N N
t t t t t
t t t t
NN
tt
tt
( x ) ( y ) ( x ) ( x y )
b y bx
N x x








2
1 1 1 1
0 2
2
11
二、一元线性回归


N
t
t
N
t
t
N N N
xx t t t
t t t
N N N N
xy t t t t t t
t t t t
N N N
y y y t t
t t t
xx
N
yy
N
l x x x x
N
l x x y y x y x y
N
l x y y y
N


















1
1
22
2
1 1 1
1 1 1 1
22
2
1 1 1
1
1
1
1
1
二、一元线性回归把可以得到回归方程的另一种形式
回归方程的求法
b y bx0 代入回归方程
0?y b b x
y y b ( x x )
从上面的回归方程可以看出,回归直线必通过点x,y
二、一元线性回归
回归方程的稳定性回归方程的稳定性是指回归值 的波动大小,波动愈小,回归方程的稳定性愈好。 的波动大小是用 的标准差 来表示。
一元线性回归的回归方程为:
y
y?y
y?
0?y b b x
根据随机误差传递公式,可以得到
00
2 2 2 2?y b b b bx 2 x
二、一元线性回归
回归方程的稳定性设测量数据的残余标准差为?
回归值的标准差为:
2
y
xx
xx1
Nl

由上面的公式可见,回归值的波动大小不仅与测量值的残余标准差有关,而且还取决于试验次数及自变量的取值范围 。 测量次数愈大,自变量的取值范围愈小,回归值的精度愈高 。