最小二乘法
插值方法
当问题的机理非常不清楚难以直接利用其他知
识来建模时,一个较为自然的方法是利用数据
进行曲线拟合,找出变量之间的近似依赖关系
即函数关系。
§ 2.4 经验模型
最小二乘法
设经实际测量已得 到 n组数据( xi,yi),i=1,…,n。将数据
画在平面直角坐标系中,见 图。如果建模者判断 这 n个点很
象是分布在某条直线附近,令 该直线方程 为 y=ax+b,进而
利用数据来求参 数 a和 b。由于该直线只是数据近似满足的
关系式,故 yi-(axi+b)=0一般不成立,但我们希望
?
?
??
n
i
ii baxy
1
2)]([
最小
此式对 a和 b的偏导数均 为 0,
解相应方程组,求得:
?
?
?
??
?
?
??
?
??
?
?
?
?
?
xayb
xx
yyxx
a
n
i i
n
i ii
??
?
??
1
2
1
)(
))((
y=ax+by
O
(xi,yi)
x
其中 和
分别为 xi和 yi
的平均值
x y
如果建模者判断变量间的关系并非线性关系而是其他类型的函数,
则可作 变量替换 使之转化为线性关系或用类似方 法 拟合 。
显然,运动员体重越大,他能举起的重量也越大,但举重
成绩和运动员体重到底是怎样关系的,不同量级运动员的
成绩又如何比较优劣呢?运动成绩是包括生理条件、心理
因素等等众多相关因素共同作用的结果,要建立精确的模
型至少现在还无法办到。但我们拥有大量的比赛成绩纪录,
根据这些数据不妨可以建立一些经验模型。为简单起见,
我们不妨取表中的数据为例。
例 1(举重成绩的比较)
举重 是一种一般人都能看懂的运动,它共分
九个重量级,有两种主要的比赛方法:抓举
和挺举。 表中给出了到 1977年底为止九个
重量级的世界纪录。
255200110以上
237.5185110
22118090
207.517082.5
195157.575
180141.567.5
161.513060
151120.556
14110952
挺举(公斤)抓举(公斤)
成绩重量级(上限体
重)
模型 1(线性模型)
将数据画在直角坐标系中可以发现,运动成绩与体
量近似满足线性关系,只有 110公斤级有点例外,两
项成绩都显得较低。应用前面叙述的方法可求出近
似关 系式 L=kB+C,其中 B为体重,L为举重成绩。
你在作图 时 L轴可以放 在 50公斤或 52公斤处,因为
没有更轻级别的比赛,具体计算留给读者自己去完
成。
模型 2(幂函数模型)
线性模型并未得到广泛的接受,要改进结果,能够
想到的自然首先是幂函数模型,即令 L=kBa,对此式
取对数,得 到 lnL=lnk+a lnB。将原始数据也取对数,
问题即转化了线性模型,可用最小二乘法求出参数。
几十年前英国和爱尔兰采用的比较举重成绩优劣 的
Austin公式, L′=L/B3/4就是用这一方法求得的。
模型 3(经典模型)
经典模型是根据生理学中的已知结果和比例关系推导出来的
公式,应当说,它并不属于经验公式。为建立数学模型,先
提出如下一些假设:
(1)举重成绩正比于选手肌肉的平均横截 面积 A,即 L=k1A
(2)A正比于身高 L的平方,即 A=k2L2
(3)体重正比于身高 L的三次方,即 B=k3L3
根据上述假设,可得
3
2
3
2
3
21 )( KBk
BkkL ??
显然,K越大则成绩越好,故可用 来比较选手
比赛成绩的优劣。
3
2?
?? LBL
3
2
321
?? kkkK
模型 4( O’ Carroll公式)
经验公式的主要依据是比例关系,其假设条件非常粗糙,可
信度不大,因而大多数人认为它不能令人信服。 1967年,O’
Carroll基于动物学和统计分析得出了一个现在被广泛使用的
公式。 O’ Carroll模型的假设条件是:
(1) L=k1Aa,a<1
(2) A=k2Lb,b<2
(3) B-Bo =k3L3
假设 (1),(2)是解剖学中的统计规律,在假设 ( 3)中 O’
Carroll将体重划分成两部分,B=B0+B1,B0为非肌肉重量。
故有,3135)( ?? BkL
根据三条假设可 得 L=k(B-B0)β,k和 β为两个常数,
3
2
3 ??
abβ
此外,根据统计结果,他 得出 B0≈35公斤,
3
1?β
k越大成绩越好。因而建议
根据的大小
来比 较选手成绩的优劣。
3
1
3 5 )( ???? BLL
模型 5( Vorobyev公式)
这是一个前苏联使用的公式。建模者认为举重选手举起的不
光是重物,也提高了自己的重心,故其举起的总重量为 L+B,
可以看出,他们更重视的是腿部肌肉的爆发力。应用与模型 4
类似的方法,得出了按
的大小比较成绩优劣的建议。
6 0 ) / 9 0 0 ]??
???
BB
BLL
([0.45
上述公式具有各不相同的基准,无法相互比较。为了使公式具
有可比性,需要对公式稍作处理。例如,我们可以要求各公式
均满足 在 B=75公斤时有 L’=L,则上述各公式化为:
( 1) Austin公式:
( 2) 经典 公式:
( 3) O’ Carroll公式:
( 4) Vorobyev公式:
4
3
75
?
?
??
?
???
B
LL
3
2
75
?
?
??
?
???
B
LL
3
1
35
40
?
?
??
?
?
?
??
B
LL
75)(465 )29250( ?? ??? BB BLL
将公式( 1) — ( 4)用来比较 1976年奥运会的抓举成绩,各
公式对九个级别冠军成绩的优劣排序如表 所示,比较结果
较为一致,例如,对前三名的取法是完全一致的,其他排序
的差异也较为微小。
138.5(8)141.9(7)135.6(7)131.8(8)175110
150.3(2)152.9(2)150.5(2)148.3(2)17090
152.1(1)153.5(1)152.2(1)151.3(1)162.542.5
145.0(6)145.0(5)145.0(3)145.0(6)14575
145.8(5)144.7(6)144.8(5)146.1(5)13567.5
147.7(3)146.2(3)145.0(3)147.8(3)12560
146.6(4)145.7(4)142.8(6)146.3(4)117.556
138.8(7)139.7(8)134.0(8)138.2(7)10552
VorobyevO’Carroll经典公式Austin抓举成绩 (公斤 )体重(公斤 )
我们希望建立一个 体重 与 身高 之间的关系式,不难看出两者
之间的关系不易通过机理的分析得出,不妨可以采取 统计
方法,用数据来拟合出与实际情况较为相符的经验公式。 为
此,我们先作一番抽样调查,测量了十五个不同高度的人的
体重,列成了 下表,在抽样时,各高度的人都需经适当挑选,
既不要太胖也不要太瘦。
例 2 体重与身高的 关系
将表中的数画 到 h-w平面上,你会发现这些数据分布很接近某
一指数曲线。为此,对 h和 w均取对数,令 x=lnh,y=lnw,将
( xi,yi)再画到 x-y平面中去( i=1,…,15 ),这次你会发现这
些点几乎就分布在一条直线附近,令此直线的 方程为
y=ax+b,用最小二乘法求 得 a≈2.3,b≈2.82,故可取
y=2.32x+2.84,即 lnw=2.32lnh+2.84,故有 w=17.1h2.32
7566595451体重 w(公斤)
1.851.781.711.671.63身高 h(米)
5048413527体重 w(公斤)
1.601.551.511.351.26身高 h(米)
2017151210体重 w(公斤)
1.121.080.960.860.75身高 h(米)
在使用 最小二乘法 时,我们并未要求得到的拟合曲线一定
要经过所有的样本点,而只是要求 了 总偏差最小 。当实际
问题要求拟合曲线必须 经过样本点 时,我们可以应用数值
逼近中的 插值法 。
根据实际问题的不同要求,存在多种不同的插值方法,有
只要求过样本点的 拉格朗日插值 法, 牛顿插值法 等,有既
要求过插值点(即样本点)又对插值点处的导数有所要求
的 样条( Spline)插值,甚至还有对插值曲线的凹凸也有
要求的 B样条插值法 。本课不准备详细介绍这些细致的插
值方法,只是提请读者注意,在建立经验模型时,插值法
也是可以使用的数学工具之一。
插值方法
对插值法感兴趣的 同学可以查
阅相关书籍,例如由 李岳生 编著上
海科学技术出版社出版的, 样条与
插值, ( 1983年出版)等。
插值方法
当问题的机理非常不清楚难以直接利用其他知
识来建模时,一个较为自然的方法是利用数据
进行曲线拟合,找出变量之间的近似依赖关系
即函数关系。
§ 2.4 经验模型
最小二乘法
设经实际测量已得 到 n组数据( xi,yi),i=1,…,n。将数据
画在平面直角坐标系中,见 图。如果建模者判断 这 n个点很
象是分布在某条直线附近,令 该直线方程 为 y=ax+b,进而
利用数据来求参 数 a和 b。由于该直线只是数据近似满足的
关系式,故 yi-(axi+b)=0一般不成立,但我们希望
?
?
??
n
i
ii baxy
1
2)]([
最小
此式对 a和 b的偏导数均 为 0,
解相应方程组,求得:
?
?
?
??
?
?
??
?
??
?
?
?
?
?
xayb
xx
yyxx
a
n
i i
n
i ii
??
?
??
1
2
1
)(
))((
y=ax+by
O
(xi,yi)
x
其中 和
分别为 xi和 yi
的平均值
x y
如果建模者判断变量间的关系并非线性关系而是其他类型的函数,
则可作 变量替换 使之转化为线性关系或用类似方 法 拟合 。
显然,运动员体重越大,他能举起的重量也越大,但举重
成绩和运动员体重到底是怎样关系的,不同量级运动员的
成绩又如何比较优劣呢?运动成绩是包括生理条件、心理
因素等等众多相关因素共同作用的结果,要建立精确的模
型至少现在还无法办到。但我们拥有大量的比赛成绩纪录,
根据这些数据不妨可以建立一些经验模型。为简单起见,
我们不妨取表中的数据为例。
例 1(举重成绩的比较)
举重 是一种一般人都能看懂的运动,它共分
九个重量级,有两种主要的比赛方法:抓举
和挺举。 表中给出了到 1977年底为止九个
重量级的世界纪录。
255200110以上
237.5185110
22118090
207.517082.5
195157.575
180141.567.5
161.513060
151120.556
14110952
挺举(公斤)抓举(公斤)
成绩重量级(上限体
重)
模型 1(线性模型)
将数据画在直角坐标系中可以发现,运动成绩与体
量近似满足线性关系,只有 110公斤级有点例外,两
项成绩都显得较低。应用前面叙述的方法可求出近
似关 系式 L=kB+C,其中 B为体重,L为举重成绩。
你在作图 时 L轴可以放 在 50公斤或 52公斤处,因为
没有更轻级别的比赛,具体计算留给读者自己去完
成。
模型 2(幂函数模型)
线性模型并未得到广泛的接受,要改进结果,能够
想到的自然首先是幂函数模型,即令 L=kBa,对此式
取对数,得 到 lnL=lnk+a lnB。将原始数据也取对数,
问题即转化了线性模型,可用最小二乘法求出参数。
几十年前英国和爱尔兰采用的比较举重成绩优劣 的
Austin公式, L′=L/B3/4就是用这一方法求得的。
模型 3(经典模型)
经典模型是根据生理学中的已知结果和比例关系推导出来的
公式,应当说,它并不属于经验公式。为建立数学模型,先
提出如下一些假设:
(1)举重成绩正比于选手肌肉的平均横截 面积 A,即 L=k1A
(2)A正比于身高 L的平方,即 A=k2L2
(3)体重正比于身高 L的三次方,即 B=k3L3
根据上述假设,可得
3
2
3
2
3
21 )( KBk
BkkL ??
显然,K越大则成绩越好,故可用 来比较选手
比赛成绩的优劣。
3
2?
?? LBL
3
2
321
?? kkkK
模型 4( O’ Carroll公式)
经验公式的主要依据是比例关系,其假设条件非常粗糙,可
信度不大,因而大多数人认为它不能令人信服。 1967年,O’
Carroll基于动物学和统计分析得出了一个现在被广泛使用的
公式。 O’ Carroll模型的假设条件是:
(1) L=k1Aa,a<1
(2) A=k2Lb,b<2
(3) B-Bo =k3L3
假设 (1),(2)是解剖学中的统计规律,在假设 ( 3)中 O’
Carroll将体重划分成两部分,B=B0+B1,B0为非肌肉重量。
故有,3135)( ?? BkL
根据三条假设可 得 L=k(B-B0)β,k和 β为两个常数,
3
2
3 ??
abβ
此外,根据统计结果,他 得出 B0≈35公斤,
3
1?β
k越大成绩越好。因而建议
根据的大小
来比 较选手成绩的优劣。
3
1
3 5 )( ???? BLL
模型 5( Vorobyev公式)
这是一个前苏联使用的公式。建模者认为举重选手举起的不
光是重物,也提高了自己的重心,故其举起的总重量为 L+B,
可以看出,他们更重视的是腿部肌肉的爆发力。应用与模型 4
类似的方法,得出了按
的大小比较成绩优劣的建议。
6 0 ) / 9 0 0 ]??
???
BB
BLL
([0.45
上述公式具有各不相同的基准,无法相互比较。为了使公式具
有可比性,需要对公式稍作处理。例如,我们可以要求各公式
均满足 在 B=75公斤时有 L’=L,则上述各公式化为:
( 1) Austin公式:
( 2) 经典 公式:
( 3) O’ Carroll公式:
( 4) Vorobyev公式:
4
3
75
?
?
??
?
???
B
LL
3
2
75
?
?
??
?
???
B
LL
3
1
35
40
?
?
??
?
?
?
??
B
LL
75)(465 )29250( ?? ??? BB BLL
将公式( 1) — ( 4)用来比较 1976年奥运会的抓举成绩,各
公式对九个级别冠军成绩的优劣排序如表 所示,比较结果
较为一致,例如,对前三名的取法是完全一致的,其他排序
的差异也较为微小。
138.5(8)141.9(7)135.6(7)131.8(8)175110
150.3(2)152.9(2)150.5(2)148.3(2)17090
152.1(1)153.5(1)152.2(1)151.3(1)162.542.5
145.0(6)145.0(5)145.0(3)145.0(6)14575
145.8(5)144.7(6)144.8(5)146.1(5)13567.5
147.7(3)146.2(3)145.0(3)147.8(3)12560
146.6(4)145.7(4)142.8(6)146.3(4)117.556
138.8(7)139.7(8)134.0(8)138.2(7)10552
VorobyevO’Carroll经典公式Austin抓举成绩 (公斤 )体重(公斤 )
我们希望建立一个 体重 与 身高 之间的关系式,不难看出两者
之间的关系不易通过机理的分析得出,不妨可以采取 统计
方法,用数据来拟合出与实际情况较为相符的经验公式。 为
此,我们先作一番抽样调查,测量了十五个不同高度的人的
体重,列成了 下表,在抽样时,各高度的人都需经适当挑选,
既不要太胖也不要太瘦。
例 2 体重与身高的 关系
将表中的数画 到 h-w平面上,你会发现这些数据分布很接近某
一指数曲线。为此,对 h和 w均取对数,令 x=lnh,y=lnw,将
( xi,yi)再画到 x-y平面中去( i=1,…,15 ),这次你会发现这
些点几乎就分布在一条直线附近,令此直线的 方程为
y=ax+b,用最小二乘法求 得 a≈2.3,b≈2.82,故可取
y=2.32x+2.84,即 lnw=2.32lnh+2.84,故有 w=17.1h2.32
7566595451体重 w(公斤)
1.851.781.711.671.63身高 h(米)
5048413527体重 w(公斤)
1.601.551.511.351.26身高 h(米)
2017151210体重 w(公斤)
1.121.080.960.860.75身高 h(米)
在使用 最小二乘法 时,我们并未要求得到的拟合曲线一定
要经过所有的样本点,而只是要求 了 总偏差最小 。当实际
问题要求拟合曲线必须 经过样本点 时,我们可以应用数值
逼近中的 插值法 。
根据实际问题的不同要求,存在多种不同的插值方法,有
只要求过样本点的 拉格朗日插值 法, 牛顿插值法 等,有既
要求过插值点(即样本点)又对插值点处的导数有所要求
的 样条( Spline)插值,甚至还有对插值曲线的凹凸也有
要求的 B样条插值法 。本课不准备详细介绍这些细致的插
值方法,只是提请读者注意,在建立经验模型时,插值法
也是可以使用的数学工具之一。
插值方法
对插值法感兴趣的 同学可以查
阅相关书籍,例如由 李岳生 编著上
海科学技术出版社出版的, 样条与
插值, ( 1983年出版)等。