2009-7-25 1
数学建模与数学实验后勤工程学院数学教研室回归分析实验目的实验内容
2、掌握用数学软件求解回归分析问题。
1、直观了解回归分析基本内容。
1,回归分析的基本理论 。
3,实验作业。
2,用数学软件求解回归分析问题。
2009-7-25 3
一元线性回归 多元线性回归回归分析数学模型及定义
*
模型参数估计
*
检验
、
预测与控制可线性化的一元非线性回归
(
曲线回归
)
数学模型及定义
*
模型参数估计
*
多元线性回归中的检验与预测逐步回归分析
2009-7-25 4
一、数学模型例 1 测 16名成年女子的身高与腿长所得数据如下:
身高 143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164
腿长 88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102
以身高 x为横坐标,以腿长 y为纵坐标将这些数据点( xI,yi)
在平面直角坐标系上标出,
140 145 150 155 160 165
84
86
88
90
92
94
96
98
100
102
散点图
xy 10
解答
2009-7-25 5
一般地,称由 xy
10
确定的模型为 一元线性回归模型,
记为
2
10
,0
DE
xy
固定的未知参数 0
,1? 称为回归系数,自变量 x 也称为回归变量,
一元线性回归分析的 主要任务,
1,用试验值 (样本值)对
0
,
1
和? 作点估计;
2,对回归系数 0?,
1
作假设检验;
3,在 x= 0
x
处对 y 作预测,对 y 作区间估计,
xY 10,称为 y 对 x 的回归直线方程,
返回
2009-7-25 6
二、模型参数估计
1、回归系数的最小二乘估计有 n 组独立观测值,( x
1
,y
1
),( x
2
,y
2
),?,( x
n
,y
n
)
设
相互独立且,
nii
ii
DE
nixy
...,,0
,...,2,1,
21
2
10
记
n
i
ii
n
i
i
xyQQ
1
2
10
1
2
10
),(
最小二乘法 就是选择
0
和
1
的估计
0
,1
使得
),(m i n)
,
(
10
,
10
10
QQ?
2009-7-25 7
221
10
xx
yxxy
xy
解得其中
n
i
i
n
i
i ynyxnx
11
1,1,
n
i
ii
n
i
i yxnxyxnx
11
22 1,1,
(经验)回归方程为,)( 110 xxyxy
或
n
i
i
n
i
ii
xx
yyxx
1
2
1
1
2009-7-25 8
2,2? 的无偏估计记
n
i
n
i
iiiie
yyxyQQ
1 1
2
2
1010
)?(
)
,
(
称 Q
e
为 残差平方和 或 剩余平方和,
2
的无偏估计 为
)2(?
2
nQ
ee
称
2
e
为 剩余方差 (残差的方差),
2
e
分别与
0
,1
独立 。
e
称为 剩余标准差,
返回
2009-7-25 9
三、检验、预测与控制
1、回归方程的显著性检验对回归方程 xY
10
的显著性检验,归结为对假设
0:;0,1110 HH
进行检验,
假设 0,10H 被拒绝,则回归显著,认为 y 与 x 存在线性关系,所求的线性回归方程有意义;否则回归不显著,y 与 x 的关系不能用一元线性回归模型来描述,所得的回归方程也无意义,
2009-7-25 10
( Ⅰ ) F检验法当
0
H 成立时,
)2/(?
nQ
U
F
e
~F ( 1,n - 2 )
其中
n
i
i
yyU
1
2
( 回归平方和)
故 F>
)2,1(
1
nF
,拒绝 0
H
,否则就接受 0
H
.
( Ⅱ ) t检验法
n
i
i
n
i
ixx xnxxxL
1
22
1
2)(其中当 0H 成立时,
e
xxL
T
1
~t ( n - 2 )
故 )2(
2
1
ntT?,拒绝 0H,否则就接受 0H,
2009-7-25 11
( Ⅲ ) r检验法当 | r | > r 1- α 时,拒绝 H 0 ;否则就接受 H 0,
记
n
i
n
i
ii
n
i
ii
yyxx
yyxx
r
1 1
22
1
)()(
))((
其中2,121 1
1
1
nFnr
2009-7-25 12
2、回归系数的置信区间
0
和
1
置信水平为 1- α 的置信区间分别为
xx
e
xx
e
L
x
n
nt
L
x
n
nt
2
2
1
0
2
2
1
0
1
)2(
,
1
)2(
和?
xxexxe
LntLnt /?)2(
,/?)2(
2
1
1
2
1
1
2
的置信水平为 1-? 的置信区间为
)2(
,
)2(
2
2
2
2
1
n
Q
n
Q
ee
2009-7-25 13
3、预测与控制
( 1)预测用 y 0 的回归值 0100 xy 作为 y 0 的预测值,
0y 的置信水平为1 的 预测区间 为
)(?),(? 0000 xyxy
其中
xx
e L
xx
nntx
2
0
21
0
11)2(?)(
特别,当 n 很大且 x 0 在x 附近取值时,
y 的置信水平为1 的 预测区间近似为
2
1
2
1
, uyuy ee
2009-7-25 14
( 2)控制要求, xy 10 的值以1 的概率落在指定区间yy,
只要控制 x 满足以下两个不等式
yxyyxy )(?,)(
要求 )(2 xyy,若 yxyyxy )(?,)( 分别有解 x?
和 x,即 yxyyxy )(?,)(,
则xx,就是所求的 x 的控制区间,
返回
2009-7-25 15
四、可线性化的一元非线性回归
(曲线回归)
例 2 出钢时所用的盛钢水的钢包,由于钢水对耐火材料的侵蚀,
容积不断增大,我们希望知道使用次数与增大的容积之间的关系,对一钢包作试验,测得的数据列于下表:
使用次数 增大容积 使用次数 增大容积
2
3
4
5
6
7
8
9
6,42
8,20
9,58
9,50
9,70
10,00
9,93
9,99
10
11
12
13
14
15
16
10,49
10,59
10,60
10,80
10,60
10,90
10,76
解答
2009-7-25 16
2 4 6 8 10 12 14 16
6
6,5
7
7,5
8
8,5
9
9,5
10
1 0,5
11
散点图此即 非线性回归 或 曲线回归 问题 ( 需要配曲线 )
配曲线的一般方法是:
先对两个变量 x 和 y 作 n 次试验观察得 niyx ii,...,2,1),,(? 画出散点图,
根据散点图确定须配曲线的类型,然后由 n 对试验数据确定每一类曲线的未知参数 a 和 b,采用的方法是通过变量代换把非线性回归化成线性回归,即采用非线性回归线性化的方法,
2009-7-25 17
通常选择的六类曲线如下:
( 1 ) 双曲线 xbay1
( 2 ) 幂函数曲线 y = a bx,其中 x > 0,a > 0
( 3 ) 指数曲线 y = a bxe 其中参数 a > 0,
( 4 ) 倒指数曲线 y =a xbe / 其中 a >0,
( 5 ) 对数曲线 y = a + b l o g x,x > 0
( 6 ) S 型曲线 xbeay 1
返回解例 2,由散点图我们选配倒指数曲线 y =a
xb
e
/
根据线性化方法,算得 4587.2
,1107.1 Ab
由此 6789.11
A
ea
最后得
xey
11 07.1
6789.11
2009-7-25 18
一、数学模型及定义一般称
n
IC O VE
XY
2
),(,0)(
为高斯 — 马尔柯夫线性模型 ( k 元线性回归模型 ),并简记为 ),,(
2
n
IXY
ny
y
Y
.,,
.,,
1
,
nknn
k
k
xxx
xxx
xxx
X
...1
...............
...1
...1
21
22221
11211
,
k?
...
1
0
,
n?
.,,
2
1
kk xxy,..110 称为 回归平面方程,
返回线性模型 ),,(
2
nIXY 考虑的主要问题是,
( 1 ) 用试验值(样本值)对未知参数? 和
2?
作点估计和假设检验,从而建立 y 与
k
xxx,.,,,,
21 之间的数量关系;
( 2 )在
,,.,,,,0022011 kk xxxxxx
处对 y 的值作预测与控制,即对 y 作区间估计,
2009-7-25 19
二、模型参数估计
1,对 i? 和 2? 作估计用最小二乘法求
k
,.,,,
0
的估计量:作离差平方和
n
i
ikkii
xxyQ
1
2
110
..,
选择 k
,.,,,
0 使 Q 达到最小。
解得估计值YXXX TT
1
得到的 i 代入回归平面方程得:
kk xxy
...
110
称为 经验回归平面方程,i?
称为 经验回归系数,
注意, 服从 p + 1 维正态分布,且为? 的无偏估计,协方差阵为 C
2
,
C = L -1 =( c ij ),L = X ’ X
2009-7-25 20
2,多项式回归设变量 x,Y 的回归模型为
p
p
xxxY,..
2
210
其中 p 是已知的,
),,2,1( pi
i
是未知参数,
服从正态分布
),0(
2
N
.
令 ii xx?,i =1,2,…,k 多项式回归模型变为多元线性回归模型,
返回
kk xxxY,..2210
称为 回归多项式,上面的回归模型称为 多项式回归,
2009-7-25 21
三、多元线性回归中的检验与预测
1,线性模型和回归系数的检验假设 0.,,,100 kH
( Ⅰ ) F检验法
( Ⅱ ) r检验法定义
eyy QU
U
L
U
R
为 y 与 x 1,x 2,.,,,x k 的 多元相关系数 或 复相关系数 。
由于
2
2
1
1
R
R
k
kn
F
,故用 F 和用 R 检验是等效的。
当 H 0 成立时,)1,(~
)1/(
/
knkF
knQ
kU
F
e
如果 F > F 1- α ( k,n - k - 1 ),则拒绝 H 0,认为 y 与 x 1,…,x k 之间显著地有线性关系;否则就接受 H 0,认为 y 与 x 1,…,x k 之间线性关系不显著,
其中
n
i
i yyU
1
2? ( 回归平方和)?
n
i
iie yyQ
1
2)?((残差平方和)
2009-7-25 22
2、预测
( 1)点预测求出回归方程 kk xxy... 110,对于给定自变量的值?kxx,.,,,*1,用 **110*?.,, kk xxy 来预测
**110,,,kk xxy,称 *?y 为 *y 的点预测,
( 2)区间预测
y 的1 的预测区间 (置信)区间为 )?,?(
21
yy,其中
)1(1
)1(1
2/1
0 0
2
2/1
0 0
1
kntxxcyy
kntxxcyy
k
i
k
j
jiije
k
i
k
j
jiije
C = L
-1
=( c
ij
),L = X ’ X
1 kn
Q e
e?
返回
2009-7-25 23
四、逐步回归分析
( 4)“有进有出”的逐步回归分析。
( 1)从所有可能的因子(变量)组合的回归方程中选择最优者;
( 2)从包含全部变量的回归方程中逐次剔除不显著因子;
( 3)从一个变量开始,把变量逐个引入方程;
选择“最优”的回归方程有以下几种方法:
“最优,的回归方程 就是包含所有对 Y有影响的变量,而不包含对 Y影响不显著的变量回归方程 。
以第四种方法,即 逐步回归分析法 在筛选变量方面较为理想,
2009-7-25 24
这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。
逐步回归分析法 的思想:
从一个自变量开始,视自变量 Y作用的显著程度,从大到地依次逐个引入回归方程。
当引入的自变量由于后面变量的引入而变得不显著时,
要将其剔除掉。
引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步。
对于每一步都要进行 Y值检验,以确保每次引入新的显著性变量前回归方程中只包含对 Y作用显著的变量。
返回
2009-7-25 25
统计工具箱中的回归分析命令
1、多元线性回归
2、多项式回归
3、非线性回归
4、逐步回归返回
2009-7-25 26
多元线性回归
b=regress( Y,X )
npnn
p
p
xxx
xxx
xxx
X
...1
...............
...1
...1
21
22221
11211
nY
Y
Y
Y
...
2
1
p
b
...
1
0
1,确定回归系数的点估计值:
pp xxy,..110
对一元线性回归,取 p = 1 即可
2009-7-25 27
3,画出残差及其置信区间,rcoplot( r,rint)
2,求回归系数的点估计和区间估计、并检验回归模型:
[b,bint,r,rint,stats]=regress(Y,X,alpha)
回归系数的区间估计残差用于检验回归模型的统计量,
有三个数值:相关系数 r2、
F值、与 F对应的概率 p
置信区间显著性水平
(
缺省时为
0.
05
)
相关系数 r 2 越接近 1,说明回归方程越显著;
F > F 1- α ( k,n - k - 1 )时拒绝 H 0,F 越大,说明回归方程越显著;
与 F 对应的概率 p 时拒绝 H 0,回归模型成立,
2009-7-25 28
例 1 解,1,输入数据:
x=[143 145 146 147 149 150 153 154 155 156 157 158 159
160 162 164]';
X=[ones(16,1) x];
Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]';
2,回归分析及检验:
[b,bint,r,rint,stats]=regress(Y,X)
b,bint,stats
得结果,b = b i n t =
- 1 6,0 7 3 0 - 3 3,7 0 7 1 1,5 6 1 2
0,7 1 9 4 0,6 0 4 7 0,8 3 4 0
s t a t s =
0,9 2 8 2 1 8 0,9 5 3 1 0,0 0 0 0
即
7 1 9 4.0
,0 7 3.16
10
; 0
的置信区间为 [ - 3 3,7 0 1 7,1,5 6 1 2 ],1
的置信区间为 [ 0,6 0 4 7,0,8 3 4 ] ;
r
2
= 0,9 2 8 2,F = 1 8 0,9 5 3 1,p = 0,0 0 0 0
p< 0,05,可知回归模型 y= - 16,073 + 0,719 4x 成立,
To MATLAB(liti11)
题目
2009-7-25 29
3、残差分析,作残差图:
rcoplot(r,rint)
从残差图可以看出,除第二个数据外,其余数据的残差离零点均较近,且残差的置信区间均包含零点,这说明回归模型 y=-16.073+0.7194x能较好的符合原始数据,而第二个 数据可视为异常点,
4、预测及作图:
z=b(1)+b(2)*x
plot(x,Y,'k+',x,z,'r')
2 4 6 8 10 12 14 16
-5
-4
-3
-2
-1
0
1
2
3
4
R e si d u a l C a se O r d e r P l o t
R
e
si
d
u
a
ls
C a se N u m b e r
返回
To MATLAB(liti12)
2009-7-25 30
多 项 式 回 归
(一)一元多项式回归
( 1) 确定多项式系数的命令,[p,S]=polyfit( x,y,m)
其中 x= ( x 1,x 2,?,x n ),y= ( y 1,y 2,?,y n );
p= ( a 1,a 2,?,a m + 1 )是多项式 y= a 1 x m +a 2 x m -1 +? + a m x+ a m + 1
的系数; S 是一个矩阵,用来估计预测误差,
( 2) 一元多项式回归命令,polytool( x,y,m)
1、回归:
y=a1xm+a2xm-1+… +amx+am+1
2、预测和预测误差估计:
( 1) Y=polyval( p,x)求 polyfit所得的回归多项式在 x处 的预测值 Y;
( 2) [Y,DELTA]=polyconf( p,x,S,alpha)求 polyfit所得的回归多项式在 x处的预测值 Y及预测值的显著性为 1-
alpha的置信区间 Y DELTA; alpha缺省时为 0.5.?
2009-7-25 31
例 2 观测物体降落的距离 s 与时间 t 的关系,得到数据如下表,求 s
关于 t 的回归方程 2? ctbtas,
t ( s ) 1 / 3 0 2 / 3 0 3 / 3 0 4 / 3 0 5 / 3 0 6 / 3 0 7 / 3 0
s ( c m ) 1 1,8 6 1 5,6 7 2 0,6 0 2 6,6 9 3 3,7 1 4 1,9 3 5 1,1 3
t ( s ) 8 / 3 0 9 / 3 0 1 0 / 3 0 1 1 / 3 0 1 2 / 3 0 1 3 / 3 0 1 4 / 3 0
s ( c m ) 6 1,4 9 7 2,9 0 8 5,4 4 9 9,0 8 1 1 3,7 7 1 2 9,5 4 1 4 6,4 8
法一直接作二次多项式回归:
t=1/30:1/30:14/30;
s=[11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90
85.44 99.08 113.77 129.54 146.48];
[p,S]=polyfit(t,s,2) To MATLAB( liti21)
1 3 2 9.98 8 9 6.652 9 4 6.4 8 9? 2 tts
得回归模型为,
2009-7-25 32
法二化为多元线性回归:
t=1/30:1/30:14/30;
s=[11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90
85.44 99.08 113.77 129.54 146.48];
T=[ones(14,1) t' (t.^2)'];
[b,bint,r,rint,stats]=regress(s',T);
b,stats
To MATLAB(liti22)
22 9 4 6.4 8 98 8 9 6.651 3 2 9.9? tts
得回归模型为,
Y=polyconf(p,t,S)
plot(t,s,'k+',t,Y,'r')
预测及作图
To MATLAB(liti23)
2009-7-25 33
(二)多元二项式回归命令,rstool( x,y,’ model’,alpha)
n?m矩阵 显著性水平(缺省时为 0.05)n维列向量由下列 4 个模型中选择 1 个(用字符串输入,缺省时为线性模型),
l i n e a r ( 线性 ):
mm
xxy
110
p u r e q u a dr a t i c ( 纯二次 ),
n
j
jjjmm
xxxy
1
2
110
i n t e r a c t i o n ( 交叉 ):
mkj
kjjkmm
xxxxy
1
110
q u a dr a t i c ( 完全二次 ):
mkj
kjjkmm
xxxxy
,1
110
2009-7-25 34
例 3 设某商品的需求量与消费者的平均收入、商品价格的统计数据如下,建立回归模型,预测平均收入为 1000、价格为 6时的商品需求量,
需求量 100 75 80 70 50 65 90 100 1 1 0 60
收入 1000 600 1200 500 300 400 1300 1 1 0 0 1300 300
价格 5 7 6 6 8 7 5 4 3 9
选择纯二次模型,即 2222211122110 xxxxy
法一直接用多元二项式回归:
x1=[1000 600 1200 500 300 400 1300 1100 1300 300];
x2=[5 7 6 6 8 7 5 4 3 9];
y=[100 75 80 70 50 65 90 100 110 60]';
x=[x1' x2'];
rstool(x,y,'purequadratic')
2009-7-25 35
在画面左下方的下拉式菜单中选” all”,则 beta,rmse和 residuals都传送到 Matlab工作区中,
在左边图形下方的方框中输入 1000,右边图形下方的方框中输入 6。
则画面左边的,Predicted Y”下方的数据变为 88.47981,即预测出平均收入为 1000、价格为 6时的商品需求量为 88.4791.
2009-7-25 36
在 Matlab工作区中输入命令,beta,rmse
得结果,b e t a =
1 1 0,5 3 1 3
0,1 4 6 4
- 2 6,5 7 0 9
- 0,0 0 0 1
1,8 4 7 5
r m s e =
4,5 3 6 2
故回归模型为,222121 8 4 7 5.10 0 0 1.05 7 0 9.261 4 6 4.05 3 1 3.110 xxxxy
剩余标准差为 4,5 3 6 2,说明此回归模型的显著性较好,
To MATLAB(liti31)
2009-7-25 37
X = [ o n e s ( 1 0,1 ) x 1 ' x 2 ' ( x 1,^ 2 ) ' ( x 2,^ 2 ) ' ] ;
[ b,b i n t,r,r i n t,s ta ts ] = r e g r e s s ( y,X ) ;
b,s ta t s
结果为,b =
110.5313
0.1464
-26.5709
-0.0001
1.8475
stats =
0.9702 40.6656 0.0005
法二
To MATLAB(liti32)
返回
2222211122110 xxxxy将化为多元线性回归:
2009-7-25 38
非线性回 归
( 1) 确定回归系数的命令:
[beta,r,J]=nlinfit( x,y,’ model’,beta0)
( 2) 非线性回归命令,nlintool( x,y,’ model’,beta0,alpha)
1、回归:
残差
Jacobian矩阵回归系数的初值是事先用 m-文件定义的非线性函数估计出的回归系数输入数据 x,y分别为矩阵和 n维列向量,对一元非线性回归,x为 n维列向量。
mn?
2、预测和预测误差估计:
[Y,DELTA]=nlpredci( ’ model’,x,beta,r,J)
求 nlinfit 或 nlintool所得的回归函数在 x处的预测值 Y及预测值的显著性为 1-alpha的置信区间 Y DELTA.?
2009-7-25 39
例 4 对第一节例 2,求解如下:
1,对将要拟合的非线性模型 y = a xbe /,建立 m- 文件 v o l u m,m 如下:
f u n c t i o n y h a t = v o l u m ( b e t a,x )
yhat = b e t a ( 1 ) * e x p ( b e t a ( 2 ),/ x ) ;
2、输入数据:
x=2:16;
y=[6.42 8.20 9.58 9.5 9.7 10 9.93 9.99 10.49 10.59 10.60 10.80 10.60
10.90 10.76];
beta0=[8 2]';
3,求回归系数:
[beta,r,J]=nlinfit(x',y','volum',beta0);
beta
得结果,beta =
11.6036
-1.0641
即得回归模型为:
xey
10641.16 0 3 6.11
To MATLAB(liti41)
题目
2009-7-25 40
4、预测及作图:
[YY,delta]=nlpredci('volum',x',beta,r,J);
plot(x,y,'k+',x,YY,'r')
To MATLAB(liti42)
2009-7-25 41
例 5 财政收入预测问题:财政收入与国民收入、工业总产值、
农业总产值、总人口、就业人口、固定资产投资等因素有关。
下表列出了 1952-1981年的原始数据,试构造预测模型。
解 设国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资分别为 x1,x2,x3,x4,x5,x6,财政收入为 y,设变量之间的关系为:
y= ax1+bx2+cx3+dx4+ex5+fx6
使用非线性回归方法求解。
2009-7-25 42
1,对回归模型建立 M文件 model.m如下,
function yy=model(beta0,X)
a=beta0(1);
b=beta0(2);
c=beta0(3);
d=beta0(4);
e=beta0(5);
f=beta0(6);
x1=X(:,1);
x2=X(:,2);
x3=X(:,3);
x4=X(:,4);
x5=X(:,5);
x6=X(:,6);
yy=a*x1+b*x2+c*x3+d*x4+e*x5+f*x6;
2009-7-25 43
2,主程序 liti6.m如下,
X=[598.00 349.00 461.00 57482.00 20729.00 44.00
…………………………………………………………..
2927.00 6862.00 1273.00 100072.0 43280.00 496.00];
y=[184.00 216.00 248.00 254.00 268.00 286.00 357.00 444.00 506.00,.,
271.00 230.00 266.00 323.00 393.00 466.00 352.00 303.00 447.00,..
564.00 638.00 658.00 691.00 655.00 692.00 657.00 723.00 922.00,..
890.00 826.00 810.0]';
beta0=[0.50 -0.03 -0.60 0.01 -0.02 0.35];
betafit = nlinfit(X,y,'model',beta0)
To MATLAB(liti6)
2009-7-25 44
betafit =
0.5243
-0.0294
-0.6304
0.0112
-0.0230
0.3658
即 y= 0.5243x1-0.0294x2-0.6304x3+0.0112x4-0.0230x5+0.3658x6
结果为,
返 回
2009-7-25 45
逐 步 回 归逐步回归的命令是:
stepwise( x,y,inmodel,alpha)
运行 stepwise命令时产生三个图形窗口,Stepwise Plot,
Stepwise Table,Stepwise History.
在 Stepwise Plot窗口,显示出各项的回归系数及其置信区间,
Stepwise Table 窗口中列出了一个统计表,包括回归系数及其置信区间,以及模型的统计量剩余标准差( RMSE)、相关系数( R-square),F值、与 F对应的概率 P.
矩阵的列数的指标,给出初始模型中包括的子集(缺省时设定为全部自变量)
显著性水平(缺省时为 0.5)
自变量数据,
阶矩阵mn? 因变量数据,
阶矩阵1?n
2009-7-25 46
例 6 水泥凝固时放出的热量 y与水泥中 4种化学成分 x1,x2,x3,x4
有关,今测得一组数据如下,试用逐步回归法确定一个 线性模型,序号 1 2 3 4 5 6 7 8 9 10 11 12 13
x 1 7 1 11 11 7 11 3 1 2 21 1 11 10
x 2 26 29 56 31 52 55 71 31 54 47 40 66 68
x 3 6 15 8 8 6 9 17 22 18 4 23 9 8
x 4 60 52 20 47 33 22 6 44 22 26 34 12 12
y 7 8,5 7 4,3 1 0 4,3 8 7,6 9 5,9 1 0 9,2 1 0 2,7 7 2,5 9 3,1 1 1 5,9 8 3,8 1 1 3,3 1 0 9,4
1、数据输入:
x1=[7 1 11 11 7 11 3 1 2 21 1 11 10]';
x2=[26 29 56 31 52 55 71 31 54 47 40 66 68]';
x3=[6 15 8 8 6 9 17 22 18 4 23 9 8]';
x4=[60 52 20 47 33 22 6 44 22 26 34 12 12]';
y=[78.5 74.3 104.3 87.6 95.9 109.2 102.7 72.5 93.1 115.9 83.8 113.3
109.4]';
x=[x1 x2 x3 x4];
2009-7-25 47
2、逐步回归:
( 1)先在初始模型中取全部自变量:
stepwise(x,y)
得图 Stepwise Plot 和表 Stepwise Table
图 Stepwise Plot中四条直线都是虚线,说明模型的显著性不好从表 Stepwise Table中看出变量 x3和 x4的显著性最差,
2009-7-25 48
( 2)在图 Stepwise Plot中点击直线 3和直线 4,移去变量 x3和 x4
移去变量 x3和 x4后模型具有显著性,
虽然剩余标准差( RMSE)没有太大的变化,但是统计量 F的值明显增大,因此新的回归模型更好,
To MATLAB(liti51)
2009-7-25 49
( 3)对变量 y和 x1,x2作线性回归:
X=[ones(13,1) x1 x2];
b=regress(y,X)
得结果,b =
52.5773
1.4683
0.6623
故最终模型为,y=52.5773+1.4683x1+0.6623x2
To MATLAB(liti52)
返回
2009-7-25 50
1、考察温度 x对产量 y的影响,测得下列 10组数据:
温度 ( ℃ ) 20 25 30 35 40 45 50 55 60 65
产量 ( kg ) 13.2 15.1 16.4 17.1 17.9 18.7 19.6 21.2 22.5 24.3
求 y关于 x的线性回归方程,检验回归效果是否显著,并预测
x=42℃ 时产量的估值及预测区间(置信度 95%),
2、某零件上有一段曲线,为了在程序控制机床上加工这一零件,需要求这段曲线的解析表达式,在曲线横坐标 xi处测得纵坐标 yi共 11对数据如下:
x i 0 2 4 6 8 10 12 14 16 18 20
y i 0,6 2,0 4,4 7,5 1 1,8 1 7,1 2 3,3 3 1,2 3 9,6 4 9,7 6 1,7
求这段曲线的纵坐标 y关于横坐标 x的二次多项式回归方程,
2009-7-25 51
3,在研究化学动力学反应过程中,建立了一个反应速度和反应物含量的数学模型,形式为
342312
5
3
21
1 xxx
x
x
y
其中 51,, 是未知参数,321,,xxx 是三种反应物 (氢,n 戊烷,
异构戊烷)的含量,y 是反应速度,今测得一组数据如表 4,试由此确定参数 51,,,并给出置信区间,51,, 的参考值为
( 1,0,05,0,02,0,1,2 ),
序号 反应速度 y 氢 x
1
n 戊烷 x
2
异构戊烷 x
3
1 8,55 470 300 10
2 3,79 285 80 10
3 4,82 470 300 120
4 0,02 470 80 120
5 2,75 470 80 10
6 14,39 100 190 10
7 2,54 100 80 65
8 4,35 470 190 65
9 13,00 100 300 54
10 8,50 100 300 120
11 0,05 100 80 120
12 1 1,32 285 300 10
13 3,13 285 190 120
2009-7-25 52
4、混凝土的抗压强度随养护时间的延长而增加,现将一批混凝土作成 12个试块,记录了养护日期 x(日)及抗压强度 y
( kg/cm2)的数据:
养护时间 x 2 3 4 5 7 9 12 14 17 21 28 56
抗压强度 y 35 42 47 53 59 65 68 73 76 82 86 99
试求 xbay ln 型回归方程,
数学建模与数学实验后勤工程学院数学教研室回归分析实验目的实验内容
2、掌握用数学软件求解回归分析问题。
1、直观了解回归分析基本内容。
1,回归分析的基本理论 。
3,实验作业。
2,用数学软件求解回归分析问题。
2009-7-25 3
一元线性回归 多元线性回归回归分析数学模型及定义
*
模型参数估计
*
检验
、
预测与控制可线性化的一元非线性回归
(
曲线回归
)
数学模型及定义
*
模型参数估计
*
多元线性回归中的检验与预测逐步回归分析
2009-7-25 4
一、数学模型例 1 测 16名成年女子的身高与腿长所得数据如下:
身高 143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164
腿长 88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102
以身高 x为横坐标,以腿长 y为纵坐标将这些数据点( xI,yi)
在平面直角坐标系上标出,
140 145 150 155 160 165
84
86
88
90
92
94
96
98
100
102
散点图
xy 10
解答
2009-7-25 5
一般地,称由 xy
10
确定的模型为 一元线性回归模型,
记为
2
10
,0
DE
xy
固定的未知参数 0
,1? 称为回归系数,自变量 x 也称为回归变量,
一元线性回归分析的 主要任务,
1,用试验值 (样本值)对
0
,
1
和? 作点估计;
2,对回归系数 0?,
1
作假设检验;
3,在 x= 0
x
处对 y 作预测,对 y 作区间估计,
xY 10,称为 y 对 x 的回归直线方程,
返回
2009-7-25 6
二、模型参数估计
1、回归系数的最小二乘估计有 n 组独立观测值,( x
1
,y
1
),( x
2
,y
2
),?,( x
n
,y
n
)
设
相互独立且,
nii
ii
DE
nixy
...,,0
,...,2,1,
21
2
10
记
n
i
ii
n
i
i
xyQQ
1
2
10
1
2
10
),(
最小二乘法 就是选择
0
和
1
的估计
0
,1
使得
),(m i n)
,
(
10
,
10
10
QQ?
2009-7-25 7
221
10
xx
yxxy
xy
解得其中
n
i
i
n
i
i ynyxnx
11
1,1,
n
i
ii
n
i
i yxnxyxnx
11
22 1,1,
(经验)回归方程为,)( 110 xxyxy
或
n
i
i
n
i
ii
xx
yyxx
1
2
1
1
2009-7-25 8
2,2? 的无偏估计记
n
i
n
i
iiiie
yyxyQQ
1 1
2
2
1010
)?(
)
,
(
称 Q
e
为 残差平方和 或 剩余平方和,
2
的无偏估计 为
)2(?
2
nQ
ee
称
2
e
为 剩余方差 (残差的方差),
2
e
分别与
0
,1
独立 。
e
称为 剩余标准差,
返回
2009-7-25 9
三、检验、预测与控制
1、回归方程的显著性检验对回归方程 xY
10
的显著性检验,归结为对假设
0:;0,1110 HH
进行检验,
假设 0,10H 被拒绝,则回归显著,认为 y 与 x 存在线性关系,所求的线性回归方程有意义;否则回归不显著,y 与 x 的关系不能用一元线性回归模型来描述,所得的回归方程也无意义,
2009-7-25 10
( Ⅰ ) F检验法当
0
H 成立时,
)2/(?
nQ
U
F
e
~F ( 1,n - 2 )
其中
n
i
i
yyU
1
2
( 回归平方和)
故 F>
)2,1(
1
nF
,拒绝 0
H
,否则就接受 0
H
.
( Ⅱ ) t检验法
n
i
i
n
i
ixx xnxxxL
1
22
1
2)(其中当 0H 成立时,
e
xxL
T
1
~t ( n - 2 )
故 )2(
2
1
ntT?,拒绝 0H,否则就接受 0H,
2009-7-25 11
( Ⅲ ) r检验法当 | r | > r 1- α 时,拒绝 H 0 ;否则就接受 H 0,
记
n
i
n
i
ii
n
i
ii
yyxx
yyxx
r
1 1
22
1
)()(
))((
其中2,121 1
1
1
nFnr
2009-7-25 12
2、回归系数的置信区间
0
和
1
置信水平为 1- α 的置信区间分别为
xx
e
xx
e
L
x
n
nt
L
x
n
nt
2
2
1
0
2
2
1
0
1
)2(
,
1
)2(
和?
xxexxe
LntLnt /?)2(
,/?)2(
2
1
1
2
1
1
2
的置信水平为 1-? 的置信区间为
)2(
,
)2(
2
2
2
2
1
n
Q
n
Q
ee
2009-7-25 13
3、预测与控制
( 1)预测用 y 0 的回归值 0100 xy 作为 y 0 的预测值,
0y 的置信水平为1 的 预测区间 为
)(?),(? 0000 xyxy
其中
xx
e L
xx
nntx
2
0
21
0
11)2(?)(
特别,当 n 很大且 x 0 在x 附近取值时,
y 的置信水平为1 的 预测区间近似为
2
1
2
1
, uyuy ee
2009-7-25 14
( 2)控制要求, xy 10 的值以1 的概率落在指定区间yy,
只要控制 x 满足以下两个不等式
yxyyxy )(?,)(
要求 )(2 xyy,若 yxyyxy )(?,)( 分别有解 x?
和 x,即 yxyyxy )(?,)(,
则xx,就是所求的 x 的控制区间,
返回
2009-7-25 15
四、可线性化的一元非线性回归
(曲线回归)
例 2 出钢时所用的盛钢水的钢包,由于钢水对耐火材料的侵蚀,
容积不断增大,我们希望知道使用次数与增大的容积之间的关系,对一钢包作试验,测得的数据列于下表:
使用次数 增大容积 使用次数 增大容积
2
3
4
5
6
7
8
9
6,42
8,20
9,58
9,50
9,70
10,00
9,93
9,99
10
11
12
13
14
15
16
10,49
10,59
10,60
10,80
10,60
10,90
10,76
解答
2009-7-25 16
2 4 6 8 10 12 14 16
6
6,5
7
7,5
8
8,5
9
9,5
10
1 0,5
11
散点图此即 非线性回归 或 曲线回归 问题 ( 需要配曲线 )
配曲线的一般方法是:
先对两个变量 x 和 y 作 n 次试验观察得 niyx ii,...,2,1),,(? 画出散点图,
根据散点图确定须配曲线的类型,然后由 n 对试验数据确定每一类曲线的未知参数 a 和 b,采用的方法是通过变量代换把非线性回归化成线性回归,即采用非线性回归线性化的方法,
2009-7-25 17
通常选择的六类曲线如下:
( 1 ) 双曲线 xbay1
( 2 ) 幂函数曲线 y = a bx,其中 x > 0,a > 0
( 3 ) 指数曲线 y = a bxe 其中参数 a > 0,
( 4 ) 倒指数曲线 y =a xbe / 其中 a >0,
( 5 ) 对数曲线 y = a + b l o g x,x > 0
( 6 ) S 型曲线 xbeay 1
返回解例 2,由散点图我们选配倒指数曲线 y =a
xb
e
/
根据线性化方法,算得 4587.2
,1107.1 Ab
由此 6789.11
A
ea
最后得
xey
11 07.1
6789.11
2009-7-25 18
一、数学模型及定义一般称
n
IC O VE
XY
2
),(,0)(
为高斯 — 马尔柯夫线性模型 ( k 元线性回归模型 ),并简记为 ),,(
2
n
IXY
ny
y
Y
.,,
.,,
1
,
nknn
k
k
xxx
xxx
xxx
X
...1
...............
...1
...1
21
22221
11211
,
k?
...
1
0
,
n?
.,,
2
1
kk xxy,..110 称为 回归平面方程,
返回线性模型 ),,(
2
nIXY 考虑的主要问题是,
( 1 ) 用试验值(样本值)对未知参数? 和
2?
作点估计和假设检验,从而建立 y 与
k
xxx,.,,,,
21 之间的数量关系;
( 2 )在
,,.,,,,0022011 kk xxxxxx
处对 y 的值作预测与控制,即对 y 作区间估计,
2009-7-25 19
二、模型参数估计
1,对 i? 和 2? 作估计用最小二乘法求
k
,.,,,
0
的估计量:作离差平方和
n
i
ikkii
xxyQ
1
2
110
..,
选择 k
,.,,,
0 使 Q 达到最小。
解得估计值YXXX TT
1
得到的 i 代入回归平面方程得:
kk xxy
...
110
称为 经验回归平面方程,i?
称为 经验回归系数,
注意, 服从 p + 1 维正态分布,且为? 的无偏估计,协方差阵为 C
2
,
C = L -1 =( c ij ),L = X ’ X
2009-7-25 20
2,多项式回归设变量 x,Y 的回归模型为
p
p
xxxY,..
2
210
其中 p 是已知的,
),,2,1( pi
i
是未知参数,
服从正态分布
),0(
2
N
.
令 ii xx?,i =1,2,…,k 多项式回归模型变为多元线性回归模型,
返回
kk xxxY,..2210
称为 回归多项式,上面的回归模型称为 多项式回归,
2009-7-25 21
三、多元线性回归中的检验与预测
1,线性模型和回归系数的检验假设 0.,,,100 kH
( Ⅰ ) F检验法
( Ⅱ ) r检验法定义
eyy QU
U
L
U
R
为 y 与 x 1,x 2,.,,,x k 的 多元相关系数 或 复相关系数 。
由于
2
2
1
1
R
R
k
kn
F
,故用 F 和用 R 检验是等效的。
当 H 0 成立时,)1,(~
)1/(
/
knkF
knQ
kU
F
e
如果 F > F 1- α ( k,n - k - 1 ),则拒绝 H 0,认为 y 与 x 1,…,x k 之间显著地有线性关系;否则就接受 H 0,认为 y 与 x 1,…,x k 之间线性关系不显著,
其中
n
i
i yyU
1
2? ( 回归平方和)?
n
i
iie yyQ
1
2)?((残差平方和)
2009-7-25 22
2、预测
( 1)点预测求出回归方程 kk xxy... 110,对于给定自变量的值?kxx,.,,,*1,用 **110*?.,, kk xxy 来预测
**110,,,kk xxy,称 *?y 为 *y 的点预测,
( 2)区间预测
y 的1 的预测区间 (置信)区间为 )?,?(
21
yy,其中
)1(1
)1(1
2/1
0 0
2
2/1
0 0
1
kntxxcyy
kntxxcyy
k
i
k
j
jiije
k
i
k
j
jiije
C = L
-1
=( c
ij
),L = X ’ X
1 kn
Q e
e?
返回
2009-7-25 23
四、逐步回归分析
( 4)“有进有出”的逐步回归分析。
( 1)从所有可能的因子(变量)组合的回归方程中选择最优者;
( 2)从包含全部变量的回归方程中逐次剔除不显著因子;
( 3)从一个变量开始,把变量逐个引入方程;
选择“最优”的回归方程有以下几种方法:
“最优,的回归方程 就是包含所有对 Y有影响的变量,而不包含对 Y影响不显著的变量回归方程 。
以第四种方法,即 逐步回归分析法 在筛选变量方面较为理想,
2009-7-25 24
这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。
逐步回归分析法 的思想:
从一个自变量开始,视自变量 Y作用的显著程度,从大到地依次逐个引入回归方程。
当引入的自变量由于后面变量的引入而变得不显著时,
要将其剔除掉。
引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步。
对于每一步都要进行 Y值检验,以确保每次引入新的显著性变量前回归方程中只包含对 Y作用显著的变量。
返回
2009-7-25 25
统计工具箱中的回归分析命令
1、多元线性回归
2、多项式回归
3、非线性回归
4、逐步回归返回
2009-7-25 26
多元线性回归
b=regress( Y,X )
npnn
p
p
xxx
xxx
xxx
X
...1
...............
...1
...1
21
22221
11211
nY
Y
Y
Y
...
2
1
p
b
...
1
0
1,确定回归系数的点估计值:
pp xxy,..110
对一元线性回归,取 p = 1 即可
2009-7-25 27
3,画出残差及其置信区间,rcoplot( r,rint)
2,求回归系数的点估计和区间估计、并检验回归模型:
[b,bint,r,rint,stats]=regress(Y,X,alpha)
回归系数的区间估计残差用于检验回归模型的统计量,
有三个数值:相关系数 r2、
F值、与 F对应的概率 p
置信区间显著性水平
(
缺省时为
0.
05
)
相关系数 r 2 越接近 1,说明回归方程越显著;
F > F 1- α ( k,n - k - 1 )时拒绝 H 0,F 越大,说明回归方程越显著;
与 F 对应的概率 p 时拒绝 H 0,回归模型成立,
2009-7-25 28
例 1 解,1,输入数据:
x=[143 145 146 147 149 150 153 154 155 156 157 158 159
160 162 164]';
X=[ones(16,1) x];
Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]';
2,回归分析及检验:
[b,bint,r,rint,stats]=regress(Y,X)
b,bint,stats
得结果,b = b i n t =
- 1 6,0 7 3 0 - 3 3,7 0 7 1 1,5 6 1 2
0,7 1 9 4 0,6 0 4 7 0,8 3 4 0
s t a t s =
0,9 2 8 2 1 8 0,9 5 3 1 0,0 0 0 0
即
7 1 9 4.0
,0 7 3.16
10
; 0
的置信区间为 [ - 3 3,7 0 1 7,1,5 6 1 2 ],1
的置信区间为 [ 0,6 0 4 7,0,8 3 4 ] ;
r
2
= 0,9 2 8 2,F = 1 8 0,9 5 3 1,p = 0,0 0 0 0
p< 0,05,可知回归模型 y= - 16,073 + 0,719 4x 成立,
To MATLAB(liti11)
题目
2009-7-25 29
3、残差分析,作残差图:
rcoplot(r,rint)
从残差图可以看出,除第二个数据外,其余数据的残差离零点均较近,且残差的置信区间均包含零点,这说明回归模型 y=-16.073+0.7194x能较好的符合原始数据,而第二个 数据可视为异常点,
4、预测及作图:
z=b(1)+b(2)*x
plot(x,Y,'k+',x,z,'r')
2 4 6 8 10 12 14 16
-5
-4
-3
-2
-1
0
1
2
3
4
R e si d u a l C a se O r d e r P l o t
R
e
si
d
u
a
ls
C a se N u m b e r
返回
To MATLAB(liti12)
2009-7-25 30
多 项 式 回 归
(一)一元多项式回归
( 1) 确定多项式系数的命令,[p,S]=polyfit( x,y,m)
其中 x= ( x 1,x 2,?,x n ),y= ( y 1,y 2,?,y n );
p= ( a 1,a 2,?,a m + 1 )是多项式 y= a 1 x m +a 2 x m -1 +? + a m x+ a m + 1
的系数; S 是一个矩阵,用来估计预测误差,
( 2) 一元多项式回归命令,polytool( x,y,m)
1、回归:
y=a1xm+a2xm-1+… +amx+am+1
2、预测和预测误差估计:
( 1) Y=polyval( p,x)求 polyfit所得的回归多项式在 x处 的预测值 Y;
( 2) [Y,DELTA]=polyconf( p,x,S,alpha)求 polyfit所得的回归多项式在 x处的预测值 Y及预测值的显著性为 1-
alpha的置信区间 Y DELTA; alpha缺省时为 0.5.?
2009-7-25 31
例 2 观测物体降落的距离 s 与时间 t 的关系,得到数据如下表,求 s
关于 t 的回归方程 2? ctbtas,
t ( s ) 1 / 3 0 2 / 3 0 3 / 3 0 4 / 3 0 5 / 3 0 6 / 3 0 7 / 3 0
s ( c m ) 1 1,8 6 1 5,6 7 2 0,6 0 2 6,6 9 3 3,7 1 4 1,9 3 5 1,1 3
t ( s ) 8 / 3 0 9 / 3 0 1 0 / 3 0 1 1 / 3 0 1 2 / 3 0 1 3 / 3 0 1 4 / 3 0
s ( c m ) 6 1,4 9 7 2,9 0 8 5,4 4 9 9,0 8 1 1 3,7 7 1 2 9,5 4 1 4 6,4 8
法一直接作二次多项式回归:
t=1/30:1/30:14/30;
s=[11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90
85.44 99.08 113.77 129.54 146.48];
[p,S]=polyfit(t,s,2) To MATLAB( liti21)
1 3 2 9.98 8 9 6.652 9 4 6.4 8 9? 2 tts
得回归模型为,
2009-7-25 32
法二化为多元线性回归:
t=1/30:1/30:14/30;
s=[11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90
85.44 99.08 113.77 129.54 146.48];
T=[ones(14,1) t' (t.^2)'];
[b,bint,r,rint,stats]=regress(s',T);
b,stats
To MATLAB(liti22)
22 9 4 6.4 8 98 8 9 6.651 3 2 9.9? tts
得回归模型为,
Y=polyconf(p,t,S)
plot(t,s,'k+',t,Y,'r')
预测及作图
To MATLAB(liti23)
2009-7-25 33
(二)多元二项式回归命令,rstool( x,y,’ model’,alpha)
n?m矩阵 显著性水平(缺省时为 0.05)n维列向量由下列 4 个模型中选择 1 个(用字符串输入,缺省时为线性模型),
l i n e a r ( 线性 ):
mm
xxy
110
p u r e q u a dr a t i c ( 纯二次 ),
n
j
jjjmm
xxxy
1
2
110
i n t e r a c t i o n ( 交叉 ):
mkj
kjjkmm
xxxxy
1
110
q u a dr a t i c ( 完全二次 ):
mkj
kjjkmm
xxxxy
,1
110
2009-7-25 34
例 3 设某商品的需求量与消费者的平均收入、商品价格的统计数据如下,建立回归模型,预测平均收入为 1000、价格为 6时的商品需求量,
需求量 100 75 80 70 50 65 90 100 1 1 0 60
收入 1000 600 1200 500 300 400 1300 1 1 0 0 1300 300
价格 5 7 6 6 8 7 5 4 3 9
选择纯二次模型,即 2222211122110 xxxxy
法一直接用多元二项式回归:
x1=[1000 600 1200 500 300 400 1300 1100 1300 300];
x2=[5 7 6 6 8 7 5 4 3 9];
y=[100 75 80 70 50 65 90 100 110 60]';
x=[x1' x2'];
rstool(x,y,'purequadratic')
2009-7-25 35
在画面左下方的下拉式菜单中选” all”,则 beta,rmse和 residuals都传送到 Matlab工作区中,
在左边图形下方的方框中输入 1000,右边图形下方的方框中输入 6。
则画面左边的,Predicted Y”下方的数据变为 88.47981,即预测出平均收入为 1000、价格为 6时的商品需求量为 88.4791.
2009-7-25 36
在 Matlab工作区中输入命令,beta,rmse
得结果,b e t a =
1 1 0,5 3 1 3
0,1 4 6 4
- 2 6,5 7 0 9
- 0,0 0 0 1
1,8 4 7 5
r m s e =
4,5 3 6 2
故回归模型为,222121 8 4 7 5.10 0 0 1.05 7 0 9.261 4 6 4.05 3 1 3.110 xxxxy
剩余标准差为 4,5 3 6 2,说明此回归模型的显著性较好,
To MATLAB(liti31)
2009-7-25 37
X = [ o n e s ( 1 0,1 ) x 1 ' x 2 ' ( x 1,^ 2 ) ' ( x 2,^ 2 ) ' ] ;
[ b,b i n t,r,r i n t,s ta ts ] = r e g r e s s ( y,X ) ;
b,s ta t s
结果为,b =
110.5313
0.1464
-26.5709
-0.0001
1.8475
stats =
0.9702 40.6656 0.0005
法二
To MATLAB(liti32)
返回
2222211122110 xxxxy将化为多元线性回归:
2009-7-25 38
非线性回 归
( 1) 确定回归系数的命令:
[beta,r,J]=nlinfit( x,y,’ model’,beta0)
( 2) 非线性回归命令,nlintool( x,y,’ model’,beta0,alpha)
1、回归:
残差
Jacobian矩阵回归系数的初值是事先用 m-文件定义的非线性函数估计出的回归系数输入数据 x,y分别为矩阵和 n维列向量,对一元非线性回归,x为 n维列向量。
mn?
2、预测和预测误差估计:
[Y,DELTA]=nlpredci( ’ model’,x,beta,r,J)
求 nlinfit 或 nlintool所得的回归函数在 x处的预测值 Y及预测值的显著性为 1-alpha的置信区间 Y DELTA.?
2009-7-25 39
例 4 对第一节例 2,求解如下:
1,对将要拟合的非线性模型 y = a xbe /,建立 m- 文件 v o l u m,m 如下:
f u n c t i o n y h a t = v o l u m ( b e t a,x )
yhat = b e t a ( 1 ) * e x p ( b e t a ( 2 ),/ x ) ;
2、输入数据:
x=2:16;
y=[6.42 8.20 9.58 9.5 9.7 10 9.93 9.99 10.49 10.59 10.60 10.80 10.60
10.90 10.76];
beta0=[8 2]';
3,求回归系数:
[beta,r,J]=nlinfit(x',y','volum',beta0);
beta
得结果,beta =
11.6036
-1.0641
即得回归模型为:
xey
10641.16 0 3 6.11
To MATLAB(liti41)
题目
2009-7-25 40
4、预测及作图:
[YY,delta]=nlpredci('volum',x',beta,r,J);
plot(x,y,'k+',x,YY,'r')
To MATLAB(liti42)
2009-7-25 41
例 5 财政收入预测问题:财政收入与国民收入、工业总产值、
农业总产值、总人口、就业人口、固定资产投资等因素有关。
下表列出了 1952-1981年的原始数据,试构造预测模型。
解 设国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资分别为 x1,x2,x3,x4,x5,x6,财政收入为 y,设变量之间的关系为:
y= ax1+bx2+cx3+dx4+ex5+fx6
使用非线性回归方法求解。
2009-7-25 42
1,对回归模型建立 M文件 model.m如下,
function yy=model(beta0,X)
a=beta0(1);
b=beta0(2);
c=beta0(3);
d=beta0(4);
e=beta0(5);
f=beta0(6);
x1=X(:,1);
x2=X(:,2);
x3=X(:,3);
x4=X(:,4);
x5=X(:,5);
x6=X(:,6);
yy=a*x1+b*x2+c*x3+d*x4+e*x5+f*x6;
2009-7-25 43
2,主程序 liti6.m如下,
X=[598.00 349.00 461.00 57482.00 20729.00 44.00
…………………………………………………………..
2927.00 6862.00 1273.00 100072.0 43280.00 496.00];
y=[184.00 216.00 248.00 254.00 268.00 286.00 357.00 444.00 506.00,.,
271.00 230.00 266.00 323.00 393.00 466.00 352.00 303.00 447.00,..
564.00 638.00 658.00 691.00 655.00 692.00 657.00 723.00 922.00,..
890.00 826.00 810.0]';
beta0=[0.50 -0.03 -0.60 0.01 -0.02 0.35];
betafit = nlinfit(X,y,'model',beta0)
To MATLAB(liti6)
2009-7-25 44
betafit =
0.5243
-0.0294
-0.6304
0.0112
-0.0230
0.3658
即 y= 0.5243x1-0.0294x2-0.6304x3+0.0112x4-0.0230x5+0.3658x6
结果为,
返 回
2009-7-25 45
逐 步 回 归逐步回归的命令是:
stepwise( x,y,inmodel,alpha)
运行 stepwise命令时产生三个图形窗口,Stepwise Plot,
Stepwise Table,Stepwise History.
在 Stepwise Plot窗口,显示出各项的回归系数及其置信区间,
Stepwise Table 窗口中列出了一个统计表,包括回归系数及其置信区间,以及模型的统计量剩余标准差( RMSE)、相关系数( R-square),F值、与 F对应的概率 P.
矩阵的列数的指标,给出初始模型中包括的子集(缺省时设定为全部自变量)
显著性水平(缺省时为 0.5)
自变量数据,
阶矩阵mn? 因变量数据,
阶矩阵1?n
2009-7-25 46
例 6 水泥凝固时放出的热量 y与水泥中 4种化学成分 x1,x2,x3,x4
有关,今测得一组数据如下,试用逐步回归法确定一个 线性模型,序号 1 2 3 4 5 6 7 8 9 10 11 12 13
x 1 7 1 11 11 7 11 3 1 2 21 1 11 10
x 2 26 29 56 31 52 55 71 31 54 47 40 66 68
x 3 6 15 8 8 6 9 17 22 18 4 23 9 8
x 4 60 52 20 47 33 22 6 44 22 26 34 12 12
y 7 8,5 7 4,3 1 0 4,3 8 7,6 9 5,9 1 0 9,2 1 0 2,7 7 2,5 9 3,1 1 1 5,9 8 3,8 1 1 3,3 1 0 9,4
1、数据输入:
x1=[7 1 11 11 7 11 3 1 2 21 1 11 10]';
x2=[26 29 56 31 52 55 71 31 54 47 40 66 68]';
x3=[6 15 8 8 6 9 17 22 18 4 23 9 8]';
x4=[60 52 20 47 33 22 6 44 22 26 34 12 12]';
y=[78.5 74.3 104.3 87.6 95.9 109.2 102.7 72.5 93.1 115.9 83.8 113.3
109.4]';
x=[x1 x2 x3 x4];
2009-7-25 47
2、逐步回归:
( 1)先在初始模型中取全部自变量:
stepwise(x,y)
得图 Stepwise Plot 和表 Stepwise Table
图 Stepwise Plot中四条直线都是虚线,说明模型的显著性不好从表 Stepwise Table中看出变量 x3和 x4的显著性最差,
2009-7-25 48
( 2)在图 Stepwise Plot中点击直线 3和直线 4,移去变量 x3和 x4
移去变量 x3和 x4后模型具有显著性,
虽然剩余标准差( RMSE)没有太大的变化,但是统计量 F的值明显增大,因此新的回归模型更好,
To MATLAB(liti51)
2009-7-25 49
( 3)对变量 y和 x1,x2作线性回归:
X=[ones(13,1) x1 x2];
b=regress(y,X)
得结果,b =
52.5773
1.4683
0.6623
故最终模型为,y=52.5773+1.4683x1+0.6623x2
To MATLAB(liti52)
返回
2009-7-25 50
1、考察温度 x对产量 y的影响,测得下列 10组数据:
温度 ( ℃ ) 20 25 30 35 40 45 50 55 60 65
产量 ( kg ) 13.2 15.1 16.4 17.1 17.9 18.7 19.6 21.2 22.5 24.3
求 y关于 x的线性回归方程,检验回归效果是否显著,并预测
x=42℃ 时产量的估值及预测区间(置信度 95%),
2、某零件上有一段曲线,为了在程序控制机床上加工这一零件,需要求这段曲线的解析表达式,在曲线横坐标 xi处测得纵坐标 yi共 11对数据如下:
x i 0 2 4 6 8 10 12 14 16 18 20
y i 0,6 2,0 4,4 7,5 1 1,8 1 7,1 2 3,3 3 1,2 3 9,6 4 9,7 6 1,7
求这段曲线的纵坐标 y关于横坐标 x的二次多项式回归方程,
2009-7-25 51
3,在研究化学动力学反应过程中,建立了一个反应速度和反应物含量的数学模型,形式为
342312
5
3
21
1 xxx
x
x
y
其中 51,, 是未知参数,321,,xxx 是三种反应物 (氢,n 戊烷,
异构戊烷)的含量,y 是反应速度,今测得一组数据如表 4,试由此确定参数 51,,,并给出置信区间,51,, 的参考值为
( 1,0,05,0,02,0,1,2 ),
序号 反应速度 y 氢 x
1
n 戊烷 x
2
异构戊烷 x
3
1 8,55 470 300 10
2 3,79 285 80 10
3 4,82 470 300 120
4 0,02 470 80 120
5 2,75 470 80 10
6 14,39 100 190 10
7 2,54 100 80 65
8 4,35 470 190 65
9 13,00 100 300 54
10 8,50 100 300 120
11 0,05 100 80 120
12 1 1,32 285 300 10
13 3,13 285 190 120
2009-7-25 52
4、混凝土的抗压强度随养护时间的延长而增加,现将一批混凝土作成 12个试块,记录了养护日期 x(日)及抗压强度 y
( kg/cm2)的数据:
养护时间 x 2 3 4 5 7 9 12 14 17 21 28 56
抗压强度 y 35 42 47 53 59 65 68 73 76 82 86 99
试求 xbay ln 型回归方程,