? 上次课重要内容:
第三章 长期水文过程的因子挑选
物理考察,大气环流、太阳、宇宙、地球物理、
前期下垫面、前期地面水文气象因素,经验和韵律的应用
统计考察:相关概率、单相关系数、等级相关系数
第四章 回归分模型
概念、一元回归模型、回归系数的求解和意义
本次课主要内容:
一元回归效果的检验、多元回归、逐步回归三、多元线性回归分析
(一)模型 p 50
预报对象Y,m个预报因子 xi(i=1,2……m) 。 建立它们之间的相关关系得到多元线性回归方程。如下:
( 4-18)
bi (i=0,1,2……m) 为回归系数;根据实测资料确定。
t=1,2,……..n,为资料长度。
多元 —— 是指因变量 y依赖于不止一个自变量 x;
线性 —— 是指回归方程是关于参数 bi (i=0,1,2……m)
的线性函数
mtmttt xbxbxbby,,,,,,? 22110
(二)回归系数的最小二乘估计
把各个 xt的每个观测值代入方程( 4-18)后,得到 n个 y
的估计值 。这样就有 n方程,m+1未知数。
总残差平方和为,
,
( 4-23)
其依赖于 bi (i=0,1,2……m),要使其最小,则
.
ty


n
t
mtmttt
n
t
tt
xbxbxbby
yyQ
1
2
22110
1
2
)......(
)?(
0
ib
Q
将( 4-20)式分别对 求导,令其为零。
经归并整理后,得到如下正规方程组,
( 4-24)
其中:
当资料给定,为已知,解此方程组,可以一一求出。
mbbb,.....,10



mymmmmm
ymm
ymm
SbSbSbS
SbSbSbS
SbSbSbS
.,,,,,
..,,,,,,,,,.,,,,,,,,,.,,,,,,,,,.,,,,,,,,,.,,,,,,,,,.,,,,,,,,,
.,,,,,
.,,,,,
2211
22222121
11212111
))((
).,,,,,2,1,.(.,,,,,,,,,))((
1
1
yyxxS
mjixxxxSS
t
n
t
iitiy
n
t
jjtiitjiij


i biyij
ss,
(三)多元回归系数的物理意义 p54
在一元的情况下,得:
表示 x 距平变化一个单位 y平均变化的大小。以此类比,
的 物理意义为:其他因素不变的情况下,
xi 距平变化一个单位 y平均变化的大小 。
xx
yyb

1
ib
(四)标准回归系数
为消除单位的影响,引入标准回归系数的概念。对式
( 4-24)进行变换。
令:
有如下方程组:
).,,,,,2,1.(.,,,,,,,,,.,,,,,,,,,
'
mib
S
S
b
SS
S
r
i
yy
ii
i
jjii
ij
ij

)254.,,,,,,(.,,,,,,,,,
.,,,,,
.,,,,,.,,,,,,,,,.,,,,,,,,,.,,,,,,,,,.,,,,,,,,,.,,,,,,,,,
.,,,,,
.,,,,,
''
22
'
11
2
'
2
'
222
'
121
1
'
1
'
212
'
111



mymmmmm
ymm
ymm
rbrbrbr
rbrbrbr
rbrbrbr
方程组( 4-25)关于标准化回归系数的标准化正规方程组,其中的回归系数 b’i与 x及 y所取的单位无关。称为标准回归系数。它的绝对值越大,相应的因素对 y的影响就越大。
资料一定,已知,b’I可以求得,因子的相对
重要性可通过比较 的大小来确定。
预报对象的相关系数因子与为因子的相关系数因子与为
jir
jir
iy
ij
iyij rr,
'ib
(五)回归效果的检验
1.离差分析及复相关系数
与一元线性回归相似。
总离差平方和 =回归平方和 +离差平方和。即
R为复相关系数,这一无量纲指标 R可用来衡量回归效果的好坏。 R越接近 1,回归效果越好。
当自变量只有一个时,R为一元回归中的单相关系数。
nt tt yyQ 1 2)?(
UQS yy
).,,,,,2,1.,,,,,,(
1
miSbU m
t iyi

yyyy S
QR
S
UR 12 或
讨论,P56
问题,P56
R显著性检验( t检验):
据 m,n及给定的信度查表( P57表 4-1)得
2.剩余标准差
多元残差平方和的自由度:
剩余标准差:
( 4-29)
sy越小回归效果越好。
回归效果不显著回归效果显著
RR
RR
mnfff UQ 1
mn
Qs
y 1
R
3.回归效果的 F检验 (回归平方和明显大于残差平方和的检验)
( 1)定义
( 4-30)
可见,F值越大,回归方差越大,回归效果越好。
( 2)讨论 P59
( 3) 检验查表:给定一信度?,查出相应的临界值 F?
比较:若 F>F?,回归效果显著。反之,不显著。
1

mn
Q
m
U
F
残差方差回归方差方差分析表来源 平方和 自由度 F 检验回归?

m
t
iyi
SbU
1
m
残差?

n
t
tt
yyQ
1
2
)?( n - m - 1
总离差?

n
t
tyy
yyS
1
2
)( n - 1
)1(
mn
Q
m
U
F
(六)优缺点
1.比较全面地综合多个因子的作用,使预报定量化。
2.回归方程反映了预报因子和对象之间的平均关系,异常情况反映不出。
3.预报因子主次不分,因子间相互不独立。从衡量预报的精度看,回归中可能包含了对预报对象作用不大的因子,从而降低了预报精度,
影响方程的稳定性。
4.检验滞后。
5.从实用的角度,因子太多使用上不方便。
四、逐步回归分析
(一)基本思想 p61
1、定义衡量因子对预报对象重要性的 指标,
将可供选择的变量,逐步引入回归方程。要求所引入的变量是可供选择变量中使 残差平方和
Q下降最多 的一个,即对预报对象影响最显著的因子。且要通过 F检验。
2、因子的挑选是逐步进行的。随着变量的引入,又可能使原来进入方程的变量显得不重要,
要随时剔除。使得逐步回归最后得到的方程只包含对预报对象影响显著的因子。
(二)实现逐步回归思想的关键 p72
1、寻求解正规化方程组的合适方法。
2、寻找合适的衡量因子重要性的指标 — 方差贡献,以判别对预报对象影响显著的因子。
3、引入或剔除因子的 F 检验。
(三 ) 求解正规方程组的方法
1.关于 的相关矩阵 (零步增广矩阵)
P72
'ib )0(R
逐步回归中的正规方程组为标准化正规方程组:
相应的增广矩阵:
)304.,,,,,,(.,,,,,,,,,
.,,,,,
.,,,,,.,,,,,,,,,.,,,,,,,,,.,,,,,,,,,.,,,,,,,,,.,,,,,,,,,
.,,,,,
.,,,,,
''
22
'
11
2
'
2
'
222
'
121
1
'
1
'
212
'
111



mymmmmm
ymm
ymm
rbrbrbr
rbrbrbr
rbrbrbr
),.,,2,1;,.,,2,1.(),,,,,,,,,(0 ymjymirR
ij
矩阵的特点:主对角线上的元素为 1,其余要素关于主
对角线对称。
2.引入或剔除变量利用变换公式( 4-32)对相关矩阵作变换 p74
( 1)变换公式的性质变换公式




),.,,,,,,(.,,,,,,,,,.,,,,,,,,,
1
),.,,,(.,,,,,,,,,.,,,,,,,,,
),.,,,,,,,,(
),.,,,,,(.,,,,,,,,,.,,,,,,,,,
)(
)(
)(
)(
)()(
)(
)(
)(
)1(
kjki
r
kjki
r
r
kjki
r
rr
r
kjki
r
r
r
l
kk
l
kk
l
ik
l
kk
l
kj
l
ikl
ij
l
kk
l
ij
l
ij
为高斯约当求解求逆紧凑方案的矩阵变换公式。
性质,P76 ( a) — ( d)
( 3) 方法
例:矩阵变换进行到在第 L步
L+1步要引入(剔除),对 用( 4-32)对所在的列变换一次,相当于消元(加元)过程。
为 的标准回归系数(没有引入 前的数据)
3.回归系数的计算
设经过 m步矩阵变换,引入了 L个因子,
kx )(lR k
x
)1(?lkyr
kx kx
)()0( mRR?
矩阵的最后一列就是
)()()(
2
)(
1
)()()(
2
)(
1
)(
3
)(
3
)(
32
)(
31
)(
2
)(
2
)(
22
)(
21
)(
1
)(
1
)(
12
)(
11
)(
.,,.,,,,,,,,,
.,,.,,,,,,,,,
.,,.,,,,,,,,,
.,,.,,,,,,,,,
.,,.,,,,,,,,,
m
yy
m
yL
m
y
m
y
m
Ly
m
LL
m
L
m
L
m
y
m
L
mm
m
y
m
L
mm
m
y
m
L
mm
m
rrrr
rrrr
rrrr
rrrr
rrrr
R
'ib
'
i
ii
yy
i bs
s
b?
(四 )引入和剔除变量的选择 — 方差贡献的计算
1.概念 p76
回归方程中有 m个预报因子,
令,Q( m) 为包含全部预报因子 x1,x2…….x m的残差平
方和
Q( m-1) 为去掉因子 xi 所有 m-1个因子的 残差平方

Vi= Q( m-1) - Q( m) (4-33)
为预报因子 xi对预报对象 y的方差贡献。 P76
显然,Q( m-1) > Q( m),其值越大,Vi 越大,因子 xi
对 y的作用越大。
2、方差贡献的计算
( 1)剔除因子
方程中有 L个因子,其中第 k个因子的方差贡献为:
( 2)引入因子
方程中已有 L个因子,现要把 xk 作为第 l+1个因子引入方程,其方差贡献为:
80.,,,,,,,,][ )(
2)(
)( p
r
rV
l
kk
l
kyl
k?
80.,,,,,,,,][ )1(
2)1(
)1( p
r
rV
l
kk
l
kl
k?

3、以 Vi 为标准引入( 剔除)因子
( 1)对已入选的因子,分别计算各因子的 Vi值,
MinVi 对应的因子,可考虑剔除。
( 2)对未入选的因子,分别计算各因子的 Vi值,
MaxVi 对应的因子,可考虑引入。
( 五)引入或剔除变量的 F检验
1.公式
定义方差比:
( 4-36)
Vi为预报因子 xi对预报对象 y的方差贡献。一个因子,
自由度 =1
Q( L) 为逐步回归进行到 L步,考虑 P个因子作用后的残差平方和。 f=n-1,fu=p,fQ=f- fu= n-p-1
)1(
1
)( pnQ
VF
l
i
i
在 的假设条件下,Fi服从 F分布,给定自由度( 1,
n-p-1),信度 查表得
若 拒绝原假设,xi作用显著,用( 4-32)对矩阵
作变换 — 引进。
若 接受原假设,xi作用不显著,用( 4-32)对矩
阵作变换 — 剔除。
2,步骤
引入因子:
(1)对未入选的( m-p)个因子,分别计算各因子的 Vi值,
引进因子 m=P+1 fQ=n-m-1=n-P-2
公式,
(4-38)
(2)挑选 MaxVi 进行 F检验
0?iB
F
FFi?
FFi?
)()(
)(
1
)2(
l
i
l
yy
l
i
i Vr
pnVF

给定信度,自由度( n-p-2)查表得:
当 引进因子。
剔除因子:
方程中已有 p个因子
(1)对已经进入方程的 P个因子,分别计算各因子的 Vi
值,
公式:
( 4-38) ’
(2)挑选 MinVi 进行 F检验
当 剔除因子
F
FF i?1
)(
)(
2
)1(
l
yy
l
i
i r
pnVF
FF i?2
(六)逐步回归方程的获得和回归效果检验
1.标准回归方程 P83
2.回归方程
代入关系式,
得,回归方程 P83
(4-40)
i
p
i
it xby
1
i
ii
yy
i
ii
t
it
yy
t
t bs
s
b
s
xxx
s
yyy,,
)()(
1
iit
l
iy
p
i ii
yy
t xxrs
s
yy
3.回归效果检验
(1)复相关系数
可以证明:
( 4-41)
R越接近 1越好。
( 2)剩余标准差
( 4-42)
越小越好。
11
)(


pn
r
s
pn
Qs lyy
yyy
yy
l
yyl srQ,
)()(?
)(1 l
yyrR
yyS
QR 1
(七)逐步回归计算步骤及个例
步骤:见 P87 计算过程示意图
数值例子,P84
(八)逐步回归中与多元回归的讨论
p92