第三章 长期水文过程的因子挑选第一节 挑选预报因子的方法 P23
1,物理考察 — 要分析预报对象与预报因子之间的物理联系和因果关系,挑选出物理意义清楚的预报因子。
2、统计考察 — 分析预报因子和对象之间的统计关系,挑选出来的因子应该符合数理统计中的原则。
第二节 预报因子的物理考察
一、前期大气环流因素
1.利用时间平均图和距平图挑选因子 P24-26
( 1) 时间平均图(确定时段要素的平均)
作用:滤去短波,保留长波和超长波种类:侯、旬、月、年平均(常用 100,500,1000hpa)
(2) 距平图 P24
作用:反映环流异常情况种类:侯、旬、月、年距平图
( 3)方法和步骤 P24
方法:采用相关普查步骤 P24
2.按环流特征挑选因子
( 1)环流型 纬向、经向型 P25
据后期水文要素的分布特征,将前期大气环流进行归纳分型(这里的型就是预报因子)
( 2)环流特征值 P25-26
环流指数:纬向环流指数、经向环流指数
副高面积指数
副高强度指数
二、前期太阳、宇宙、地球物理可取因子:电磁指数、射电流量、地极移动的振幅、太阳黑子相对数
三、前期下垫面因素作为影响长期水文过程下垫面的条件,P27
满足上述条件下的可选因子:海温、极冰、高纬度积雪面积、青藏高原热状况等
四、前期地面水文气象因素 P27
五、考虑经验和韵律的应用(加以验证 )
第三节 预报预报因子的统计考察
一,相关概率
(1)公式,p28 ( 3-3)
P,相关概率
n,因子出现的次数
m:因子出现的情况下,预报对象出现的次数 (或表示预报因子和预报对象符号相同 (反 )的次数 )
(2)讨论,
m=0,p=0 表示预报因子出现,预报对象一次没出现,
m=n,p=1 表示预报因子出现,预报对象也出现,
n
mp?
10 p
(3)因子取舍的原则比较 p与 p(y),两者有显著差异时取,
否则舍,
p(y)为预报对象出现的气候概率也称边缘概率 P28
若,p=(y/x)=p(y) 则表示预报因子 x出现与否与预报对象 y无关,即 x,y相关关系不好,
在统计学中,凡是检验有无显著差异的问题常用 检验来进行。
2?
( 4) 检验,
公式:
P28( 3-4)
物理意义:
当 k=2,检验类数为 2时令,v1=m(出现的 次数 )
V2=n-m(不出现的 次数 )
n ∞时,p1=p2=1/ 2带入 ( 3-4)
得,( 3-6)
2?
k
i i
ii
np
npv
1
2
2 )(?
n
nm 22 )2(
步骤,
a.根据资料计算 值
b,从数理统计表上查出自由度为 1,给定信度 下的 值
c.比较 与 决定取舍当 表示相关概率与气候概率差异显著因子可取当 不显著因子不可取
2?
2?
2 2
22
22
d,或根据给定信度下的 回代到 (3-6)求出距平符号相同 (反 )的最低次数,
通过比较 与 取舍因子 取,
否则舍,
注意事项:
(3-7)式检验实用于大子样,
只能用于趋势预报,
2
m
m?m
mm?
二,单相关系数法
相关系数是用来衡量两个随机变量 y与 x之间线性相关程度的一个统计量。在水文中长期预报中用它来考察预报因子与预报对象是否线性相关并以次来挑选预报因子。
(1)公式 P29
假设预报对象 y与预报因子 x有 n年资料
yt(t=1,2… n),xt(t=1,2… n)。 则单相关系数 r表示为,
(3- 7)




n
t
t
n
t
t
n
t
tt
yyxx
yyxx
r
1
2
1
2
1
)()(
))((
其中,—— 预报因子的均值;
,— — 预报对象的均值;
讨论,
a.为无量纲数,可比较不同预报因子与对象之间的相关程度,
b,r为正表示预报因子、对象正相关负 负
c,越大 x,y之间的线性相关越好 表示
x,y之间有一一对应的关系。
n
t
txnx
1
1
n
t
tyny
1
1
11 r
1rr
( 2)相关显著检验
—— t检验(总体相关系数 的检验 )
公式,P31 ( 3-11)
步骤,a,由信度和自由度,从 t分布表上,查出 值。
b,根据样本计算统计量 t.
c,比较 t与 决定因子的取舍若 认为是线性相关,取。
认为是线性不相关,舍。
d,或将 代入( 3-11)求出取,否则舍。
不同信度下最低相关系数 表 (3-1)P34。
0
rrnt 21 2
t
t
tt?
tt?
t
r
rr?
r
三,史比曼( Spearman) 等级相关系数法
( 1)公式:
(3-1 2)
式中,R— 史比曼 等级相关系数 ;
,n— 样本容量 ;
,yK— 预报对象 y第 t个观测值的排列次序数 ;
,xK— 预报对象 x第 t个观测值的排列次序数 ;

n
t
KK xynnR
1
2
2 )()1(
61
( 2)相关检验可以用 t检验:
因子可取因子舍去也可以将给定信度下的 值带入上式得为临界值。大于 取,否则舍。
不同信度下等级相关系数临界值表( 3-2) P35
R
R
nt
21
2

tt?
tt?
t?R
R
第四章 回归分析
第一节 线性回归模型 P45
一、回归分析的概念
1、两种类型变量的关系确定性函数关系:
能够用明确的数学表达式来描述的变量称为确定性变量。例:正方形面积非确定性依赖关系:
变量之间的关系不能用一个方程精确地表示。例:
径流量与降水的关系。同样是 50mm的降水,产生的径流量并不是唯一值(与蒸发量、土壤的性质有关),
2as?
然而,一些非确定的变量之间存在着相互依赖的关系。
2,回归关系与回归分析非确定的变量之间的相互依赖的关系,只能用概率与统计平均来描述。这种关系称为 回归关系 。
回归分析 就是处理变量与变量之间这种统计相关关系(回归关系)的一种数理统计方法。
3.回归分析解决的问题 P 45
二、一元线性回归分析
(一)思路( 图4-1 )
若:已知变量 x与变量 y之间存在某种相关关系。
如图:对确定的 x,y 的取值不是唯一的。
x,y 存在着相互依赖的关系,x增大,y也增大回归分析:
(1) 根据 y与 x的历史观测资料,进行统计分析,将相关关系用表达式(回归关系)表示出来。由图可见:
只能反映 y 的平均取值与 x的关系。
(2) 进行回归效果的检验,看由回归方程表示的相关关系的代表性?误差?
– 预报对象:依犁河雅马渡站年平均流量。资料年限:
1953-1974年共 22年资料。
– 预报因子:依犁气象站上一年 11月至本年 3月的降水总量。
– 数据略
y = 1.0561x + 269.66
200
250
300
350
400
450
500
550
0 50 100 150 200 250 300
μ áD 1
D? (? μ áD 1)
(二)一元线性回归方程的模型
设:预报因子 x与预报对象 y之间满足线性相关关系,
则有线性方程:
( 4-1)
t=1,2,……,n
称 y对 x的回归方程,b0,b1为待定系数,又称回归系数。一旦确定,就可根据( 4-1)作预报。
我们用表示 x变化所引起的 y的线性变化部分,作为 yt
的估计值与实测值 yt之间有一误差 et。 我们希望误差达到最小,这就是确定回归系数的原则。
tt xbby 10
ty?
tt xbby 10
(三)回归系数的确定
1.残差 et
实测值与估计值之差:
P46
总的误差:
2.残差平方和其中,Q—— 残差平方和
)(? 10 ttttt xbbyyye
n
n
t
t eeee
.,,,,,2
1
1
n
t
teQ
1
2
当 Q值越小,回归值与实测值差异越小,回归效果越好。即以 Q值最小作为确定回归系数 b0,
b1的原则。
3.估计回归系数的最小二乘法据 Q值达最小的原则确定回归系数的方法。
( 4-2)
式 (4-2)中,yt与 xt(t=1,2…… n)是已知数据,
b0和 b1是要求的未知系数,所以 Q是 b0和 b1的函数。


n
t tt
n
t tt
n
t t
xbbyyyeQ
1
210
1
2
1
2 )()?(
即此法也适用于多个预报因子的多元回归。
4.回归系数的确定 对( 4-2)分别求导展开:
( 4-3)
( 4-4)
0
0
bQ 0
1
bQ
0)(2
)1()(2
10
1
10
0



xbbyn
xbby
b
Q n
t
tt
0)(2
)()(2
1
2
10
1
1
10
1




n
t
t
n
t
tt
n
t
ttt
xbxnbxy
xxbby
b
Q
n
t t
yny
1
1?
n
t t
xnx
1
1
改写成如下方程组:
…….(4 -5)
整理得到:
( 4-6)

( 4-7)
yxbb 10



n
t
tt
n
t
t xyxbbxn
11
2
10
xbyb 10

n
t
t
n
t
tt
xx
yyxx
b
1
2
1
1
)(
))((
n
t
txx xxS
1
2)(?
n
t
ttxy yyxxS
1
))((?
n
t
tyy yyS
1
2)(
xx
xy
S
Sb?
1
(四),回归系数的物理意义
将 代入
得:
表示:预报因子 x的距平变化一个单位,预报对象 y的相应变化值。表明了 x,y的平均关系。
tt xbby 10xbyb 10
xbxbyy t 11
xx
yy
b
xxbyy t


1
1 )(?
(五)回归问题中的方差分析和回归效果的检验
1.离差分析
( 1)总的离差平方和 Syy P48
yt是一个随时间变化的量,t 时刻 反映 y对平均值的离差情况,n次观测资料的总的离差平方和:
反映 y对平均值的离差情况。
由 图 可见,
yyt?

n
t
tyy yyS
1
2)(
)()( yyyyyy tttt
UQ
yyyyyyyy
yyyy
yyS
tt
n
t
tt
n
t
t
n
t
t
tt
n
t
t
n
t
tyy







)()(2)()(
)]()[(
)(
1
2
1
2
1
2
1
1
2
y=y
yyt
tt yy

yyt?
y
x
ty
可得:
其中,U—— 回归平方和;
Q—— 残差平方和;
( 2)回归平方和
( 4-11)
如 y与 x完全按照回归方程线性变化时,这项反映了 y与平均值之间的离差情况。
( 3)残差平方和
( 4-12)
除了 x对 y的线性影响外,其他一切因素对 y 的影响。
UQS yy
xy
n
t
t SbyyU
1
1
2)?(
xyyyyyt
n
t
t SbSUSyyQ
1
1
)(
2.回归效果的检验
(1)用 Q,U检验 P49
对给定的观测数据,Syy是不变的,是一个确定的常数
Q+U = C,Q大 U小,Q小 U大。
Q,U可作为检验回归效果好坏的指标。
( 2)单相关系数检验
定义无量纲指数,U/ Syy
显然 U/ Syy值越大,U在 Syy中的比例越大,回归效果越好。
2
2
rSS SSU
yyxx
xy
yy

由 可见,r愈大,代表了由线性相关关系所决定的那部分离差平方和愈大,回归效果愈好。
( 3)剩余标准差(回归问题中的方差分析)
一元 U的自由度
Q的自由度
定义,为剩余方差或剩余均方
为剩余标准差。
显然,越小越好。有利于资料长度不同因子间相互比较。
yysrU 2?
UQS yy 1?Uf
211 nnfff UQ
2
2 ysn
Q?
2 n
Qs
y
ys