第四章 水文统计
§ 4.1 概述
§ 4.2 概率的基本概念与定理
§ 4.3 随机变量及其概率分布
§ 4.4 统计参数的估算
§ 4.5 水文频率的计算方法
§ 4.6 相关分析
4.1 概述
水文现象 是自然现象的一种,在其发生和演
变过程中,包含着必然性的一面,也包着偶然性
的一面。
随机现象所遵循的规律叫做 统计规律 。
研究随机现象统计规律的学科称为 概率论,
而由随机现象的一部分试验资料去研究全体现象
的数量特征和规律的学科称为 数理统计学 。
由于水文现象具有一定的随机性,用数理统
计方法来分析研究这些现象称为 水文统计学 。
4.2 概率的基本概念与定理
一、事件
事件 是指随机试验的结果。
必然事件,如果可以断定某一事件在
试验中必然发生,称此事件必然事件。
不可能事件,可以断定试验中不会发
生的事件称为不可能事件。
随机事件,某种事件在试验结果中可
以发生也可以不发生,这样的事件就称为
随机事件。
二、概率
随机事件在试验结果中可能出现也可
能不出现,但其出现(或不出现)可能性
的大小则有所不同。为了比较这种可能性
的大小,必须赋于一种数量标准,这个数
量标准就是事件的 概率 。
三、频率
水文事件不属古典概型事件,只能通过
试验来估算概率。设事件在 n 次试验中出
现了 m 次,则称为事件 A 的 频率 。在试验
次数足够大的情况下,事件的频率和概率
是十分接近的。
nm)A(W ?
四.概率加法定理和乘法定理
1.概率加法定理
P (A+B)= P (A)+ P (B)
- P (AB)
式中,P (A+B)-事件A与B之和的概
率;
P (A)-事件A的概率;
P (B)-事件B的概率。
P (AB)-事件A和B共同发生的
概率。
2、概率乘法定理
P (AB ) = P (A) P (B/A)
= P (B) P (A/B)
式中,P (A/B)-事件A在事件B已发生情
况下的概率,简称为A的条件概率
P (B/A)-事件B在事件A已发生情
况下的概率,简称为B的条件概率
对于两个独立事件,
P (AB)= P (A) P (B)
事件关系分析
互斥
P( AB)= 0 P( A+ B)= P( A)+ P( B)
相容
P( A)+ P( B)= 1 P( A)= 1- P( B)
对立
P( B)= 1- P( A) P( AB)= P( A) P( B)
P( A/B)= P( A)
独立
P( B/A)= P( B) P( AB)= P( A) P( B/A)= P
( B) P( A/B)
4.3 随机变量及其概率分布
一、随机变量
随机变量是表示随机试验结果的数量
表示,随机变量可分为两大类型:离散型
随机变量,连续型随机变量。
二、随机变量的概率分布
即随机变量的取值与其概率有一定的对
应关系,称为随机变量的概率分布,数理统
计学上记为 F( x)= P( X ≤ x ),称为 随机
变量的概率分布函数 。
水文统计中通常研究随机变量的取值大
于某一个值的概率,F( x)= P( X> x)在水
文统计学上也称此为随机变量的 概率分布函
数 (或概率分布曲线)。
函数 f( x)= -F’ ( x)为概率密度函
数,简称为密度函数或密度曲线。
)103()()()( ???? ?
?
x
dxxfxXPxF
三、随机变量的分布参数
概率分布曲线完整地刻划了随机变量的统计规律。
但在一些实际问题中,有时只要知道概率分布某些特征数
值。这种以简便的形式显示出随机变量分布规律的某些特
征数字称为 随机变量的分布参数 。
(一)位置特征参数
平均数反映密度分布的重心,计算公式
亦可写成数学期望
连续型随机变量的数学期望
?
?
?
n
1i
ii pxX
?
?
?
n
1i
ii pxEX
?? ba dx)x(xfEX
(二)离散特征参数
离散特征参数是刻划随机变量分布离散程度
的指标。
1.标准差(均方差)
分布愈内分散,标准差愈大;分布愈集中,
标准愈小。
标准差的平方 σ 2称为方差。
2x-XE )(??
2.离势系数(离差系数,变差系数)
甲地区的年雨量分布,EX1= 1200mm,标准差
σ 1= 360mm;乙地区的年雨量分布,EX2= 800mm,
标准差 σ 2= 320mm。尽管 σ 1> σ 2,但是 EX2 >
EX1,应从相对观点来比较这两个分布的离散程度。
采用一个无因次的数字来衡量分布的相对离
散程度,称为离势系数
算得两个地区年雨量的离势系数,CV1=
0.30,CV2= 0.40。说明甲地区的年雨量离散程度
较乙地区的为小。
XEX
C v ?? ??
3.偏态系数(偏差系数)
反映分布是否对称的特征 CS参数,记为
用来表征分布不对称的情况。当密度曲线对
EX对称,CS= 0;若不对称,当正离差的立方占优
时,CS> 0,称为正偏;当负离差的立方占优势
时,CS< 0,称为负偏。
3
3
s
)xX(EC
?
??
四、几种常用的概率分布曲线
(一)正态分布
概率密度函数形式,
式中,— 平均数
σ — 标准差
正态分布在误差估算时将会应用。
)x(e
2
1)x(f 2
2
2
)xx(
???????
??
?
??
x
(二)皮尔逊 Ⅲ 型分布
皮尔逊 III型曲线为一端有限一端无限
的不对称单峰曲线,概率密度函数
式中,α, β, a0- 参数,且有,
)193()(
)(
)( )(10 ??? ??? oaxa
a
eaxxf ?
??
?
)203()21(;2;4 02 ?????
s
v
svs C
Cxa
CCxC
??
如果已知设计值 xP,推求,
xp 取决于 p,α, β 和 α O四个数,并且当 α, β,
α O 三个参数为已知时,则 xp只取决于 p了。 α, β,
α O与分布曲线的 EX,CV和 CS有关,因此只要确定 EX、
CV和 CS,xp仅与 p有关,可以由 p唯一地来计算 xp。
)223()()()( )(1 ????? ? ?? ???
p
o
x
axa
o
a
p dxeaxaxXP
??
P- 3型分布的积分无解析解,实用中制表查用。
取标准化变量 Ф (离均系数)
将之代入式( 3— 22)得
被积函数只含一个参数 CS。只要给定 CS就可以算
出 Ф P和 P的对应值,最终制定出 Ф P~ Cs~ p 的对应
数值表(表 3- 2)。
? ?????? p dCfPxXP spp ? ??? ),()()(
C v E X
EXx p
p
??? )1( ?? CEXx
pp ?
4.4 统计参数估算
在概率分布函数中包含有, CV,CS三个参数。
为了唯一确定概率分布函数,就得估算这些参数。
一、样本估计总体
随机变量所取数值的全体称为总体,从总体中
任意抽取的一部分称为样本,样本中所包括的项数
称为样本容量。水文变量的总体是指自古迄今以至
未来长远岁月所有的水文系列,是不知道的,需要
靠观测到的样本去估计总体参数。现有的水文观测
的系列可以当作总体的一个随机样本来处理。
x
某地降雨量频率计算表
频率 W
测次 观测值
按大小
顺序 x m
大于或等于
x m 的次数 m/n %
1 1010 1310 1 1/12 8, 3
2 905 1210 2 2/12 16, 7
3 1100 1100 3 3/12 25, 0
4 1210 1050 4 4/12 33, 3
5 850 1010 5 5/12 41, 7
6 920 990 6 6/12 50, 0
7 1050 950 7 7/12 58, 3
8 990 920 8 8/12 67, 7
9 820 910 9 9/12 75, 0
10 1310 905 10 10/12 83, 3
11 910 850 11 11/12 91, 7
12 950 820 12 12/12 100
由表资料可绘出如图所示的折线图,该图表示年降
水量 P( X≥ x)的频率 W( X≥ x)和 x的关系
x
1200
1000
800
0 20 40 60 80 100 W( %)
某地年降雨量经验分布曲线
随着样本容量的增即随着观测次数的增
加,频率 w就非常接近于概率 p,经验分布曲
线就非常接近于总体分布曲线。在某种程度
上由样本的经验分布来推测总体分布,总体
的参数就可以通过抽出的样本(观测的系列)
来加以估算。
( 1)样本的均值 X,它与总体均值相对应,即
( 2)样本标准 S‘ 与总体标准差 σ 相对应,即
( 3)样本离势系数 Cv与总体离势系数相结应,即
( 4)样本偏态系数 C‘S,与总体参数偏态系数相对应,即
只要掌握了样本,借助上列公式估计出参数;就可推出
概率分布曲线,这种方法叫做矩法。
?
?
? n
i
ixnx
1
1
?
?
??
n
i
i nxxs
1
2' /)(
x
sC
v
'
?
?
?
?? n
i
iS sxxnC
1
3'3' /)(1
)283(
)3(
)(
)263(
)263()(
1
1
)253(
1
3
1
3
2
1
?
?
?
?
??
??
?
?
??
?
?
?
?
?
sn
xx
C
x
s
Cv
xx
n
s
x
n
x
n
i
i
s
i
n
i
i
原矩法公式得出的 S‘,CV ‘,和 CS ’并不是无偏估计量,
目前水文上采用的是经修正后的矩法公式,
三、抽样误差
由样本参数估计总体参数总会出现误差,称为抽
样误差。
例如,就样本平均值而言,各个样本平均值的抽
样误差当然是不同的,有的大,有的小。由于 EX是未
知的,对某一样本平均值的抽样误差无法求得。
样本平均数的抽样误差与其样本平均数抽样分布
有关,其大小可以用表征抽样分布离散程度的均方差
σ x来度量,称样本平均值的均方差。
样本 样本均值 均值的抽样误差
第 1 个样,1 x 1, 1 x 2,…… 1 x n X n1 Δ x 1 = X n1 - EX
第 2 个样,2 x 1, 2 x 2,…… 2 x n X n2 Δ x 2 = X n2 - EX
第 3 个样,3 x 1, 3 x 2,…… 3 x n X n3 Δ x 3 = X n3 - EX
……………………………… ………… ……………………
以上对样本平均数抽样误差的讨论,其基本原则完全
适用于其他样本参数。据统计理论,可推导出各参数均方
误的公式,它与总体分布有关。
)323(
16
5
2
3
1(
6
)313(2
4
3
21
2
)303(
4
3
1
2
)293(
42
22
2
????
?????
???
??
SSCs
SVSv
v
Cv
s
X
CC
n
CCCc
n
C
c
n
n
?
?
?
?
?
?
?
EX C V C S
参数
N
C V
100 50 25 10 100 50 25 10 100 50 25 10
0, 1 1 1 2 3 7 50 14 22 126 178 252 390
0, 3 3 4 6 10 7 10 15 23 51 72 102 162
0, 5 5 7 10 12 8 11 16 25 41 58 82 130
0, 7 7 10 14 22 9 12 17 27 40 56 80 126
1, 0 10 14 20 23 10 14 20 32 42 60 85 134
样本参数的均方误差 ( 相对误差, %)
由表中可见,CS的误差很大。当 n= 100时,CS的误差
在 40%—— 126%之间。 n= 10时,则在 126%以上,超出了
CS本身的数值。水文资料一般都很短( n< 100)可见直
接由资料按矩法公式算得的 CS值,抽样误差太大。
x
1200
1000
800
0 20 40 60 80 100 W( %)
图 3-9 某地年降雨量经验分布曲线
W( X≥xi) = i / n
4.5 水文频率的计算方法
一, 经验频率曲线
二、经验频率
如果用 W( X ≥ x i)= i / n 的经验分布曲线估计
总体分布曲线,存在不合理现象。当 m= n时,最末项
的频率为 100%,样本末项值为总体中的最小值,不符
合事实,因为比样本最小值更小的数值今后仍可能出
现。水文上用期望值公式估计频率
1)( ??? n
mxXP
m
频率这个词比较抽象,为便于理解,有时采用
重现期这个词。所谓重现期是指在许多试验中,某
一事件重复出现的时间间隔的平均数。
在工程水文中,重现期用字母 T 表示,一般以
年为单位。
当研究暴雨洪水问题时
例如,当暴雨或洪水的频率采用 p= 1%时,T=
100年,称此暴雨为百年一遇的暴雨或洪水。
当研究枯水问题时
例如,对于 p= 80%枯水流量,T= 5年,称此为五
年一遇的枯水流量。或称为保证率为 80%的设计流量。
)343()( 1 ??? xXPT
)353()(1 1 ???? xXPT
所谓百年一遇的暴雨或洪水,是指大于或等
于这样的暴雨或洪水在长时期内平均 100年发
生一次,而不能认为每隔 100年必然遇上一次。
计算步骤,
( 1) 点绘经验点据 纵坐标为变量值,横坐标为经
验频率,采用期望值公式估计。
( 2) 初定一组参数 用矩法公式的估算 EX和 CV,并
假定 CS与 CV的比值 K估算 CS 。
( 3)根据初定的 EX,CV和 CS,计算频率曲线,并绘
在点有经验点据的图上。若与经验点据配合不理想
,则修改参数再次 配线,主要调整 CV以及 CS 。
( 4) 选 择一条与经验点据配合最佳曲 线 作为采用曲
线。该曲线的参数看作总体参数的估计值。
为了避免修改参数的盲目性,需要了解参数对频
率曲线的影响。
由频率曲线图可明显看出,CV值愈大,曲线愈
陡;当 CS增大时,曲线上段变陡而下段趋于平缓。
配线法采用了概率格纸,以正态分布曲线成直
线来划分概率坐标的。当 CS= 0,频率曲线在概率纸
上为一直线。其特点是横坐标的两端分格较稀而中
间较密,纵坐标为均匀分格或对数分格。这样,曲
线两端的坡度变缓,使用起来比较方便。
年份
年降水量
x ( mm )
序号
m
按大小排列
x
m(mm)
P= m/(n+1)
(%)
(1) (2) (3) (4) (5)
56
57
58
.59
1960
61
62
63
64
65
66
67
68
69
1970
71
72
73
74
75
76
77
78
79
538.3
624.9
663.2
519.7
557.2
998.0
641.5
341.1
964.2
687.3
546.7
509.9
769.2
615.5
417.1
789.3
732.0
10 64.5
606.7
586.7
567.4
587.7
709.0
883.5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
1064.5
998.0
964.2
883.5
789.3
769.2
732.9
709.0
687.3
663.2
641.5
624.9
615.5
606.7
591.7
587.7,
586.7
567.4
557.2
546.7
538.3
509.9
417.1
341.1
4
8
12
16
20
24
28
32
36
40
44
48
52
56
60
64
68
72
76
80
84
88
92
96
总计 15993.5 15993.5
某站年降水量频率计算表
某站共有实测降雨
量资料 24年,求频
率为 20%和 90%的年
降水量。
mmxnx
n
i 4.6 6 624
1 5 9 9 3 51
1
?? ? =
23.0
4.666
)124/(708 165
)(
1
1
1
2

?
?
?
?
?
?
?
x
xx
n
C
n
i
i
v
( 3)用矩法 计算系列的多年平均降水量和
离差系数。
( 4)选定 CV= 0.30,并假定 CS= 2CV= 0.60查表
3-2得 φ P,求得 xP = ( φ PCV+ 1),如表( 3)
栏。根据表中( 1)、( 3)两栏的对应数值点绘
曲线,发现曲线头部和尾部都偏于经验频率点据
之下。
( 5)改变参数,重新配线。因为曲线头尾部偏低,
故需增大 CS,CV= 0.30不变,CS= 3CV= 0.90,查
算出各 xP值,列入表( 4)、( 5)栏,点绘后曲
线的头部和尾部反而有些偏离,配线仍不理想。
( 6)再次改变参数,第三次配线。把 CS稍微调
小一些。选定 CV= 0.30,CS= 2.5, CV= 0.75,
查表计算出各 xP值,列入表( 6)、( 7)栏中。
绘制频率曲线,该线与经验点据配合较好,取为
最后采用的频率曲线。
( 7)求得 p= 10%的年降水量为 933mm,p= 90%
的年降水量为 433mm。
频率曲线选配计算表
4.6 相关分析
自然界中有许多现象之间是有一定联系的。
按数理统计法建立上述两个或多个随机变量之间
的联系,称之为近似关系或 相关关系 。把对这种
关系的分析和建立称为 相关分析 。相关分析可以
用来延长和插补短系列。
根据变量之间相互关系的密切程度,变量之
间的关系有三种情况:即 完全相关、零相关、统
计相关 。
若两个变量之间的关系界于完全相关和零相关
之间,则称为 相关关系 或统计相关。当只研究两个
变量的相关关系时,称为 简相关 ;当研究 3个或 3个
以上变量的相关关系时,则称为 复相关 。在相关的
形式上,又可分为直线相关和非直线相关,
相关分析(或回归分析)的内容一般包括三个
方面,
( 1)判定变量间是否存在相关关系,若存在,
计算其相关系数,以判断相关的密切程度;
( 2)确定变量间的数量关系 ―― 回归方程或相
关线;
( 3)根据自变量的值,预报或延长、插补倚变
量的值,并对该估值进行误差分析。
一、简直线相关
1.相关图解法
设 xi 和 yi 代表两系列的观测值,
共有 n 对,把对应值点绘于方格纸上,
得到很多相关点。如果相关点的平均
趋势近似直线,即可通过点群中间点
绘出相关直线,
2.相关计算法
为避免相关图解法在定线上的任意性,常采用
相关计算法来确定相关线的方程,即回归方程。
简直线相关方程的形式为,
y = a + bx
式中 x ―― 自变量;
y ―― 倚变量;
a,b ― 待定常数。
待定常数 a,b 由观测点与直线拟合最佳,通过最
小二乘进行估计。
本章小结,
?⑴ 明确以下概念:事件、概率、频率、随
机变量等,掌握水文中频率计算方法 ——
适线法,学会使用 Ф值表或 Kp值表,掌握
直线简相关的方法。
?⑵随机变量的频率分布为重点理解。明确
理解适线的目的、步骤、统计参数对曲线
位置、形状的影响。理解相关分析的意义
作用。
?⑶掌握理论频率曲线绘制的技巧。
?⑷重点难点:缺测资料的插补延长。