目 录 一、逐步回归方法………………………………………………白 侠 (2) 二、多个物理因子的逐步回归…………………………………陈芳丽 (6) 三、最优子集回归………………………………………………陈 明 (11) 四、岭回归方法…………………………………………………邓 林 (15) 五、多元分析法――灰色预测模型……………………………董保华 (17) 六、灰色时变参数预测模型……………………………………郭 洁 (21) 七、多因变量回归预测模型……………………………………何 龙 (24) 八、多元样条回归预测模型……………………………………黄 兴 (26) 九、自回归预测模型……………………………………………李永千 (28) 十、均生函数预测模型…………………………………………李智兰 (33) 十一、均生函数场预测模型……………………………………梁 玲 (37) 十二、模糊均生函数模型………………………………………梁秋枫 (40) 十三、最优气候状态预测模型…………………………………梁钟清 (44) 十四、滑动平均双向差分预报模型……………………………林 叶 (46) 十五、门限自回归模型…………………………………………刘 伟 (50) 十六、逐步门限回归……………………………………………卢 璐 (52) 十七、时变参数预测模型………………………………………孟庆磊 (55) 十八、多层递阶预报方法………………………………………欧光付 (58) 十九、改进的时变参数预测模型………………………………谭 波 (61) 二十、试用多层递阶回归分析方法作月降水预报……………汤 强 (64) 二十一、多元门限回归模型……………………………………唐 敬 (68) 二十二、混合门限回归模型……………………………………陶红专 (71) 二十三、场对场的门限回归模型………………………………王凤莲 (77) 二十四、非线性动态系统预报模式……………………………吴旭阳 (82) 二十五、非线性统计-动力气候模型…………………………谢 娜 (84) 二十六、半截多项式门限回归模型……………………………邢建勇 (88) 二十七、相空间投影预测模型…………………………………徐 琪 (93) 二十八、相空间相似统计预测模型……………………………杨 燕 (95) 二十九、Kn近邻预测模型…………………………………….于 斌 (97) 三十、相空间相似年度预测模型………………………………曾 鹏 (101) 三十一、小波变换预测模型……………………………………张 丽 (104) 三十二、人工神经网络天气预报模式…………………………张友攀 (109) 三十三、距离系数预测法………………………………………章尔震 (113) 三十四、相似系数法……………………………………………赵 凯 (114) 三十五、逐步相似预测法………………………………………赵 武 (117) 三十六、秩相关秩相似法………………………………………赵志军 (119) 三十七、多自变量场对多因变量场预报模型…………………郑广明 (123) 三十八、要素场预测的EOF迭代模型………………………..郑 清 (132) 三十九、灰色系统理论及其在天气预报中的应用……………郑 勇 (134) 四十、BP典型相关分析………………………………………..钟 伟 (138) 四十一、预报的集成……………………………………………周国惠 (141) 一、逐步回归方法 白侠 01号 在气象预报中,对预报量的预报常常需要从可能影响预报y的许多因素中挑选一批关系较好的作为预报因子,应用多元线形回归的方法建立回归方程来做预报。逐步回归是从可选择的变量中,根据一定的显著性标准,每步只选入一个变量进入回归方程,并要求选出的变量是所有可供选择的变量中能使剩余方差下降最多的一个。 一、基本计算方法 设有预报对象Y,预报因子为x1,x2…..,xn,共有m个子变量,样本长度为n。 协方差:  方差:   其相关系数为:  则相关矩阵为:   则推广的相关矩阵为: R= 将上式设为0步相关矩阵,记为R,采用求解求逆的矩阵变换公式为:   设逐步回归进行到p步,共有p+1个回归方程的系数,则系数为:  当进行到第l步时,因子xi的方差贡献为:  复相关系数:R= 剩余方差: 上述公式L表示进入回归方程的因子个数( lp)。 二、数的显著性检验 F分布  ——F(1,n-p-1) t分布统计量 ——t(1,n-p-1) 三、“最优”回归方程的选择 1、逐步剔除方法(从包含全部变量的回归方程中逐步剔除不显著的因子。) 从因子的方差贡献 (k=1,2,……p) 中选出方差贡献最小者 再作f检验 F= 其中为检验时回归方程中所含的因子个数, 表示回归方程含个变量时的残差平方和。 存在的问题:1因子的方差贡献代表什么样的意义 2为什么不同时把几个不显著因子从方差中剔除,而是要每次剔除一个 3在过程中,每剔除一个因子就得重新计算新方程的回归系数,当因子较多时,计算量仍然很大 2、逐步引进方法(在一批待选的因子中,考察它们对预报量y的方差贡献,挑选所有因子中方差献最大者,经统计检验是显著的,进入回归方程) 从一批未进入方程的因子中x1,考察哪个因子方差在一元回归方程中贡献最大, 首先计算 找出方差贡献最大者,利用F分布的统计量进行检验: F=  若显著,则该因子引进。 若考虑从p-l个因子中引进哪一个变量时,还要考察它们各个因子引进后的方差贡献,仍取最大,使用统计量 F= 做检验。其中q表示在将要引入回归方程中的+1个因子是回归方程的残差平方和。 3、双重检验的逐步回归方法(将因子中因子一个个引入,引入的因子的条件是该因子的方差贡献是显著的,利用求解线性方程中求逆同时并行的方法,使得在计算因子方差贡献和求解回归系数同时进行,计算较方便,并且由于每步都做检验,因而保证了最后所得的方程中所有因子都是显著的) (1)引进因子:从p个待选的因子x  中考虑 首先计算各因子的方差贡献大小   对第k 个因子做统计检验时可用统计量 作f检验  如果检验显著,则将因子引入方程。 (2)剔除因子:当后来因子引入后,原来引入的因子方差贡献会发生变化,可能变为不显著,要进行剔除。 四、逐步回归的建模步骤 设共有m个预报因子,长度为n,其建模步骤为: 1、用(5.1.1)式计算相关矩阵: 2、做逐步回归,的复相关系数,剩余方差,回归系数等: 3、根据入选的因子建立预测模型. 五、实际应用(本例为回归方法在云南的实际应用) 选取北半球500hpa月平均576个格点资料为预报因子集,资料长度为1956-1992年头年6-11月,预报对象为云南省17站初夏(5-6)降水,即用头年夏秋季的环流形势预测次年初夏降水。由于因子较多,为缩短计算量,取相关系数在0。45以上的因子参加逐步回归计算,筛选的F值为4。0,最终建立预测模型。以昆明为例,逐步回归最终建立的预报方程为: Y= 各因子代表的500hpa格点值分别为:x1:7月85W,25N;x2:9月160W,60N;x3:10月5W,55N,x4:10月170W,10N ;x5:11月30E,50N 。下表为利用该方法建立的17站初夏降水预测方程的复相关系数和因子数。 从表中可知,预报方程的平均复相关系数为0。82,平均因子数为4。用预测模型对1993-1997年进行预测检验,其5年平均预测准确率为61%,但各站间有较大的差别。从表中可以看出,预报准确率有明显的年际波动,这符合预测的实际情况。 表1 昆明 昭通 东川 沾益 文山 蒙自 玉溪 楚雄 大理  复相关系数 因子数 0.85 5 0.88 7 0.85 4 0.85 5 0.92 7 0.86 5 0.81 4 0.72 3 0.77 3   丽江 中甸 泸水 保山 潞西 临沧 思茅 景洪 平均  复相关系数 因子数 0.82 4 0.83 5 0.86 5 0.73 3 0.70 3 0.74 3 0.84 5 0.82 4 0.82 4   表2 站名 1993 1994 1995 1996 1997 正确合计  昆明 昭通 东川 沾益 文山 蒙自 玉溪 楚雄 大理 丽江 中甸 保山 泸水 潞西 临沧 思茅 景洪 正确合计 + + + + + + + — + + + + + + — + + 15/17 - + - - - - - - + - - + - - - + + 5/17 + - - + + + - - - + + + + - - - - 8/17 + + + + - - + + + + + + + + + - + 13/17 + - - + + - + + + - + - + + - + + 11/17 4/5 3/5 1/5 4/5 3/5 2/5 3/5 3/5 4/5 3/5 4/5 3/5 5/5 3/5 1/5 3/5 4/5 52/85   1997年初夏,由于受本世纪最强的ENSO影响,云南出现了罕见的严重初夏干旱天气,模型对大多数站的预测是准确的,且提前5个月作出。用该模型继续作1998年云南省17站初夏降水预测。由于1998年初夏继续受强的ENSO事件的持续影响,造成5月全省大部地区干旱明显,ENSO事件于1997年底达到峰值后衰减非常快,因而6月降水偏多至特多,5月至6月总雨量中,6月份的多雨已覆盖了5月的干旱少雨。 二、多个物理因子的逐步回归 陈芳丽 02号 一、提出问题 在气象预报中,对预报量的预报常常需要从可能影响预报的许多因素中挑选一批关系较好的作为预报因子,应用多元线性回归的方法建立回归方程来作预报。但是,如何才能保证在已选定的一批因子中得到“最优”的回归方程呢?逐步回归分析方法是针对这一问题提出的一种常用的方法。 二、基本方法 用什么样的实际计算方案来选择“最优”回归方程呢?一般采用以下的三种方法: 逐步剔除方案。 逐步引进方案。 双重检验的逐步回归方案。 三、逐步回归方法建模的一般步骤及使用的公式 1、逐步剔除方案:从包含全部变量的回归方程中逐步剔除步不显著的因子。 首先,对,,…,计算因子的方差贡献,使用公式  从(k=1,2,…,p)中选出方差贡献最小者,记为,再作检验,检验时使用下面公式  其中为检验时回归方程中所含的因子个数,表示回归方程含各变量时的残差平方和。 若检验结果是显著的,则其余因子自然也是显著的,就不需要再一个个分别作检验;若检验结果不显著,则剔除这个因子,然后对少一个因子的方程再重复上一过程,知道显著为止,则得到“最优”的。 存在问题: 其一、是因子的方差贡献代表什么样的意义; 其二、是为什么不同时把几个不显著的因子从方程中剔除出去,而是要每次剔除一个; 其三、是在过程中,每剔除一个因子就得重新计算新方程中得回归系数,当因子较多时,计算量仍是很大。 2、逐步引进方案: 在一批待选的因子中,考察它们对预报量的方差贡献,挑选所有因子中方差贡献最大者,经统计检验是显著的,进入回归方程。 步骤:首先,在,,…,等因子中考察哪个因子方差在一元回归方程中贡献最 大因而首先计算的是   其中表示回归方程中无任何因子时的回归平方和,这时的回归平方实际上没有,即=0。 其次,假如,在p各因子中,的方差贡献最大,记为,则据回归系数 检验公式可用下面遵从分布的统计量进行检验:  若显著,则该因子引进。设到步,方程已有个因子。若考虑从个因子中引进哪一个变量时,还是要考虑它们各个因子引进后的方差贡献,仍选取最大者,记为,使用统计量  作检验,其中表示在将要引入回归方程中的+1个因子时回归方程的残差平方和。如此在方程中逐个的引入因子。 存在问题:这样得到的方程并不能保证其中所有因子都是显著的。因为个各变量之间存在着相关关系,所以引入新变量后,原有的变量就不一定显著。 3、双重检验的逐步回归方案 基本思想:将因子一个个引入,引入因子的条件是该因子的方差贡献是显著的。同时,每引入一个新因子后,要对老因子逐个检验,将方差贡献变为不显著的因子剔除。这种方案是利用求解线性方程中求逆同时并行的方法,使得在计算因子方差贡献和求解回归系数同时进行,计算较简便,并且由于每步都作检验,因而保证了最后所得的方程中所有因子都是显著的。 准备工作:通常习惯从标准化变量出发,建立求标准回归系数的标准方程组(当然也可以从距平变量出发建立求回归系数的标准方程组,在步骤上没有什么区别的)。按求解线性方程组的办法,将方程中的系数矩阵化为相关矩阵R,并在与常数矩阵放在一起组成增广矩阵,同时为了检验的方便,又在此矩阵中添上一行(),从而组成一个方阵,记为(假定有p个待定因子),并开始作逐步回归的计算。 (1)、引进因子:从p个待选的因子中考虑引一个因子进入回归方程:   计算各因子的方差贡献大小,即计算   其中右上角(1)表示回归方程中因子个数。对标准化变量,为计算方便式中回归平方和符号均用回归方差代替,即   其中 为第一步引入一个因子时第个因子的标准回归系数,为 矩阵中的系数,它就是原始第个因子与预报量之间的相关系数,它的右上角(0)表示逐步回归的步数。 按消去求逆的性质有   因此   在标准化变量的情况下残差平方和(亦即残差方差)为  因而对第k个因子作统计检验时可用统计量  作检验。如果检验显著,则可将第个因子引入方程。这时,相当于对阵中第列进行消去,变为,则即为引入该因子时的标准回归系数。 假定在前步中已引入个因子后,考虑个未引入的因子中的方差贡献时,计算第个因子方差贡献的公式为:  对余下的()个因子计算方差贡献可使用上式。计算时可利用前步消去求逆的结果,即用在作次消去求逆变成矩阵后阵中的元素。其中如果发现第个因子方差贡献是最大的,即,则用它进一步作下面的显著性检验,这时利用统计量  作检验。检验为显著后,认为可以引进到方程中,然后对该因子所对应的列进行消去,并求出引进该因子后回归方程的标准回归系数。 (2)、剔除因子:当后来因子引入后,原来已引入的因子方差贡献会发生变化,可能变为不显著,要进行剔除剔除的标准也可利用统计检验来进行。 引入几个变量后才考虑剔除呢?在方程引入头两个显著因子时是不必考虑剔除的,只在第三步引进第三个显著因子后才考虑原先已进入的两个因子是否贡献已不大,这时再考虑剔除。 在剔除过程中要考虑因子的方差贡献,但如何计算呢? 设已进行了步,方程中已引入个因子,现在考虑在方程中各个因子所起的作用,即它们的方差贡献,亦即要计算其中第个因子的方差贡献,于是可使用下面公式  即可用当步矩阵元素计算因子的方差贡献,设第个因子为最小,即,则统 计量  遵从分子自由度为1、分母自由度为的分布。在显著水平下,若计算值<,则认为该因子方差贡献不显著,可剔除。 自此,每一步首先考虑有无因子需要剔除,若有就进行剔除,直到没有可剔除的因子时再考虑引入新因子。如此逐步进行下去,直到既无因子剔除又无因子可引入为止。 最后计算结果:设结果引入了个因子进入回归方程,消去过程从变到,头个因子进入方程,则回归方程为  其中标准回归系数为  如果要化为距平形式的回归方程,则求  就可写为距平形式的回归方程  这时,距平形式的回归残差平方和为  回归平方和为  复相关系数为  回归方程的均方差无偏估计量为  可以利用进行预报值的置信区间估计。 逐步回归方法 一般用于降雨量的预报,以及对某一地区气候资料的分析,是目前气象预报中一种常用的方法. 三、最优子集回归 陈明 03号 回归分析所遇到的突出问题就是在回归方程中究竟包含多少个自变量为宜,如何筛选这些变量以便使回归方程达到最优,这就是“最优”回归方程的概念。挑选回归方程的一个最彻底的办法就是将全部自变量按所有不同的排列组合与因变量建立全部可能回归方程,从中按一定的准则加以选择,称为最优子集回归(Optimal Subset Regression,OSR),这种方法在计算机技术高速发展的今天,取代逐步回归方法将成为一种趋势。 一、最优变量子集选择的准则 逐步回归模型确定变量数的方法是F检验方法,效果检验采用复相关系数进行。这种检验流于形式,因而模型识别准则是建立最优回归方程模型的一个重要问题,不同的目的的可以选择不同的识别准则。下面介绍几种识别准则。 1、复相关系数 实测值y和回归计算值的复相关系数为: R== 其中U为回归平方和,Q是残差平方和(剩余方差), 为因变量的离差平方和。显然R越大越好,但因为变量增加时Q减少,最优子集是全部变量,没有意义。 2、残差平方和(RM ) RM= (1) (1)式当P较小时,Q会随着R的增大而减小,一旦P增加到一定程度,Q不会明显减小。依据这一准则,按RM 越小越好的标准选择回顾子集。 3、平均预测均方误差。 这个准则是从预测角度提出的,定义为: = (2) 选择准则为越小越好选取自变量子集。 4、准则 这是C.L.Mallow在1964提出的,它也是从预测观点出发定义的一个准则,定义为  (3) = 选择准则是越小越好,按最小选择最优子集回归。 5、测误差平方和准则(PRESS) 这是从预测角度选择最优子集。它是采用独立样本来计算预测误差,以此准则选择出 较好预测效果的子集回归。 设变量y与p个自变量中剔除第j个观测样本  建立的预测模型为:  利用上式得到的第j个样本的观测值为  ,也就是每次都只用n-1个样本建立方程,再对去掉的样本作预报,显然  是真正的预测误差,则全部误差平方和定义为最小预测误差平方和。 PRESS= (4) 以PRESS达到最小为准则,选择最优子集回归。 6、AIC准则 最小信息准则广泛应用于模型定阶,也可以用于回归子集选择,定义为: AIC= =Q/n= (5) 其中常数通常取为零,p为 m+1,选择使AIC达最小的子集就是AIC准则。 7、CSC 准则 CSC准则是一种考虑数量和趋势预测效果的双评分准则(Couple Score Criterion,CSC) 其定义为:  (6) 其中P为任意子集回归中自变量个数。 =   式中为数量评分,即为精评分,称为趋势评分,即为粗评分,n为样本长度,为残差平方和, 为模型的总离差平方和。I为预报趋势类别数,为i类事件与j类估计事件的列联表中的个数,其中:   双评分准则旨在使模型拟合的精度要好,趋势亦准。显然,当CS达到最大时相应的回归模型为最优,用CS达到最大时为准则选取最优子集回归。 二、最优子集回归方法原理 1、方法 如果可选择的自变量有M个时,任选一个自变量可以与因变量建立一个回归方程, 称为子集回归方程,所有可能的回归方程有个(把只有常数项的方程也算在内),既:  上式表明,对自变量要计算所有变量子集,计算量是随自变量个数呈指数增长的。当 M较大时,变量子集个数非常之大,例如当m=10时,就有=1023个变量子集。显然,即使在计算机技术高速发展的今天,当因子数较大时,计算也会有困难,因此设计计算所有可能回归的方法是重要的。 对于建立最优子集回归的方法,可先根据一定的目的和要求,选定一种变量选择准则,设计一个统计量S,每一个子集回归都能算出它的S值,共有个S值,一般S与子集回归方程的效果关系为S越小(大)对应的回归方程效果越好(差),如果 或 则对应的子集回归方程为:  上式就是最优子集回归方程。 2、计算方法 由于最优子集回归随着因子数的增多计算量呈指数增长,要求的计算内存也相当大,为 解决计算量与计算内存问题。Furnival设计了计算所有可能回归的方式:二进制式、自然式、字典式和家族式。这些方法都是利用扫描运算或高斯消去法运算的。表5.7为自变量数为4时,按4种方式计算所有可能回归的顺序。如:对二进制式子集回归计算次序为:首先建立一个二进制计数器NK,它的位数等于自变量个数,各位数对应一个自变量,一般按下标由小到大排列:        表5.7 计算所有可能回归的顺序(m=4) 序号 字典式  二进制式  自然式  家族式  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 12 123 1234 124 13 134 14 2 23 234 24 3 34 4 1 2 12 3 13 23 123 4 14 24 124 34 134 234 1234 1 2 3 4 12 13 14 23 24 34 123 124 134 234 1234 1 2 3 4 12 13 23 123 14 24 34 124 134 234 1234  计数器由全部为零开始一直加到各位数全为1止,每次加1。每次NK中凡是位数数值为1对应的自变量集合,便是要计算准则值的子集回归。从表5.7中可看出,这几种计算方式的共同特点是每种变量子集只出现一次,然后根据给定的准则,选择最优回归方程。显然,当变量数m很大时,计算量相当大。因此,Furnival和Wilson又设计出不计算所有可能回归,而求最优子集回归的“分支定量法”。具体思路为将m个自变量按某种原则分成若干组,设A、B为其中两组,若它们的残差平方和,因B的所有可能子集的残差平方和不会再比小,所以变量组B的所有可能的子集回归就不需要计算,凡残差平方和比大的变量组,其子集回归不全是最优的,也不必计算,这样就大大节省了计算量。 三、计算步骤 1、对预报因子集和预报对象进行距平化或标准化; 2、采用(1)~(.6)的模型准则选择最优子集回归; 3、变量数大于15时,可采用分两步的方法进行.第一步用逐步回归筛选出m个 变量(m15);第二步计算m个变量与预报对象的全部可能回归找到最优子集。如果第二步所得的最优子集恰好是第一步所选出来的m个变量的全模型,这时应放宽第一步的筛选条件,让第一步所筛选的变量数大于第二步所找出的最优子集的变量数; 4、所得的最优子集回归方程对预报对象进行预测。 四、岭回归方法 邓林 04号 一﹑问题的提出 回归分析是目前气象统计分析中最为常用的一种方法。尤其在气象预报业务中为国内外台站所常用。回归分析是用来寻找若干变量之间统计联系关系的一种方法。 回归分析是一种统计模型,它在包括线性回归和非线性回归。常用的是线性回归,因为它的模型比较简单,理论上也比较严谨,在气象中不少要素之间可以近似的存在这种关系。因而可以利用这种方法做出比较符合实际的分析与预报。非线性回归则考虑预报量与因子之间的非线性关系,在气象中也有不少应用。 在气象统计预报中,通常寻找与预报量线性关系很好的单个因子是很困难的,而实际上某个气象要素的变化是和前期多个因子有关,因而大部分气象统计预报中的回归分析都是用多元回归技术进行。所谓多元回归是对某一预报量Y,研究多个因子与它的定量统计关系。许多的多元非线性问题都可以化为多元线性回归来处理,所以研究多元线性回归具有很大的实用意义。 在多元线性回归方程的参数计算中,经常采用最小二乘法来进行,但当自变量之间具有线性相关或接近线性相关时,这种情况可导致回归分析的某些不稳定。为此,本文介绍直接降低回归系数均方误差的岭回归(Ridge Regression,RR)方法。 二﹑岭回归的基本方法 (一)﹑岭回归方法 对线性回归模式: Y=XB+ξ (1) 其最小二乘估计为: B= X'Y=X'Y (2) 为了避免协方差S=X'X的退化,可对原协方差阵S进行修正,令: B(θ)=(X'X+θI) X'Y (3) (3)式为回归系数的岭估计,θ为任一正常数,I为单位矩阵。由此可见,岭估计是将协方差阵的特征根附加某一正常数θ ,从而使最小特征根 θ+λ不致接近于零,因此,形象的称θ为岭参数。显然当θ=0时,B(0)即为通常的最小二乘估计。 (二)﹑岭参数的确定 前面介绍了岭回归方法,也介绍了什么是岭参数,现在介绍几种岭参数确定的方法。 1、岭迹法 为了确定不同的θ 所对应的 B(θ) ,可绘制 B(θ) 随θ的变化曲线,称为岭迹图。 θ的取值范围为0<θ<∞。岭迹图反映了各自变量岭回归系数B(θ) 随θ的变化,并可直接比较系数之间的相互作用。用岭迹图选择θ的原则是: 回归系数的岭估计基本稳定; 改变最小二乘估计回归系数符号的不合理现象; 残差平方和增加不大; 由于资料已经过于标准化,可直接比较岭回归系数的大小。对于岭回归系数稳定但绝对值较小的变量或岭回归系数不稳定的变量,随着θ的增大而趋于0的变量可以删去,对其余变量作新的岭回归。显然,这种方法确定的θ具有一定的主观随意性。 2﹑预测残差平方和的方法 根据预测残差平方和PQESS越小,回归模型的性能越好,将其应用于岭回归估计。对特定的θ值,可用下式计算出岭回归的PRESS,并作出PRESS对关系的曲线,将使PRESS达到最小值的θ作为岭参数。 PRESS=Σ(q/(1-s)) 其中q为残差,s为最小二乘法计算过程中矩阵S=X(X'X)X'中的对角元素。 3﹑均方误差最优法 选取θ的原则是使岭回归估计的均方误差达到最小,其均方误差定义为: MSE=E[(β-β')( β-β)] β是β的无偏估计,X'X是非负定实对称且有逆阵。(X'X)的特征根为 λ1,λ2,……λm,因此最小二乘法估计的均方误差表示为 MSE(β)=σ^2θΣ(1/λi) 而岭回归的均方误差MSE(β)是常数θ的函数。若存在θ>0,使得: MSE[β(θ)]< MSE(β) 在均方误差意义下,岭回归估计优于最小二乘估计。可见,最优的θ值依赖于未知数σ^2 及β(θ)。由于β(θ)及σ^2未知,计算时采用迭代法。先用最小二乘估计β和σ^2代替,求出最优的θ值,记为θ1 ,算出β(θ1) ,再用β(θ1)和σ^2代替,算出最优的θ2……如此迭代下去,直到θ值稳定为止。 三﹑模型的建立步骤 岭回归是在逐步回归的基础上优化而成的。 对线性回归模型 Y=Xβ+ξ 用通常的LS(最小二乘法)估计β,发现X'X阵奇异时,引入θ,根据 B(θ)=(X'X+θI) X'Y 同时选择θ使得: MSE[β(θ)]< MSE(β) 且满足0<θ<∞,β(θ)=(β1(θ), β2(θ),……) 当X'X接近奇异时,即X'X有接近于零的特征根时,(X'X+θI)不接近于零。从而改善β的估计性质。 四﹑模型应用 利用PRESS准则,通过计算各种可能的子集回归,可以有效的寻找规定意义下的最优子集,有助于建立反演的最优过程。岭回归法直接用于建立最优方程尚有很多实际困难,但有助于进行各类不同准或方法所得局部最优子集内部及相互之间的优劣比较,确定出子集大小适当,稳定性好的,反演误差小的反演方程。 例如:分别以PRESS和Sm^2为准则的两种最优子集法所得温湿反演最优子集结果一致。在局部最优子集上的差别,其物理特性差异很小,所得的反演误差差别很小。岭回归分析肯定了这些子集的最优性,同时指出计算量较小的其他方法(后退法,前进法,单F,双F和定M逐步回归法)一般也能得到较稳定的子集,但综合评价效果不如最优子集法。 五、多元分析法------灰色预测模型 董保华 05号 问题的提出 灰色系统理论是系统论的一个新分支,最初应用于工程控制、经济管理、未来学、农业、生物防治、水利等领域,但是很快在气象领域得到应用,成为一种新的天气预报技术。灰色系统是黑箱概念的一种推广。象黑箱那样内部信箱完全未知的系统我们称之为黑箱系统。相对黑箱而言,白箱是一个可以打开查看一切的箱子,灰箱则是半开半关的,相应的,我们把信息完全确知的系统称之为白色系统,而把只知部分信息的系统称之为灰色系统。在气象领域由于观测受到各种条件限制,人们只能从真实大气中获取一部分信息,而且人类对大气变化规律的认识也不够全面,有些方面甚至知道的很少,因此把大气系统视为灰色系统来处理。应用灰色系统理论处理问题的基本思路是设法使系统由“灰”变“白”。灰色系统的白化过程就是更具观测资料找出影响系统的诸因素,通过分析抓住主要影响因子,并用一定的数学方法尽可能消除未知的随机因素的影响,建立对系统作预报的灰色模型。 灰色预测的特点是根据自身的数据预测自身的发展。GM(1,1)模型与不同的数据处理方式结合,可以得到不同作用的预测,如数列预测、灾变预测、季节灾变预测、拓扑预测及系统预测等 目前常用的灰色系统模型(GM)是一个一阶单变量的线性回归方程,常记为GM(1,1)。此模型中含有一个待辨识的参数a和一个待辨识的内生成量U。 二、基本方法 当给定一组测量数据序列 {X(0)(ti)}={X(0)(t1) ,X(0)(t2) ,X(0)(t3), X(0)(t4),…, X(0)(tn)} (i=1,2,…,n) 经过一次累加生成,得到 X(1)(ti)=∑X(0)(tk) (1) 设X(1)(ti)满足一阶单变量常微分方程 dX(1)/dt+aX(1)=u (2) 其中a为常系数,u视为对系统的常定输入。 dX(1)/dt= -a(X(1) -u/a) 令 P= X(1) -u/a (3) 则 dP/dt=-aP 解此方程得 P=ce-at 将上式代回(3)式,得 X(1)= ce-at+u/a 当t=t0时,有初值X(1)(t0),则  求得积分常数  这样求得方程(1)的解,即时间响应方程为  (4) 对等间隔取样的离散值为 X(1)(k+1)=(X(1)-u/a)e-ak+u/a 灰色建模的途径是从(1)的序列值通过最小二乘法来估计常数a和u。 因X(1)(1)通过(1)后仍是原序列值,所以将X(1)(2) ,X(1)(3),…, X(1)(n)分别代入(2),微分用差分代替,这时等时间间隔取样△t=(t+1)-t=1,故得 △X(1)(2)/△t= △X(1)(2)= X(1)(2)- X(1)(1)= X(0)(2) 依此类推 △X(1)(3)/ △t= X(0)(3) … △X(1)(n)/ △t= X(0)(n) 于是(2)式改写成 X(0)(2) +aX(1)(2)=u X(0)(3) +aX(1)(3)=u … X(0)(n) +aX(1)(n)=u 把aX(1)(i)项移到右边,并写成向量得数量形式  (5) 由于△X(1)/ △t涉及到累加列X(1)的两个时刻的值,因此作为背景值X(1)(i)取前后两个时刻的等权滑动平均值,将(5)写成矩阵表达式为  (6) 令 Y=(X(0)(2) ,X(0)(3),…X(0)(n))T   则(6)式的矩阵表达式为 Y=BU (7) (7)式的最小二乘估计 ?= =(BTB)-1BTY 把估计值a和?带入时间响应方程(4)  (8) 当K=1,2,…,n-1时由(8)式算得的是拟合值;当K=n时,X(1)(k+1)计算值为预报值。 由于模型是根据一阶单变量微分方程建立的,故称一元一阶灰色模型,记作GM(1,1),称为GM(1,1)模型。 三、计算模型建立步骤 (1)、根据原始数据序列计算一次累加序列; (2)、建立B矩阵; (3)、求逆矩阵(BTB)-1; (4)、根据?= (BTB)-1BTY, 求估计值a和? ; (5)、用时间响应方程计算拟合值X(1)(i); (6)、用累减运算原理,即; (7)、计算均方根误差es和平均相对误差ea  (9)  (10 ) 若es或ea小于给定精度,则模型可用,并可以用时间响应方程作出外推预测。 四、应用概况 下面以1990年北京亚运会期间的天气预测为例,介绍灰色系统理论的灾变预测的具体制作方法。 对北京亚运会期间的天气,最为关注的是下雨或不下雨,其中开幕式(9月22) 和闭幕式(10月7日)的天气最引人注目。根据这种情况,预报人员选择了预报冷空气过程和江水过程相结合的方法,来报有无降水的天气过程。首先用亚运会之前期的降水实况(表1)确定降水过程。 表1 北京1990年7月 至8月中旬降水分布 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15  日期 7月1 2 3 4 5 6 7 8 9 10 11 12 13 14 15  降水量     61  42 11     7 6 5  序号 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30  日期 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30  降水量 2 2 11  6   3  24  3 2    序号 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45  日期 31 8月1 2 3 4 5 6 7 8 9 10 11 12 13 14  降水量  47 75     1 9  4  3 2   序号 46 47 48 49 50 51 52 53 54 55 56 57 58 59   日期 15 16 17 18 19 20 21 22 23 24 25 26 27 28   降水量       22           由表1可见降水过程持续时间长短不同,降水大小不等,考虑到建模时序列必须达到光滑性,根据实际应用的要求,着重考虑降水过程的开始时间或降水量的突增时间,取上表中的如下日期作为灾变日期集。  ={5,7,13,18,20,23,25,27,32,39,41,43,52} 对上述灾变日期集先作一次累加生成,运用灰色系统理论建立GM(1,1)模型:  其中辨识参数a和内生成量u通过待辨识参数向量得到  灰色预测主要预报的是一个灰色区间,也就是天气过程出现的时间范围,根据其中   是一次累加的均值生成,其数值为  a=-0.12501 u=11.76904 故得预测模型为:。根据以上模型就可以算出外延预测值。 灰色预测是以微分方程而建模的,其预测值是一个灰区间,由于资料选取的长短不一样,也就是说预测值具有不确定性。为了更好地确定预测灰区间,使其更符合天气演变规律,提高预报的准确性,使预报的灰区间具有较好的稳定性,可以利用上述的GM(1,1)模型,取不同长度的灾变序列进行多次动态建模,分别得到了多个预测值,再根据多个预测值的频数分布情况,最后确定出预报的灰区间。 六、灰色时变参数预测模型 郭洁 06 一、灰色时变参数的提出 我们把只知道部分信息的系统称为灰色系统。在气象领域,由于观测受各种条件限制,人们只能从真实大气中获取一部分信息,因此,把大气系统视为灰色系统。当有新信息加入灰色系统时,该系统的灰度将随之发生改变,在实际预测应用中,灰色系统理论会产生很大预报的误差。如果在灰色预测模型中,随时更新信息,充分考虑预报系统的灰色性和时变性,预测效果会更为理想和合理,灰色时变参数模型就是为达这一效果而提出的。 二、灰色时变参数模型的原理 对n+1个已知灰色序列:  其对应的一阶AGO序列为:  则GM(1,n+1)模型的微分方程为:  (1) 对上式解微分方程得: (2) 根据Taylor定理,将(2)式中的指数部分展开为Taylor级数:  (3) 考虑(3)式中系数随时间参数t的变化,即:  i=1,2,…,n; j=1,2,…p; t=1,2,…,m,m+1,… 则灰色时变参数模型为:  (4)  为一维随机噪声。置   则(4)式可写为:  (5) 式中为的转置矩阵。 当给定初值,对(5)式应用的递推跟踪公式,得参数跟踪估计序列: (6) 式中m表示当前时刻。对参数估值序列(6)建立适当的预报模型,得当前时刻的参数模拟值和向前一步的参数预报值,进而得m时刻的模拟值和m+1时刻的预报值,最终获得预报真值。 三、灰色时变参数模型的建模步骤 1、对预报对象  进行一阶累加生成,得n×m一阶AGO预报因子阵:  和1×m一阶AGO预报对象阵:  由时间参数生成另一预报因子阵:  则 和 共同构成一扩展预报因子阵。 由于阵因子多,为剔除那些对贡献小的因子,我们引入逐步算法,以获得最优模型,同时确定各入选因子系数,记为。 2、以为初始参数,运用参数递推跟踪公式,获取一系列参数估计值: 3、分析参数估值序列,通过一定的数学手段,寻找其变化规律,建立参数估值序列的适当模拟预报模型。一般对平稳的序列建立AR(p)模型或ARMA(p,q)模型;对 准平稳的序列建立ARIMA(p,q,d)模型;对非平稳序列则建立SETAR模型。以AIC 准则为依据,确定相应各参数模拟预报模型的阶数、差分次数、门限值、时滞等值。 4、根据已建立的参数模拟预报模型得第m时刻的各参数模拟值和第m+1时刻的各参数预报值,进而得第m时刻的状态模拟值  5、累减还原,获得第m+1时刻的时机预报值:  6、重复第2~5步,即可获得向前L步的实际预报值。 七、多因变量回归预测模型 何龙 07号  一、数学方法 1、 模型原理 设有m 个自便量,P个因变量,样本容量为n,建立多因变量回归方程,其形式为:  (1) A为回归系数矩阵,对于A的求解可采用残差内积,使其行列式达最小,采用最小二乘法得到A的估计值为:  (2) 2、模型的统计检验 设Q为残差内积(残差平方和),则: Q= (3)  (4) U可用来表示回归方程的拟和率,U值越小,拟和程度越高。因变量组与自便量组间的总相关系数为:  R (5) 当自变量只有一个时,即m=1时,可得:  ……(6) 称为全相关系数,它表示某个预报因子对多个预报对象的公共预报能力大小,可以用来筛选公共预报因子,其显著性检验为:   当只有一个预报对象()时,可得到复相关系数。当时,则可得到单相关系数。在多因变量回归中对第i个预报对象(),其复相关系数为:  (7) 其中为相应矩阵对角线元素中第i个元素,其显著性检验为:  (5)和(7)式可对每个预报对象回归方程进行检验,容易发现各自的特点和在总体变化中的地位,也说明了多个因变量对多个预报因子的响应程度和差异。总相关系数和复相关系数还可反映公共预报因子集对预报对象的总体预报效果。 3、公共因子的筛选(模型的实施方法) 对于预报因子集,如何挑选出具有明显预报物理意义,历史拟合效果好,外推预报效果稳定的显著因子来建立回归方程,可采取以下方法进行。 (1)在m个备选预报因子中,对每一个因子 按(6)式计算全相关系数,从中找出最大值的因子,设为,作显著性检验,若显著,就引入该因子,建立多因变量一元回归方程,记为:  残差记为:  (2)对有与每一个计算全相关系数,从中找出最大值的因子,设为,进行显著性检验,若显著就引入该因子,用、与建立多变量二元回归方程。继续  残差记为:  (3)继续这种因子引入过程,设已筛选到第k步,对与每个因子计算全相关系数,从中找出最大数,记为,作显著性检验,若显著,引入该因子,建立多因变量k+1元回归方程,直到没有显著影响因子引入为止。 二、建模步骤 1.对预报因子集X和多预报对象Y进行标准化处理。 2.式逐个计算每个因子的全相关系数,挑出最大的(如)进行显著性检验,通过建立一元回归方程,反复进行这种过程,直至选出个因子建立元回归方程。 3.对入选的个因子进行物理意义分析。 绘预测站点要素分布图,进行分析作出预报。 八、多元样条回归预测模型 黄兴 08号 本文主要介绍多项式样条函数在短期气候预测中的原理和具体步骤。 样条函数回归模型 样条函数的概念 光滑对接的分段多项式,称为多项式样条函数,这种函数可以拟合逼近一个非线性任意函数。 设给定函数点[],1,2,…,n,首先在x的取值区间[]中插入L个分点,则[]共分为L+1段或小区间,记为[],[],…,[]。可以在每个小区间内,分别用一个x的任意低次多项式来拟合逼近它,于是在整个[]区间上,拟后函数是一组分段光滑对接的低次多项式,其形式为:   (1) 为了使上式简化,引入半截单项式:   称为m次半截单项式,记:。应用半截单项式,可以把(1)式写为:   (2) 于是有:  (3) 上式称为多项式样条函数,它具有下列性质: (1)、在每个小区间内,它是一个p次多项式。 (2)、在分点r1处的p-1阶导数存在并连续。 因此,用这种函数去逼近任意连续函数,自然具有更大的转折自如的灵活性。 2、样条函数回归模型 设自变量为x,因变量为y,样本长度为n。首先把x的取值区间分成L个小区间,定出分点。对于分点的确定,一般来说,如果要求拟合精度足够高,则可多分几个分点,如果拟合函数只要求分辨出变化趋势,滤去小波动、误差和随机干扰,则分点可取少一点。关于分点的取法较多,可参阅有关书籍,这里介绍的是把x的取值区间在满足每个区间内至少有4~5个样本,尽可能多的等分成L个小区间,然后用逐步回归方法来确定最优分割区间。 分点确定后,可作变量替换,设:  (4) 则因子数为(p+L)m个,因子集为z=[],。 样条回归形式为: ? = AZ’ (5) 对(5)式用逐步回归方法对z进行筛选,可自行挑选最优分点,合并某些不必要的分段。用逐步回归得出结果后,可按F检验对样条回归方程进行显著性检验,以判断样条回归是否显著。 建模步骤 设预报因子为x有m个,预报对象为y,样本长度为n,则样条回归中的待估参数有,,,其建模步骤为: 1、确定分点 对指定的预报因子xi的数据序列,按从小到大的顺序排列,得到新序列x’,可设在样本区间的所有分点为L=n-1。 2、生成预报因子集 确定分点后,按(4)对变量作变换,生成预报因子集z共有(p+L)m个因子。 1、找出最优分点,建立预测模型 用逐步回归方法对因子集z进行筛选,自动挑选出最优分点,合并某些不必要的分段。这就是说,在多元样条回归中,应用逐步回归筛选技术,具有自动挑选最优预报因子、最优分点的能力,最终建立多元样条回归模型。 2、模型检验与预报 模型建立后,可用F检验对方程进行显著性检验。当给出n+1时刻的预报因子资料后,按模型(5)确定的预报因子及分点,作出外推预报。 九、自回归预测模型 李永千 09号 一、自回归预测模型的一些知识 利用时间序列的持续性作预测是该方法的基础。自回归模型(AR)模型。这一预测模型是利用气象要素前期已有的资料来估计未来的资料,即利用要素自身演变规律作预测。因为地面气候系统的形成及其变化出了考虑外在因素作用外,还应考虑自身的演变。由于气象要素前期信息的形成是含有局地要素与之同一时期外界因素相互作用的结果,因此,研究气象要素对前期气象要素的影响就是研究前期外界因素及气象要素自身对后期气象要素的影响。用差分方法ARIMA模型可转化为:ARMA模型,而ARMA模型又可转化为AR模型. 二、一阶自回归模型 设为零均值、方差为的白噪声序列,若序列满足差分方程:  (1) 式中为常数,则称为一阶自回归序列,上式为一阶自回归模型,记为AR(1)。也就是一阶马尔可夫链序列。 引入后移算子:  (j为正整数) (2) 并考虑平稳序列的线性变换不变性,(1)式可改写为:     (3) 上式称为AR(1)模型的逆行式,即除了把气象要素现在时刻的变化看成是前一时刻的影响外,也可看成是前期无穷多个时刻白噪声的线性和。可以证明AR(1)模型广义平稳的条件是,其落后时刻与落后1时刻的自相关函数为:   (4) 可见,在平稳域内AR(1)模型的自相关函数随的增加按负指数律衰减,称的这种性质为“拖尾性”。当自回归系数时,AR(1)的自相关函数随的衰减是一种正负交替的波动衰减;而当自回归系数,AR(1)的自相关函数随衰减呈平滑趋势且全为正号,这两种“拖尾”状况,充分反映了两序列内部结构的差异。,表明序列中相邻两值多同号相关;,表明序列中相邻两值多同号相关。 三、p阶自回归模型 设序列为白噪声序列,若序列满足差分方程  () (5) 则称为p阶自回归序列,(5)式为p阶自回归模型,记为AR(p),其中为待定参数,称为自回归系数,p(非负整数)为自回归系数的阶数。 从形式上看,(5)是与多元线性回归模型非常相似,后者描述因变量与其他若干个独立自变量之间的统计依赖关系,而前者却是描述同一序列中t时刻数值与以往若干个数值之间的统计依赖关系。因此,从回归方程的意义来理解,这样一种以序列自身既往若干时刻的取值为自变量的回归模型称为自回归模型。 用乘(5)式再取数学期望并除以,并利用及的性质,令,可得自回归系数满足线性方程组: (6) 通常称此方程组为Yule-Walker方程,其系数矩阵为:  (7) 称为Toeplitz矩阵,由自相关函数性质知,方阵(7)是非负值的。由差分方程的求根理论,AR(p)序列的自相关序列在模型的平稳域内呈负指数衰减,即具有拖尾性。 对(5)式两边乘以,取数学期望再除以有,  (8) 类似地,p阶自回归模型还可写为:  (9) 对上式左边B的P阶多项式进行因式分解为:   为B的多项式的特征方程的根。因此,AR(p)系统的稳定条件是。 四、自回归模型的参数估计 对于一个样本现实,可求得p阶自相关系数,记为,把它们作为(6)式中对的估计,则从(6)式可解出自回归模型AR(p)系数的估计,求系数的标准方程为:  (10) AR(p)模型的系数还可以用递推进行估计。对p=1有:  系数右上角(1)表示自回归模型的阶数为1。对于p=2有:  由数学归纳法可得关于p阶自回归系数逐阶递推公式:  (11) 五、自回归预报方程 利用样本对AR(p)模型作估计的部分,称为p阶自回归预报方程,表示为:  (12) AR(p)模型中部分相当于回归分析中的残差,于是残差方差估计可利用(8)式得到,记为: (13) 式中为现实样本方差。因而自回归方程的复相关系数为  (14) 利用(12)式,自回归预报方程可作出时间序列未来时刻的预报。 六、其他形式的的自回归预报方程 1、在做预测时,我们希望预报序列未来n+1时刻的值,则根据(12)式可写出n+1时刻的预报方程为:  (15) 用样本序列的(n+p-1),…,(n-1),n时刻的实测值代入方程,即可求出(n+1)时刻的估计值(预报值)。 2、但在气候预测中,常使用的是距平值,此时,只要对(12)式两边乘上标准差S,就可得到预报任一时刻t的距平值的自回归预报方程:  (16) 其中(x=1,2,……,n),为原序列的平均值,由(6)式可知,使用距平值的样本序列时,不需要计算回归系数,这点是同多元回归分析是不一样的。 3、有时在预测中,需要预报跳过g个时刻的预报值,即不预报是n+1时刻的序列值,而要求预报n+g+1时刻的值。这时的p阶自回归预报方程为:  (17) 其中可以是距平值,也可以是标准化变量值。 七、方程系数的求解 求解回归系数的联立线性方程组为:  (18) 用消去法求解出后即可跳过g时刻的自回归预报方程,实际上(12)、(10)式只是(17)、(18)式在g=0时的特殊情况。 在气象要素随时间变化过程中,某一时刻要素值不一定与它前几个时刻有密切关系,因而要建立预报效果较好的自回归预报方程,需要选择那些与t时刻变化的前期某几个线性关系较好的要素值建立方程。确定自回归预报方程的阶数通常有两种方法:顺点法和选点法。顺点法即对(10)联立方程求解自回归系数过程中,利用逐步回归的消去求逆紧凑方案求解,并作逐步选入或剔除变量,从而建立最佳阶数的自回归预报方程。选点法是计算所有落后时间的自相关函数,然后选择那些自相关函数绝对值较大的间隔点来建立自回归预报方程,这样可以减少回归预报方程的阶数和计算工作量。例如: 通过显著性检验,选择到绝对值较大的三个自相关系数r(i),r(j),r(k),则相应阶数的自回归预报方程为:  (19) 求解自回归系数的标准方程为:  (20) 从联立方程组中求出,即可得自回归方程。 八、结束语 由于MA、ARMA、ARIMA模型均是在AR模型的基础上发展起来的,在序列满足平稳且可逆的条件下,各种模型存在以下转换关系:  由此可见,有限参数的模型可以认为是相当大范围内的各种平稳随机序列的较好模拟,但由于该模型的拟合计算相当复杂,而且AR模型比较简单,建模具有优越性,且理论上可以证明ARMA(p,q)与MA(q)均可用较高阶AR的模型来代替,故国内外一些气象学家和实际预测工作者认为,若低阶自回归模型已经能很好的拟合时间序列的话,就没有必要考虑复杂的ARMA模型了。 有关AR模型的应用及MA、ARMA、ARIMA模型的内容介绍读者可参考丁裕国、汪志红编著的《气象数据时间序列信号处理》,项静恬等著的《动态和静态数据处理——时间序列和数理统计分析》,黄嘉佑编著的《气象统计分析与预报方法》等相关参考文献。 十、均生函数预测模型 李智兰 10号 均生函数预测模型及其基本方法 均生函数模型是1999年由魏凤英等提出来的,可以克服自回归模型、滑动 平均模型等在做多步预测时效果不理想的缺陷。它主要有以下四种类型:(1)周期叠加外推法;(2)逐步回归筛选方案;(3)正交筛选方案;(4)主成分建模方案。 周期叠加外推法 周期叠加外推法是均生函数模型中最基本、最简单的一种建模方案。它的基本思想是:对优势周期进行提取,用原序列减去该周期所对应的延拓均生函数,消去该周期在序列中的影响,用新序列继续寻找新的周期,直至找到所有的优势周期;尔后用全部的优势周期拟和原序列,并据此作外推。 逐步回归筛选方案 这是一种在回归分析中常用的逐步回归方法应用到均生函数中的筛选方案.逐步回归方案有逐步引进方案、逐步剔除方案、双重检验方案三种,其中以双重检验方案应用较多。由于在引进和剔除时都要进行检验,因而可以保证最后进入方程中的因子也是最优因子,所建立的方程是最优方程。它的操作过程大致是:构造时间序列的均生函数,并对其作延拓得到延托均生函数,以延托均生函数作为自变量,原始序列作为因变量,按照逐步回归的双重检验方案逐步地引进和剔除自变量,只道没有一个自变量可以引进方程,在方程中也没有一个自变量可以剔除。进入方程中的自变量即延拓均生函数构成的回归方程可以很好的拟合原始,对方程作外延能够得到逐步回归筛选方案的预测值。在实际中发现,优势周期不仅较长,而且相互之间较为接近,这是由于均生函数的相关性较好造成的。 正交化筛选建模方案 为了避免均生函数之间的高相关和预报的不稳定性,可以对均生函数作正交化处理。选用基于均生函数的Gram-Schmidt正交化筛选建模方案,它使用规格化的数据,通过Gram-Schmidt正交化处理使均生函数正交化,以此排除均生函数的相互影响。基于均值生成函数的正交化筛选建模方案,即考虑到向量的正交化,也同时考虑到残差平方和与趋势的双评分准则,因此所建立的数学模型合理。 所谓两个向量的正交,是指两个向量的各分量内积和为零,这时称两个向量是相互正交的。对每个向量的长度作向量的模为1的处理过程为归一划处理。Gram-Schmidt正交化方案的结果可以得到归一划的正交系。正交化筛选建模方案的大致步骤是:建立时间序列的均生函数,并同时构造周期外延矩阵,对周期外延矩阵Gram-Schmidt正交化处理,得到正交化的均生外延矩阵,由正交化的均生外延矩阵来拟合原始序列,在拟合时使用双评分准则来确定均生函数进入回归方程。对所建立的正交化回归方程,把外延均生函数作周期性外推,可以得到预测结果。 主分量建模方案 对均生函数外延矩阵提取有价值的信息,可以采用正交化方案,也可以采用主分量建模方案。主分量建模方案的基本思想是依据EOF分析之后,可以对原始场进行浓缩,以较少的分量来代替原始场中较多的分量,达到拟合原始场的目的,并以建立的回归方程进行预测。 二、模型的建立 以长江下游地区梅雨区域的1951至1999年梅雨期6月至7月降水量为基本预报对象,分别用周期叠加外推法、正交化筛选建模方案和主分量建模方案来拟合并进行预测。周期叠加外推法仅制作2步预测。正交化筛选建模方案和主分量 建模方案中用1991至1994年资料作为样本,预测1995至1999年资料,并以实测值检验预测效果。 用周期叠加外推法预测短期气候 用周期叠加外推法拟合和预测时,虽然对时间序列的拟合效果非常好,但预测效果不是很理想。在应用周期叠加外推法时已经对原模型略微作些改动,,即求算平均值过程中把原来所有的时间序列值都考虑进入计算对象里。在做预测时,从理论上说可以制作多步预测,在实际过程中仅能制作1~2步预测,而且有时预测值与实际值可能相差很大。图1为长江中下游地区东部、中部和西部代表站上海、九江、宜昌6至7月降水的拟合预测及其误差曲线,其中1998至1999年为预测值。从图1来看,周期叠加外推法的拟合程度非常高,基本上反映了原序列的概况,无论是极端值还是非极端值以及曲线的基本走向都有很好的一致性。3站的预测值只有宜昌较好,上海和九江的预测误差较大,已没有实际预测意义。 正交化筛选建模方案预测短期气候 由于正交化筛选建模方案把均生函数作正交化处理,同时利用了预测去时的评分准则,因而其预测效果已有很大改进,显示出这种建模方案的优势。图2为长江中下游地区东部、中部和西部代表站上海、九江、宜昌6月至7月降水的拟合预测及误差曲线。1951至1994年的拟合效果依然极好,在1995至1999年的5个年份预测中,一般有1至2个年份预测较差,多数年份预测较好。 主分量建模方案预测短期气候 主分量建模方案是基于EOF分析,选择延托均生函数的几个最大特征量所对应的量,对其作周期延拓得到回归方程,同时可以作多步预报。对计算精度的要求,既可以给出特征量累积值所占总的累积值之比,也可以对特征量进行North检验,还可以用Monte Carlo技术进行经验正交函数显著性检验。North是计算特征值误差范围来判断特征值是否满足检验,即对特征值进行排序,两个相邻的特征值之差不小于误差范围,就认为这两个特征值有意义。图3为为长江中下游地区东部、中部和西部代表站上海、九江、宜昌6月至7月降水的拟合预测及误差曲线。1951至1994年的拟合效果极好,预报效果以宜昌最好,九江次之,上海稍差。 三、预测效果评述 采用预报评分和技巧评分来衡量。预报评分(P)是在距平符号准确率的基础上,加上异常积的加权分构成。 P=(N0+f1n1+f2n2)/(N+ f1n1+f2n2)*100 (1) 式中N0为距平符号报对的以及预报和实况虽距平符号不同但属于正常级的站数,N为评分区域总的站点;n1、n2为一级异常和二级异常报对的站点数,f1、f2为一级异常和二级异常的权重系数。 技巧评分(Ss) Ss=(Na-N’)/(N-N’) (2) 式中Na、N分别为预报准确的站点和参加评分的站点,N’为基于某种无技巧预报正确(仅指距平报对,预报和实况出现零距平示为正据平)的站数。无技巧的对比预报采用气候预报。N’=FN,F为气候预报的准确率。本文取气候预报的准确率F值为0.41。 表1为主分量模型、正交化模型的预报评分结果和技巧评分结果。由于周期外推叠加法的预报效果较差,没有在表中给出。由表1可见,P的平均值在60.6至64.5之间,这些方法能报对60%左右距平符号、异常级的比例;Ss的平均值大于等于0 ,说明其预报能力不低于气候预报结果,因此几种方法都有一定预报能力。从预报效果来看,正交化模型最好,主分量模型次之,周期叠加外推法方法相对较差。正交化模型的预报效果最好,可能与其经过正交化处理、具有提取主要周期作用有关。主分量模型的预报能力稍强,但该方法与选取的预报精度有密切关系。 四、应用概况 均生函数的预测模型以周期叠加外推法为基础,并在引入其他方法的基础上逐渐发展成为包含逐步回归模型、正交化筛选模型、主分量模型、灰色模型等方案的预测模型。由于其只考虑序列本身,因而计算较为简单,操作较为方便。在本文介绍的三种方案中,周期叠加方案最为简便,拟合能力较强,但预测能力较差;主分量预测模型和正交化筛选模型不仅拟合能力强,而且预测能力也好,因为这两种方案均能报对60%距平符号、异常级的比例,预报能力不低于气候预报结果。正交化筛选模型的预测能力比主分量预测模型有所增强,因而正交化筛选模型的实用价值相对较强,它们可以应用于变化交大的降水预报中。 十一、均生函数场预测模型 梁玲 11号 本节介绍的均生函数场模型是对于给定的m个站点,序列长度为n的气象要素常进行经验正交函数分解,视每一EOF时间系数为一序列,建立均生函数模型并外推k步进行预报,用预报出的时间系数乘以相应的特征向量即得到气象要素场的预报值。 一、预测模型原理 建立场预测模型的原理及步骤如下: (1) 设预报对象场在地理空间上有m个站点,其样本长度为n,记为Rn×m,作经验正交函数展开并用矩阵表示: Rn×m=Tn×mXn×m (1) X为空间典型特征向量场,它反映了变量场空间分布的特质和特点,T为特征场X的时间系数,把特征根从大到小排列,提取累计方差>80%以上的前k个时间系数T1,T2…,Tk作为预报对象。 (2)将Ti (i=1,2,…k)作均生函数处理,以T1为例进行说明。 设T1序列为T1(p)={ T1(1),T1(2),…, T1(n)},按下式生成均生函数:  (2) 其中i=1,2,…,l,1 l ml , nl = INT (n / l), ml = INT ( n / 2),INT表示取整,则可构造出函数外延矩阵:  (3) 式中表示取之一,与此类推。 二、预测试验 我们取云南16个地州代表站1960~1995年6~8月雨量进行预报实验,用1996年作为外推预报检验,1997、1998年作独立预报,按前述建模步骤进行建模,得前10个特征向量的时间系数T1、T2、T3、…T10,占总体方差的95.8%。将所生成的均生函数与T1建立逐步回归。得外推一步的T1(37)=91.2及T2、T3、…T10(表略)。同理得逐步外推一步的T1(38=22.6, T1(39)=32.5及T2、T3、…T10向前两步的预报值(见表1)。 表1 1997、1998年汛期雨量的时间系数预报 k 1 2 3 4 5 6 7 8 9 10 1997 22.4 565.4 810.1-390.9 83.7 -473.0-703.0 1090.2 1210.0 530.7 1998 32.5 531.8 790.9-343.7 118.9-423.7-707.0 1150.3 1252.3 450.8 表2 逐年外推一步的汛期雨量预报及实况距值平百分率(%) 值 1997年 1998年 站名 预测 实况 评定 预测 实况 评定 昭通 5.4 -15.4 √ 18.5 22.5 √ 东川 30.1 41.5 √ 30.3 1.3 √ 沾益 21.7 23.4 √ 10.0 -8.6 √ 玉溪 -38.2 34.9 × -36.3 29.0 × 昆明 -19.4 57.4 × 14.7 62.9 × 楚雄 24.3 9.8 √ 25.9 14.7 × 大理 -76.7 -21.4 √ -75.9 -8.2 √ 丽江 -25.8 -22.5 √ 33.6 49.4 √ 中甸 -27.2 21.9 × -31.8 35.1 × 保山 -79.2 -6.6 √ -79.2 -32.9 √ 值 1997年 1998年 站名 预测 实况 评定 预测 实况 评定 潞西 -54.2 13.7 × -50.8 -12.8 √ 临沧 -95.7 -4.3 √ -84.7 1.5 × 思茅 -45.7 0.7 × -47.7 12.8 × 景洪 -5.8 11.2 √ -12.1 26.3 × 蒙自 36.8 -1.8 × 33.2 7.4 √ 文山 17.7 22.2 √ 18.7 8.1 √ 将T1, T2, T3,…Tk代入(1)式,可得16站1996年的汛期雨量预报值。按短期气候预测业务评分标准,其预报准确率为13/16。同理可得1997年、1998年汛期雨量值,表2为逐年外推一步的距平百分率预报值。从表中可看出,外推一步即1997年的预报准确率为62.5%。 我们将场预报模型用于云南5月雨量预报,资料取云南16个站1956~1995年5月雨量,仍用1996年作为外推预报检验,1997、1998年作独立预报。按前述步骤得时间系数T,仍取前10个时间系数(占总体方差得92.4%)作预报,得外推一步的T1(41)=-180.8及T2,…, T10(表略),同理可得逐年外推一步的T1(42)=-180.3, T1(43)=-142.1及T2,…, T10向前两步的预报量(表3)。 表3 1997、1998年汛期雨量的时间系数预报 k 1 2 3 4 5 6 7 8 9 10 1997-180.3 49.8 -35.5 25.0 69.8 -1.7 19.1 70.7 56.5 149.5 1998 -142.1-12.6-40.7 28.6 63.7 -3.1 44.8 150.8 51.3 144.8 将时间系数代入(1)式,可得16站1996年5月雨量预报值,按上述评分标准预报准确率为141/16。同理可得1997年、1998年16站5月雨量预报结果。从表中可知,1997年的预报准确率为75.0%,1998年预报准确率为68.8%。 表4 逐年外推一步的5月雨量预报及实况距值平百分率(%) 值 1997年 1998年 站名 预测 实况 评定 预测 实况 评定 昭通 -24.9 -27.3 √ -3.0 -39 √ 东川 -31.2 -80.6 √ 1.2 -68 × 沾益 -53.5 -80.9 √ -18.5 -55 √ 玉溪 6.8 -76.2 × -29.1 -53 √ 昆明 -64.9 -67.1 √ -73.6 -19 √ 楚雄 -77.7 1.6 × -91.4 -61 √ 大理 -27.3 -54.8 √ -81.1 14 × 丽江 -81.5 -25.9 √ -92.1 -10 √ 中甸 -4.0 0.0 √ 11.5 32 √ 保山 -1.1 -31.8 √ -50.0 13 × 潞西 -70.1 -69.3 √ -62.2 36 × 临沧 -89.1 -40.2 √ -89.1 16 × 思茅 5.7 -49.7 × -9.0 -19 √ 景洪 -70.9 -51.9 √ -44.9 -27 √ 蒙自 -61.0 -75.5 √ -88.9 -40 √ 文山 11.1 -93.8 × -5.8 -52 √ 将均生函数场预报模型于1997年投入业务应用,分别作汛期雨量、5月雨量的预报,若把表一和表三预报结果点绘在云南地理底图上,可看出预报结果连片性很好,预报场与实况场趋势非常相似,特别是降水异常中心分布基本重合,往往报错的站点多数是成片区域中的一些孤立点,表明均生函数场预测模型是一种较好的要素场滚动预报方法,且以外推一步的预测效果最好。 十二、模糊均生函数模型 梁秋枫 12号 将均生函数的概念推广到模糊集中,推导出不同类型序列的隶属度,定义出模糊均生函数,给出响应的建模均生函数,给出了相应的建模方案及实施步骤。那么我们要首先清楚均生函数是什么。 一、均生函数 依据气候时间序列蕴涵不同时间尺度震荡的特征,我们拓广了数理统计中算术平均值的概念,定义了时间序列的均值生成函数(Mean Generating Function ,MGF ,简称均生函数),提出了视均生函数为原序列生成的、体现各种长度周期性的基函数的新构想。在基函数基础上,相继给出了几种适于不同类型序列的建模方案。均生函数预测模型既可以作多步预测,又可以较好地预测极值,为长期天气预报和短期气候预测开辟了一条新途径。从建模方法而言,均生函数模型是借助多元分析的手段,解决时间序列预测问题的一种尝试。 设一时间序列:  (1) 其中n为样本量。x(t)的均值为:  (2) 对于(1)式定义均值生成函数  (3) 式中 根据(3)式,可以得到m个均生函数   ,, ……  由此可见,均生函数是由时间序列按一定的时间间隔计算均值而派生出来的。将均生函数定义域延拓到整个数轴上,即作周期性延拓:  (4) 这里mod表示求余。我们称为均生函数延拓序列是一种周期函数。由此构造出均生函数延拓距阵:  (5)  (6) 其中表示顺序取,之一,表示顺序取,,之一,其余类推。称为延拓均生函数。 如同在数例统计中通常所要求的,序列样本量n不小于30,而对求均值的样本量不作严格限制。当然,至少要有两个数据求平均,否则失去平均的意义。 我们将均生函数沿拓矩阵(6)式中第一列记为,第二列记为…第m列记为。 是序列x(t)的均值,它是由n个数据相加求平均而成,故随机性最小。 是由[n/2]个数据相加求平均而成,当n充分大时,随机性亦小。 当m取为INT(n/2)时,是由两个数据相加平均而成,故随机性较大。当m取为INT(n/3),也只是由三个数据相加平均而得,亦有较大随机性。 由此可见,在求取~时,由于求均值的样本量由大变小,其均值序列的随机性也由弱到强。也就是说,长周期的均生函数随机性较大,短周期的均生函数随极性小。 二、模糊均生函数 1、模糊均生函数 将均生函数的概念推广到模糊集中。设论域  (7) 其中n为样本量。在U上构造模糊子集  (8) 我们将起报时刻记为。那么,要对未来时刻,,…,作出预报。从预报的物理意义上考虑,愈靠近起报时刻的观测值包含对预报有用的信息愈多,对预报愈有价值。马尔柯夫过程认为,系统预报所处的状态与时刻以前所处的状态无关,只有时刻的观测值才对预报有用。也就是说,若序列具有马尔柯夫性,则可以把隶属函数定义为  (9) 表示具有马尔柯夫性序列的隶属函数。 若从统计学观点出发,则把样本x(1),x(2),…,x(n)等概率对待,即隶属函数定义为:  (10) 表示统计学意义下的隶属函数。 在实际问题中,我们既不忍心丢舍过多以往的信息,又希望近期观测值对预报发挥较大作用。为此,设计了随的远近以指数形式下降的隶属度,即  (11) 当时,(11)式蜕化为(10)式。若等间隔取样,令,则(11)式可写为:  (12) 式中按对过去观测值重视程度事先给定。显然, 若序列具有周期性,则可令隶属度为:  (13) 其中l为周期长度;r为由经验或试算确定的常数。显然,当r1时,有。 若既考虑观测值随起报时刻远近效用逐渐下降又体现周期性,则令隶属度为:  (14) 基于构造模糊向量  (15) 在论域U上构造另一个模糊子集B,它的隶属函数取为:  (16) 式中,显然。构造模糊向量  (17) 用代数相加和乘定义模糊向理的内积  (18) 根据(18)式定义模糊均生函数:  (19) 式中C为给定的常数,是的FMGF与序列x(t)的量级相同。方便地可取 C=,(19)式就变为:  (i=1,2,…,l) (20) 像均生函数一样作周期性延拓,得到模糊均生函数外延序列 2、建模方案及实施步骤 设一原始序列建立其预测模型的方案及实施步骤如下: 对作一和二阶差分运算,得到   对序列,,分别用(20)求出模糊均生函数并做周期性延拓。这里选用(12)式计算,取0.01,这样得到三组模糊均生函数延拓序列,,,l=1,2,…,m,m=INT(n/2)。 构造一组累加延拓序列:  21) 其中。 建立每一延拓序列与原序列间的一元回归,用双评分准则对个延拓序列逐一筛选。 由4步粗选得的因子,再进行精选。用所有可能子集回归是最好的,但计算量较大,这里采用按双评分准则CSC值由大到小,将粗选出的模糊均生函数逐一引入回归方程。当CSC出现极大值时,停止筛选。假设引入ko个模糊均生函数时CSC值为极大,那么预报方程为:  (22) 十三、最优气候均态预测模型 梁钟清 13号 持续性气候的概念是用现一时刻的气候预测未来的气候,而最优气候均态预测模型则是用前k个时刻的平均直来给出下一时刻的预测值。该方法易于制作,并可提前一年做出下一年的预测 。 气候系统不是静态不变的,因此计算平均数所取的k过大,未必得到最小的误差预测,按世界气象组织的建议,气候平均值应取在一特定的30年:1951-1980,1961-1990年。这样使得全世界都在同一标准下。距平的正负可以明确表示异常冷暖的变化。事实上,许多研究和实验都证明,用最近k年(K<30)的平均值做预测,其效果要比用30年好。 一、最优气候均态预测的原理: 假设一气候变量序列x1,x2,x3……xn, 构造序列:  其中n为样本量,通常取30年,k代表所要计算的气候平均年数,L代表实验样本量。通过上式计算出1,2,3……年的平均值,再以此作出n+1,n+2……n+L时刻的预测值。再用预测值与实况值相比较,得到实验预测每一时刻的最优平均值。以某一准则确定作出下一时刻的预测平均数。 二、 确定最优平均数的准则: 1、距平相关系数  其中Xi(obs)表示预测年份的观测值,Cwmo为WMO推荐的30年平均值。 对于独立样本而言:  由相关系数最大来确定最优平均数。 2、由绝对误差:  由绝对误差最小来确定最优平均数。 3、均方误差:  均方误差最小来确定最优平均数。 4、频率指数:  其中m(k)是相同k出现的次数,L为实验预测次数。频率指数最大时,平均数最优。 三、以频率指数为准则的预测步骤: 1、利用1式计算出1,2……n年的平均值,再用其依次向前作出n+1,n+2,….n+L年的预测值。具体为:先以1年平均值作n+1,n+2……n+L年的预测值,再以2年平均值作n+1,n+2……n+L 年的预测值,再以n年平均值作n+1,n+2……n+L年的预测值。 2、逐一计算以1年,2年,……n年平均值作出n+1,n+2……n年的预测值与观测值的绝对值误差。从每一年的预测中挑选出绝对值误差最小的平均值。 3、统计L次试验预测的最优平均数发生频次m(k),以I(k)达到最大为准则,确定出预测n+1年的最优平均数k。 以最近k年样本的平均值做出n+1年的预测。 十四、滑动平均双向差分预报模型 林叶 14号 滤波的方法很多,一种最简单的,即滑动平均法,另一种是带通滤波器,以及低通滤波器、高通滤波器。但是,不管哪一种,都是用一系列权重系数,可以称之为滤波函数。 对于一个对称滤波函数来说,响应函数可以表示为:,其中为连续两次的观测时间间隔。当波动经过滤波后不受影响,其响应函数  ,如完全被滤掉。 用差分方法对原始方程组进行数值积分,是比较成功的;但其缺点就是常会出现非线性不稳定,其次是差分逼近经常与微分真值有一定程度的相差,这就引起了例如系统预报移速偏慢等问题。近年来,虽然研究了克服非线性不稳定的方法并设计了精度更高的四阶差分方案,但是仍出现计算不稳定的新问题。从理论上,只要波数取的足够多,就能保证不出现差分方法所产生的非线性不稳定和差分精度的问题。但是,用非线性项的谱作用系数来进行计算,计算量十分巨大且需占计算机大量内存来存放这种谱作用系数,所以一直未能实现,也不可能取太多的波来逼近,这就存在截断误差的问题。 谱模式具有比差分方案好的一些特性,例如,自动消去了非线性计算不稳定,改进了微分化差分时的逼近精度,这有利于正确描述天气系统移速。但是它也具有若干不利条件,首先是计算工作量比差分方案大。虽然,使用谱格转换和快速傅立叶变换技术后,计算量大为减少,但仍比差分方案大,有待改进。如果把二者合二为一,可提高预报精度。 欧洲中期天气预报中心的其中一个模式特点:有限差分方案可以借鉴。有限差分方案:因变量在空间是采用跳点、水平风分量、温度和混合比是安排在主要层次上,即层上,垂直速度和重力位势是安排在的层次上,层次的垂直间隔是任意的。水平网格如Arakawa 的C类网格,这种网格对于重力惯性波有良好的弥散特性,能给出精确的地转过程模拟。另外,这种网格可以避免两倍格距的计算噪音,控制着纯重力波的活动。差分格式保证了能量守恒和位势绝对涡度平方守恒。空间差分是二阶差分精度,时间积分采用交替方案。 所谓等权重的滑动平均,即把时间序列中  个连续数值相加,而后以  除之,此时,, 即为权重系数。在中期预报中常用三天或五天滑动平均,此时,,或2,等权重滑动平均的响应函数近似的为,显然,当时,即周期无限大时,,当时,即周期等于滑动平均数时,响应函数为0,也就是这种周期的震荡完全被滤掉。 设置理想的带通过滤器,如想要过滤出中心频率频率带范围 内的序列,希望在频率振动上无任何削弱,即对应的频率响应为1,对不在上频率带内的振动削弱为0,即对应的频率响应函数为0。那么相应的频率响应可分段设计为  ⑴ 例如在年气象要素分析中,常希望了解是否存在有与太阳黑子相对数的11年周期相当的周期现象,因此可设计在的范围内带通滤波器,据⑴式,得频率响应函数为  ⑵ 有了频率响应函数的形式,对应的脉冲响应可用反傅氏变换求出。即实际计算可根据某一样本容量为的序列,以求和形式估计,取或作为的估计,即有滑动权重。经过滑动处理的序列yi包含有效范围为  即22年周期振动。值得注意的是滑动间隔不一定对全部权重进行,例如可把权重间隔截断到i=,同样可取得满意的效果。权重随的增加而迅速减少。滑动前后序列方差比为,当或时,可知截断方差比仅差。 1、随即序列可用前期多时刻白噪音的线性组合来描述,最简单的模型为一阶滑动平均模型,记为表示为②,其中为模型系数,对②式两边乘以,有,取数学期望得到③,对②式两端乘以,取期望再除以有④,将③代入④中自相关函数与系数关系,也可以写为⑤。⑤式表明白噪音也可用前期无穷时刻的随即序列来表示,类似的讨论,欲使的方差有限,必须有条件,若满足此条件,称系统是可逆的。 2、二级滑动平均模型记为表示为⑥,对⑥去数学期望有,模型中自相关函数和模型系数的关系:与模型推倒方法类似,若令,则可推导出系统的可逆性条件为,其中为多项式的特征方程的根。 9阶滑动平均模型记为表示为,上式两边乘 再取期望有  ⑧ 系统可逆性条件是多项式所对应的特征方程的根。 2、滑动平均模型的系数估计 利用一组实测样本的自相关系数可作为的估计,然后利用自相关函数与系数的关系即可作出中系数估计。例如时, ⑦代入,解出,代入⑦得,利用可逆性条件 来作决定,即所取的符号保证使,当时,会得到关于的四次方程,由于解高次代数方程不容易,所以通常当时,不用上述方法,而用迭代法来估计模型中系数,⑧式改写为 ⑨ ,给出和的一组初值(例如,设),代入⑨式右边,得及的值,然后再将它们代入(8.36)式右边进行计算,如此迭代下去,直到计算值稳定为止。 自回归滑动平均模型可以看成是自回归模型的发展,对形如的模型,若令则可写为,式中为残差部分,它反映用 阶自回归模型描述,所余下无法拟合的部分,对这一残差部分我们可用模型来描述,即,其中综合而成。 十五、门限自回归模型 刘伟 15号 一、模型的形式和原理 设,,...,为实数有序集,将实轴划分为个区间:  ...   ...,,,设{}是非平稳时间序列,则门限自回归模型可描述为自激励门限回归模型SETAR(;,,...,):  1,2,...,  (7.1.1) 式中为时滞(非负整数),由所属的区域确定模型的分类情况,,,...,称为门限值,模型呈分段自回归形式,,,...,分别为阶数,{}是个相互独立的正态白噪声序列。 由于(7.1.1)式左右两端除残量外仅表示同一序列的关系,因此称为自激励门限回归模型,记为SETAR(;,,...,)。显然,当时就是线性模型。 二、建模步骤 对于SETAR(;,,...,)模型,需要估计的参数为时滞值,门限值,自回归阶数,,...,和相应的参数,,...,。为清楚起见,对资料序列{}取样本长度为,以为例建模步骤。 1、先规定时滞和自回归阶数的最大上限,分别设为和。 2、确定门限值。具体做法是将{}从小到大排列,将位于30%,40%,50%,60%,70%这五点处的值作为门限候选值,分别记为,,,,。也可采用物理方法或最优分割法来确定门限值和时滞。 3、设选定的时滞和门限分别为和,把满足的资料序列分为一组,其余作为另一组。 4、对上述两组资料序列分别建立自回归模型(阶数控制在内)。 (1)建立分段自回归模型 设小于等于的序列为,,...,,第一段模型的系统可写为:  (1) 写成分量形式为:  当阶数为时,参数向量的线性最小二乘估计为:  (2) 其中为的转置。类似地,可得到大于的第二段模型为:  阶数为时,参数向量的线性最小二乘估计为:  (3) (2)用确定阶数、门限值和时滞值 采用最小信息准则确定阶数和参数值,对两段模型的分量分别为:  (4) 其中,分别为第一段和第二段模型序列的长度,表示各段系统的残差平方和。  (5) 选择:  (6) ,和,为当时滞和给定时的阶数和参数值。由于和是相互独立的白噪声序列,设在固定时,有:  (7) 则可选取出固定时相应的门限值为:   (8) 最终计算:  (9) 于是:   (10) 因此,经过层层剖析可估计出时滞,门限值,阶数及参数(=1,2),建立SETAR(2;,)模型。类似地,可得到段的自激励门限自回归模型为SETAR(;,,...,)。 十六、逐步门限回归 卢璐 16号 门限自回归模型是基于对各分段样本建立回归模型而得,所建立的预报方程可能有一些对预报对象不起作用或影响极小的预报因子,而导致方程的稳定性减弱,最终造成预报失败。因此,在门限自回归模型中,若把逐步算法引入到建模过程中,建立逐步门限自回归模型,对提高模型的预报准确率将会有明显效果。 一、模型的形式 与经典门限回归模型相同,逐步门限自回归模型为:  << j=1,2,3,…,L 其中{xt}是时间序列,d为时滞(非负整数),为门限变元。<<…<, 称为门限值。门限值将实轴分为L段,当x t-d 落入第j段时,x t 采用上式中第j个自回归模型描述,k j为阶数。 二、模型的建模步骤 逐步门限自回归模型的待估参数有各分段模型的系数、阶段、后延(时滞)d和门限r。 为叙述方便,以L = 2为例说明建模步骤。 1、生成预报因子集 设{xt}是时间序列,长度为n,给定逐步门限自回归模型后延d的最大上限,考虑时间 序列资料长度的限制,后延d不宜取得太大。设后延d的最大上限为R,则生成的预报因子集为B。 B= 简记B={}。 2、最优分割法确定门限后延d和门限值r 当预报系统中某个预报因子大于或小于某一临界值时,其所分成的两组子样本的组间方差有最大差异,并且在第一段样本内差异最小,两段间差异最大。据此可寻找使预报对象分组产生最大差异的预报因子值作为门限值,同时也确定了门限时滞。具体做法如下: (1)在上述生成的预报因子集B中依次取因子(),i= 1,2,…,k,按其值从小到大顺序排列。预报对象xn=(xk+1,xk+2,…,xn) 随xn-d 序列相应重新排序,得新序列。 (2)对序列进行二分割。按大于或小于等于xn-d 序列中的某个元素值分段。如:>174或≤174,即可将序列分为两段,将两段记为(k+1,n),(m+1,n)。于是得出 序列的总方差为:  两段的组内方差和为:  组间方差为: T2 =U2 -S2 (3)用F=检验两组间是否存在显著性差异。对序列共进行p= n – k – 2次二分割,计算p个F值,记为。选择是对应的分割点,记为第i个因子的最优分割点。 (4)对所有因子分别求出,再选择 = max{}。这样就确定了最优分割因子 和最优分割点maxp*,即确定了门限后延(时滞)d 和门限r 。 (5)将按大于或小于等于maxp*分为两段,预报因子集B中其余预报因子和预报对象相应地随分为两段。 3、逐步门限自回归模型 将已分成的两组样本分别这样作逐步回归,记,则得逐步门限自回归模型为:   与门限自回归模型的预报方法相同,当给出预报因子资料后,首先根据后延d和门限值r,判定其属于哪一段,然后用该段模型代入预报因子实时资料即可作出预报。 根据以上建模方法,当样本资料较长时,不难推广到分为L段的门限自回归模型,因此逐步门限回归模型最终为:   三、实际应用 以云南蒙自3月平均温度序列为摸拟预报对象,建立逐步门限自回归模型。每年3月是蒙自地区发生“倒春寒”天气频率最高的月份,3月平均气温年际变化较大,最高年于最低年差值达5℃,因而造成了一定的预报难度。取蒙自1951~1990年3月温度序列进行建模,按照前述建模步骤,给定后延d得最大上限为6,建立逐步门限自回归模型为:   上式的总复相关系数R=0.72,总拟合均方误差S=9.28,通过0.01显著性检验。而用一般门限回归模型建立的3 月气温预报模型的总复相关系数R=0.58,均方误差S=10.8,只通过0.05显著性检验。 表1 两种方法的预报模拟结果(单位:0。1℃) 年份 实况 预 测 年份 实况 预 测    逐步 评定 一般 评定   逐步 评定 一般 评定  1957 1958 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 174 199 159 194 179 163 170 178 171 192 171 175 186 184 176 174 187 182 191 174 182 179 164 186 183 172 191 172 186 172 177 188 182 181 + + - - + + - + + + + - - - - + - 176 179 173 194 174 170 181 179 178 179 175 158 178 176 176 178 179 + - - + + + - + - - - - - - + + - 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 157 195 173 171 188 194 202 189 197 156 179 152 176 188 163 159 163 165 191 176 172 191 182 185 186 176 166 179 152 188 191 170 174 164  + + + + + - + + - + + + - + + - + 176 182 174 179 179 175 194 188 198 162 180 177 183 178 175 172 182  - - + - - - + + + + + - + - - - -   表1为两种方法的模拟结果,趋势评定为正常是173<T<183;偏高为T≥183;偏低为T≤173。从表中可看出,逐步门限自回归模型的准确率为22/34,一般门限自回归模型的模拟正确率为14/34。 将逐步门限自回归模型投入业务应用,于1991年2月作3月平均温度趋势预报,得 =19.6℃,趋势为特高。1991年3月温度实况值为20.2℃,用一般门限自回归模型得 = 18.1℃。作1992年3月平均温度预报,得=18.6℃,趋势为正常偏高;一般门限自回归模型得=19.2℃,趋势为特高;实况是18.3℃。两年使用效果较好。可见,在短期气候预测模型中逐步门限自回归模型更优。 四、讨论 建立逐步门限自回归模型的模拟和预报效果均比一般门限自回归模型有一定程度的提高。但总体效果并不是很理想,其原因可能与样本长短有关。另外,在做预报时除考虑自身序列的内在规律外,外界因子,特别是大气环流形势、海温等对预报对象的变化也起着重要作用。因此,改进模拟和预报稳定性的途径之一就是引进外部强迫因子,建立预测模型。这样才能更好的提高预报效果。 十七、时变参数预测模型 孟庆磊 17号 在短期气候预测中,当用资料序列建立预报模型时,没有考虑预报系统的时变性,造成了预报效果的不稳定。从统计上讲,若一个气候序列是非平稳的,则在整个预报过程中必须充分考虑系统的时变特性。这次讨论的问题,就是充分考虑预报系统参数随时间变化的时变参数预测问题。 模型的原理和方法 时变参数模型 设有预报因子集=,y(t)是预报对象,由于预报关系随时间而变,则建立预报方程的形式为: y(t)=A(t)+e(t) (1) 其中是的转置,A(t)是t时刻的回归系数或参数向量,e(t)是随机噪声。从上式可以看出,模型与线性回归方程形式一样,但回归系数随时间变化,因此上式也可称作回归系数时变模型。显然,当估计出t+1时刻的A(t+1)时,根据(1)式可做出t+1时刻的预报值y(t+1). 参数估计 对A(t)的求解,可假定在满足约束条件下,使指标函数: 达到最小,考虑函数:  (2) 对(2)求导得:  (3) 得:A(t)=A(t-1)+ (4) 上式两边同乘代入(4)得:  则: 则(4)式为:  (5) (5)为递推跟踪估值参数公式,显然当A(0)给定的情况下,即可得到序列 . 关于参数的讨论 设  为A(t) 的估值,则:  上式称为模型的后验残差。对任意的,第t+1步的预报误差为,由于t+1时刻的给定,因此,t+1时刻的预报误差主要取决于对n+1时刻的参数预报误差,即:  (6) (6)表明,对时变参数模型的外推预报误差来代替。 显然满足后验残差一致小原则,(5)可推广写为:  (7) 当时,有表示渐消记忆权重系数,当越远离t时刻的样本,对t时刻的预报意义越小,越接近t时刻的样本,对t时刻的预报意义越大。一般可取进行优选实验。 模型的建模步骤 设预报因子集为=,预报对象为y(t),样本长度为n。 将预报对象与预报因子集作多元逐步回归。可选取回归系数为初值A(0),则    t=1,2,…,n 由(5)式可对参数A(t)进行跟踪估计。 对参数A(t)的未来时刻进行预测。对平稳序列,可采用AR(P)进行预测。对非平稳序列,可采用非线性模型如门限自回归模型进行预测。 当得出t+1时刻的参数A后,用(1)对因变量作预测。 小结 关于初值的选取 可以证明对A(t)的递推算法得到的估值一般会受初值选择的影响。但在一定意义下,其预报精度不受初值A(0)的选取影响。一般情况下,可用逐步回归进行因子筛选后,用得到的回归方程的回归系数作为初值A(0)。 资料的处理 当预报资料各个因子的变化量级大的因子会把变化量级小的因子的预报作用掩盖掉,因而不能真正反映每个因子影响作用的大小。这时,可对因子资料作中心化或标准化处理。 时变参数的预测 用(5)得到的递推值序列,可根据序列的平稳性用AR(p),ARMA(p,q),门限自回归等方法建立动态预测模型进行预报。 十八、多层递阶预报方法 欧光付 18号 天气预报的多层递阶预报方法,是运用现代控制论中的系统辨识方法提出的一种新的动态系统预报技术。 根据控制论中的系统辨识观点,大气系统可看成是一个既含有已知信息又含有未知信息的灰色系统。天气系统问题相应地就是“灰箱”问题,既各种气象要素都是许多已知的和未知的因素共同作用的结果。这说明,对某一气象要素的预报中,我们尽可能找到若干个预报因子,但肯定不是全部影响因子都能找到,甚至由于认识水平或技术条件的限制,还不能保证找出的因子就是最重要的影响因子。此外,由于大气系统是一个非常复杂的随机时变动态系统,因此用传统的固定参数的统计预报方法就有许多局限性。而多层递阶预报就是从系统的外部特征着手,将单一的气象要素或某些相关联的气象要素组合成随时间变化的数据,且看成一个一维或多维的时间序列,用时间序列分析的方法进行多层分析和多层递阶预报,建立输入——输出模型。而用传统的方法如用多元回归方法时,其预报方程一旦建立,银子的系数就成为定值,而资料年代越长越好的观点显然是平均的概念,即根据大量的历史资料进行“回归”后只能预报出气象要素可能出现的平均状态,它们不能有效地反映大气系统的时变特性,因此其预报的准确率和精度都是有限度的。 多层递阶的方法针对上述问题而提出来的,其基本思想是:把动态事变系统的状态(预报对象)的预报分解成两部分,既首先对系统的时变参数(随时间变化的输入变量的参数)进行预报,然后在此基础上再对系统的状态进行预报,形成参数-状态预报的反馈回路。这种方法的主要特点是能充分考虑系统的时变特性,从而使预报准确率和预报精度的提高有了可能。 一、多层递阶预报模型 1、预报系统的基本数学模型及预报步骤 这里仅以最常用的线性单输出模型作为预报系统的基本数学模型:   (1) 其中为一维的输出(预报量);、…、、、…、为个时变参数;为均值为零的一维白噪声;、…、为个一维的输入变量(预报因子);为流动时间;为的自回归阶数,它反映的自身规律,当时,说明无自身规律,完全依赖于各输入变量的作用。若   则模型(1)可写成  (2) 则模型(2)中的时变参数一般可按如下跟踪公式算出:  (3) 在给定初使值后,由实际观测数据,用(3)式即可得到一系列参数估值,,…,,其中为观测数据组数。然后对参数估值序列{}进行分析,寻其演变规律,并通过适当的数学手段建立相应的预报模型,对时变参数进行预报,既可得到参数预报值,从而有  (4) (4)式就是最后我们需要的预报模型。 2、时变参数的预报方法 预报时变参数的多层递阶方法有别于其它预报方法的最核心部分,一般是在时间序列分析的基础上做出的。目前常用的方法有均值近似法、多层AR模型递阶法、周期变量法、定常增量法、定常因子法、多项式最小二乘拟合法、样条函数拟合法等。这里介绍前面三种方法。 (1)均值近似法 若第i个(i=1,2,…,)参数估值的时间序列{}为平稳时间序列,且随着t的逐渐增大, 总在某一数值附近摆动时,可事先给定一个方差允许值,;并令 ,对=1,2,…,只要有95%以上的[,]就被认为是准非时变的。在此情况下,就可以取平均值作为预报值,因此有预报公式:  (5) 此处h为预报步长。 (2)多层AR模型递阶法 当{}为时变序列时,可考虑它具有如下回归形式: … (6) 其中为随机噪声,、、…、皆为时变参数,P为的自回归阶数。若令 [,,…, ] (7) [,,…,] (8) 则(6)式可写成  (9) 不难看出,上式与式有类似的形式,因此可用跟踪公式(3)即  (10) 来算出时变参数的估计值序列{}。对新序列{}进行分析: (1)如果{}为准非时变的,那么就按前述的均值近似法处理,得出。 (2)如果{}仍为时变序列,则可对其重复进行类似上述对{}所进行的工作。如此一层一层进行下去,直至某一层参数的估值序列全部成为准非时变时为止。然后以“均值近似法”确定最后一层参数的预报值,并以此出发再逐层的预报出各层参数值。 3.周期变量法 若{}满足  (11) 即时变参数本身有着周期为T的变化规律,则其预报值可取为:   … …   其中=1,2,…; =1,2,…,;为不大于的最大整数。 在实际应用时,一般先计算样本方差E,若E<0.0001时,则用“均值近似法”作参数预报;当0.0001≤E<0.001时,则用多层AR模型递阶法;否则,当E≥0.001时,则用功率谱分析得出周期T,然后按周期变量法来作参数预报。 十九、改进的时变参数预测模型 谭波 19号 由于各类递推预报方法均强调t-1时刻各参数变化对t时刻各参数变化的作用,不可避免的带来平稳性和初值敏感性问题,给以后解决系统控制和系统预报等问题带来了一定的困难,甚至造成预报失败。 针对上述不足,根据描述运动变化的一般性原理,本篇介绍一种改进的递推方法,这种方法成功的解决了经典递推算法的平稳性和初值敏感性问题。 模型的基本原理 为不失一般性,考虑时变参数的单输出系统:  (1) 它的一个特殊情形是: =  (2) 当参数=1时,有: (3) 从上式不难看出,对于初值的不同取值 ,尽管观测数据相同,并且它们都将使成立,但得到的参数估值序列通常是不平稳且是不相同的。其原因在于经典的时变参数递推法测强调了变化 对时刻各参数变化的影响,其结果可能导致系统控制和系统预报问题的失败。 为克服这一问题,根据描述运动变化的一般性原理:  其中A(t) 为任一随时间变化的系统,为该系统的平均状态,具有非时变或慢时变性,为该系统随时间的时变或快时变部分。则对系统而言,就可以在满足约束条件:  并同时使指标函数: 达到最小的条件下,导出这一新的递推算法。 为此,只需利用拉格郎日乘子法,使函数:  (4) 达到最小即可。 对于(4)有:  (5) 最后可以推导出:  (6) 对(6)式积分:  (7) 而对(3)式积分通常是不等于0的。 可见,递推算法式所得的递推序列比经典的递推序列算法式所得的递推序列具有更优越的平稳性;且由于初始的合理固定,因此从根本上避免了经典递推算法的初敏感性问题,同时还保持了经典递推算法遵循了描述运动的一般性原理,强调了各参数平均状态对时刻各参数变化的影响。 建模步骤 1、对给定系统输出和维系统输入,设共有组数据,则对系统:  (8) 在假设不随时间变化的条件下,将应用最小二乘法,即可获得系统各参数的平均状态值,i=1,2,…m 系统的时变参数有如下跟踪公式:  (9) 于是获得时变参数的一序列估值。 用一定的数学手段分析并发现各时变参数的变化规律后,采用相应的预测模型即可解决预报系统的预报问题。 三、实际应用(预报应用) 用经典递推方法和新的递推方法所获得的各参数的变化序列,以所得模型的AIC值最小为准则,分别建立自回归模型,于是得到参数的外推预报值(见表7.3) 根据各参数的外推预报值,用同样的资料分别作出未来两年的5月降水量距平百分率预报(表7.4)。从表中可看出新方法的预报结果明显优于经典方案。 表7.3经典递推和新的递推方案参数预报 方法 年份       经典方法 1994 1995 -1.7257*… -8.8594* -0.1545 -0.1692 -8.3460* -5.8393* 2620 1.2588 -0.3073 -0.3074  新方法 1994 1995 -0.2134 -0.1853 -0.1440 -0.1485 -6.8702 -8.1931 4004 1.4004 -0.4339 -0.4334   表7.4两种递推方案预报结果比较 年份 实测值 经典方案 趋势评定 新方案 趋势评定  1994 1995 -0.24 -0.46 -0.001 -0.16 × √ -0.16 -0.29 √ √   因为递推算法遵循描述运动变化的一般性规律,合理定递推算法的初始,所以解决了经典递推算法平稳性和初值敏感性问题。 二十、试用多层递阶回归分析法作月降水预报 汤强 20号 一、问题的提出 常规的统计方法在预报过程中,把大气这一实际上是时变的动态系统看成非时变系统,用一个非时变预报模型来预报一个时变动态系统的状态,其预报误差必然会随着预报时间增长而加大。而多层递阶分析方法,将预报对象看成是随机动态的时变系统,把时变系统的状态预报分离成对时变参数的预报和在此基础上对系统状态的预报两部分。通过对时变参数的预报,减小系统状态预报的误差,从而克服了常规统计方法的弱点[1]。若将多层递阶分析方法与回归分析方法结合使用,既考虑了动态系统的时变性,又能体现高相关因子在预报模型中的重要作用,显然可提高预报精度[2]。下面应用多层递阶回归分析方法,试作我省赣北7月份降水量预报。 二、资料的选取   选取1956~1998年赣北10个站点7月份降水平均值和500hPa高度场20个相关区的格点资料。在建立预报模型时,以1956~1995年为拟合样本,1996~1998年为试报样本。 三、建立回归方程   通过逐步回归分析计算,得到回归方程为: (t)=1169.9883-1.3483X1(t)-2.3612X2(t)-1.5159X3(t)+1.4319X4(t)(1) 式中:X1为前3年6月新西伯利亚群岛反相关区格点值,X2为前3年9月北太平洋中部反相关区格点值,X3为上年1月里海反相关区格点值,X4为上年11月150°W北冰洋地区正相关区格点值。 四、计算时变参数估值   多层递阶回归分析的基本数学模型为   (2) 其中:ai为回归系数,θi(t)为系统时变参数,e(t)为0均值白噪声,m为预报因子个数,t为流动时间。 在回归分析的基础上,令Y′(t)=Y(t)-a0,X′i(t)=aiXi(t) 则有新的预报量: Y′(t)=Y(t)-1169.9883  (3) 式中:Y(t)为实况值。 新的因子序列:  取时变参数初值为零,即:{θ′i(0)}=0(i=1,2,3,4)   (4) 应用时变参数跟踪推算法公式(4),可求得各新因子所对应的估值序列{θ’i(t)}(见表1)。 表1 时变参数的估计值 t θ'1(t) θ'2(t) θ'3(t) θ'4(t) t θ'1(t) θ'2(t) θ'3(t) θ'4(t)  1 0.7274 1.1329 0.8974 -0.1641 21 0.6934 1.0866 0.8452 -0.1007  2 0.7309 1.1382 0.9015 -0.1646 22 0.7069 1.1102 0.8626 -0.1039  3 0.7288 1.1350 0.8994 -0.1641 23 0.7652 1.1934 0.9179 -0.1186  4 0.7079 1.1059 0.8741 -0.1582 24 0.7574 1.1821 0.9083 -0.1171  5 0.7050 1.1020 0.8707 -0.1572 25 0.6759 1.0340 0.8017 -0.0989  6 0.7256 1.1368 0.9004 -0.1628 26 0.7089 1.0806 0.8363 -0.1075  7 0.7277 1.1396 0.9028 -0.1630 27 0.7581 1.1503 0.8914 -0.1220  8 0.6768 1.0588 0.8448 -0.1493 28 0.6456 0.9480 0.7378 -0.0764  9 0.6744 1.0553 0.8420 -0.1488 29 0.7374 1.0990 0.8457 -0.1030  10 0.7088 1.1185 0.8814 -0.1612 30 0.7272 1.0834 0.8334 -0.1000  11 0.6753 1.0651 0.8390 -0.1431 31 0.7271 1.0832 0.8332 -0.0999  12 0.7121 1.1204 0.8875 -0.1537 32 0.7416 1.1057 0.8517 -0.1058  13 0.6835 1.0791 0.8534 -0.1501 33 0.7779 1.1568 0.8965 -0.1127  14 0.6729 1.0596 0.8391 -0.1455 34 0.7239 1.0540 0.8140 -0.0885  15 0.6872 1.0797 0.8549 -0.1496 35 0.8008 1.1720 0.8927 -0.0791  16 0.7607 1.1929 0.9379 -0.1654 36 0.7667 1.1265 0.8596 -0.0728  17 0.7195 1.1341 0.8886 -0.1569 37 0.7665 1.1261 0.8593 -0.0727  18 0.6974 1.0959 0.8615 -0.1489 38 0.6000 0.8988 0.6796 -0.0185  19 0.5641 0.8829 0.7088 -0.0892 39 0.8550 1.2458 0.9771 -0.0147  20 0.7263 0.1423 0.8870 -0.1066 40 0.6997 1.0408 0.8218 -0.0038  五、计算时变参数预报值   采用多层AR模型递阶法[3]求得各时变参数预报值(t)。计算步骤如下: 1、考虑如下形式的模型   (5) P为自回归阶数,  表2时变参数预报值 t 年份 *1(t) *2(t) *3(t) *4(t)  41 1996 0.6968 1.0368 0.8184 -0.0026  42 1997 0.6286 0.9420 0.7439 -0.0246  43 1998 0.5140 0.8130 0.6425 -0.0064  表3预报效果比较 年份 实况 多层递阶回归分析法 逐步回归分析法    预报值 误差 预报值 误差  1996 179 187 8 177 -2  1997 276 283 7 186 -90  1998 387 430 43 181 -206  平均绝对误差 19.3 99.3  2、应用时变参数跟踪公式(6),得出α(i)的估计值。   (6) 3、用均值近似法(7)得出α(i)的预报值   (7) 式中:h为预测步长,n为样本长度。 4、求得时变参数θ'i(t)的向前一步预报值  应用(5)~(8)式计算出1996~1998年的时变参数预报值(见表2)。 六、7月份降水量预报   由上述计算步骤,可建立起多层递阶回归分析的系统状态预测方程    (9) 应用(9)式可得到1996~1998年我省赣北7月份降水量预报值(见表3)。 七、预报效果   将多层递阶回归分析法和逐步回归分析法的预报结果分别列入表3。由表3可以看到,应用多层递阶回归分析法作出的预报结果优于应用逐步回归分析法作出的预报结果。 八、结束语 将多层递阶方法与回归方法相结合的预报方案,集中了这两种方法的优点,既能充分体现高相关因子在预报模型的重要作用,又能较好地反映天气系统的时变特性,因而能有效地提高预报精度。通过对赣北7月份降水量的试报,效果较好,表明这种预报方案有实用价值。 二十一、多元门限回归模型 唐敬 21号 一、多元门限回归问题的提出 在大气系统中某些气象要素具有其特殊意义,由于大气的小概率事件发生而引起突变,在现有的预报技术条件下不能完全考虑,因而提出一种多元门限回归模型的建模方法。它充分考虑了预报系统中某些特殊预报因子突变点对预报关系的改变作用。实例表明,该模型在模拟和预报精度上比一般线性逐步回归模型有一定程度的提高。 二、基本数学模型与预报原理 考虑m个预报因子x1,x2,…xm与预报对象y之间的预报关系,若其中有某个特殊因子xi,当其值低于某个水平时,y与x1,x2,…xm是一种预报关系;而当xi高于某个水平时,y与x1,x2,…xm又是另一种预报关系;则称xi为门限变量,导致y与x1,x2,…xm预报关系发生改变的xi值称为门限值。例如:统计长期天气预报中就遇到大气中出现异常强讯号造成常规预报关系改变的问题。因此在统计预报中很有必要考虑预报系统中的突变、跳跃等非线性情况,多元门限回归模型就是为解决这一问题而提出的。其基本思想来源于时间序列分析中的门限自回归模型,把它运用到多元分析中就得出多元门限回归模型。 我们把预报系统中预报对象y和预报因子集xi之间的两段回归模型定义为 y=a1(1)x1+a2(1)x2+…+am(1)xm+a0(1) 当 xi<bi y=a1(2)x1+a2(2)x2+…+am(2)xm+a0(2) 当 xi≥bi 式中xi即为门限变量,bi即为门限值。 多元门限回归模型的基本思想是:当给出预报因子资料之后,首先根据门限变量和门限值决定在不同情况下使用不同预报关系的方程,以此解释各种类似于突变的现象。其实质是,把预报问题按状态空间的取值进行分类,用分段的线性回归模型来描述总体非线性问题。 三、多元门限回归模型的建模步骤及预报方法 1、应用最优分割法确定门限变量和门限值 其理论根据为:当大气中某些强影响因子发生变化时,必然使预报关系发生改变,导致生成的预报对象有显著不同;统计学根据为当预报系统中某个因子大于或小于、等于某一临界值时,其所分成的两组子样本的组件方差有最大差异。据此就可寻找能使预报对象分组产生最大差异的预报因子作为门限变量和门限值。具体做法如下: 设有预报对象y和m各预报因子x={x1,x2,…xm},共n个样本。分别从x中依次取出因子xi, i=1,2,…m。将x={xxx},按其值从小到大顺序排列,对y样本值也随xi的顺序相应重新排列,得新序列y’。 对y’进行二分割,将分成的两段分别记为:y’(1,k)y’(k+1,n)。于是得y’序列的总方差 V2=∑(y’i-?’)2 所分成两段的组内方差和为 S2=∑[y’-?’(1,k) ]2+∑[y’-?’(k+1,n) ]2, 组间方差 B2=V2-S2. c) 用F=[B2(n-2)]/S2来检验两组间是否存在显著性差异。对序列y’共进行L=n-1次分割,计算n-1个 F值,记为:F1(xi),F2(xi),…FL(xi),选择FK(xi) =max{FK(x1),FK(x2),…FK(xm)} , 所对应的分割点K即为第I个因子的最优分割点。 d)分别求出FK(x1), FK(x2),…FK(xm),再选择FK*(xi*)=max{ FK(x1),FK(x2),…FK(xm)},这样就确定了最优分割因子xi*和最优分割点ki*。最优分割因子即为门限变量,对应的最优分割点值xik**即为门限值。 e) 将xi*按大于和小于、等于xik**分为两段,其余预报因子和预报对象也相应的随xi*分为两段。 子样本组作逐步回归 将已分成的两组样本分别作逐步回归,可得门限回归模型 ?=a1(1)x1+a2(1)x2+…am(1)xm+a0(1) , xi*<xik** ?=a1(2)x1+a2(2)x2+…am(2)xm+a0(2) , xi*≥xik** 当给出预报资料后,首先根据门限变量和门限值判定其属于哪一段,然后用该段回归模型代入预报因子实时资料即可作出预报。 四、应用实例 下面用云南河口1954-1990年5月降水资料作为预报对象;1953-1989年1-12月和1954-1990年1-3月太阳黑子相对数及北半球500hpa月平均极涡中心强度、乌拉尔山地区平均高度、印缅地区五点高度和中国南海副高强度指数等共75个与河口降雨有关的资料作为预报因子。 按前述建模步骤,确定出河口5月降水多元门限回归长期预报模型中的门限变量为x51,头年6月乌拉尔山地区五点平均高度,门限值为67.3(略去百位数),其对应的F值为14.53,通过α=0.001显著性检验。 河口5月降水量的门限回归长期天气预报模型为 ?=-4.820x14-7.742x61+7.332x63+4.731x67-8.431x71+2.526x74+3460.55, x51≤67.3 ?=-22.221x14+1.111x32-15.876x57+11746.941, x51>67.3 其中第一段F=18.05,第二段F=21.49均通过α=0.001显著性检验;总拟合误差均方差仅为32.40。 按一般的线性逐步回归建立的模型为 ?=-9.563x14+11.667x11-6.845x72+7802.506, 其中F=8.88,虽通过显著性检验,但拟合误差均方差较大,其值为90.0,几乎是(2)式的三倍。我们将(2)与(3)历史回代结果列入表1中。(注:表见第三页)其中y为实测值,?为预报值,相对误差V=|(y-?)/y|,趋势评定中“√”为正确,“×”为错误。 从表1中可以看出:多元门限回归模型回代趋势准确率为30/37,平均相对误差为13.4% 一般线性逐步回归模型回代趋势准确率为18/37,平均相对误差为33.0%。 根据河口历年5月降水量的实测值,(2)式的历史回代值及门限变量x51的历年值绘得一点聚图(图1)。 比较图1中所绘两条(2)式的模拟直线,当门限变量x51<67.3与x51≤67.3时,这两条模拟直线的斜率明显不同;在比较(2)式和(3)式以及(2)式各段模型中的入选预报因子,除x14是共有外,其余入选预报因子均不相同,且(2)式与(3)式、(2)式各段模型间,预报因子x14对整个预报系统的影响也不同。上述诸现象说明:一旦强影响因子即门限变量(例如:本文中的x51)的异常强讯号即门限值(例如:本文中的x51<67.3与x51≤67.3)出现,便造成预报系统中常规预报关系的改变,使某些原来对预报系统影响不大的因子变成了主要影响因子,而一些原来对预报对象影响较大的因子则变成了次要因子等等。这样,最终使得整个预报系统发生了突变跳跃,即造成了预报关系的显著不同。 将此模式投入业务使用,于1951年4月作1991年5月雨量预报,得?=157mm,趋势为偏少或特少。1991年5月雨量实况为147mm;根据(3)式得?=188mm.初次使用效果较好。可见在长期预报中多元门限回归模型值得进一步探索试用。  二十二、混和门限回归模型 陶红专 22号 问题的提出 多元门限回归模型,描述了同一时刻的因变量与多个变量之间的统计依赖关系,它反应的是一种“横向”、“静态”模型。而门限自回归模型,它描述了因变量自身“当前”与“过去”的统计依赖关系,是一种“纵向”、“动态“模型。这两类模型从各个不同角度反映客观事物间的关系,它们都能有效逼近非线性序列。然而,气候的形成与演变是非常复杂的,预报对象除了与自身的关系外,还与外界因子的影响有关,如能将两种模型结合起来,应用于实际预报种,就能克服上述两种模型的不足。这便是混和门限回归模型。 基本方法 设预报对象为y(t),预报因子集为|x1(t),x2(t),…,xm(t) |,t=1,2,…,n, 混和限回归模型的形式为:   (1) 其中yt=β1t,β2i=x1t,β3t=x2t,…,β(m+1)t=xmt;p=1,2…,m+1;j=1,2,…,L0Rj=(rj-1,rj)是实轴上的一个小区间,r0<r1<r2<…rL,r0=-∞,rL=+∞。r1,r2,…,rL-1称为门限值,d为后延,kj为阶数。当βp(t-d)落入第j段时,yt采用(1)式中第j各混合回归模型模式。 (1)式反映了“动静”配合,“纵横”相依的多输入单输出的非线性系统关系,即可简化成多元门限回归或自回归的特殊情形,又将不同输出的混和门限回归模型“并联“成多输入多输出的多维门限回归模型。 三、混和门限回归的建模步骤 混和门限回归模型中的待估参数有:个分段模型的系数、阶数、后延(时滞)、门限变量和门限值。为叙述方便,以L=2即分成两段的情况说明建模的具体步骤。 1、生成预报因子矩阵 以预报因子集|xm(t)|和预报对象为基础,设后延d的最大上阵为k,n为样本长度,则生成的预报因子集为:  (2) 2、变量和门限值 (1)预报因子集β中依次取因子yn-d,x1(n-d),x2(n-d),…,xm(n-d),d=1,2,…,k将xq(n-d)=(xq,n-i-k-1,xq,n-i-k,…,xq,n-i),,i=1,2,…,k;q=1,2,…,m按其从小到大顺序排列,预报对象yn=(yk+1,yk+2,…,yn)随被分割序列的顺序相应重新排序,得新序列y’n。 (2)计算n-k-1次分割,共计算(m+1)×(n-k-1)×k各F值,最终得最优分割因子β*n-d和门限值。 3、将已分成的两组样本序列分别建立预测模型:   (3) 当给出预报因子集中n+1时刻的资料后,根据门限值判定其属于哪一段,然后作出预报。 四、应用 1、对云南5月雨量的预报 扬明等利用该模型对云南5月雨量进行了预报试验。去云南昭通、昆明、沾益、玉溪、蒙古五站1951-1991年5月雨量平均值作为预报对象,选取西北太平洋副高强度指数、北半球500hpa月平均极涡中心强度、中国海南副高强度指数、北大西洋副高强度指数、太阳黑子相对数、乌拉尔山地区平均高度,印缅地区五点高度和等为预报因子,建立混和门限回归模型为:   上述的拟合均方差为14.5。按一般逐步回归建立的预报模型为:  上述的拟合均方差为29.0。按一般自激励门限回归建立的预报模型为:   上式的拟合均方差为34.8。将三种模型的试验结果列入表1中,从表中可看出,混和门限回归模型的历史拟合率为32/35,平均相对误差为17.5%;一般逐步回归模型拟合率为22/35。平均相对误差为41.25%;门限自回归模型拟合率为17/35,平均相对误差为48.5%。 2、云南汛期旱涝预测 (1)区域汛期旱涝预报 去昆明、玉溪、楚雄、大理、蒙古5站主汛期(6-8)雨量平均值作为预报对象,年限为1952-1996年。以西北太平洋副热带高压强度指数、乌拉尔山地区平均高度、印缅地区五点高度合等为预报因子共计79个,资料年代为1951-1995年,按前述步骤建立预报模型为:   式中门限变量为上年5月500hpa高度场西伯利亚地区11点距平和,其值为19,对应的F值为9.43。等分别为上年3月北美副高强度指数、5月巴尔喀什湖10点高度和、4月贝湖地区8点高度和以及印缅地区5点高度和,是上年4月南海副高强度指数、是上年2月乌拉尔山地区5点平均高度。第一段模型的复相关系数,。从模型中可以看出,两个回归模型中入选的预测因子均不同,两方城的斜率也有差异。上述模型总的复相关系数0.81,=53.86。表2为1952至1996年汛期雨量的拟和值,45年中拟和准确率为93.3%。 表1 三种预报模型的试验结果(1992年为预测值) 年 代 实况 y 混合门限  一般回归  门限自回归  相对误差(%) 趋势评定       混合 一般 门限 混合 一般 门限  1957 1958 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 73 25 114 60 67 71 22 113 99 123 51 65 41 81 90 92 100 103 134 140 40 145 30 108 142 46 70 133 114 98 46 59 134 200 47 75 66 32 96 40 57 72 33 110 96 136 60 54 69 88 90 72 99 113 105 129 47 143 16 113 154 69 85 137 96 111 69 53 105 184 40 88 61 52 120 66 73 48 46 105 121 120 59 52 23 64 127 117 112 136 84 81 87 100 59 86 132 59 73 100 106 109 82 104 146 155 72 159 70 90 110 81 56 91 90 97 81 84 79 95 92 97 20 86 86 84 83 77 76 97 75 116 136 75 68 90 77 109 85 96 144 179 63 95 9.6 28.0 15.8 20.6 14.9 1.4 50.0 2.7 3.0 10.6 17.6 16.9 68.6 8.6 0.0 21.7 1.0 10.0 21.6 7.9 17.5 14.0 46.7 4.6 8.5 50.0 21.4 3.0 15.8 13.3 50.0 10.2 21.6 3.0 14.9 17.3 9.7 180.6 5.0 10.0 9.0 32.4 95.5 7.6 22.2 2.4 15.7 20.0 43.9 21.0 41.1 27.2 12.0 32.0 37.3 42.1 117.5 31.0 96.7 20.4 7.0 28.3 4.3 24.8 7.0 11.2 78.3 76.3 9.0 22.5 53.2 112.0 4.1 260.0 3.5 35.8 16.4 28.2 309.1 14.2 18.2 31.7 54.9 46.2 124.4 19.8 33.3 6.5 14.0 18.4 38.1 45.0 90.0 33.1 150.0 7.4 4.2 63.0 2.9 32.3 32.5 11.2 84.8 62.7 7.5 11.7 34.0 26.6 √ √ √ √ √ √ √ √ √ √ √ √ × √ √ × √ √ √ √ √ √ √ √ √ × √ √ √ √ √ √ √ √ √ √ √ × √ √ √ × √ √ √ √ √ √ √ √ × × √ × × × × × √ √ √ √ √ √ × √ √ × √ √ × × √ × √ × √ × × √ √ × √ × × √ × √ √ √ × × × × × √ √ × √ × × √ × × √ √ √ ×  表2 1952-1996年区域汛期雨量的拟合值与实测值(单位:mm) 年份 实况 拟合 评定 年份 实况 拟合 评定  1952 1953 1954 1955 1956 1957 1958 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 578 393 524 514 395 5611 566 401 457 607 563 513 564 442 701 468 546 589 600 627 516 562 596 621.4 420.8 455.3 465.5 534.0 580.8 590.9 427.9 494.6 5698 538.2 556.0 532.3 422.5 707.2 476.0 524.5 489.7 538.7 583.3 507.7 593.6 613.8 + + + + - + + + + + + + + + + + + + + + + + + 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 535 497 416 557 525 419 429 428 569 525 503 720 354 411 365 525 529 340 387 613 607 498 516.5 604.6 486.0 539.4 479.2 412.9 438.4 383.5 563.3 479.2 548.0 619.7 388.7 430.0 434.4 479.2 451.3 429.5 483.3 557.5 569.9 507.1 + - + + + + + + + + + + + + + + + + - + + +  将模型于1997年的门限值(1996)=23,应采用第二段模型预报,将各变量只带入上式得1997年区域汛期雨量为507mm,距平百分率为-1.7%,趋势预报为正常,实况距百分率是16.2%,为正常。同理可得1998年的门限值(1997)=55,则1998年的预报值为444mm,距平百分率是-13.3%,趋势预报为正常,实况距平百分率是20.3%,为正常稍偏多。1999年的门限值(1998)=11,应采用第一段模型预报,则1999年的预报值为431mm,距平百分率为-16.4%,实况距平百分率为41.6%。 (2)昆明地区汛期雨量预测试验 取昆明1952~1996年6~8月雨量作为预报对象。仍以1951~1995年西北太平洋副热带高压强度指数等70个物理因子。按前述步骤预报模型为: ?=  上式中x18、x27、x48、x51、x41分别为上年3月北美副高强度指数,上年2月乌拉尔山地区5点平均高度、3月中国南海地区7点高度和1月冰岛地区10点距平和1月印缅地区5点高度和等。第一段模型的复相关系数人=0.70,sr=44.97, 模型总的复相关系数人r=0.81,sr=87.6,门限变量x39为上年4月贝加尔湖地区8点高度和,其值为319,模型对昆明地区的模拟预报准确率为91.1%。1997年的门限值x39(1996)=296,应采用第一段模型进行预报,将各变量带入上式得1997年昆明汛期雨量为624mm,距平百分率为-6.3%,实况距平百分率为53.2%。同理可得1998年的门限值x39(1997)=402,应采用第二段模型预报,则1998年的预报为342mm,据评为百分率为-41.7%。 五、小结 混和门限模型是一个用分段的混合线形回归模型来描述总体非线形问题,模型既有多元回归的成分,又有门限回归的特点,较充分地考虑了预报系统地突变性、动态性、静态性,其基本思想是利用逐段性手段来处理非线形问题,可以将混合门限回归模型推广为混和门限回归模型,多重混和门限回归模型等。其将门方法与混合门限回归模型相似。 二十三、场对场的门限回归模型 王凤莲 23号 引言 多自变量与多预报场在地区级以上的短期气候预报中都要考虑到。有关多因变量场及多自变量场分布预报国内一些学者对此曾做过研究,如张尧庭等研究过多因变量多自变量回归模型。周家斌用车氏正交函数作要素场展开及水平分布预报,并认为:由于要素场水平分布的复杂性,用单点的预报无法解决场的水平分布预报问题,即使试图对场的每一点都进行预报后总和起来也不行。由于逐点预报没有考虑相邻各站点之间的相互联系。如对雨量场分不的预测,由于受地形影响极大,单点的雨量往往缺乏代表性,必须考虑雨量场的分布预报等。 基本概念 1、如果我们要做给定空间区域(如云南16个地州)内气象要素的水平分布预报,则预报对象为要素场。当我们采用高度场网格点资料和海温网格点资料为预报因子时,所有预报因子称为预报因子场。 2、场对场的门限回归模型——将预报对象和预报因子场都作EOF展开,提取预报对象的前K个主成分作新的预报对象,预报因子场的主成分视因子场的多少可提取前P个或全部,将预报对象的主成分与预报因子主成分作逐步回归,最终预测空间预报对象场分布。 将门限回归方法引入到场预报方法中,不仅能很好利用场预报方法中的优点,而且还能充分考虑预报系统中的突变、跳跃现象,这就是场对场的门限回归模型。 三、模型的原理和方法 设有一预报对象场为{YI(t)}I=1,2……M1 , 共有M1个观测点,预报因子场为{XJ(t)}J=1,2……M2, t为时间,样本长度为N0,将预报对象场和预报因子场分别作EOF展开: Y=UT X=VA 其矩阵中的元素为: Ytj=∑UijTit, t=1,2…..n, j=1,2……m1 Xtj=∑VijAit t=1,2…..n j=1,2……m2 (1) T为预报对象场中的主成分,A为预报因子的主成分。 则场对场的复合门限统计预报模型定义为:  (2) 式中β0(g)为第g断模型的常数项,A(t)(g)为第g断模型所含的自变量场,Ag(x)为第g断模型的复合门限函数,他反映了自变量场中某些特殊强信号因子发生变化时,造成自变量场和因变量场的关系发生突变的特征,g为模型的分段数,j=1,2……L.上式体现了用逐段线性化来逼近数据总体非线性特征的思想. 四、模型的建模步骤 (以g=3为例) 1、将预报对象场和预报因子场分别作EOF展开. 取预报因子场的前K个主成分和因变量场的前L个主成分,样本长度为N,分别记为Tj,Ai, i=1,2……K, j=1,2……L. 2、从因变量场第j项主成分中任选具有一定代表性的样本为中心,记为 fj1(y),fj2(y),fj3(y),j=1,2……L. 3、计算第j个因变量场的主成分Tj中N个样本与这三个中心的距离系数 Dj1=|Tj-Tj1| Dj2=|Tj-Tj2| (3) Dj3=|Tj-Tj3| 若Djg=min{Dj1,Dj2,Dj3},则Tj中的这个样本归入第g类,结果将Tj初步分为3类. 4、求出上述所分类的平均值: Tjg=∑Tjp/ng 式中ng表示第g类的样本数,g=1,2,3. 5、以上述所得的各类平均值作为新的中心,重复第3步,得到调整后的g个分类. 6、重复3-5步至前后两次分类完全相同,则该步结束,将Tj划分为了3类. 7、采用逐步判别算法获得复合门限判别值 fg(x)=㏑qg+c0g+∑cpgAig (4) 式中m为自变量场Ajg组成的复合门限变量个数.c0g和cpg为判别系数,qg为第g类的先验概率.qg=ng/n,ng为各类中的样本数, n为总样本数,g=1,2,3为分类个数. 8、用逐步判别算法所得到的复合门限判别值,按f*g(x)=max{fg(x)} 将因变量场Tj又归为3类,同时预报因子场中的各个因子也相应归为3类. 9、分别对上述得到的每组数据作逐步回归,得到场对场的复合门限统计预报模型为:   (5) 10、当获得自变量场Aj中的资料后,先根据复合门限函数fg(X)判别其属于那一类后,即可获得因变量场TJ的预报值。应用(1)可获得场分布的要素预报值. 五、实际应用 选取云南25个站1956-1989年5月雨量场为预报对象,以同年1-3月500hpa 格点资料为预报因子场,采用上述方法进行预报.选取预报对象场的前三个主成分为预报对象,预报因子场也取前三个主成分共9个为预报因子,建立云南5月雨量的场对场复合门限统计预测模型. 1990年的预测模型为:   式中的总复相关系数R=0.63,其中: f1’(x)= -7.27+0.01A1-0.14A4-0.0004A7 f2’(x) = -9.18+0.04A1-0.16A4-0.02A7 f3’(x) = -6.41+0.06A1-0.12A4-0.0001A7 1991年的模型为:   式中的总复相关系数R=0.74,其中: f12(x)= -160.3+0.37 A4-1.45A6-0.09A9 f22(x) = -168.2+0.48 A4-1.46A6-0.18A9 f32(x) = -208.1+0.51 A4-1.63A6-0.17A9 1992年的预测模型为:   式中的总复相关系数R=0.68,其中: f13(x)= -0.21-0.23A4-0.08A7-16.8 f23(x) = -0.13-0.19 A4-0.07A6-10.2 表7.11 1990-1992年云南25站5月降水距平预报检验 1 9 9 0 年 站名 保山 腾冲 潞西 景东 临沧 澜沧 思茅 元江 蒙自 开远 泸西 宜良 昆明   实况距平 + + + + + + + - + + - + +   预报距平 + + + + + + + + + + + + +   站名 陆良 玉溪 易门 楚雄 大理 宾川 丽江 元谋 沾益 新村 会泽 昭通    实况距平 + + + + + + - + + + + +    预报距平 + + + + + + + + + + + +   1 9 9 1 年 站名 保山 腾冲 潞西 景东 临沧 澜沧 思茅 元江 蒙自 开远 泸西 宜良 昆明   实况距平 + + + + + - - - - - - - +   预报距平 - + + - - - - - - - - - -   站名 陆良 玉溪 易门 楚雄 大理 宾川 丽江 元谋 沾益 新村 会泽 昭通    实况距平 - - - + + - + + - + - -    预报距平 - - - - - + - - - - -    1 9 9 2 年 站名 保山 腾冲 潞西 景东 临沧 澜沧 思茅 元江 蒙自 开远 泸西 宜良 昆明   实况距平 - - - + + + - - + - - + +   预报距平 - - - - + - - - - + - - -   站名 陆良 玉溪 易门 楚雄 大理 宾川 丽江 元谋 沾益 新村 会泽 昭通    实况距平 - + + - - - - + - - - -    预报距平 - - - - - - - + - + - -   应用上述模型即可得到云南1990-1992年的5月雨量预报分布,表7.11是三年的距平预报,可看出预报准确率平均为72%. 由上可看出,场对场的复合门限统计预报模型克服了点对点地线性统计预报模式的不足,考虑了预报对象场和预报因子场的整体性和非线性特征. 二十四、非线性动态系统预报模式 吴旭阳 24号 在做短期气侯预扫测时,由于要预扫的是非线性随机量,回归方程需要按转折点去更新,这就要求考虑预扫方程中的百平稳性与突变性。因此介绍一种非线性动态系统预报模式。 一、非线性动态系统的数学模型 设所考虑的非线性动态系统的一般数学模型为:y(t)=f[x(t),(t),t]+(t) (1) y(t)是单输出,x(t)是m维的输入,是m维的参量,(t)是一维的随机噪声,t是离散的流时间。根据积分理可知,对任一非线性函数,总可以找到一组线性函数 来描述,则(1)式可写为    (1) 或 y(t)=  (2) 上式中是实轴上的一个小区间,                    称为控制值,L是分段数,当X(t)落入第i段时,y(t)采用(2)式中第i个线性子系统来描述。  系统(2)的一个特殊情形是:    (3) 对分段情况,参数秋用第三节的参数跟踪公式:  (4) 式中是适当的常数。应用(4)式可得系统跟踪估值序列       (5)      其中 n表示当前时刻,对参数估值序列(5)建立适当蝗预扫模型,得向前一步的参数预扫值 ,进而得第 n+1时刻的预扫值: 二、非线性动态预测模型的建模步骤 非线性动态预测模型中的待估参数有分段数 L 与控制变量。为清楚起见,以L=2,       为例说明建模步骤: 1、设有预报对象Y报因子 ,m是因子个数,n为样本数。将xi按其值从小到大的顺序,对y(t)也随xi(t)的顺序相应重排,得新序列y’(t) 求出 y”(t)的总方差 。 2、对y”(t)进行二分割,将分成的两段分别记为y”(1,k) 、 y’(k+1,n),求出两段的组内方差为                组间方差为。 3、用F=来检验两组间是否存在显著性差异,计算2个F值,记为F1(Xi),F2(Xi),选择Fk(Xi)=max{F1(Xi),F2(Xi)}所对应的分割点K即为第I个因子的最优分割点。对所有因子分别求出F1(Xi),F2(Xi), Fk(Xm),再选择Fk(Xi)=max {Fk(Xi), Fk(Xm)} 所确定的最优分割因子Xi*为控制值分为两段,其余预报因子和预报对象也相应分为两段。 4、为剔除那些对y(t)无贡献的因子,将己分成的两段分别作逐步回归,因子的筛选用F检验进行,通过逐步回归得到因子,并以其回归系数作为参数的初值、。 5、运用递推公式4分加紧获得两段一系列参数估值…        和。对{}{}建立AP(p)模型进行预报,得向前一步的{}{}的值。 6、当给出n+1时刻的预报因子后,首先根据Xi*(n+1)断其属于哪一类,得出 Y^(n+1)   的预报值。 7、重复6~~7步,即可获得向前h步的预报值y^(n+h)。 三、小结 用非线性动态预测模型进行预报时,可以按单个控制值更新预报模式,这解决了多层递阶预报方法在预报过程中预报模式一直不变的问题,初步考虑了预报因子的突变性和时变参数的非平稳性对于预报因子中存在多个控制变量的情形,则可采用如下方法处理: y(t)= Fi(x)为控制值,I=1,2,…L, Fi(x)Fi(x)可用逐步判别来确定。 二十五、非线性统计动力气候模型 谢娜 25号 设气候系统内部有n个变量 y=(y1,y2,……yn),并同时受 q个外部因子(s)的影响,即s=(s1,s2,…..sn)若将系统内部各变量间的反馈作用和系统外部的各变量的强迫作用视为非现行状况,则可建立一类非线形统计,动力气候模式。 =y1+y2……..+yn_+s+ =y1+………………..yn++  当 时,有 a=1,2,3….n, =1,2,….n j1=1,2,……l1 j2=1,2,……..n j3=1,2,…..n L1,L2, L3(L3=( ) 分别为内部反馈因子。外部强迫因子和天气随机扰动的蜮值数, 分别为内部反馈因子和外部强迫因子比的变量:d1,d2 为值后延(非负整数);分一个小区间,<    ………  式中j1=1,2,…….l1    上式可写成  我们称 为反馈系数距阵,为随机扰动向量, 可以由理论推导得到,也可以根据实际资料用统计方法求得,但可以按照处理方法。 y分成平均直和随机振动两部分。随机振动部分可以根据 的统计特征求的不同频率的交叉谱密度。对于平均值  可以略去,他的解可以写成  I=1,2,……n 求解  ,可得 yi 的一个特解  代入可得到决定b 的方程组    是一个关于 的齐次方程组,这样,我们可求得使 不完全为0的解 根据    利用求解回归方程的高斯消去法,可得到。 二、模式的建立方案和步骤 由上式可知。此类非线形统计——动力气候模式的待估参数有:内部反馈模式各分段模式系数,阶数,后延,和域,外源强迫模式的分段数以为例说明该模式的建立方案 1、考虑气候系统的变化受 个内部因子的影响,则 式可简化为  其中I=1,2,……n.j=1,2…..n 将微分项改为差分形式,得  I=j =   则式可化为 =  这里I=1,2….n;j=1,2…..n;t=1,2……m为序列长度 2、应用最优分割法确定内部反馈模式的域变量。具体做法为:由上式可知, 为内部因子,按其值从小到大顺序排列,yi(t)(I=1,2…..n)t=1,2…..m 随被分割序列的顺序相应重排列得到新序列, y’I(t) 序列进行二次分割,并按大于或小于 yi(t-1),y’I(t) 序列中的某个元素,将 序列分成两段分别记为 y’I(1,mm),y’I(mm+1,m),然后得 y’I(t) 序列的总方差 v2 分成两段的组内 f=t2/(m-2)/s2 来检验两组间是否存在显著性差异,对序列 进行 pp=m-1次分割,计算n*n*pp个值。选f ,这样就确定了最优分割因子yi(t) 和最优分割点,分割因子为域值变量,对应的最友分割点即为域值 3、将已分成的两组样本分别做多元回归,即可求的   ,进而求得 ,于是可得到内部反馈模式 4、考虑气候系统的变化有受 q 个外部因子的影响,可移项得  以 q个外部因子为基础,扩展生成 kk*q 个因子, 为外源强迫模式值变量后延的最大值,kk*q个外部影响因子,简记为 5、应用最优分割发确定域值变量和域值的具体方法和内部反馈模式域值变量,域值的求法方案相同,计算 n*pp’*kk ,选取 f。同样便确定了最优分割因子,和最优分割点。 6、对分成的两组外源强迫因子引入逐步算法,记为 ,得到外源强迫模式 7、在内部反馈模式和外源强迫模式建立后,即获得了整个非线形统计——动力气候模式  其中j1=1,2;j2=1,2;j3=4 二十六、半截多项式门限回归模型 邢建勇 26号 一、问题提出 门限自回归模型由于能有效地描述非线性振动现象,在预报领域中得到了广泛的应用,但由于它是基于各分段样本建立自回归模型而得,在预报时未充分考虑预报系统的时变性,因而造成较大的预报误差。我们引进半截多项式门限回归模型。 二、基本方法 为了清楚起见,且不失一般性,取2个门限变量:;门限值为:,设最大时滞为,则经典门限自回归模型可写: (1) (1)式中是随机序列,且是个相互独立的正态白噪声,。 在(1)式中引入半截多项式   (2) 式中为多项式。从半截多项式出发,得到两组分别以和为跳跃点的半截多项式:和其把它们加到一个一次多项式中去,则在整个分段区间可获得方程:  (3) 在每个子区间内,式(3)可定义为如下线性多项式形式:  (4) 可以证明(4)式和(1)式具有等阶性。 首先,在第一区间内等价;其次,在第j区间内对(4)式中的半截多项式展开,合并同类项,与(1)式比较系数,即可证明其等阶性。不失一般性,以为例,对(4)式中的半截多项式展开,得 于是有   与式比较系数,得    (5) 对于其他情形可仿此获得类似结论。显然,这种统计回归模型或式与经典门限自回归模型的实质是完全一致是,只是形式上的差异而已。 三、计算模型建立步骤 1、给定回归模型时滞最大上限k,样本长度n,则生成基本预报因子集A和预报对象集B。   简记。 由步骤1,我们获得了预报对象和k个基本预报因子,样本数为n-k. 2、确定分点数。 对给定的预报因子的n-k个样本数据,按从大到小的顺序排雷,得到新,于是可得到样本区间所有可能的分点L,考虑到预报因子中有重值的情况存在,有。 3、 当分点确定之后,按下当分点数式作替换,可得新被选因子集,即令:    (6) 则得因子集,总的因子数为个,于是模型的形式可写为:  (7) 4、运用逐步引入剔除紧凑变换技术对进行筛选,则可以合并某些不必要的分段。例如:若,这一因子在逐步回归中没有入选,则可以认为分点可以去掉,即将第个因子的第4个区间与第5个区间合并,这样即可从中自动挑选出最优门限变量和门限值,最终建立统计回归模型  (8) 其中。 5、给出新的观测资料后,按上述步骤生成新的预报因子集,即可作预报。 应用概况与小结 遵循门限自回归模型的基本原理的基础上,引入半截多项式变换,给出了门限回归模型的一种形式。加大了平均拟合和外推预报检验准确率,有利于门限自回归模型的发展。 这种模型当整个建模过程完成后,可运用经典的对回归方程的F检验或复相关系数检验等对整个模型的统计特征作出检验。从而彻底解决了经典的分段线性化模型的统计经验问题。 由=可以看出,当所有包含分点的变量均入选回归方程时,此式即为一般的自回归形式。 这种基于半截多项式的新建模方案,使门限变量和门限值的确定转化为求解一般自回归方程中系数问题,这在处理多个门限变量和多个门限值等方面显得十分方便、快捷。 二十七、相空间投影预测模型 徐琪 27号 一、问题的提出: 实际工作中,我们往往只能获得所研系统的某一变量的观测资料而对系统的其他变量知之甚少或一无所知,这使得我们必须找到利用一维时间序列重现高维系统演变特征的时序处理技术。 二、基本方法: 当原系统是一个浑沌动力系统时,由于其具备自相似性,它所产生的局部时间序列应包含了原系统的某些整体的演化信息,这样我们就可以利用局部的观测资料来重现原系统的演化特征。 三、一维时间序列相空间的构造 设时间序列为,所嵌入的相空间维数为d=INT(D+l),l=1,2,3……将按如下形式排列,构成相型和相点序列: (1) 这里为延滞时间,y(t)为相点或d 维相空间里的一个态。因此,序列构成了d维相空间里的一个相型,表示该系统在某一个瞬时的状态,并且这(n-(d-l))个相点的连线构成了点在d维相空间的轨道,该轨道表征了系统状态随时间的演化。 四、多元时间序列相空间的构造 设影响某地的预报对象如月降水的系统为s(i,j)、t(i,j),考虑到预报对象自身序列具有动力演化行为和特性,预报对象r(i,j)也作为预报因子,i=1,2,…..,Y,j=1,2,….,M,将各时间序列分别按如下方式排列构成三个向量集S、T、和R。 (2) (3) (4) 其中S(i,j)为第一时间序列构成的维相空间里的一个向量,T(i,j)为第二时间序列构成的维相空间里的一个向量,R(i,j)为第三时间序列构成的维相空间里的一个向量,这就建立了S、T、R的相空间。 五、相空间投影预测模型 从气象台站的现有常规资料考虑选用如下3种类型的时间序列资料: 首先,考虑赤道东太平洋海温的异常不仅能影响云南的5月降水,而且也通过改变夏季风等大气环流系统来影响全年的降水,以赤道东太平洋地区()57各格点的平均海表水温的月距平值序列作为第一时间序列。 其次,考虑月平均气温与降水量具有较好的相关关系,并且月气温的变化也在某种程度上反映了中高纬度的天气系统活动和冷空气的强弱,因此以云南滇中平均气温的月距平值序列作为第二时间序列。 最后,考虑月雨量时间序列本身所具有的动力演化行为和特性,以云南滇中平均月雨量的距平百分率序列作为第三时间序列。 将各时间多元序列排列成形如(2)-(4)的三个向量集S、T、R,这样就建立了S(i,j)-T(i,j)-R(i,j)的相空间,显然,这是一个由多维时间序列构成的物理空间。该空间也可看作是由3个子空间,即维的空间,维的空间和维的空间所复合构成的。由于、、均取大于1的整数,所以向量S(i,j)、T(i,j)、R(i,j)已不仅仅只是分别描述赤道东太平洋海表水温、局地(云南滇中)平均气温距平和该地的降水了。必须指出的是:若设时间序列、、空所描述的各气候子系统(记为)的维数分别为,则当 时,这里所构造的向量S(i,j)、T(i,j)、R(i,j)不仅可以分别描写赤道东太平洋海温、云南滇中气温和降水的变化,而且还可以分别揭示出其后子系统的的动力演化行为及其特性。 二十八、相空间相似统计预测模式 杨燕 28号 一、相空间相似统计预测模式 设新序列值x()嵌入一个m维的相空间。将x()分为两段:x()-x()和 x()-x() ,后者较短,仅供预报检验使用,前者按如下方式排列构成一个相型  (1) 这里为延滞时间步长,,为时间序列的间隔,在这里=1(月); 为 m维相空间里的一个相点,其 m个坐标分量为  (2) 由于提前预报的时间尺度 T一般与重建相空间里所用的延滞时间间隔同量级,它们相对于时间序列的长度是很小的,故假设:给定时间序列的结构在预报区域内不变。 设参考态为,在相空间中与最临近的态为;除外与最临近的态为;除,,…,外,与最临近的态为,则与的关系为  (3)   其中表示相点到的距离,其算法也类似与欧氏距离。 再设参考态及其En个态经过预报时间 T后,分别演化到 和,而的第一个坐标分量即为预报对象。设   (4) 经过预报时间T后演化到  (5)  再设  (6) 为的第j个最临近的态经过预报时间T后演化到时的第一个坐标分量,那么显然只要,则为已知量。假定预报对象  (7) 即可得到相空间相似统计预报模式。 二、实际应用 用昆明1901-1980年的月雨量时间序列,采用逐步以实况值代替预报值的方法,对昆明1980-1992年的逐月雨量进行独立预测实验。得到雨季5-10月的距平符号报准率明显高于全年的距平符号报准率,干季11-4月的距平符号报准率则明显低于全年的距平符号报准率。这说明月雨量的可预报性雨季显著大于干季。从距平符号报准率随嵌入相空间维数m的变化来看,m =7维的空间具有最佳预测效果,其对雨季、全年和干季的距平符号报准率可分别达到74%,65%和56%。这也说明,如果将月雨量时间序列看成是某一非线性动力气候系统方程组的解,那么要描述该非线性浑沌系统的最佳独立变量个数应为7。同时得出距平符号报准率随着提前预测时间尺度T的增加呈下降趋势,并且雨季总是高于干季。 评价预测水平的一种客观方法是把某种气候预测的长时期内的报对数与该种气候的气候几率作比较。为此,预测必须明确说明所要预测的气候要素在下个月出现在什么范围,如果预测正确则算报对一次,不存在部分报对的问题,但在预测中偶然报对的也得分。后者的得分与气候几率 C成正比。作 M次预测有N次报对时,其得分定义为  (8) S表示比气候几率高的成功百分数。S为10%意味着每作100次预测,比根据气候几率可能报对的预测次数要多10次。 因此考虑到昆明月雨量时间序列中出现正距平的气侯几率为40%,出现负距平的气侯几率为60%(雨季5-10月则出现正距平的气侯几率为33%,出现负距平的气侯几率为67%),那么可作出m=7维空间时的月雨量距平符号报准率的预测技巧水平评分S随提前预测时间尺度T的变化。得出:预测技巧水平评分S随提前预测时间尺度T的增加呈显著下降的趋势。在T增加到一定时间后,雨季、全年和干季的S值均趋于零附近波动,这说明模式输出的预测这时已变为气侯规律的随机预测。从对干季预测的S的变化来看,除了外推一个月的预测存在一定预测效果外,总的来说是无效的。从对雨季和全年预测的S的变化来看,3个月以内的预测是有显著预测效果的,对于雨季两个月以内的预测则可使预测的技巧水平评分S达到12%以上。 从前面的预测检验中,得到的一个共同结论是:月雨量的可预报性雨季显著大于干季。这说明月雨量受系统外界随机因素的影响在干季比雨季严重。另外从昆明月雨量变化的气候规律来看,昆明干季的多年平均月雨量一般不超过20mm,而雨季一般在100mm以上,因为月雨量的相对变化在干季是显著大于雨季的,其可预报性在干季自然也就小于雨季了。  二十九、近邻预测模型  于斌 29号 近邻法是统计模型识别中的一种重要方法,其错误率介于Bayes错误率和两倍Bayes错误率之间,因而具有良好的性质。周丽华等提出了一种基于多元时间序列的近邻短期气候预测模型。该模型既保留了近邻算法的优良特性,同时又考虑了气候系统有关状态量之间的物理关系和动力行为特性,并将该方法应用于云南月雨量的短期气候预测中。在预测时,选取了4个区域的海表水温、云南分5个区域的平均气温和平均雨量的逐月变化来作为样本特征量时间序列。这些特征量的变化是影响当地降水的直接或间接因素。对每种特征量再考虑相应的时间尺度变化,因此这里建立的短期气候预测模型已考虑了系统状态量之间的物理关系和动力行为特性。应用该模型对云南1991~1998年5个区域的逐月雨量进行了预测试验和检验。 一、 近邻预测模型的建立 1、 近邻决策规则 假定有C个类别 {i=1,2,…,c} 的模式识别问题,每类有标明类别的样本 {i=1,2,…,c} 个。设 N= (1) 为样本总数,未知样本为现在N个已知样本中找出x的 个近邻,若分别是个近邻中属于类的样本数,则定义判别函数为   (2) 决策规则为:若   () 则决策  (4) 可以证明,近邻法的错误率p在Bayes错误率 和的两倍之间,既  <=p<=2 (5) 正是近邻法的这种优良性质,它以成为模式分类中的一种重要方法,并具有广阔的实际应用前景。 2.剪辑近邻法 近邻法的主要优点是把已知类别的N个样本都作为代表点,所以需要将所有样本存入计算机中,每次决策都要计算待识别样本x与全部学习样本字机之间的距离并进行比较,计算量和存储量都较大。而且,当不同类别的样本在分布上有交迭部分时,分类的错误率主要来自于交迭区中的样本。因此,如果能将不同类别交界处以适当方式筛选,可以实现既减少样本数又提高正确识别率的双重目的。为此使用剪辑近邻法对样本集进行剪辑。 剪辑算法如下:(算法中用 表示样本的真实类别,用表示样本的决策类别) 第一步:对每个待识别样本找出其个近邻; 第二步:令 k>= (6) 如果个近邻中至少有 k个属于类,则决策 ,否则拒绝决策; 第三步:剪辑使 和的养本,即去掉被错分的样本,保留  或 的样本; 第四步:得剪辑后的样本集XNE。 3、短期气候预测模型的建立 在短期气候预测模型的建立中,首先考虑海表水温的逐月时空变化是影响云南降水的一个主要气候因子。参考中国国家气候中心每月发布的《月气侯监测公报》,以图1中所示的A区、W区、B区、C区的平均海表水温的月距平值序列。记为 s(p,i,j) {p=1,…,4;I=1961,…, ;j=1,…,12} (7) 其中p=1代表黑潮区(A区),p=2代表赤道中太平洋区(W区),p=3代表印度洋区(B区),p=4代表赤道东太平洋区(C区);I和j表示资料均从1961年开始,每年12个月,截止到 年的月。  图1 模型使用的海表水温资料的4个分区 在使用上述A区、W区、B区和C区4个区域的平均海表水温的月距平值时间序列中,1961年1月~1989年12月的资料为根据全球*的海温格点质料整理得出,其中多年平均基准为1982~1989年,1990年1月以后的质料则采用国家气候中心每月发布的《月气候监测公报》上提供的数据。 其次,考虑云南月气温和月雨量的时空变化中也包含了各种气候因子对其的影响。将云南全省分为5个区域(即浈东北、浈东南、浈中和浈西南),每个区域中选择大致均匀分布的16个气象观测站点作为其代表,并以各区域16个站点的平均月气温距平值序列和平均月雨量距平值序列分别作为第二时间序列和第三时间序列。将它们分别记为 t(p,I,j) {p=1,…,5;I=1961,…,  ;j=1,…,12} r(p,I,j) {p=1,…,5;I=1961,…,  ;j=1,…,12} 其中p=1代表浈东北区(1区),p=2代表浈东南区(2区),p=3代表浈中区(3区),p=4代表浈西北区(4区),p=5代表浈西南区(5区);i和j也表示资料均从1961年开始,每年12个月,截止到年的月 显然,我们这里使用的第二时间序列和第三时间序列基本上可以反映云南月气候要素场在时空变化上的主要特征,因此其本身的变化也同时具有在时间上和空间上的动力演化行为和特征。 设预测对象为p区域年+月的平均月雨量距平值,记为 FR(p, ,+) 其中表示为提前预测的时间尺度。 将上述各时间序列按如下方式排列构成样本  = 其中、和分别为各时间序列引入的时间变化尺度。与样本所对应的月雨量的实况距平值记为 r(p, -i, +) 按上述方式建立好样本集后,首先对样本集进行剪辑,去掉类别间相互交错的样本,得到新的样本集XNE。在XNE中找出待识别样本的个近邻,并假定预测对象 FR(p, ,+)= 二、预测试验与检验 使用的资料均从1961年1月开始,取实验预测对象为1991年的5月~1998年6月。每年每月对前述5个区域16个气象观测站点的平均月雨量距平值进行预测,这样我们共进行430个样本的预测试验和检验。 从业务预测的要求考虑,我们取提前预测的时间尺度=2(个月),与此相对应,取各时间序列按(8.4.11)式构成样本而引入的时间变化尺度分别为=3(个月),=2(个月)和=2(个月),并取近邻数为=9。 再上述有关参数的取值下,在表8.2中给出了对云南1991年5月至1998年6月共430个样本进行试验预测的检验结果,其中的正确率为试验预测的月雨量距平值与实况值的距平值的距平符号相关准确率。 表2 云南1991年5月~1998年6月的月雨量距平符号相关准确率 月 份 1 2 3 4 5 6 7 8 9 10 11 12 全年  样本数 35 35 35 35 40 40 35 35 35 35 35 35 430  准确数 21 26 31 19 28 23 21 20 23 23 17 21 273  正确率 60 74 89 54 70 58 60 57 66 66 49 60 64  从2中可以看出,建立的基于多元时间序列的近邻短期气候预测模型对云南1991年5月~1998年6月的月雨量距平值预测检验的距平符号相干准确率可以达到273/430=63.5%。显然,用该模型对云南各区域的平均月雨量距平值进行预测,其效果是较好的。该模型对云南1991~1998年的5月雨量距平值试验预测检验的距平符号相关准确率可达到28/40=70.0%。 三十、相空间相似年度预测模型 曾鹏 30号 气候系统是一耗散的,具有多个不稳定源的高阶非线性系统,其复杂的内部相互作用和自由变化导致;了气候的可变性和复杂性,也导致了气候变化的多尺度特性。 就目前来说,我们赖以进行短期气候预测的根据有两个:一是对气候变化进行了严密的监视,利用各种仪器在全球范围进行了定时观测,从而积累了关于它过去和现在情况的大量数据;二是气候系统为一物理系统,我们通过物理学和数学的研究,获知了一些气候变化所遵循的物理规律,并用数学语言加以表示。但在作实际的短期气候预测时,由于未能使这两方面有机地结合加以利用,使实际短期气候预测水平受到限制。 尤卫红等从多个时间序列出发,建立了短期气候预测的多时间序列相空间相似模型; 设年度气候预测对象为某区域内p个气象观测站点的某气候要素的距平值,记为: f(r,y+1) {r=1,…,p} (1) 其中y表示制作预测时间,y+1表示以次年作为预测对象年。这p个气象观测站点的该气候要素的历史实况距平值时间序列,我们记为: f(r,i) {r=1,…,p;i=y,…,y} (2) 其中i表示历史资料从y年开始到y年止。 再设与这p个预测对象的年际变化有某种物理关系的q个物理特征量的年时间序列为:   其中i表示各种物理特征量的年时间序列资料也是从y年开始到预测时间y年为止。 对每一物理特征量的年时间序列 x(k,i) {k=1,…,q; i=y,…,y},按如下方式排列,构成m维相空间中的向量集:  (4) 式中为第k个年时间序列构成的m维相空间里的一个向量,其m个坐标分量为:  这样,我们就得到了由q个物理特征量的年时间序列构成的q个相空间向量集 (4)式构成的相空间向量的演变特征和规律不仅从多方面反映了气候系统的演变特征和规律,也在一定程度上反映出了气候系统的高阶非线性特性及其复杂性。问题是在作实际的短期气候预测时,如何使这q个相空间向量的演变特征和规律都能在我们的短期气候预测模型中反映出来。由于q个物理特征量的年时间序列所反映的内容、变化的振幅以及量纲等各不相同,为了使由它们构成的q个物理相空间的向量演变特征和规律在短期气候预测模型中表现出来,作为一种实验,对每一个物理特征量的年时间序列,通过其构成的相空间引入一个无量纲的相空间向量相似排序值时间序列,记为:   其引入的过程为:考虑到预测对象为年,因此在向量集{X(k,i)}中,设参考态为中与最邻近的态为,则与 的关系为:   其中||X(k,y)-X(k,i)||表示参考态X(k,y)与态X(k,i)在m维相空间中的范数,其算法类似于欧氏距离。这时取  再设除外,中与最邻近的态为,则与的关系为:   这时取:  如此一直进行下去,即可得到由向量集与参考态的相似排序值构成的时间序列 。 显然,通过这种引入,以预测对象的参考态为核心,就可以把各物理特征量的相空间向量演变特征和规律用一个无量纲的相空间向量相似排序值的时间序列 反映出来,用它可以很方便的建立短期气候预测的多时间序列相空间相似模型。将时间序列对k进行求和   S(i)在某种程度上综合反映了个物理特征量的相空间向量演变特征和规律。为了得出具体的短期气候预测模型,设时间序列 中,数值最小的前5个数据分别为,即满足:   等。显然,给出了多时间序列的相空间向量与其参考态的相似程度,集中反映了预测对象的历史相似情况。于是,可以分别得到p个气象观测站点的预测对象的5个历史实况距平值数据为:  对这5个历史距平值数据作集成处理。即令:  显然,满足关系:  假定:如果,那么预测对象的集成结果为:  如果,那么预测对象的集成结果为:  如果而,那么预测对象的集成结果则为:  到此,就建立了短期气候预测的一种多时间序列相空间相似模型。 三十一、小波变换预测模型 张丽 31号 什么是小波? 小波也称子波(Wavelet)。小波分析被认为傅立叶分析的的突破性进展,它的思想来源于伸缩和平移方法。“小”是指它具有衰减性,局部非零,一定范围以外衰减为零。“波”是指他的波动性,其振幅正负相间。因此,小波就是振幅不大而正负相间的振荡形式。它满足:,其中为小波。 小波分析优于Fourier变换的地方是它在时域和频域上同时具有良好的局部性质,并对各种不同尺度成份采用相应粗细的时域或空域的取样步长,从而可以聚焦到对象的任意细节,具有数学意义上的严格突变点诊断能力。因此,它已被广泛应用于信号处理、地震勘探、大气科学等领域并取得了丰硕的成果。 大气科学的发展必须受到其它自然科学发展水平的制约和推动。小波分析由于可以作为表示函数的一种新基底,也可以作为时间频率分析底一种技术,已在研究气候变化的多尺度结构和突变特征方面取得了十分明显的效果。由于小波变换的许多优点,诸如局部变化、多层次、多分辨等,用小波变换的小波系数及其繁衍来建立月、季、年的时间尺度的气候预测模型无疑是一种新的探索,必将在短期气候预测领域产生具有重要实际意义的影响。 小波变换的基本方法 考虑所分析的对象(信号)是连续函数的情形,记为。记为可测且平方可积的一维函数的希尔伯特空间,、是中的两个函数。 与的卷积表示为:  与的卷积表示为:  的傅氏变换定义为:  的模或能量:  的二进型扩展(缩小)表示为:   1、小波及其变换 定义:设且,则按如下方式生成的函数族  (1) 称为分析小波或连续小波,称为基本小波或母小波。若是双窗函数,则称为窗口小波函数。这里L2、L1分别是可测的、平方和(或)一次方可积的希尔伯特空间。具有平移和放大的特点。 定义:设是基本小波,是按(1)式给出的连续小波,对,信号的连续小波变换定义为:  (2) 定义:设且满足  (3) 则称为允许小波,而条件(3)被称为允许条件。条件(3)蕴含着,因此允许小波一定是基本小波。对于由允许小波产生的信号的连续小波变换,有如下定理。 定理:设式允许小波,则对一切,,有  实际应用中,常取为实数,这时有,于是  (4) 而且  (5) 显然。 2、二进小波变换 在实际应用中,特别是在计算机上实现时,需将上面介绍的连续小波及其变换离散化,作为一种方便的形式,则是对变换进行二进制离散,把经过这种离散化后的小波和相应的小波变换称为二进小波和二进小波变换。 定义:函数被称为是一个二进小波,若窜在常数,使得:  (6) 条件(6)称为稳定条件;若,则称为最稳定条件。而函数序列称为二进小波变换,其中  (7) 由卷积定理可知,有  由此,稳定性条件等价于对任意,有  可以证明,二进小波一定是一个允许小波。 定理:设是二进小波,则他它一定是允许小波,且  若,则上式变为:  可以证明,二进小波变换既是完全的,也是稳定的,且A与B越接近,则稳定性越强。这些特征性为用小波变换结果来重构原序列提供了理论依据。 二进小波变换的主要公式概括为: 二进小波函数系为:  其共轭为:  若用平滑,则小波变换写成:  若不用平滑,则小波变换写成:  对于离散有限序列(长度为N),有:  其中。 重构公式相应为:  取不同的j值,可在不同尺度2j上重构出较原序列平滑的序列。 小波变换气候预测模型的建立 以提前不同时间尺度的时间序列(设为月尺度)预测作为研究对象,并设其历史演变的时间序列为   (8) 其中n为历史数据总数,历史数据的采样间隔为Δt=1个月。预测对象则为   (9) 其中T为提前不同时间尺度的气候预测,T=1、3和12分别对应于月、季、年时间尺度的气候预测模型建立。 时间序列的小波变换给出小波系数   (10) 其中是由历史数据总数n确定的时间尺度伸缩参数。 为了预测出在不同时间尺度l上小波系数的未来演变,即预测   (11) 在这里对按如下方式排列构成相型  (12) 式中为时间序列构成的m维相空间里的一个相点,其m个坐标分量为:  (13) 对于短期气候预测来说,提前预测的时间尺度T一般为从1个月到1年,他们相对于时间序列的长度是很小的,故假设:给定时间序列的结构在预测的实效内不变。 设参考态为,在相空间中与其最邻近的态为,则与的关系为:  (14)  其中表示m维相空间中的范数。 再设参考态及其最邻近态经过预测时间T后,分别演化到和,而的前T个坐标分量   (15) 即为我们要预测的在不同时间尺度l上的未来小波系数演变。在此假定   (16) 其中为态经过预测时间T后演化到时的前T个坐标分量。 最后,通过对小波系数的繁衍即可得出预测的对象   其中由(6)式给出。 至此,即得到了用小波变换的小波系数及其反演;来建立的在不同时间尺度T上的月、季、年气候预测模型。 四、应用概况 1、气候变化的诊断分析 小波变换具有局部化特征,其变换结果的峰谷或穿零点,对应着原序列的突变点位置,因而可以揭露出复杂序列曲线中不易被观察到的急剧变化的局部特征,即突变现象。更进一步的可以将分堆平滑与小波变换相结合,分析大尺度演变趋势。 2、小波分析 小波函数是良好的带通滤波函数,在频域里具有很好的局部化特征。可以用小波发变换方法,用前几个小波变换结果重构出不同平滑程度的新序列,用于分析原序列的大尺度演变特征,因此,小波分析可以对信号进行滤波。 3、气候预测模型 用小波变换的小波系数及其反演变来建立不同的时间尺度的气候预测模型,可以采用相空间方法及统计方法。也可以将这些系数作为输入信号,建立各类小波神经网络。 三十二、人工神经网络天气预报模式 张友攀 32号 人工神经网络(ANN—Artificial Neural Networks)是一种非线性知识处理系统,它与专家系统(ES)都属于人工智能技术的分支。 由于专家系统的优势在于逻辑推理,而大气是复杂的非线性系统,仅靠逻辑推理显然不能解决天气预报的所有问题。人工神经网络则能较好地处理非线性的决策性问题,因此可以解决专家系统及其它方法难以解决的一些天气预报问题。 人工神经网络的研究虽已有数十年的历史,并在近10多年来形成新的研究热潮,但在天气预报领域中的应用仅开始于20世纪80年代末期。尽管国内外已有不少人做了应用尝试,并取得了较好效果,证明了人工神经网络技术在天气预报中应用的良好前景,但毕竟研究的时间不长,需解决的技术问题还很多。这里仅介绍其最基本的原理和方法。 一、ANN的基本工作原理 ANN是通过大量的但却是很简单的处理单元(神经元)广泛互连而成的复杂网络系统。它反映了人脑和神经系统功能的许多基本特性,但并非人脑和神经网络系统的真实写照,而只是用数学模型对其加工、存储和处理信息的机制的某种简化、抽象和模拟。ANN的信息处理由神经元之间的相互作用来实现,并决定于各种神经元连接权重的动态演化过程。 ANN是高度复杂的非线性动力学系统。它除具有一般非线性系统的共性外,其显著优势在于:大规模并行处理;具有良好的容错性;自适应性,即具有很强的学习功能,网络中的大量参数均由学习(训练)获得(而不是人为设定),并能在使用中不断调整,从而使系统变得更“聪明”。 ANN的数学模型很多,有代表性的有:感知机模型(Perception,PTR)、反响传播模型(back-Propagation,BP)、自适应共振理论模型(Adaptive Resonance Theory,ART)、双向联想存储器(Bidirectional Associative Memory,BAM)、Boltzmann/Cauchy 机(Boltzmann Machine/Cauchy Machine,BCM),Hopfield网络模型等。其中目前研究最多。应用面最广的是BP模型。下面即以BP模型为例,介绍ANN的基本工作原理。 BP模型由Rumelhart等人提出。其网络结构由输入层,隐层和输出层组成,工作工程中包括信息的正向传播和误差信号的反向传播,由于后者是区别于其他模型的主要特征,故相应的算法就称为反响传播学习算法(Back Propagation Learing Alforithm)。在正向传播过程中,输入信息从输入层经隐层逐层处理,并传向输出层,每一层神经元的状态只影响下一层神经元的状态。如果在输出层不能得到期望的输出(误差大于要求的精度)则将误差信号沿原来的连接通道作反向传播,通过修正各层神经元的权重,使误差减小,重复上述过程,直至误差最小得到期望精度的输出。图1是一个输入层为N个节点,输出层为L个节点的两层BP网络示意图。 权重修正 x1 u1 y1 误差e x2 u2 y2 训练信号 . . . . . .    输入层 隐层 输出层 图1 BP网络基本结构示意图 BP-ANN把一组样本的输入/输出问题作为非线性化问题来处理,使用优化中最普遍的梯度下降法,用迭代运算求权重植,并通过引入隐节点的方法增加优化问题的可调参数,从而得到更精确的解成为可能。下面以图2所示的简单网络为例说明之。 设每个神经元上的作用函数为常数的Sigmoid型非线性函数  (1) 记 为神经元到神经元 的连接权植, 为神经元 的当前输入, 为其输出。 在输入层,个神经元的输入与输出相同,即 =。而在中间隐层和输出层,神经元的操作特性为  (2)  (3) 如按图1所示的网络,有       若记为神经元j的理想输出,则网络在一次训练中的总输出误差为  (4) 在输入层,由于输入(实况值)与输出相同,故可以为其输出为理想输出,即=0。在隐层,理想输出难以衡量,故可直接在输出层以实况值y作为理想输出值,来衡量网络输出的误差。在本例中  对网络进行训练时,若提供的训练样本为N个,并有L个输出,则第P个输出的误差为  (5) 网络输出的总误差为 X1 a Wha Wch c y1 输入 输出 X2 b Whb Wdh d y2 图2 一个简单的网络 当网络的的所有实际输出与其理想输出(实况值)一致时训练结束。否则,通过修正权值,使网络的实际输出与理想输出逐步一致,即使E(0。权值的调整按梯度下降法进行  (6) 这里假定了与成正比,而  由(1)、(2)式有  定义  故有  (7) 为了计算,并把输出层表现的误差反向传播到输入层,由(3)式,有  当j为输出节点时,有(1)、(4)式可得  故有  (8) 当j为非输出节点时,可求得  (9) 即将所有隐含神经元相连的输出神经元输出端的误差,乘上对应的权值 并求和,作为的输出误差,所以这个过程也称之为误差的反向传播。式中的表示学习速率。较大时,权值的修正量就较大,学习速率就比较快,但有时可能产生振荡,即误差总不能于某个特定的小值。而当取得较小时,学习的速率虽慢,单一般比较平稳。因此,在实际应用时,可在学习开始阶段取较大的值,然后逐渐减少值,使能平稳完成学习过程,又具有较块的学习速率。 三十三、距离系数预测法 章尔震33号 对预报因子集和预报对象y,我们取n个样本,写成矩阵形式为:  记第i个预报因子样本为x=,i=1,2,……,n,现又给出预报因子实时资料,要判断与历史资料样本中的每一个样本的差异大小,可用与之间的距离系数来衡量。距离系数有多种类型,但不论是何种距离表述法,一般都要求满足下列几个条件,记第i个样本与第j个样本的距离系数为,则有: 1、,等价于第i个样本与第j个样本相同。 2、,即距离系数应大于等于0,越大,表示两样本差距越大;越小,表示两样本差距越小。 3、,称之为对称性,即第i个样本与第j个样本的距离等价于第j个 样本与第i个样本的距离。 4、,即三角不等式成立。 这里仅介绍几种常见的距离系数。 明考斯基距离 记为,表示为:  式中当q=1时,称为绝对值距离。当q=2时,称为欧氏距离。当q=时,称为切比雪夫距离。 这时有: 明氏距离是最常用的距离,它具有如下特点: 当变量未标准化时,与变量的量级大小有关,这时数值大的变量会覆盖数值小的变量,可用数据标准化来消除量纲的影响。 2、没有考虑变量间的相关性。例如取10个变量,其中有9个变量反映同一特征(A),而只有一个变量反映另一特征(B),如果这两个特征(A)和(B)的重要性相当,但用明氏距离事,特征(A)的比重却占了九份而特征(B)的比重只占了一分,这显然是不合理的,为了克服这个缺点,可用下面的马氏距离。 马氏距离 记为,表示为: 式中  马氏距离排除了变量之间线形相关性的干扰,并且不受变量量纲的影响,只有当整组样本都是来自同一正态母体的抽样时,才会有较好的效果。 兰氏距离 当变量值时,可以用下面的兰氏距离,记为,表示为: 利用距离系数制作短期气候预报的方法步骤为: 1、对与分别计算距离系数。 2、将由大到小排列,然后找出历史样本与实时样本差异最小的那个历史样本,把这个历史样本所对应的预报对象样本值作为的估计值,按相似预报原理,其也应该是误差最小的。 前k个最小距离样本所对应的预报样本平均值作为的估计值或进行权重估值。 取前k个 最小距离样本,对其预对象报样本值计算起经验概率分布函数,从而对作出现概率预报。 三十四、相似系数法 赵凯 34号 一、相似系数法的提出 相似系数法是常用的天气预报方法之一 ,它不仅适合短期天气预报,也广泛应用于中长期天气预报业务,是表征第样本与第个样本间相似程度的统计量。在短期气候预测实践中,我们经常遇到这样的问题:当给定预报对象和预报因子集后,找不到合适的定量模型方法去解决。这时,就可以用相似预报来解决。其思路是:若给定个预报因子集和预报对象的历史样本数据 对已知的第个实时资料数据,要预报,把与个历史样本逐一进行比较分析,找出与之最接近的一个,其对应的值就是要预报的的值。 二、预报资料的整理 对预报因子集和预报对象Y,我们取个样本,写成矩阵形式  记第个预报因子样本为:,现又给出预报实时资料,要判断与历史资料样本中的每一个样本的诧异大小,可用与之间的相似系数来衡量。 三、相似系数的性质 一般,相似系数具有以下性质: a(A,B)=a(B,A); a(A,B)≥0; a(A,B)随A,B之间的相似性增加而增加。 其中a(A,B)是个体A与B间的相似系数。 四、相似系数的计算公式 统计预报常用的相似系数公式可表示为:  其中Rij 衡量了两个时间点间的相关程度,可以是两个时间点的相关系数,也可以用一下几种形式表示,在某种意义上这几种形式可以代替相关系数。 1、一般形式的相关系数: 记为  式中 Rij在[-1,1]间变化,Rij=0,不相似;Rij=1,完全相似;Rij=-1,完全相反; 2、指数相关系数: 记为 式中 为第k个变量的标准差。 3、当xij非负时,还有以下几种相关系数:    五、相似系数法的检验 对于实时样本x(n+1)与历史样本xi(i=1……n)的相似性是否显著的检验,可以仿照相关系数显著性的检验方法,采用Bartlett关于大样本的检验方法: 在假设总体样本相关系数为0的情况下,样本抽样统计量  遵从分子自由度为1,分母自由度为(n-2)的F分布。给定显著水平,查F分布表,若F>F,说明实时样本与该历史样本显著相关,也表明与该本相似系数显著。 六、相似系数预测法计算步骤 1、对与 分别计算相似系数; 2、把由小到大排列,找出历史样本与实时样本差异最小的那个历史样本,把此历史样本所对应的预报对象样本值作为的估计值; 3、取前个最大相似样本所对应的预报对象样本平均值作为的估计值或进行权重估值; 4、取前个最大相似样本,对其预报对象样本值计算其经验概率分布函数,从而对作出现概率预报; 七、相似系数存在的问题 1、假设在相似条件下必产生相似结果,在这个假设不成立的情况下就不能用相似系数预测方法。 2、相似系数预测方法不能超过预报对象样本值以外的极值。 3、要求样本足够大,并遍历因子所有可能组合情况,且实时资料在历史资料出现过的范围内,才有可能取得较好的效果。 三十五、逐步相似预测法 赵武 35号 相似预测与统计模式预测一样,存在着如何筛选最佳相似预预报因子集的问题。在资料样本中,如果包含因子很多,其中有许多与预报对象关系不好的因子,那么相似预测效果也不会好。这是由于样本间相似性很差,很难找到相似性较高的样本,一些对因变量有重要影响的关键因子的作用往往被大量与因变量无关的因子的变化所削弱,以至最终造成预测关系不好。在实际应用中,当刚给出样本资料时,从中取哪些因子其相似预测效果好,我们事先是不知道的,只有分析计算中对每一个因子逐一进行比较,看引入或剔出哪些因子,就能提高相似预测拟合率,经过反复比较计算,逐步找出最佳相似预测因子集。 一、相似预测的基本问题 取n个历史样本,设有m个预报因子,记为 x=(x1.…),预报对象记为Yi(i=1,…n)       用作相似预报。对第i个样本的相似预报拟合,就是计算第i个样本与第j个样本的相似系数Pij(Xi,Xj),取j=1,…,n且j≠i,从中找出最大仩似系数,设其所对应的样本为s,记:Pij(Xi,Xj)=max(Pi1,…Pin)。然后把第s个样本的预报对象作为第 i 个样本的预报拟合值,即yi^=。当有了所有样本的预报拟合值yi^后,就可通过预报效果分析来评价相似预报能力。下面就是其基本的计算方法与步骤。 1、构造数据矩阵及资料预处理。把预报因子和预报对象样本数据矩阵排为,为消除量纲影响,对每个预报因子数据作标准化处理。 2、对样本求相关系数,称为相似系数,记为 = 式中 3、相似预报历史拟合及外扒预报。对R阵中第i列,取 Pij=max(r1i,…rni),则第i个样本的相似预报拟合值 yi^= ,取 I=1,…n,求得,于是可根据下面的拟合效果指标U来评价相似预报能力。拟合效果指标有两种表示法: a、历史拟合率表示法,此时U越大越好。  b、残差表示法,此时U越小越好。U= 在这里,采用a类表示法。当给出外推预报因子实时资料Xn+1后,仿此就可以作出外推相似预报。 二、逐步相似预报技术 1、问题的提出 在预报模式中,如果包含很多与预报对象关系不好的因子,那么预报效果就不会好。 如何挑选相似预报效果最佳,就是这里讨论的问题。若以m个预报因子中任取出 m1  个因子作为相似预报因子集,共有    种取法,穷尽一切可能的取法,共有 种,从中挑选 出相似预报效果最好的一种取法,所取出的因子集就称为最佳相似报因子集。当m较大时,很显然用穷举法来寻找最佳相似预报因子集,其计算量是非常大的。于是很有必要高计一种逐步相似合效果的因子,以逐步找出能使预报效果达到极大的相似预报因子集。 2、因子筛选  在m个因子中,不妨假设巳从中入选了m1个初选因子(3≤m1≤m),此时的相似系数记为:  式中=               此时来考虑筛选因子Xc,当为剔出时,Xc在m1中,记m1=m1-1。当引入是,Xc 不在 m1 中,记 m1=m1+1。于是筛选因子Xc的相似系数变换公式如下:   式中=                 计算过程 (1)由m1求得相似系数矩阵,拟合序列,拟合评价指标(以拟合率来表示U)。 (2)剔出因子。在巳入选的m1个因子中,取c=1,…m1,计算。从中找出拟合效果增加,于是剔出刻因子,记:。又重复第二步,直己没有可剔出的因子时转至第三步。 (3)引入因子。在末入选的n- m1个因子中,取c= 1,…m1,计筧 。从中找出拟合最好者,记为 ,若有,就说明引入Xc后拟合效果增加,于是引入刻因子,记 m1=m1+1。又重复第三步,步直至巳没有可引入的因子时又转至第二步。 (4)当既无可引入的因子也无可剔出的因子时,筛选过程就算结束,输出最终结果即可。 三十六、秩相关秩相似法 赵志军 36号 在气象业务中,常使用相关相似法,这种方法主要是将普查指标找到的相关系数和相关概率较高的预报因子作为相似分析的基础,再利用相似分析的方法找出预报对象的相似情况。而秩相关秩相似法,是利用求秩相关系数的方法去普查预报因子,并对秩相关系数进行显著性检验,将达到一定信度标准的因子选取为相似分析指标,作为相似预报因子,再利用相似预报因子当前与历史上的绝对距离作相似分析,求出相似系数,确定相似对象,最后建立预报方程。 一、 秩相关分析(普查相似预报因子) 1、相关分析的思路 在天气预报中,普查预报指标多采用符号相关和相关系数的方法。实践发现,相关系数大的,其符号相关概率并不一定大;反之,符号相关概率高的,其相关系数也不一定大。这主要是相关系数不稳定性引起的。因为局部相关性较好,可以在整个序列中起主要作用,引起相关系数较大;而符号相关概率只反映趋势间的相关情况,不能反映数量上的紧密程度。为了克服两者的局限性,我们把两者结合起来,既计算相关系数又计算相关概率,并将相关系数大的,相关概率高的因子选为预报指标。这样,可以大大提高精选预报指标效果,但这种方法既要计算相关系数,又要计算相关概率,计算量较大。在实践中利用求秩相关系数的方法也能达到相同的目的,经使用效果较稳定。因为求相关系数是从求相关系数入手,并把历史情况分多级来处理的,具有相关系数的特征,也克服了符号相关概率只分两级所存在的弊病。 2、秩相关系数求法 研究预报对象和预报因子间的关系,常常从它们的样本资料入手,如果预报对象Y和预报因子X确有关系,那么,它们之间的数值大小就应有关联:当X大时,Y也随之变大(或变小);当X变小时,Y也随之变小(或变大)。计算两者的相关情况,常使用求相关系数公式:  (1) 如果将X、Y值由小到大顺序排列,将每年的资料转化为它们的顺序号,这个顺序号无量纲,任何资料都可以进行这样的转化,也便于互相比较和计算,这个顺序号就称为秩。 在计算变量的秩时,如果变量有两个或两个以上的值相等时,它们的秩则取在整个序列中所拥有秩的平均值。 当预报因子和预报对象的转化为秩以后,则:  那么它们的均值为  则求相关系数公式(1)中的分母  同理  则(1)式中的分母就等于,而分子  将分子、分母代入(1)式得  令,代入上式  (2) 上式就是求秩相关系数的公式,式中是预报因子与预报对象两者秩号的平方和。 在均匀分布的分级情况下也可以推导出(2)式,这时均值,方差,标准差,相关系数在分级情况下的计算公式为  (3) 其中,、为级别序号,在均匀分布的分级情况下,可以证明K级的方差  (4) 将(4)式代入(3)式  如果分级一直增加下去,直到分成 n级,即和资料样本相同,K=n,这时得到相关系数计算公式即为秩相关系数公式  秩相关系数公式就是分多级情况下的相关系数公,所以具有相关系数的特征,也具有相关概率的特点。 根据求秩相关公式(2),我们可以普查预报指标,计算出预报因子和预报对象的秩相关系数,通过显著性检验,达到一定信度的预报因子则可以作为相似预报指标。 二、秩相似分析计算步骤 经过秩相关普查找到一定数量的相似预报指标后,用这些指标的当前数据与历年的情况比较,按相似程度,用求秩的办法求出它们的秩,用秩作为相似分析的基础,求出各年的相似系数。 1、计算当前各预报因子与其历年的秩 首先求当前预报因子与其历年的绝对距离  表示历史上年第j个因子,为第j个因子当前值。表示当前的情况与历史上的相似程度,越小,两者之间相似程度越高,当=0,则完全相同。其次,将按由小到大的顺序排列,按照上述求秩的方法,求出各预报因子各年的秩。 2、求各相似预报因子的秩号总和及秩平均值  为年第j个相似预报因子的秩号。 3、求每年各相似预报因子的秩号和 , =1,2,…, n 4、根据以上的和,算出每年的秩相关系数  反映了i年与当前的相似预报因子之间的相似程度,其数值越大,说明两者越相似。按的大小挑出相关系数最大的几个作为相似年,究竟挑选几个相似年,其基本原则是使相似年的相似系数之和接近于1。 5、根据挑选的相似年建立预报方程  其中,,…,分别为相似年的秩相似系数,,,…,分别为相似年的预报对象实际值。 三、举例:利用秩相关相似作9月份西太平洋生成台风个数预报 根据出现台风的天气形势和现有的资料,这里选取欧洲环流W型日数等15个因子作为利用秩相关相似预报9月份台风的因子。经过计算各因子的秩相关系数见表1.9。 表1.9 个因子的秩相关系数 因子          系数 0.3715 0.4274 -0.4022 0.3776 -0.3538 0.3223 -0.3329 -0.3384  因子          系数 -0.3936 -0.3440 -0.4054 -0.2814 0.2866 -0.3118 0.3574   下面对1979年和1980年分别进行预报。根据计算结果,1979年相似于1962、1976、1975年,其相似系数分别为0.550、0.348、0.162,则预报方程为  预报1979年9月份在西太平洋有5个台风生成。1980年的相似于1962、1979、1976、1956、1958年,其相似系数分别为0.352、0.262、0.166、0.156、0.143,则预报方程为  预报1980年9月份在有5~6个台风生成。而实际上,1979、1980年9月份西太平洋台风生成个数都为6个,预报和实际情况基本一致。 另外,秩相关秩相似还可以用于汛期降水预报和其它方面的中长期预报。在使用秩相关秩相似方法时应注意以下两点: (1)秩相关秩相似法比较简单,定量且使用效果比较稳定,只要普查到一定数量的相似预报因子,对长、中、短期预报都可以应用,特别是中、长期预报更具有优越性。利用此方法来普查相似预报因子,计算较容易。它反映了预报因子和预报对象在整个序列中数量上的紧密程度,并且是在分n级情况下进行是,克服了相关概率只分两级而产生的弊病,对预报因子的要求也更高了。 (2)利用秩相关系数作相似分析,要求预报因子尽可能多一些。在普查中,有些预报因子与预报对象之间的因果关系不易搞清楚,挑选的预报因子难免存在偶然性,这就需要收集、普查各方面的气象要素,经过较多因子的综合分析,才能找到高质量的相似预报因子。 三十七、多自变量场对多因变量场预报模型 郑广明 37号 多自变量与多预报对象场在地区级以上的短期气候预测中都要考虑到,有关多因变量场分布预报国内一些学者对此曾作过研究,他们认为由于要素场水平分布的复杂性,用单点的预报无法解决场的水平分布预报问题,即使试图对场的每一点都进行预报后总和起来也不行。由于逐点预报没有考虑相邻各点之间的相互联系,并且不具有连续性,因此尽管把个点预报都作出来,也不能克服场水平分布的物理联系。如对雨量场分布的预测,由于受地形影响较大,单点的雨量往往缺乏代表性,必须考虑雨量场的分布预报等。 综上所述,预报对象的场预报问题是气象台站作预测时需要解决的问题,下面我们将介绍有关场预报的方法及具体建模步骤。 一、基本概念 如果我们要作给定空间区域内气象要素的水平分布预报,则预报对象为要素场,当我们采用高度场网格点资料和海温网格点资料为预报因子时,所有预报因子称为预报因子场。目前场的预报分为(1)预报对象是多因变量场,预报因子也是场;(2)预报因子是场,预报对象是变量集等。 二、分量的场预报模型 用EOF进行场展开并提取主成分进行分析时,根据抽样理论,当所取的样本足够大时,特征向量会趋于稳定,在实际应用中,对自然正交函数的展开要进行显著性,稳定性检验。当典型特征场趋一稳定时,可采用EOF作场展开进行预报。在作场预报时,要把特征向量看作不随时间变化,从而只要预报出n+1时刻的前k个典型特征向量场的主要成分时,则可得整个要素场的预报值。目前常见的有以下几种方法: (1)预报对象和预报因子场作经验正交函数展开,提取预报对象的前k个主成分作为新的预测对象,预报因子场的主成分视因子场的多少可提取前p个或全部,将预报对象的主成分与预报因子主成分作逐步回归,最终预报出空间预报对象场分布。这种模型也称作场对场预测模型。 (2)将预报对象场作EOF展开后,提取前k个主成分作为新的预报对象,与预报因子集进行逐步筛选,最终得到预报对象场预报值。 (3)当预报对象站点较少(一般少于5个)时,可采用将预报因子场作EOF展开,将预报对象直接与预报因子主成分作逐步回归(最优回归),直接得到预报对象预测值。 1、模型的原理和方法 (1)预报对象和预报因子都是场的预报模型 设预报对象场在地理空间上有m个站点,其样本长度为n,记为表示个站点的变量值,t是时间i=1,2,,将m个站的资料作中心化处理,作经验正交函数展开并用矩阵表示:  (1) 上式空间典型特征向量场,它反映了变量场空间分布的性质和特点,Z为变量场的主成分。把特征值按从大到小的顺序排列,提取累积方差贡献以上的前k个主成分作为预报对象。 对预报因子场资料进行中心化处理后也作EOF展开,主成分记为将()与作逐步回归分析,筛选出对贡献大的因子建立预报方程,得:  (2) A为系数矩阵,U为筛选出的预报因子阵,设有r个。则可得到t=n+1时刻的。将Z(n+1)代入(4.10.1)式,可得到m个站n+1时刻的预测值。 (2)预报对象是场,预报因子是变量不作场展开的预报模型 首先对预报对象作EOF展开,与(1)的方法相同,得前k个主成分。用Z与预报因子集X作逐步回归预报模型,每个预报对象主成分方程的复相关系数回归方程的总复相关系数为,得到n+1时刻的主成分后,再代入(4.10.1)式,就可预测出空间预报对象场分布。 (3)预报因子是场,预报对象为多变量(或站点数较少)不作场展开时的预报模型 将预报因子场作作经验正交函数展开,提取前r个主成分为预报因子,将预报对象集Y与主成分建立逐步回归方程,直接得到预报对象的预测值。需要注意的是对于预报因子场,最好把样本资料和外推时刻预报对象的因子场资料放在一起作EOF场展开,然后把预报因子样本资料主成分用来建立回归模型,外推预报对象因子场资料的成分用来作外推预报,这样做的优点是预报因子场作经验正交函数展开时已考虑了外推样本场的情况,避免了典型特征随外推样本变化不稳定的问题。 (4)预报因子和预报对象都是场时模型的建模步骤 ①对预报对象场进行中心化处理,得到Y阵。 ②预报对象场Y进行EOF展开。 ③得特征向量V和特征值,提取累积方差贡献≥85%(或根据具体情况增减)以上的前k个主成分为新的预报对象。 ④对预报因子场作EOF展开。 ⑤提取前r个预报因子场的主成分为预报因子。 ⑥将与作逐步回归,筛选出对Z影响较大的因子建立预报方程,得到第n+1个的预报对象主成分。 ⑦将n+1时刻的代入(4.10.1)式,可得到m个站n+1时刻的预报值。 ⑧点绘预报对象场预测分布图。 (5)预报对象是场,预报因子是变量时模型的建模步骤 ①同方法(4)的第①~③步。 ②将分别与预报因子集作逐步回归建立预报方程,得到第n+1时刻的预报对象成分。 ③同方法(4)的第⑦~⑧步。 (6)预报因子是场,预报对象为变量集不作场展开时模型的建模步骤 ①同方法(4)的第④~⑤步。 ②将预报对象与预报因子成分,建立逐步回归方程,并直接作出预报。 三、车贝雪夫正交函数展开预报模型 1、等矩格点的车贝雪夫正交函数 设在x方向有n个等距格点,在y方向有m个等距格点,空间场的格点变量表示为Z(x,y),用车贝雪夫正交多项式来展开场Z(x,y),可表示为:  (3) 其中分别是x方向车贝雪夫正交多项式第i项及y方向车贝雪夫正交多项式第j项,其两项相乘表示为典型场,取不同的和相乘可得到不同的典型场。为各典型场展开系数,它表示所代表的典型场比重,称为权重系数。因此,车贝雪夫正交函数场展开就归为求各典型场的权重系数。  (4) 对(4)采用最小二乘法,得:  (5) 车贝雪夫正交函数场展开的精度,可用复相关系数表示:  (6) 对于标准化的车贝雪夫正交多项式,其场展开为:  (7) 则系数公式为:  (8) 与的关系为:  总的复相关系数为:  2、不规则点的车贝雪夫正交函数 上面介绍的是等距车贝雪夫正交函数场展开,但在实际问题中,格点经常是不规则的。设在x方向有n个不规则格点,在y方向有m个不规则格点变量,在二维空间上有个不规则格点变量,记为Z(x,y)。首先对Z(x,y)坐标格点作非线性变换   使得变换后得到的新坐标对原个不规则点变为等距格点,相应的函数为,将每一个不规则点(x,y)连成曲线,编以相应的格点序号(1,1),(2,2),(n,m)。下一步只须以格点号为新的平面坐标,进行等距格点的车贝雪夫正交场展开即可。 由于格点与序号一一对应,在实际应用中,只要命名了格点的序号,就找到了一个非线性变换,这就解决不规则网格点场展开的问题。 3 车贝雪夫正交函数场展开的方差 用车贝雪夫正交函数场展开后,可以对每个典型场的偏回归平方和进行方差分析检验,以便确定各典型场的贡献是否显著。设共展开为e个典型场,方差分析可以表格化进行,见表1。 总变差  均方差  查F分布表来检验典型场贡献是否显著,自由度为(1,n-e-1)。 表1 车贝雪夫正交函数场展开方差分析表 典型场变差 系数 均方差 F检验                  若变量场Z(x,y)有p个样本场,可按以下方法来提取前k个主要典型场。 设第一个样本场车贝雪夫正交函数展开方差分析结果为:。第二个样本场车贝雪夫张开方差分析结果为:。则第p个样本场车贝雪夫展开方差分析结果为:。 对p个样本求和,则第一个典型场的总样本方差为:。p个样本场的总方差为,把从大到小排列,提取方差贡献率≥85%的前d个主要典型场。 4、预报思路 与主成分预预测模型一样,无论是预报因子场还是预报对象场或两者为场时,都可以用车贝雪夫正交函数场展开來作预报。首先将预报对象和预报因子场按(4.10.3)或(4.10,7)分别展开,提取预报因子场的车贝雪夫展开系数为预报因子集。将预报对象场展开的车贝雪夫系数作为新的预报对象,根据方差贡献在85%以上的前d个主要典型场的权重系数为预报对象。其次将前d个预报对象与预报因子集作逐步回归,预测出第p+1个时刻预报对象的权重系数(车贝雪夫展开系数),并将其代入(4.10.3)或(4.10.7),即可作出预报对象场分布。 5 、模型的建模步骤 (1)设x方向和y方向每个样本场展开的截止阶数分别为k、r对预报对象每个样本场作车贝雪夫正交函数场展开并进行方差分析,提取方差贡献≥85%以上的前d个主要典型场的车贝雪夫展开系数A为预报对象。 (2)将预报因子场作车贝雪夫正交函数场展开,并将展开系数作为预报因子集 B。 (3)将A与B作逐步回归,筛选出对A影响较大的因子建立预报方程,得到第p+1个的预报对象展开系数。 (4)将A代入(4.10.3)或(4.10.7)式,得到n个站p+1时刻的预报值。 (5)点绘预报对象场分布图。 四、典型相关场预测模型 在主成分的场预报模型中,我们在展开预报因子场时,并没有考虑其与预报对象场的关系,当展开预报对象场时,也没有考虑其与预报因子场的整体相关,只是在这两个场单独展开后,才来分析这两个展开场之间的关系。因此,这一部分我们把预报对象和预报因子限定在场的范围内。显然我们要讨论的是通过展开因变量场和自变量场之间的相关场,来寻找它们之间的联系并作出预报,这就是典型相关场分析预报。 1、典型相关场预报 对两变量场X和Y,X为p个点,样本长度为n,Y为q个点,样本长度为n+1。由第七节可知,典型相关场中典型变量d与c具有以下性质: (1)各分量线性无关。 (2)各分量方差为1,平均值为0。 以上两条即。 (3)典型相关系数为:  因此,可以建立典型变量之间的回归方程。 设为因变量,为自变量,建立c与d之间的矩阵回归方程为  (9) 第i对典型变量、有:    由此可以证明  (10) 即典型相关系数又是用自变量场预报因变量场的回归系数矩阵。因此,当对自变量场和因变量场作了典型相关分析后,就可以直接作典型场预报了。 (9)可写为:  (11) 根据(3)、(4)有:  (12) 则:  (13) 由于:  (14) 则:   (15) 其中     (16) 如果去取全部特征值特征向量,则相当于用作为自变量建立的q个回归方程。但在典型相关分析中,通过典型相关场分析,找到前r个通过显著性检验的典型相关因子来代替全部变量直接作典型相关场预报。 2、建模步骤 (1)设有预报因子场X,共有p个站点,预报对象场Y,共有q个因变量,样本长度为n。 (2)类似于第七节的求解步骤1~8。 (3)通过显著性检验。取前r个典型相关因子按(4.10.15)式作出q个预报对象的场预测分布。 (4)将所得预测结果点绘在地理图上进行预测分析。 五、保奇异值分解预测模型 SVD方法由于可以用来研究两个气象场的相互作用,如果将其与多元回归结合,即可作为场对场预报方法作短期气候预测,下面介绍具体的建模步骤。 1、奇异值分解方法的预报原理及思路 设两个要素场,一个记为右场,记为Y(q,t),另一个为左场,记为X(p,t),q为预报对象站站点数,p为预报因子数,t是时间序列,其长度有n个样本。对应的奇异值为。 将X、Y按各自的奇向量完全展开为:  (17)  (18) 其中A、B分别为X和Y的时间系数阵。 其预报思路为先用SVD对预报对象与外界因子进行分解,将预报对象场预报转化为时间系数的预报,再用逐步回归方法作因子筛选进行时间系数预报。对预报对象和预报因子场作奇异值分解后,首先把特征值从大到小排列,把预报对象场(即右奇异向量)的时间系数作为新的预报对象场,预报因子场为m个左奇异向量的时间系数,并进行显著性检验。将预报对象场的时间系数与m对奇异向量作逐步回归,筛选出对B贡献大的预报因子建立预报模型,则用n+1时刻的预报因子场X可得n+1时刻的预报对象时间系数B(n+1)。将时间系数B(n+1)代入式,可得到预报对象场第n+1时刻的预报值Y(n+1)。 2 、建模步骤 (1)设预报对象场为Y,预报因子场为X,其中:   首先将X、Y资料阵作标准化处理。 (2)对Y和X作奇异值分解后,把特征值从大到小排列,计算每对奇异向量的方差贡献和累积方差贡献。 (3)分析左右奇异向量的空间分布型。提取累积方差贡献≥85%以上的前对奇异向量的右奇异向量的时间系数作为预报对象场,预报因子场为个左奇异向量的时间系数。 (4)对于m对奇异向量,由于,则用n+1时刻的预报因子场X可得n+1时刻的时间系数A(n+1)。 (5)将右奇异向量的k个时间系数与左奇异向量A作逐步回归,筛选出对B贡献大的预报因子建立预报模型,用时间系数A(n+1)代入求得B第n+1时刻的预报值。 (6)时间系数B(n+1)代入(4.10.17)式,可得到预报对象场第n+1时刻的预报值Y(n+1)。 三十八、要素场预测的EOF迭代模型 郑清 38号 一、要素场预测的EOF迭代模型 EOF(Empirical Orthogonal Function)既经验正交函数分解,在数理统计的多元分析理论中又称主成分分析(主分量分析),是一种分解方法的两种提法。 EOF方法具有在任意无规律散布的站点区域上展开、收敛速度快等优点,可用做场预报模型,当提取主成分作为新的预报 对象时,一定要注意特征向量的显著性检验和稳定性检验问题。对于显著性检验,可采用经验正交函数的分解法进行,当特征值明显时,所提取 EOF按每个典型场的方差贡献大小,提取前k 个主要典型场来表征原变量场的主要特征,当选定主要典型后,就利用主成分(或系数)来作为预报对象进行预报。EOF展开后,其结果不但典型场是正交的,且各典型场的主成分也正交,EOF对于场展开是一次完成的,EOF的分解是依据场的实际特征归纳出来的。 EOF迭代模型保留了EOF展开的各种优点,只要用影响当地短期气候的物理过程和因子,就能收到较好的效果。无论是主成分、典型相关还是奇异值分解方法的场预报模型,由于能考虑同一天气气候区间的具体联系以及预报方程中因子的物理背景,因而对区域要素的分布预测准确率要高。这也说明用场与场的整体相关来考虑和处理问题比用点与点相关进行要素场预报更合理、优越,这种方法将在气候预测分析中得到广泛应用。 1、基本方法: ⑴用EOF展开气象预报场,其主要计算步骤如下: ①对要素场资料作中心化或者标准化处理,然后计算其协方差距阵S或者相关距阵,S是的实对称距阵。 ②实对称距阵可采用Jacobi 或迭代法求S的特征值Λ和特征向量V。 ③将得到的特征向量按由大到小的顺序排列为。 ④利用求出典型场的时间系数距阵T。其中,   ⑤对特征值进行显著性检验。 ⑥计算每个特征向量的方差贡献率和累计方差贡献。按 k=1,2……m , 求出方差贡献用 ⑵EOF迭代方法的预报方法和思路如下: 设预报对象场为Y,有个站点,预报因子场为X,共有个预报因子,样本长度,外推一步的样本长度为,。两种要素场在时间上可存在非同步性,将两种场用距阵表示为= ⑴ 其中和为  时刻的预报对象场和预报因子场距阵,当 为0距阵代表迭代初值为0。将⑴式做EOF展开,得到其拟合场为: 2、计算模型建立步骤: ①选取有物理意义的预报因子场,将预报对象场和预报因子场首先 作距平化处理或者标准化处理。 ②构造形如 = 的距阵。 ③给定ε或者固定迭代次数(如:l=10等)做EOF展开,分别取k=1,2,3,4,5时,进行对比分析。 ④对预报结果进行检验,采用该式进行检验,其中是报对的站点数,是报错的站点数。 ⑤绘制预测结果分布图,进行趋势分析。 二、应用概况: 1、EOF方法具有收敛快、能将大量资料信息浓缩集中且典型场不是人为给定的特点。用EOF来恢复要素场,不仅考虑了空间资料的分布特征,而且也充分考虑了分布函数随时间的演变。EOF可用于恢复历史气候资料,由于在恢复过程中充分利用了已有观测资料的时空分布特征,因而从整体上考虑了所恢复资料的效果。 2、EOF迭代模型被应用于云南气候预测研究,根据当地的实际情况,将预测对象和预测因子的历史实况距平数据均取相同年份构造距阵,然后将距阵中元素进行标准化处理后再做EOF迭代。在具体迭代的预测过程中,为了便于实际应用,规定迭代次数为10时停止迭代,并根据前人所做实验结果,取截断阶数作为最后的预测输出结果。EOF迭代模型预测的实际准确率可高达%甚至更高,可见,这是一种准确率较高的预报模型。 三十九、灰色系统理论及其在天气预报中的应用 郑勇 39号 我国科学家在20世纪80年代初提出的灰色系统理论是系统论的一个新分支,最初应用于工程控制、经济管理、未来学、农业、生物防治、水利等领域,并很快在气象领域得到应用,成为一种新的天气预报技术。 灰色系统是黑箱概念的一种推广。黑箱概念最初在电机工程中提出,它是一个不能打开的一个密封的箱子,上面有输入输出接头,电机师只能借助输入不同的电压或别的干扰测量出相应的输出,来了解其电机性能。像黑箱这样内部信息完全未知的系统我们称之为黑箱系统。相对黑箱而言,白箱可以打开查看一切,而灰箱则是半开半关的。响应地,我们把信息完全确知的系统称为白色系统,而把既含有已知信息,又含有未知信息的系统称为灰色系统。显然,在气象领域,由于大气观测受到各种条件限制,人们只能从真实大气中获取一部分信息,而且人类对大气变化规律的认识也不够全面,有些方面甚至知之甚少,因此,可以把大气视做灰色系统来处理。应用灰色系统理论处理预测问题的基本思想是设法使系统由“灰”变“白”。灰色系统的白化过程是根据对获得的观测资料的分析,用一定的数学方法尽可能的消除未知的随机因素的影响,建立能对系统作出预测的灰色模型。 一、灰色预测模型 灰色预测把一般统计学中的随机变量看成是在一定范围内变化的灰色量,而将随机过程看作在一定幅区一定时区内变化的灰色过程。在对作为灰色量的数据信息的处理上,不是从找统计规律着手,通过大量样本进行研究,而是用数据“生成”的方法将看似杂乱无章的原始数据整理成规律性较强的生成数列在做研究。因此,灰色预测不已原始数据建立模型,而已生成的数据建模,预测值则是模型输出的逆生成还原数据。 建立灰色模型(Grey Model,简称GM)使用的微分方程的动态建模方法。常用的GM是一个一阶单变量的线形微分方程模型,常记为(GM1.1)。它与众不同的数据处理方式结合,可以用于不同作用的预测,如数列预测、灾变预测、季节灾变预测、拓扑预测等。 1、累加生成和累减生成 累加生成是通过对原始数据序列的累加,使其随机性得以弱化,规律性得以强化。设有一由N个数据构成的原始序列:  则一次累加生成定义为   如有 ,则一次累加得  可见,经一次累加后,原序列由振荡型变成了单调递增型,数据的变化规律更清楚了。 按上述方法,可作M次累加,有  不难发现,对于非负数数据序列,累加次数越多,则随机性弱化越明显。当累加了足够多次后,可认为原时间序列已由随机变为非随机,由不平稳变为平稳化了。 2.累减生成 累减生成的目的是把累加数列还原为原始数列,或把基于累加生成的灰色预测值转化为实际的预测值。累加生成的过程实际上就是求等时距数据列的前后两个数据之间的差,如  一般地有   二、 建模原理 设原始数据序列 经过一次累加生成得到新序列 ,且 满足一阶单变量常微分方程  (1) 其中为常系数,视为对系统的常定输入。解此方程可得  当 时,有初值 ,则有解  上式也称为时间响应方程。对于等时间间隔取样的离散值,则有  (2) 将常微分方程(1)写成差分形式,并注意到取等时间间隔时 ,故有  同时,由于 涉及到 中两个时刻的值 因此对 相应地取其两个时刻的等权滑动平均值代替。则按最小二乘估计,可得参数 的估计值  其中   把估计值  代入时间响应方程(2),则有  (3) 此即为建立的灰色预测模型。由于模型是根据一阶单变量微分方程建立的,故称为一阶一元灰色模型,记作GM(1。1)。 模型(3)中,当时,算得的是历史资料序列的拟合值;当 时,计算值为第一个预报值,但它们都是一次累加生成值。为了得到预测对象的实际拟合值和预测值,需要用累减运算还原 其中 为常数。 3、建模步骤 建立GM(1,1)模型的步骤可归纳为: (1)根据原始数据序列计算一次累加序列; (2)建立B矩阵Y矩阵; (3)根据,求; (4)用时间响应方程(3)计算拟合值; (5)用(4)式累减还原; (6)计算均方根误差 或平均相对误差 ;   若 或 小于给定精度,则模型可用,并可用(3)和(4)式作外推预测。 4、建模预测时要注意的问题 (1) 首先,建立GM(1.1)时,要对原始序列作一次累加,因此要求原始序列的数据应为非负数,否则,累加时会正负抵消,不能达到使数据序列随时间递增的目的。 其次,从(4)式可以看出,合的原始序列线为指数线,而且可以证明,建模要求的累加生成数列呈形如指数规律的充分必要条件是原始数列呈指数规律,可能例外。即若原始数列不接近指数规律,那么累加生成数列也不会接近指数规律。 因此,原始序列具有非负性及单调性是用GM(1.1)模型进行拟合与预测获得良好精度的必要条件。 但在气象领域,如气温降水量等预报量的时间序列一般不直接满足非负性和单调性的基本建模条件,因此需要采取一定的方法加以处理。例如,用绝对温度来代替摄氏温度,或在摄氏温度上加一个足够大的正数,就可保证温度值的非负性。一次或次累加生成则是生成一个单调递增序列的基本方法,此外还可通过某种变换(或称之映射)来实现之,下面将用实例来说明。 (2) 从建模步骤可看出,灰色预测的计算较简便,且通常不需要很长的时间序列。如果序列太长,可能难以达到灰色系统理论所要求的光滑度,反而造成预报失败。但若序列太短,参加计算的信息量太少,也显然难有高精度的预测。序列长短的取定目前沿无完善的方法,可行方法之一是采用上述建模步骤(6)中计算并分析误差情况来确定。 (3) GM(1.1)是连续的时间数,从理论上说,该模型可从初值一直延伸到未来任何时刻。而实际上,正如我们在对数值预报误差的分析中指出的,随着时间的推移,未来一些随机扰动和因素,将不断进入系统,因此一般来说,真正有预测意义的仅是以后的一两个预测值,其它更远的预测结果只能作为规划性数据用作参考。 为了将不断进入系统的随机扰动和因素进去,应将每一个新得到的数据送入建模序列中,重新建模,重新预测。 四十、BP典型相关分析  钟伟 40号 典型相关分析中,要求样本量 n大于俩组变量场的个数 p . q, 以保证典型变量的稳定性。如果减少空间或变量个数,则可能损失有用的 信息。为了克服上述缺点,Barnett和Preisendorfer(1987)提出了一种CCA的计算方法,人们称这种方法为BPCCA。 一 、 方法介绍 设俩组变量均以作过标准化处理,第一组变量场有p个点为X,第二组变量有q个点为Y,样本长度为n,将两场做EOF展开,其线性表达式分别为:  (1)  (2) 式中分别是X和Y场的特征向量,分别是X和Y场的主分(时间序列函数)。第j个主成分的方差是,X场的主因子为:  同理,Y场的主因子为:  则(1)、(2)分别取前pp,qq个主分量的线性表达式为:  (3)  (4) 上式表示X、Y场分别是取前pp个和前qq个主因子构成变量场的两组新变量进行典型相关分析。设X得主因子阵和Y的主因子阵分别为:  (5)  (6) X场主因子矩阵(5)的相关阵为 ,Y场主因子阵(6)式的相关阵为 ,两个主因子的交叉阵为  。 变量场X的pp个主因子的BP线性组合为:  (7) 变量场Y的qq个主因子的BP线性组合为:  (8) 对线性组合构成的第一对新变量 ,使它们之间有最大的相关系数。 , 称为第一对BP典型变量  分别为相应的典型变量的荷载特征向量。 BP典型相关系数为:  (9) 同理,依次得到  ……对相互独立的典型变量。 二、求解步骤 1、对变量场X,Y进行标准化处理。 2、对标准化的两组变量作EOF展开,按(3),(4)式分别取前pp,qq个特征值、相应的特征向量及时间函数。 3、计算X的主因子阵A和Y的主因子阵B的相关阵 。 4、对方程 求特征值和特征向量,用相关方法求出矩阵的特征值及对应特征向量。 5、应用  i=1,2,3…..q 计算特征向量 为p维特征向量。 6、求典型变量: 7、求典型相关系数: 8、对典型变量相关进行显著性检验。 9、分析典型相关系数以及典型荷载特征向量。 三、BP典型相关的应用讨论 BPCCA由于计算简便,物理意义清晰,且能得到稳定的典型变量场,较适用于样本量小于空间点数的变量场。它和CCA的区别在于后者以考查两个变量的整个交叉协方差结构为出发点,前者主要从两变量场主要特征中提取典型相关,因而结果会有差别。当然,如果取两变量场所有的主因子时,也就是取相同特征值个数和空间点数时,BPCCA与CCA计算结果完全一致。BPCCA还可以用来研究变量场与因子场变量组之间的相应关系。 四十一、预报的集成 周国慧 41号 在使用各种统计方法作气象预报后,尽管是对同一预报对象作预报,但是由于不同的预报手段,不同因子的使用,预报的结果不尽相同,因此,有必要用一种客观的方法把预报结果进行集成,然后作出最后的预报。下面是几种简单的预报继承方法。 一、权重线性集成 对各个预报方法根据起准确率或评分的优劣不同,配以不同的权重,组成简单的线性组合作为集成预报的结果。例如设有p种预报方法,对某一对象作预报有p 个结果,则有集成预报  (1) 其中为第k个预报方法的权重。权重应满足。例如,有三种不同的预报方法报某地降水量,每个方法都作50次预报,预报成功率分别为45/59=0.90,40/50=0.80,35/50/0.70。各个方法的权重应为  得集成预报方程为  二、线性回归集成 对p个预报方法的结果 看成回归分析中p个因子,对原预报量可作线性回归分析。得到新回归方程  (2) 作集成预报的估计。 例如广西北海气象站为预报该地8月份降水量,共选取15个因子,以5个为一组,分别建立三个回归方程为然后把它们作为新因子,用样本得到的n 个估计值,再与实况y建立回归方程,得集成预报方程。比较结果,集成预报方程的历史概括率为74%,比原来单个方程提高了30%以上。 但在集成过程中,由于不同方法对y(预报量)预报得到不同的新因子y1,…,yp有比较大的相关,因此有可能求回归系数的系数矩阵(因子的协方差矩阵)接近退化,这种情况称为标准方程组的病态,这种病态使回归系数的估计出现不稳定,一些气象学家提出用岭回归来解决。在相关的条件下,龄回归系数向量了用调整一个合适的的值来求得,即  (3)  值可试验地确定,或者用回归系数向量的均方差最小的原则确定。 三、主分量集成 与线性回归集成类似,也可以把看成p维空间中的向量,用主分量分析方法提取它们的第一主分量作为预报。由于它们的相关性十分强,因此在提取过程中,第一主分量会占绝对优势,其余分量在可看成是不同预报方法的偏差。 总之,集成预报是利用预报结果作为新因子作统计预报的过程。像回归,判别,主分量,聚类,时间序列等分析方法的预报结果,都可以用这种方法来处理。