神经网络：第06讲反向传播网络

分类：生物格式：doc 日期：2005年09月19日

第06讲反向传播网络给定任意和任意L2函数，存在一个三层BP网络，可以在任意平方误差精度内逼近。
实现任意N个输入向量构成的任何布尔函数的前向网络所需权系数数目为：

我们前面讲到的感知器神经网络和线性神经元网络均为单层网络结构，其传递函数都十分简单，感知器为单边符号函数，线性神经网络为纯线性函数。在此，我们将上面网络结构进行推广，推广到多层网络，并且将传递函数变为非线性可微分函数，这就是BP网络。
反向传播网络(Back—Propagation Network，简称BP网络)是将W—H学习规则一般化，对非线性可微分函数进行权值训练的多层网络。
由于感知器神经网络中神经元的变换函数采用符号函数，其输出为二值量，因此它主要用于模式分类。BP网络是一种多层前向反馈神经网络，其神经元的变换函数是S型函数，因此输出量为0到1之间的连续量，它可以实现从输入到输出的任意的非线性映射。由于其权值的调整采用反向传播（Backpropagation）的学习算法，因此被称为BP网络。
BP网络主要用于：
1)函数逼近：用输入矢量和相应的输出矢量训练一个网络逼近—个函数；
2)模式识别：用一个特定的输出矢量将它与输入矢量联系起来；
3)分类：把输入矢量以所定义的合适方式进行分类；
4)数据压缩：减少输出矢量维数以便于传输或存储。
在人工神经网络的实际应用中，80％～90％的人工神经网络模型是采用BP网络或它的变化形式，它也是前向网络的核心部分，体现了人工神经网络最精华的部分。在人们掌握反向传播网络的设计之前，感知器和自适应线性元件都只能适用于对单层网络模型的训练，只是后来才得到了进一步拓展。
6．1 BP网络模型与结构一个具有r个输入和一个隐含层的神经网络模型结构如图6．1所示。

图6．1 具有一个隐含层的神经网络模型结构图感知器和自适应线性元件的主要差别在激活函数上：前者是二值型的，后者是线性的。BP网络具有一层或多层隐含层，除了在多层网络上与前面已介绍过的模型有不同外，其主要差别也表现在激活函数上。BP网络的激活函数必须是处处可微的，所以它就不能采用二值型的阀值函数{0，1}或符号函数{—1，1}，BP网络经常使用的是S型的对数或正切激活函数和线性函数。
图6．2所示的是S型激活函数的图形。可以看到f（·）是一个连续可微的函数，其一阶导数存在。对于多层网络，这种激活函数所划分的区域不再是线性划分，而是由一个非线性的超平面组成的区域。它是比较柔和、光滑的任意界面，因而它的分类比线性划分精确、合理，这种网络的容错性较好。另外一个重要的特点是由于激活函数是连续可微的，它可以严格利用梯度法进行推算，它的权值修正的解析式十分明确，其算法被称为误差反向传播法，也简称BP算法，这种网络也称为BP网络。

图6,2 BP网络S型激活函数因为S型函数具有非线性放大系数功能，它可以把输入从负无穷大到正无穷大的信号，变换成-1到l之间输出，对较大的输入信号，放大系数较小；而对较小的输入信号，放大系数则较大，所以采用S型激活函数可以去处理和逼近非线性的输入/输出关系。不过，如果在输出层采用S型函数，输出则被限制到一个很小的范围了，若采用线性激活函数，则可使网络输出任何值。所以只有当希望对网络的输出进行限制，如限制在0和1之间，那么在输出层应当包含S型激活函数，在一般情况下，均是在隐含层采用S型激活函数，而输出层采用线性激活函数。
BP网络的特点：
输入和输出是并行的模拟量；
网络的输入输出关系是各层连接的权因子决定，没有固定的算法；
权因子是通过学习信号调节的，这样学习越多，网络越聪明；
隐含层越多，网络输出精度越高，且个别权因子的损坏不会对网络输出产生大的影响。
6．2 BP学习规则
BP网络的产生归功于BP算法的获得。BP算法属于δ算法，是一种监督式的学习算法。其主要思想为：对于q个输入学习样本：P1，P2，……Pq，已知与其对应的输出样本为：T1，T2，……Tq。学习的目的是用网络的实际输出A1，A2，……Aq，与目标矢量T1，T2，……Tq，之间的误差来修改其权值，使Al，(l＝l，2…，q)与期望的Tl尽可能地接近；即：使网络输出层的误差平方和达到最小。它是通过连续不断地在相对于误差函数斜率下降的方向上计算网络权值和偏差的变化而逐渐逼近目标的。每一次权值和偏差的变化都与网络误差的影响成正比，并以反向传播的方式传递到每一层的。
BP算法是由两部分组成：信息的正向传递与误差的反向传播。在正向传播过程中，输入信息从输入经隐含层逐层计算传向输出层，每一层神经元的状态只影响下一层神经元的状态。如果在输出层没有得到期望的输出，则计算输出层的误差变化值，然后转向反向传播，通过网络将误差信号沿原来的连接通路反传回来修改各层神经元的权值直至达到期望目标。
为了明确起见，现以图6．1所示两层网络为例进行BP算法推导，其简化图如图6．3所。

图6．3 具有一个隐含层的简化网络图设输入为P，输入神经元有r个，隐含层内有s1个神经元，激活函数为F1，输出层内有s2个神经元，对应的激活函数为F2，输出为A，目标矢量为T。
6．2．1信息的正向传递
1)隐含层中第i个神经元的输出为：
（6.1）
2)输出层第k个神经元的输出为：
（6.2）
3)定义误差函数为：
（6.3）
6．2．2利用梯度下降法求权值变化及误差的反向传播
(1)输出层的权值变化对从第i个输入到第k个输出的权值有：
（6.4）
其中：
（6.5）（6.6）
同理可得：
（6.7）
(2)隐含层权值变化对从第j个输入到第i个输出的权值，有：
（6.8）
其中：
（6.9）
同理可得：
（6.10）
在MATLAB工具箱中，上述公式的计算均已编成函数的形式，通过简单的书写调用即可方便地获得结果。具体有：
1)对于(6．1)式所表示的隐含层输出，若采用对数S型激活函数，则用函数logsig.m；若采用双曲正切S型激活函数，则用函数tansig.m；
2)对于(6．2)式所表示的输出层输出，若采用线性激活函数有purelin.m与之对应；
3)对于(6．3)式所表示的误差函数，可用函数sumsqr.m求之；
4)有learnbp.m函数专门求(6．4)、(6．7)、(6．8)和(6．10)式所表示的输出层以及隐含层中权值与偏差的变化量；
5)由(6.5)和(6.9)式所表示的误差的变化有函数deltalin.m、deltatan.m、deltalog.m来解决。它们分别用于线性层、双曲正切层和对数层。
6．2．3 误差反向传播的流程图与图形解释误差反向传播过程实际上是通过计算输出层的误差ek，然后将其与输出层激活函数的一阶导数f2’相乘来求得δki。由于隐含层中没有直接给出目标矢量，所以利用输出层的δki反向传递来求出隐含层权值的变化量Δw2ki。然后计算，并同样通过将ei与该层激活函数的一阶导数f1’相乘，而求得δij，以此求出前层权值的变化量Δw1ij。如果前面还有隐含层，沿用上述同样方法依此类推，一直将输出误差ek一层一层的反推算到第一层为止。图6．4给出了形象的解释。

图6．4 误差反向传播法的图形解释
BP算法要用到各层激活函数的一阶导数，所以要求其激活函数处处可微。对于对数S型激活函数，其导数为：

对于线性函数的导数有：

所以对于具有一个S型函数的隐含层，输出层为线性函数的网络，有：

6.3 BP网络的训练过程为了训练一个BP网络，需要计算网络加权输入矢量以及网络输出和误差矢量，然后求得误差平方和。当所训练矢量的误差平方和小于误差目标，训练则停止，否则在输出层计算误差变化，且采用反向传播学习规则来调整权值，并重复此过程。当网络完成训练后，对网络输入一个不是训练集合中的矢量，网络将以泛化方式给出输出结果。
在动手编写网络的程序设计之前，必须首先根据具体的问题给出的输入矢量P与目标矢量T，并选定所要设计的神经网络的结构，其中包括以下内容：
①网络的层数；②每层的神经元数；③每层的激活函数。
由于BP网络的层数较多且每层神经元也较多，加上输入矢量的组数庞大，往往使得采用一般的程序设计出现循环套循环的复杂嵌套程序，从而使得程序编得既费时，又不易调通，浪费了大量的时间在编程中而无暇顾及如何设计出具有更好性能的网络来。在这点上MatLAB工具箱充分展示出其神到之处。它的全部运算均采用矩阵形式，使其训练既简单，又明了快速。为了能够较好地掌握BP网络的训练过程，下面我们仍用两层网络为例来叙述BP网络的训练步骤。
1)用小的随机数对每一层的权值W和偏差B初始化，以保证网络不被大的加权输入饱和；并进行以下参数的设定或初始化：
a)期望误差最小值error_goal；
b)最大循环次数max_epoch；
c)修正权值的学习速率1r，一般情况下k＝0．0l~0．7；
d)从1开始的循环训练,for epoch＝1：max_epoch；
2)计算网络各层输出矢量A1和A2以及网络误差E：
A1＝tansig(W1*P，B1)；
A2＝purelin(W2*A1，B2)；
E＝T-A；
3)计算各层反传的误差变化D2和D1并计算各层权值的修正值以及新权值：
D2＝deltalin(A2，E)；
D1＝deltatan(A1，D2，W2)；
[dlWl，dBl]＝learnbp(P，D1，lr)；
[dW2，dB2]＝1earnbp(A1，D2，1r)；
W1＝W1十dW1；B1＝B1十dBl；
W2＝W2十dW2；B2＝B2十dB2；
4)再次计算权值修正后误差平方和：
SSE＝sumsqr(T-purelin(W2*tansig(W1*P，B1)，B2))；
5)检查SSE是否小于err_goal，若是，训练结束；否则继续。
以上就是BP网络在MATLAB中的训练过程。可以看出其程序是相当简单明了的。即使如此，以上所有的学习规则与训练的全过程，仍然可以用函数trainbp.m来完成。它的使用同样只需要定义有关参数：显示间隔次数，最大循环次数，目标误差，以及学习速率，而调用后返回训练后权值，循环总数和最终误差：
TP＝[disp_freq max_epoch err_goal 1r]；
[W，B，epochs，errors]＝trainbp(W，B，’F’，P，T，TP)；
函数右端的’F’为网络的激活函数名称。
当网络为两层时，可从第一层开始，顺序写出每一层的权值初始值，激活函数名，最后加上输入、目标输出以及TP，即：
[W1，B1，W2，B2，W3，B3，epochs，errors]＝trainbp(W1，B1，’F1’，W2，B2，’F2’，W3，B3，’F3’，P，T，TP)；
神经网络工具箱中提供了两层和三层的BP训练程序，其函数名是相同的，都是trainbp.m，用户可以根据层数来选取不同的参数。
[例6．1]用于函数逼近的BP网络的设计。
一个神经网络最强大的用处之一是在函数逼近上。它可以用在诸如被控对象的模型辨识中，即将过程看成一个黑箱子，通过测量其输入输出特性，然后利用所得实际过程的输入输出数据训练一个神经网络，使其输出对输入的响应特性具有与被辨识过程相同的外部特性。
下面给出一个典型的用来进行函数逼近的两层结构的神经网络，它具有一个双曲正切型的激活函数隐含层，其输出层采用线性函数。
这里有21组单输入矢量和相对应的目标矢量，试设计神经网络来实现这对数组的函数关系。
P=-1:0.1:1；
T=[-0.96 0.577 -0.0729 0.377 0.641 0.66 0.461 0.1336 …
-0.201 -0.434 -0.5 -0.393 -0.1647 0.0988 0.3072 …
0.396 0.3449 0.1816 -0.0312 -0.2183 -0.3201];
为此，我们选择隐含层神经元为5。较复杂的函数需要较多的隐含层神经元，这可以根据试验或经验来确定。
图6．5给出了目标矢量相对于输入矢量的图形。一般在测试中常取多于训练用的输入矢量来对所设计网络的响应特性进行测试。在函数逼近的过程中，画出网络输出相对于输入矢量的图形，可以观察到网络在训练过程中的变化过程。为了达到这一目的，我们定义一个密度较大的第二个输入矢量：
P2=-1:0.025:1;
首先对网络进行初始化：
[R,Q]＝size(P)； [S2，Q]＝size(T)； S1＝5；
[Wl，B1]＝rands(S1，R)；
[W2，B2]＝rands(S2，S1)；
通过测试，用输入矢量P2来计算网络的输出：
A2＝purelin(W2*tansig(W1*P2，B1)，B2)；
可以画出结果来观察初始网络是如何接近所期望训练的输入输出关系，如图6．6所示。其中，初始网络的输出值用实线给出。

图6．5 以目标矢量相对于输入矢量的图形图6．6 初始网络的输出曲线网络训练前的误差平方和为11.9115，其初始值为：
W10＝[0.7771 0.5336 -0.3874 0.2980 0.0265]；
B10＝[0.1822；0.6920；-0.1758；0.6830；-0.4614]；
W20＝[-0.1692 0.0746 -0.0642 -0.4256 -0.6433]；
B20＝[-0.6926]；
下面定义训练参数并进行训练
disp_freq=10； max_epoch＝8000；error_goal＝0.02； lr＝0.01；
TP=[disp_freq max_epoch error_goal lr]；
trainbp(W1，B1，‘tansig’，W2,B2，’purelin’，P，T，TP)
由此可以返回训练后的权值、训练次数和偏差。
图6.7至图6.10给出了网络输出值随训练次数的增加而变化的过程。每个图中标出了循环数目以及当时的误差平方和。
图6.11给出了6801次循环训练后的最终网络结果，网络的误差平方和落在所设定的0.02以内(0.0199968)。

图6.7训练1000次的结果图6.8训练2000次的结果

图6.9训练3000次的结果图6.10 训练5000次的结果

图6.11 训练结束后的网络输出与误差结果因为反向传播法采用的是连续可微函数，所以网络对输入／输出的逼近是平滑的。另外，虽然网络仅在输入值-1，-0.9，-0.8…，0.9，1.0处进行训练，但对于其他输入值的出现，例如，对训练后的网络输入p＝0.33的值，网络的输出端可得其对应输出为：
》A1=tansig(W1*0.33，B1)；
》A2＝purelin(W2*Al，B2)
A2=
0.1659
正如所希望的那样，这个值落在输入矢量为0.3和0.4所对应的输出矢量之间。网络的这个能力使其平滑地学习函数，使网络能够合理地响应被训练以外的输入。这性质称为泛化性能。要注意的是，泛化性能只对被训练的输入／输出对最大值范围内的数据有效，即网络具有内插值特性，不具有外插值性。超出最大训练值的输入必将产生大的输出误差。
6．4 BP网络的设计在进行BP网络的设计时，一般应从网络的层数、每层中的神经元个数和激活函数、初始值以及学习速率等几个方面来进行考虑。下面讨论一下各自选取的原则。
6．4．1网络的层数理论上已经证明：具有偏差和至少一个S型隐含层加上一个线性输出层的网络，能够逼近任何有理函数。这实际上已经给了我们一个基本的设计BP网络的原则。增加层数主要可以更进一步的降低误差，提高精度，但同时也使网络复杂化，从而增加了网络权值的训练时间。而误差精度的提高实际上也可以通过增加隐含层中的神经元数目来获得，其训练效果也比增加层数更容易观察和调整。所以一般情况下，应优先考虑增加隐含层中的神经元数。
另外还有一个问题：能不能仅用具有非线性激活函数的单层网络来解决问题呢？结论是：没有必要或效果不好。因为能用单层非线性网络完美解决的问题，用自适应线性网络一定也能解决，而且自适应线性网络的运算速度还更快。而对于只能用非线性函数解决的问题，单层精度又不够高，也只有增加层数才能达到期望的结果。
6．4．2 隐含层的神经元数网络训练精度的提高，可以通过采用一个隐含层，而增加其神经元数的方法来获得。这在结构实现上，要比增加更多的隐含层要简单得多。那么究竞选取多少个隐合层节点才合适?这在理论上并没有一个明确的规定。在具体设计时，比较实际的做法是通过对不同神经元数进行训练对比，然后适当地加上一点余量。
6．4．3初始权值的选取由于系统是非线性的，初始值对于学习是否达到局部最小、是否能够收敛以及训练时间的长短的关系很大。如果初始权值太大，使得加权后的输入和n落在了S型激活函数的饱和区，从而导致其导数f’（s）非常小，而在计算权值修正公式中，因为占δ∝f’(n)，当f’(n)→0时，则有δ→0。这使得Δwij→0，从而使得调节过程几乎停顿下来。所以，一般总是希望经过初始加权后的每个神经元的输出值都接近于零，这样可以保证每个神经元的权值都能够在它们的S型激活函数变化最大之处进行调节。所以，一般取初始权值在(—1，1)之间的随机数。另外，为了防止上述现象的发生，威得罗等人在分析了两层网络是如何对一个函数进行训练后，提出一种选定初始权值的策略：选择权值的量级为，其中s1为第一层神经元数目。利用他们的方法可以在较少的训练次数下得到满意的训练结果。在MATLAB工具箱中可采用函数nwlog.m或nwtan.m来初始化隐含层权值W1和B1。其方法仅需要使用在第一隐含层的初始值的选取上，后面层的初始值仍然采用随机取数。
6．4．4 学习速率学习速率决定每一次循环训练中所产生的权值变化量。大的学习速率可能导致系统的不稳定；但小的学习速率导致较长的训练时间，可能收敛很慢，不过能保证网络的误差值不跳出误差表面的低谷而最终趋于最小误差值。所以在一般情况下，倾向于选取较小的学习速率以保证系统的稳定性。学习速率的选取范围在0．01—0．8之间。
和初始权值的选取过程一样，在一个神经网络的设计过程中。网络要经过几个不同的学习速率的训练，通过观察每一次训练后的误差平方和∑e2的下降速率来判断所选定的学习速率是否合适。如果∑e2下降很快，则说明学习速率合适，若∑e2出现振荡现象，则说明学习速率过大。对于每一个具体网络都存在一个合适的学习速率。但对于较复杂网络，在误差曲面的不同部位可能需要不同的学习速率。为了减少寻找学习速率的训练次数以及训练时间，比较合适的方法是采用变化的自适应学习速率，使网络的训练在不同的阶段自动设置不同学习速率的大小。
6．4．5 期望误差的选取在设计网络的训练过程中，期望误差值也应当通过对比训练后确定一个合适的值，这个所谓的“合适”，是相对于所需要的隐含层的节点数来确定，因为较小的期望误差值是要靠增加隐含层的节点，以及训练时间来获得的。一般情况下，作为对比，可以同时对两个不同期望误差值的网络进行训练，最后通过综合因素的考虑来确定采用其中一个网络。
6．5 限制与不足虽然反向传播法得到广泛的应用，但它也存在自身的限制与不足，其主要表现在于它的训练过程的不确定上。具体说明如下：
(1)需要较长的训练时间对于一些复杂的问题，BP算法可能要进行几小时甚至更长的时间的训练。这主要是由于学习速率太小所造成的。可采用变化的学习速率或自适应的学习速率来加以改进。
(2)完全不能训练这主要表现在网络出现的麻痹现象上。在网络的训练过程中：当其权值调得过大，可能使得所有的或大部分神经元的加权总和n偏大，这使得激活函数的输入工作在S型转移函数的饱和区，从而导致其导数f’(n)非常小，从而使得对网络权值的调节过程几乎停顿下来。通常为了避免这种现象的发生，一是选取较小的初始权值，二是采用较小的学习速率，但这又增加了训练时间。
(3)局部极小值
BP算法可以使网络权值收敛到一个解，但它并不能保证所求为误差超平面的全局最小解，很可能是一个局部极小解。这是因为BP算法采用的是梯度下降法，训练是从某一起始点沿误差函数的斜面逐渐达到误差的最小值。对于复杂的网络，其误差函数为多维空间的曲面，就像一个碗，其碗底是最小值点。但是这个碗的表面是凹凸不平的，因而在对其训练过程中，可能陷入某一小谷区，而这一小谷区产生的是一个局部极小值。由此点向各方向变化均使误差增加，以致于使训练无法逃出这一局部极小值。
如果对训练结果不满意的话，通常可采用多层网络和较多的神经元，有可能得到更好的结果。然而，增加神经元和层数，同时增加了网络的复杂性以及训练的时间。在一定的情况下可能是不明智的。可代替的办法是选用几组不同的初姑条件对网络进行训练，以从中挑选它们的最好结果。
6．6 反向传播法的改进方法由于在人工神经网络中，反向传播法占据了非常重要的地位，所以近十几年来，许多研究人员对其做了深入的研究，提出了很多改进的方法。主要目标是为了加快训练速度，避免陷入局部极小值和改善其它能力。本节只讨论前两种性能的改进方法的有关内容。
6．6．1 附加动量法附加动量法使网络在修正其权值时，不仅考虑误差在梯度上的作用，而且考虑在误差曲面上变化趋势的影响，其作用如同一个低通滤波器，它允许网络忽略网络上的微小变化特性。在没有附加动量的作用下，网络可能陷入浅的局部极小值，利用附加动量的作用则有可能滑过这些极小值。
该方法是在反向传播法的基础上在每一个权值的变化上加上一项正比于前次权值变化量的值，并根据反向传播法来产生新的权值变化。带有附加动量因子的权值调节公式为：
（6.11）
其中k为训练次数，mc为动量因子，一般取0．95左右。
附加动量法的实质是将最后一次权值变化的影响，通过一个动量因子来传递。当动量因子取值为零时，权值的变化仅是根据梯度下降法产生；当动量因子取值为1时，新的权值变化则是设置为最后一次权值的变化，而依梯度法产生的变化部分则被忽略掉了。以此方式，当增加了动量项后，促使权值的调节向着误差曲面底部的平均方向变化，当网络权值进入误差曲面底部的平坦区时，δi将变得很小，于是，Δwij(k+1)≈Δwij (k)，从而防止了Δwij=0的出现，有助于使网络从误差曲面的局部极小值中跳出。
在MATLAB工具箱中，带有动量因子的权值修正法是用函数learnbpm.m来实现的。在使用此函数之前，先需将初始权值的变化置零：
dW＝0*W； dB=0*B；
然后，权值的变化可以根据当前层的输入(比如p)，误差变化(D＝deltalog.m，deltatan.m，deltalin.m)，学习速率lr，以及动量因子mc求得：

函数1earnbpm.m返回一个新的权值变化和偏差变化矢量。当要训练一个没有偏差或具有固定偏差的网络时，dB项可以从函数中消失，这样，网络的偏差则不被修正。
根据附加动量法的设计原则，当修正的权值在误差中导致太大的增长结果时，新的权值应被取消而不被采用，并使动量作用停止下来，以使网络不进入较大误差曲面；当新的误差变化率对其旧值超过一个事先设定的最大误差变化率时，也得取消所计算的权值变化。其最大误差变化率可以是任何大于或等于1的值。典型的值取1.04。所以在进行附加动量法的训练程序设计时，必须加进条件判断以正确使用其权值修正公式。
训练程序中对采用动量法的判断条件为：
（4.12）
所有这些判断过程细节均包含在MATLAB工具箱中的函数trainbpm.m中，它可以训练一层直至三层的带有附加动量因子的反向传播网络。以调用其他函数的同样方式调用trainbpm.m，只是对变量TP需提供较多的参数。下面是对单层网络使用函数trainbpm.m的情形：
[W，B，epochs，errors]＝trainbpm(W，B，’F’，P，T，TP)；
TP行矢量中的训练函数是训练过程中所需用到的参数，它们依次为：显示结果的频率disp_freq，期望的误差目标error_goal，学习速率1r，动量因子mc以及最大误差变化率err_ratio。
6．6．2 误差函数的改进前面定义的函数是一个二次函数：

当ak趋向1时，E趋向一个常数，即处于E的平坦区，从而造成了不能完全训练的麻痹现象。所以当一个网络的误差曲面存在着平坦区时，可以选用别的误差函数f(tk,ak)来代替(tk-ak)2的形式，只要其函数在ak=tk时能够达到最小值即可。
包穆(Baum)等人于1988年提出一种误差函数为：

该式同样满足当ak=tk时，E＝0，不过，当ak→土1时，该式发散。所以能够克服麻痹现象。如果采用双曲正切函数来作为激活函数，即取：

又因为

而

求误差函数对输出层的变量n求一阶导数并同时考虑关系式：

与常规的误差函数的情况δij=f’(n)(tk-ak)相比较，其中的f’(n)项消失了。这样，当n增大，进入激活函数的平坦区，使f’(n)→0时，不会产生不能完全训练的麻痹现象。但由于失去了f’(n)对Δw的控制作用，过大的Δw又有可能导致网络过调或振荡。为了解决这个问题，1989年，范尔曼(S.Fahlman)提出一种折中的方案，即取δk＝[f’(n)+0.1](tk-ak)，该式一方面恢复了f’(n)的某些影响，另一方面当|n|变大时，仍能保持δk有一定的大小，从而避免了麻痹现象的发生。
6．6．3 自适应学习速率对于一个特定的问题，要选择适当的学习速率不是一件容易的事情。通常是凭经验或实验获取，但即使这样，对训练开始初期功效较好的学习速率，不见得对后来的训练合适。为了解决这一问题，人们自然会想到在训练过程中，自动调整学习速率。通常调节学习速率的准则是：检查权值的修正值是否真正降低了误差函数，如果确实如此，则说明所选取的学习速率值小了，可以对其增加一个量；若不是这样，而产生了过调，那么就应该减小学习速率的值。下式给出了一种自适应学习速率的调整公式：

初始学习速率η(0)的选取范围可以有很大的随意性。
MATLAB工具箱中带有自适应学习速率进行反向传播训练的函数为：trainbpa.m。它可以训练直至三层网络。使用方法为：
[W，B，epochs，TE]＝trainbpa(W，B，’F’，P，T，TP)
在行矢量TP中的参数依次为：显示频率disp_freq，最大训练次数max_epoch，目标误差error_goal，初始学习速率lr，递增乘因子lr_inc，递减乘因子lc_dec和误差速率err_ratio。函数在训练结束后返回最终权值W和偏差B，训练网络所用次数epochs和训练误差记录TE。TE是两个行矢量，第一行为网络的训练误差，第二行为所对应的学习速率。
同其他训练函数的调用方法一样，这个训练过程函数的应用非常简单，整个网络的设计训练过程只需要以下几行程序：
disp_freq＝10；
max_epoch＝2000；
error_goal=0．02；
lr＝0．02；
1r_inc＝1．05；
1r_dec＝0．7；
err_ratio＝1．04；
TP＝[disp_freq max_epoch error_goal lr 1r_inc 1r_dec err_ratio]；
[W1，B1，W2，B2，epochs，TE]＝trainbpa (Wl，B1，’tansig’，W2，B2，’purelin’，P，T，TP)；
可以将动量法和自适应学习速率结合起来以利用两方面的优点。这个技术已编入了函数trainbpx.m之中。这个函数的调用和其他函数一样，只是需要更多的初始参数而已：
TP＝[disp_freq max_epoch error_goal lr 1r_inc 1r_dec mom_const err_ratio]；
[W，B，epochs，[error; lr]]＝trainbpx(W，B，F，P，T，TP)
4．7 本章小结
1)反向传播法可以用来训练具有可微激活函数的多层前向网络以进行函数逼近，模式分类等工作；
2)反向传播网络的结构不完全受所要解决的问题所限制。网络的输入神经元数目及输出层神经元的数目是由问题的要求所决定的，而输入和输出层之间的隐含层数以及每层的神经元数是由设计者来决定的；
3)已证明，两层S型线性网络，如果S型层有足够的神经元，则能够训练出任意输入和输出之间的有理函数关系；
4)反向传播法沿着误差表面的梯度下降，使网络误差最小，网络有可能陷入局部极小值；
5)附加动量法使反向传播减少了网络在误差表面陷入低谷的可能性并有助于减少训练时间；
6)太大的学习速率导致学习的不稳定，太小值又导致极长的训练时间。自适应学习速率通过在保证稳定训练的前提下，达到了合理的高速率，可以减少训练时间；
7)80％—90％的实际应用都是采用反向传播网络的。改进技术可以用来使反向传播法更加容易实现并需要更少的训练时间。
4．8作业用BP神经网络对一个简单的非线性神经元进行训练。
输入矢量 p=[-3 2]
目标矢量 t=[0.4 0.8]