2013-3-3 1
人工神经网络
Artificial Neural Networks
2013-3-3 2
课程目的和基本要求
? 作为人工神经网络的入门课程,用于将学
生引入人工神经网络及其应用的研究领域。
? 介绍人工神经网络及其基本网络模型,使
学生
– 了解智能系统描述的基本模型
– 掌握人工神经网络的基本概念、单层网、多层
网、循环网等各种基本网络模型的结构、特点、
典型训练算法、运行方式、典型问题
– 掌握软件实现方法。
2013-3-3 3
课程目的和基本要求
? 了解人工神经网络的有关研究思想,从中
学习开拓者们的部分问题求解方法。
? 通过实验进一步体会有关模型的用法和性
能,获取一些初步的经验。
? 查阅适当的参考文献,将所学的知识与自
己未来研究课题(包括研究生论文阶段的
研究课题)相结合起来,达到既丰富学习
内容,又有一定的研究和应用的目的。
2013-3-3 4
主要内容
? 智能及其实现
? ANN基础
? Perceptron
? BP
? CPN
? 统计方法
? Hopfield网与 BAM
? ART
2013-3-3 5
主要内容
第一章:引论
智能的概念、智能系统的特点及其描述基本
模型,物理符号系统与连接主义的观点及
其比较;人工神经网络的特点、发展历史。
2013-3-3 6
主要内容
第二章 人工神经网络基础
本章在介绍了基本神经元后, 将概要介绍
人工神经网络的一般特性 。 主要包括, 生
物神经网络模型, 人工神经元模型与典型
的激励函数;人工神经网络的基本拓扑特
性, 存 储 类 型 ( CAM── LTM,
AM── STM) 及映象, Supervised训练与
Unsupervised训练 。
2013-3-3 7
主要内容
第三章 感知器
感知器与人工神经网络的早期发展;单层
网能解决线性可分问题,而无法解决线形
不可分问题,要想解决这一问题,必须引
入多层网; Hebb学习律,Delta规则,感知
器的训练算法。
? 实验:实现一个感知器。
2013-3-3 8
主要内容
第四章 向后传播
?BP( Backpropagation)网络的构成及其训
练过程;隐藏层权调整方法的直观分析,BP
训练算法中使用的 Delta规则(最速下降法)
的理论推导;算法的收敛速度及其改进讨论;
BP网络中的几个重要问题。
?实验:实现 BP算法。
2013-3-3 9
主要内容
第五章 对传网
? 生物神经系统与异构网的引入;对传网的
网络结构,Kohonen层与 Grossberg层的正
常运行,对传网的输入向量的预处理,
Kohonen层的训练算法及其权矩阵的初始化
方法; Grossberg层的训练;完整的对传网。
? 实验:实现基本的对传网。
2013-3-3 10
主要内容
第六章 统计方法
? 统计方法是为了解决局部极小点问题而引
入的, 统计网络的基本训练算法, 模拟退
火算法与收敛分析, Cauchy训练, 人工热
处理与临界温度在训练中的使用, BP算法
与 Cauchy训练相结合 。
? 实验:实现模拟退火算法。
2013-3-3 11
主要内容
第七章 循环 网络
? 循环网络的组织, 稳定性分析;相联存储;
统计 Hopfield网与 Boltzmann机; Hopfield
网用于解决 TSP问题 。
? BAM(Bidirectional Associative Memory)
用于实现双联存储;基本双联存储网络的
结构及训练;其他的几种相联存储网络 。
? 实验:实现一个 Hopfield网。
2013-3-3 12
主要内容
第八章 自适应共振理论
? 人脑的稳定性与可塑性问题; ART模型的
总体结构与分块描述;比较层与识别层之
间的两个联接矩阵的初始化,识别过程与
比较过程,查找的实现;训练讨论。
2013-3-3 13
第 1章 引言
? 主要内容,
– 智能与人工智能;
– ANN的特点;
– 历史回顾与展望
? 重点,
– 智能的本质;
– ANN是一个非线性大规模并行处理系统
? 难点,对智能的刻画
2013-3-3 14
第 1章 引言
1.1 人工神经网络的提出
1.2 人工神经网络的特点
1.3 历史回顾
2013-3-3 15
第 1章 引言
? 人类对人工智能的研究可以分成两种方式
对应着 两种不同的技术,
– 传统的人工智能技术 ——心理的角度模拟
– 基于人工神经网络的技术 ——生理的角度模拟
2013-3-3 16
1.1 人工神经网络的提出
? 人工神经网络( Artificial Neural Networks,
简记作 ANN),是对人类大脑系统的一阶
特性的一种描述。简单地讲,它是一个 数
学模型,可以用 电子线路 来实现,也可以
用 计算机程序 来模拟,是人工智能研究的
一种方法。
2013-3-3 17
1.1 人工神经网络的提出
? 1.1.1 智能与人工智能
? 一, 智能的含义
? 智能是个体有目的的行为,合理的思维,
以及有效的、适应环境的综合能力 。
? 智能是个体认识客观事物和运用知识解决
问题的能力 。
? 人类个体的智能是一种综合能力。
2013-3-3 18
1.1 人工神经网络的提出
? 智能可以包含 8个方面
? 感知与认识 客观事物、客观世界和自我的能力
– 感知是智能的基础 ——最基本的能力
? 通过 学习 取得经验与积累知识的能力
– 这是人类在世界中能够不断发展的最基本能力。
? 理解知识, 运用知识 和经验分析、解决问题的能

– 这一能力可以算作是智能的高级形式 。 是人类对世界
进行适当的改造, 推动社会不断发展的基本能力 。
2013-3-3 19
1.1 人工神经网络的提出
? 联想、推理、判断、决策语言 的能力
– 这是智能的高级形式的又一方面。
– 预测和认识
–,主动”和“被动”之分。联想、推理、判断、
决策的能力是“主动”的基础。
? 运用进行抽象、概括的能力
? 上述这 5种能力,被认为是人类智能最为 基
本的能力
2013-3-3 20
1.1 人工神经网络的提出
? 作为 5种能力综合表现形式的 3种能力
– 发现、发明、创造、创新的能力
– 实时、迅速、合理地应付复杂环境的能

– 预测、洞察事物发展、变化的能力
2013-3-3 21
1.1 人工神经网络的提出
? 二、人工智能
? 人工智能:研究如何使类似计算机这样的设备去
模拟人类的这些能力。
? 研究人工智能的目的
– 增加人类探索世界,推动社会前进的能力
– 进一步认识自己
? 三大学术流派
– 符号主义(或叫做符号 /逻辑主义)学派
– 联接主义(或者叫做 PDP)学派
– 进化主义(或者叫做行动 /响应)学派
2013-3-3 22
1.1 人工神经网络的提出
? 1.1.2 物理符号系统
?
人脑的反映 形式化
现实 信息 数据
物理系统 物理符号系统
表现智能
2013-3-3 23
1.1 人工神经网络的提出
? Newell和 Simon假说,一个物理系统表现
智能行为的充要条件是它有一个物理符号
系统
? 概念:物理符号系统需要有一组称为符号
的实体组成,它们都是物理模型,可以在
另一类称为符号结构的实体中作为成分出
现,以构成更高级别的系统
2013-3-3 24
1.1 人工神经网络的提出
? 困难,
– 抽象 ——舍弃一些特性, 同时保留一些特性
– 形式化处理 ——用物理符号及相应规则表达物
理系统的存在和运行 。
? 局限,
– 对全局性判断、模糊信息处理、多粒度的视觉
信息处理等是非常困难的。
2013-3-3 25
1.1 人工神经网络的提出
? 1.1.3 联接主义观点
? 核心:智能的本质是联接机制。
? 神经网络是一个由大量简单的处理单元组
成的高度复杂的大规模非线性自适应系统
? ANN力求从四个方面去模拟人脑的智能行为
– 物理结构
– 计算模拟
– 存储与操作
– 训练
2013-3-3 26
1.1 人工神经网络的提出
? 1.1.4 两种模型的比较
心理过程 逻辑思维 高级形式 ( 思维的表象 )
生理过程 形象思维 低级形式 ( 思维的根本 )
仿生 人工神经网络
联结主义观点
物理符号系统
2013-3-3 27
1.1 人工神经网络的提出
? 物理符号系统和人工神经网络系统的差别
项目 物理符号系统 人工神经网络
处理方式 逻辑运算 模拟运算
执行方式 串行 并行
动作 离散 连续
存储 局部集中 全局分布
2013-3-3 28
1.1 人工神经网络的提出
? 两种人工智能技术的比较
项目 传统的 AI技术 ANN技术
基本实现
方式
串行处理;由程序实现
控制
并行处理;对样本数据进行多目标学习;
通过人工神经元之间的相互作用实现控制
基本开发
方法
设计规则, 框架, 程序;
用样本数据进行调试
( 由人根据已知的环境
去构造一个模型 )
定义人工神经网络的结构原型,通过样本
数据,依据基本的学习算法完成学习 ——
自动从样本数据中抽取内涵(自动适应应
用环境)
适应领域 精确计算:符号处理,
数值计算
非精确计算:模拟处理,感觉,大规模数
据并行处理
模拟对象 左脑 ( 逻辑思维 ) 右脑 ( 形象思维 )
2013-3-3 29
1.2 人工神经网络的特点
?信息的分布表示
?运算的全局并行和局部操作
?处理的非线性
2013-3-3 30
1.2.1 人工神经网络的概念
?1、定义
?1) Hecht—Nielsen( 1988年 )
人工神经网络是一个并行、分布处理结构,它由
处理单元及其称为联接的无向讯号通道互连而成。
这些处理单元( PE—Processing Element)具有
局部内存,并可以完成局部操作。每个处理单元
有一个单一的输出联接,这个输出可以根据需要
被分枝成希望个数的许多并行联接,且这些并行
联接都输出相同的信号,即相应处理单元的信号,
信号的大小不因分支的多少而变化。
2013-3-3 31
1.2.1 人工神经网络的概念
? ( 1) Hecht—Nielsen( 1988年)(续)
? 处理单元的输出信号可以是任何需要
的数学模型,每个处理单元中进行的
操作必须是完全局部的。也就是说,
它必须仅仅依赖于经过输入联接到达
处理单元的所有输入信号的当前值和
存储在处理单元局部内存中的值。
2013-3-3 32
1.2.1 人工神经网络的概念
? 强调,
– ① 并行, 分布处理结构;
– ② 一个处理单元的输出可以被任意分枝, 且
大小不变;
– ③ 输出信号可以是任意的数学模型;
– ④ 处理单元完全的局部操作
2013-3-3 33
1.2.1 人工神经网络的概念
? ( 2) Rumellhart,McClelland,Hinton的 PDP
? 1) 一组处理单元 ( PE或 AN) ;
? 2) 处理单元的 激活状态 ( ai) ;
? 3) 每个处理单元的 输出函数 ( fi) ;
? 4) 处理单元之间的 联接模式 ;
? 5) 传递规则 ( ∑wijoi) ;
? 6) 把处理单元的输入及当前状态结合起来产生
激活值的 激活规则 ( Fi) ;
? 7) 通过经验修改联接强度的 学习规则 ;
? 8) 系统运行的环境 ( 样本 集合 ) 。
2013-3-3 34
1.2.1 人工神经网络的概念
? ( 3) Simpson( 1987年 )
? 人工神经网络是一个非线性的有向图,图
中含有可以通过改变权大小来存放模式的
加权边,并且可以从不完整的或未知的输
入找到模式。
2013-3-3 35
1.2.1 人工神经网络的概念
? 2,关键点
? ( 1) 信息的分布表示
? ( 2) 运算的全局并行与局部操作
? ( 3) 处理的非线性特征
? 3,对大脑基本特征的模拟
? 1) 形式上:神经元及其联接; BN对 AN
? 2) 表现特征:信息的存储与处理
2013-3-3 36
1.2.1 人工神经网络的概念
? 4,别名
? 人工神经系统 ( ANS)
? 神经网络 ( NN)
? 自适应系统 ( Adaptive Systems), 自适应
网 ( Adaptive Networks)
? 联接模型 ( Connectionism)
? 神经计算机 ( Neurocomputer)
2013-3-3 37
1.2.2 学习( Learning)能力
? 人工神经网络可以根据所在的环境去改变
它的行为
? 自相联的网络
? 异相联的网络, 它在接受样本集合 A时, 可
以抽取集合 A中输入数据与输出数据之间的
映射关系 。 ——―抽象, 功能 。
? 不同的人工神经网络模型,有不同的学习 /
训练算法
2013-3-3 38
1.2.3 基本特征的自动提取
? 由于其运算的 不精确性, 表现成, 去噪音,
容残缺, 的能力, 利用这种不精确性, 比
较自然地实现模式的自动分类 。
? 普化( Generalization)能力与抽象能力
2013-3-3 39
1.2.4 信息的分布存放
? 信息的分布存提供容错功能
– 由于信息被分布存放在几乎整个网络中,所以,当其
中的某一个点或者某几个点被破坏时,信息仍然可以
被存取。
? 系统在受到 局部 损伤时还可以正常工作。
? 并不是说可以任意地对完成学习的网络进行修改。
也正是由于信息的分布存放,对一类网来说,当
它完成学习后,如果再让它学习新的东西,这时
就会破坏原来已学会的东西。
2013-3-3 40
1.2.5适应性 (Applicability)问题
? 擅长两个方面,
– 对大量的数据进行分类, 并且只有较少的几种
情况;
– 必须学习一个复杂的非线性映射 。
? 目前应用,
– 人们主要将其用于语音、视觉、知识处理、辅
助决策等方面。
– 在数据压缩、模式匹配、系统建模、模糊控制、
求组合优化问题的最佳解的近似解(不是最佳
近似解)等方面也有较好的应用。
2013-3-3 41
1.3 历史回顾
? 1.3.1 萌芽期 ( 20世纪 40年代 )
? 人工神经网络的研究最早可以追溯到人类
开始研究自己的智能的时期, 到 1949年止 。
? 1943年, 心理学家 McCulloch和数学家 Pitts
建立起了著名的阈值加权和模型, 简称为
M-P模型 。 发表于数学生物物理学会刊
,Bulletin of Methematical Biophysics,
? 1949年,心理学家 D,O,Hebb提出神经元之
间突触联系是可变的假说 ——Hebb学习律。
2013-3-3 42
1.3.2 第一高潮期( 1950~1968)
? 以 Marvin Minsky, Frank Rosenblatt,
Bernard Widrow等为代表人物, 代表作是
单级感知器 ( Perceptron) 。
? 可用电子线路模拟 。
? 人们乐观地认为几乎已经找到了智能的关
键。许多部门都开始大批地投入此项研究,
希望尽快占领制高点。
2013-3-3 43
1.3.3 反思期( 1969~1982)
? M,L,Minsky和 S,Papert,,Perceptron》,
MIT Press,1969年
? 异或, 运算不可表示
? 二十世纪 70年代和 80年代早期的研究结果
? 认识规律:认识 ——实践 ——再认识
2013-3-3 44
1.3.4 第二高潮期( 1983~1990)
? 1982年,J,Hopfield提出循环网络
– 用 Lyapunov函数 作为网络性能判定的能量函
数,建立 ANN稳定性的判别依据
– 阐明了 ANN与动力学的关系
– 用非线性动力学的方法来研究 ANN的特性
– 指出信息被存放在网络中神经元的联接上
? ?? ?? ?
? ??? ?
????
n
i
n
j
ij
n
i
x
iiiii
n
i
n
j
jiij wdsxsxswV
i
1 11 01 1
)()()()(
2
1 ????
2013-3-3 45
1.3.4 第二高潮期( 1983~1990)
? 2) 1984年,J,Hopfield设计研制了后来被
人们称为 Hopfield网 的电路。较好地解决了
著名的 TSP问题,找到了最佳解的近似解,
引起了较大的轰动。
? 3) 1985年,UCSD的 Hinton,Sejnowsky、
Rumelhart等人所在的并行分布处理( PDP)
小组的研究者在 Hopfield网络中引入了随机
机制,提出所谓的 Boltzmann机 。
2013-3-3 46
1.3.4 第二高潮期( 1983~1990)
? 4 ) 1986 年, 并 行 分 布 处 理 小 组 的
Rumelhart等研究者重新独立地提出多层网
络的学习算法 ——BP算法, 较好地解决了
多层 网络的学习 问题 。 ( Paker1982 和
Werbos1974年 )
? 国内首届神经网络大会 是 1990年 12月在北
京举行的 。
2013-3-3 47
1.3.5 再认识与应用研究期
( 1991~)
? 问题,
? 1) 应用面还不够宽
? 2) 结果不够精确
? 3) 存在可信度的问题
2013-3-3 48
1.3.5 再认识与应用研究期
( 1991~)
? 研究,
? 1) 开发现有模型的应用, 并在应用中根据实际运
行情况对模型, 算法加以改造, 以提高网络的训
练速度和运行的准确度 。
? 2) 充分发挥两种技术各自的优势是一个有效方法
? 3) 希望在理论上寻找新的突破, 建立新的专用 /
通用模型和算法 。
? 4) 进一步对生物神经系统进行研究, 不断地丰富
对人脑的认识 。
2013-3-3 49
第 2章 人工神经网络基础
? 主要内容,
– BN与 AN;
– 拓扑结构;
– 存储;
– 训练
? 重点,AN;拓扑结构;训练
? 难点,训练
2013-3-3 50
第 2章 人工神经网络基础
2.1 生物神经网
2.2 人工神经元
2.3 人工神经网络的拓扑特性
2.4 存储与映射
2.5 人工神经网络的训练
2013-3-3 51
2.1 生物神经网
1、构成
胞体 (Soma)
枝蔓 ( Dendrite)
胞体 (Soma)
轴突( Axon)
突触( Synapse)
2、工作过程
2013-3-3 52
2.1 生物神经网
? 3,六个基本特征,
– 1) 神经元及其联接 ;
– 2) 神经元之间的联接强度决定 信号传递 的强弱;
– 3) 神经元之间的联接强度是可以随 训练 改变的;
– 4) 信号可以是起 刺激 作用的, 也可以是起 抑制 作
用的;
– 5) 一个神经元接受的信号的 累积效果 决定该神经
元的状态;
– 6) 每个神经元可以有一个, 阈值, 。
2013-3-3 53
2.2 人工神经元
? 神经元是构成神经网络的最基本单元 ( 构
件 ) 。
? 人工神经元模型应该具有生物神经元的六
个基本特性。
2013-3-3 54
2.2.1 人工神经元的基本构成
? 人工神经元模拟生物神经元的 一阶特性 。
– 输入,X=( x1,x2,…, xn)
– 联接权,W=( w1,w2,…, wn) T
– 网络输入,net=∑xiwi
– 向量形式,net=XW
xn wn

x1 w1
x2 w2
net=XW …
2013-3-3 55
2.2.2 激活函数 (Activation Function)
? 激活函数 ——执行对该神经元所获得的网
络输入的变换, 也可以称为激励函数, 活
化函数,o=f( net)
? 1、线性函数( Liner Function)
f( net) =k*net+c
net
o
o
c
2013-3-3 56
2、非线性斜面函数 (Ramp Function)
γ if net≥θ
f( net) = k*net if |net|<θ
-γ if net≤-θ
? γ>0为一常数,被称为饱和值,为该神经元
的最大输出。
2013-3-3 57
2、非线性斜面函数( Ramp
Function)
γ

θ -θ net
o
2013-3-3 58
3、阈值函数( Threshold
Function)阶跃函数
β if net>θ f( net) =
-γ if net≤ θ
β,γ,θ均为非负实数, θ为阈值
二值形式,
1 if net>θ
f( net) =
0 if net≤ θ
双极形式,
1 if net>θ
f( net) =
-1 if net≤ θ
2013-3-3 59
3、阈值函数( Threshold
Function)阶跃函数
β

θ
o
net 0
2013-3-3 60
4,S形函数
压缩函数 ( Squashing Function) 和逻辑斯特
函数 ( Logistic Function) 。
f( net) =a+b/(1+exp(-d*net))
a,b,d为常数 。 它的饱和值为 a和 a+b。
最简单形式为,
f( net) = 1/(1+exp(-d*net))
函数的饱和值为 0和 1。
? S形函数有较好的增益控制
2013-3-3 61
4,S形函数
a+b
o
(0,c) net
a
c=a+b/2
2013-3-3 62
2.2.3 M-P模型
x2 w2
∑ f
o=f( net)
xn wn

net=XW
x1 w1
McCulloch—Pitts( M—P)模型,
也称为处理单元( PE)
2013-3-3 63
上次课内容回顾
? 擅长两个方面
? 目前应用
– 语音、视觉、知识处理
– 数据压缩、模式匹配、系统建模、模糊控制、求
组合优化问题的最佳解的近似解(不是最佳近似
解)
– 辅助决策 ——预报与智能管理
– 通信 —— 自适应均衡、回波抵消、路由选择、
ATM中的呼叫接纳、识别与控制
– 空间科学 —— 对接、导航、制导、飞行程序优化
2013-3-3 64
上次课内容回顾
? 发展过程
– 萌芽期( 20世纪 40年代)
? M-P模型
? Hebb学习律
– 第一高潮期( 1950~1968)
? Perceptron的兴衰
– 反思期( 1969~1982)
– 第二高潮期( 1983~1990)
? 4个标志性成果
– 再认识与应用研究期( 1991~)
2013-3-3 65
上次课内容回顾
? 生物神经网 六个基本特征
– 神经元及其联接, 信号传递, 训练, 刺激 与 抑
制, 累积效果,, 阈值, 。
? 人工神经元的基本构成
xn wn

x1 w1
x2 w2
net=XW …
2013-3-3 66
上次课内容回顾
? 激活函数与 M-P模型
– 线性函数、非线性斜面函数,阈值函数
– S形函数
– M-P模型
x2 w2
∑ f
o=f( net)
xn wn

net=XW
x1 w1
2013-3-3 67
2.3 人工神经网络的拓扑特性
连接的拓扑表示
ANi wij ANj
2013-3-3 68
2.3.1 联接模式
? 用正号 (, +‖,可省略 ) 表示传送来的信
号起 刺激 作用, 它用于增加神经元的活跃
度;
? 用负号 (, -‖) 表示传送来的信号起 抑制 作
用, 它用于降低神经元的活跃度 。
? 层次 (又称为, 级, )的划分,导致了神
经元之间的三种不同的 互连模式,
2013-3-3 69
2.3.1 联接模式
? 1,层(级)内联接
– 层内联接又叫做区域内( Intra-field)联
接或侧联接( Lateral)。
– 用来加强和完成层内神经元之间的竞争
? 2,循环联接
– 反馈信号。
2013-3-3 70
2.3.1 联接模式
? 3、层(级)间联接
– 层间 ( Inter-field) 联接指不同层中的神
经元之间的联接 。 这种联接用来实现层
间的信号传递
– 前馈信号
– 反馈信号
2013-3-3 71
2.3.2 网络的分层结构
? 单级网
– 简单单级网
2013-3-3 72
简单单级网
… …
x1
x2

xn
o1
o2
om
wnm
w11
w1m
w2m
wn1
输出层 输入层
2013-3-3 73
简单单级网
– W=( wij)
– 输出层的第 j个神经元的网络输入记为
netj,
– netj=x1w1j+x2w2j+… +xnwnj
– 其中,1≤ j ≤ m。 取
– NET=( net1,net2,…, netm)
– NET=XW
– O=F( NET)
2013-3-3 74
单级横向反馈网
输出层
x1 o1 w11
w1m
x2 o2
w2m
… … …
xn om
wn1
输入层
V
2013-3-3 75
单级横向反馈网
? V=( vij)
? NET=XW+OV
? O=F( NET)
? 时间参数 ——神经元的状态在主时钟的控制下同
步变化
? 考虑 X总加在网上的情况
– NET( t+1) =X( t) W+O( t) V
– O(t+1)=F(NET(t+1))
? O( 0) =0
? 考虑仅在 t=0时加 X的情况 。
? 稳定性判定
2013-3-3 76
多级网
输出层 隐藏层 输入层
o1
o2
om

x1
x2
xn
… … … … … …
2013-3-3 77
? 层次划分
– 信号只被允许从较低层流向较高层 。
– 层号确定层的高低:层号较小者, 层次
较低, 层号较大者, 层次较高 。
– 输入层,被记作第 0层 。 该层负责接收来
自网络外部的信息
输出层 隐藏层 输入层
o1
o2
om

x1
x2
xn
… … … … … …
2013-3-3 78
– 第 j层,第 j-1层的直接后继层 ( j>0), 它直接
接受第 j-1层的输出 。
– 输出层,它是网络的最后一层, 具有该网络的
最大层号, 负责输出网络的计算结果 。
– 隐藏层,除输入层和输出层以外的其它各层叫
隐藏层。隐藏层不直接接受外界的信号,也不
直接向外界发送信号
输出层 隐藏层 输入层
o1
o2
om

x1
x2
xn
… … … … … …
2013-3-3 79
? 约定,
– 输出层的层号为该网络的层数,n层网络, 或 n级
网络 。
– 第 j-1层到第 j层的联接矩阵为第 j层联接矩阵, 输
出层对应的矩阵叫输出层联接矩阵 。 今后, 在需
要的时候, 一般我们用 W( j) 表示第 j层矩阵 。
输出层 隐藏层 输入层
o1
o2
om

x1
x2
xn
… … … … … …
W(1) W(2) W(3) W(h)
2013-3-3 80
多级网 ——h层网络
输出层 隐藏层 输入层
o1
o2
om

x1
x2
xn
… … … … … …
W(1) W(2) W(3) W(h)
2013-3-3 81
多级网
? 非线性激活函数
–F(X)=kX+C
–F3(F2(F1(XW(1))W(2))W(3))
2013-3-3 82
循环网
x1 o1
输出层 隐藏层 输入层
x2 o2
om xn
… … … … … … …
2013-3-3 83
循环网
? 如果将输出信号反馈到输入端,就可构成一个多层
的循环网络 。
? 输入的原始信号被逐步地, 加强,, 被, 修复, 。
? 大脑的 短期记忆特征 ——看到的东西不是一下子
就从脑海里消失的 。
? 稳定,反馈信号会引起网络输出的不断变化。我
们希望这种变化逐渐减小,并且最后能消失。当
变化最后消失时,网络达到了平衡状态。如果这
种变化不能消失,则称该网络是不稳定的。
2013-3-3 84
2.4 存储与映射
? 空间模式 ( Spatial Model)
? 时空模式 ( Spatialtemporal Model)
? 空间模式三种 存储类型
? 1,RAM方式 ( Random Access Memory)
– 随机访问方式是将地址映射到数据 。
? 2,CAM方式 ( Content Addressable Memory)
– 内容寻址方式是将数据映射到地址 。
? 3,AM方式 ( Associative Memory)
– 相联存储方式是将数据映射到数据 。
2013-3-3 85
2.4 存储与映射
? 后续的两种方式是人工神经网络的工作方式 。
? 在学习 /训练期间, 人工神经网络以 CAM方
式工作;权矩阵又被称为网络的 长期存储
( Long Term Memory,简记为 LTM) 。
? 网络在正常工作阶段是以 AM方式工作的;
神经元的状态表示的模式为 短期存储 ( Short
Term Memory,简记为 STM) 。
2013-3-3 86
2.4 存储与映射
? 自相联 ( Auto-associative) 映射, 训练网络
的样本集为向量集合为
{A1,A2,…, An}
? 在理想情况下,该网络在完成训练后,其
权矩阵存放的将是上面所给的向量集合。
2013-3-3 87
2.4 存储与映射
? 异相联 ( Hetero-associative) 映射
{( A1,B1), ( A2,B2), …, ( An,Bn) }
? 该网络在完成训练后, 其权矩阵存放的将是上面
所给的向量集合所蕴含的对应关系 。
? 当输入向量 A不是样本的第一的分量时, 样本中
不存在这样的元素 ( Ak,Bk), 使得
Ai≤A k≤A 或者 A≤A k≤A j
? 且此时有
Ai≤A≤A j
? 则向量 B是 Bi与 Bj的插值。
2013-3-3 88
2.5 人工神经网络的训练
? 人工神经网络最具有吸引力的特点是它的
学习能力 。
? 1962年, Rosenblatt给出了人工神经网络著
名的学习定理:人工神经网络可以学会它
可以表达的任何东西 。
? 人工神经网络的表达能力大大地限制了它
的学习能力 。
? 人工神经网络的学习过程就是对它的训练
过程
2013-3-3 89
2.5.1无导师学习
? 无导师学习 (Unsupervised Learning)与无导
师训练 (Unsupervised Training)相对应
? 抽取样本集合中蕴含的统计特性, 并以神
经元之间的联接权的形式存于网络中 。
2013-3-3 90
2.5.1无导师学习
? Hebb学习律, 竞争与协同 ( Competitive
and Cooperative) 学习, 随机联接系统
( Randomly Connected Learning) 等 。
? Hebb算法 [D,O,Hebb在 1961年 ]的核心,
– 当两个神经元同时处于激发状态时被加
强, 否则被减弱 。
– 数学表达式表示,
? Wij( t+1) =Wij( t) +αoi( t) oj( t)
2013-3-3 91
2.5.2 有导师学习
? 有导师学习 (Supervised Learning)与有导师训练
(Supervised Training)相对应 。
? 输入向量与其对应的输出向量构成一个, 训练
对, 。
? 有导师学习的训练算法的主要步骤包括,
1) 从样本集合中取一个样本 ( Ai,Bi) ;
2) 计算出网络的实际输出 O;
3) 求 D=Bi-O;
4) 根据 D调整权矩阵 W;
5) 对每个样本重复上述过程, 直到对整个样本集来
说, 误差不超过规定范围 。
2013-3-3 92
Delta规则
Widrow和 Hoff的写法,
Wij(t+1)=Wij(t)+α(yj- aj(t))oi(t)
也可以写成,
Wij(t+1)=Wij(t)+? Wij(t)
? Wij(t)=αδjoi(t)
δj=yj- aj(t)
Grossberg的写法为,
? Wij(t)=α ai(t)(oj(t)-Wij(t))
更一般的 Delta规则为,
? Wij(t)=g(ai(t),yj,oj(t),Wij(t))
2013-3-3 93
其它
? 再例学习
– 外部环境对系统的输出结果给出评价,学习系
统通过强化受奖的动作来改善自身性能。
? 学习规则
– 误差纠错学习
– Hebb学习
– 竞争学习
2013-3-3 94
练习题
? P29 1,4,6,10,15
2013-3-3 95
上次课内容回顾,网络的分层结构
? 联接模式
– 刺激联接与抑制联接
– 前馈信号与反馈信号
– 层(级)内联接
– 循环联接
– 层(级)间联接
? 简单单级网,NET=XW; O=F(NET)
? 单级横向反馈网, NET=XW+O(t)V;O (t) =F(NET)
2013-3-3 96
上次课内容回顾,网络的分层结构
? 非循环多级网
– 层次划分
– 非线性激活函数,F3(F2(F1(XW1)W2)W3)
? 循环网
– 短期记忆特征及其对输入信号的修复作用
– 时间参数与主时钟
– 稳定性
2013-3-3 97
上次课内容回顾,存储与映射
? 模式
– 空间模式
– 时空模式
? 模式三种 存储类型
– RAM, CAM,AM
? 模式的存储与运行
– CAM——LTM——训练
– AM——STM——运行
– 相联:自相联映射, 异相联映射
2013-3-3 98
上次课内容回顾,训练
? Rosenblatt的 学习定理
? 无导师学习
– 抽取样本集合中蕴含的统计特性
– 样本集,{A1,A2,…, An}
? Hebb算法,Wij(t+1)=Wij(t)+αoi(t)oj(t)
? 有导师学习
– 抽取样本蕴含的映射关系
– 样本集,{(A1,B1),(A2,B2),…, (An,Bn)}
– 训练算法
? Delta规则
2013-3-3 99
第 3章 感知器
? 主要内容,
– 感知器与人工神经网络的早期发展;
– 线性可分问题与线性不可分问题;
– Hebb学习律;
– Delta规则 ;
– 感知器的训练算法 。
? 重点,感知器的结构, 表达能力, 学习算法
? 难点,感知器的表达能力
2013-3-3 100
第 3章 感知器
3.1 感知器与人工神经网络的早期发展
3.2 感知器的学习算法
3.2.1 离散单输出感知器训练 算法
3.2.2 离散多输出感知器训练 算法
3.2.3 连续多输出感知器训练 算法
3.3 线性不可分问题
3.3.1 异或 (Exclusive –OR)问题
3.3.2 线性不可分问题的克服
实现!
问题的发现与解决!
2013-3-3 101
3.1 感知器与 ANN的早期发展
McCulloch 和 Pitts 1943年, 发表第一个系统的
ANN研究 ——阈值加权和 (M-P)数学模型 。
1947年, 开发出感知器 。
1949年, 提出 Hebb学习律 。
单输出的感知器 (M-P模型 )
x2
x1
o
xn

2013-3-3 102
3.1 感知器与 ANN的早期发展
? 1962年,Rosenblatt宣布:人工神经网络可
以学会它能表示的任何东西
o1
多输出感知器
x1
x2 o2
om xn
… … … …
输入层 输出层
2013-3-3 103
3.2 感知器的学习算法
? 感知器的学习是有导师学习
? 感知器的训练算法的基本原理来源于著名
的 Hebb学习律
? 基本思想:逐步地将样本集中的样本输入
到网络中,根据输出结果和理想输出之间的
差别来调整网络中的权矩阵
2013-3-3 104
3.2.1离散单输出感知器训练算法
? 二值网络:自变量及其函数的值, 向量分
量的值只取 0和 1函数, 向量 。
? 权向量,W=(w1,w2,…, wn)
? 输入向量,X=(x1,x2,…, xn)
? 训练样本集,
– {(X,Y)|Y为输入向量 X对应的输出 }
2013-3-3 105
算法 3-1离散单输出感知器训练算法
1,初始化权向量 W;
2,重复下列过程, 直到训练完成,
2.1 对每个样本 ( X,Y), 重复如下过程,
2.1.1 输入 X;
2.1.2 计算 o=F( XW) ;
2.1.3 如果输出不正确, 则
当 o=0时, 取 W=W+X,
当 o=1时, 取 W=W-X
2013-3-3 106
3.2.2离散多输出感知器训练算法
? 样本集,{(X,Y)|Y为输入向量 X对应的输出 }
? 输入向量,X=(x1,x2,…,xn)
? 理想输出向量,Y=(y1,y2,…,ym)
? 激活函数,F
? 权矩阵 W=(wij)
? 实际输出向量,O=(o1,o2,…,om)
o1
多输出感知器
x1
x2 o2
om xn
… … … …
输入层 输出层
2013-3-3 107
算法 3-2离散多输出感知器训练算法
1.初始化权矩阵 W;
2.重复下列过程, 直到训练完成,
2.1 对每个样本 ( X,Y), 重复如下过程,
2.1.1 输入 X;
2.1.2 计算 O=F( XW) ;
2.1.3 for j=1 to m do 执行如下操作,
if oj ≠ yj then
if oi = 0 then for i = 1 to n
wij=wij+xi
else for i= 1 to n do
wij=wij-xi
2013-3-3 108
算法 3-2离散多输出感知器训练算法
? 算法思想,将单输出感知器的处理逐个地
用于多输出感知器输出层的每一个神经元
的处理 。
? 第 1步,权矩阵的初始化,一系列小伪随机
数。
2013-3-3 109
算法 3-2离散多输出感知器训练算法
? 第 2步, 循环控制 。
? 方法 1:循环次数控制法,对样本集执行规
定次数的迭代
? 改进 ——分阶段迭代控制:设定一个基本
的迭代次数 N,每当训练完成 N次迭代后,
就给出一个中间结果
2013-3-3 110
算法 3-2离散多输出感知器训练算法
? 方法 2:精度控制法,给定一个精度控制参

– 精度度量:实际输出向量与理想输出向
量的对应分量的差的绝对值之和;
– 实际输出向量与理想输出向量的欧氏距
离的和
–, 死循环,,网络无法表示样本所代表
的问题
2013-3-3 111
算法 3-2离散多输出感知器训练算法
? 方法 3,综合控制法,将这两种方法结合起
来使用
? 注意:精度参数的设置。根据实际问题选
定;初始测试阶段,精度要求低,测试完
成后,再给出实际的精度要求。
2013-3-3 112
3.2.3 连续多输出感知器训练算法
? 用公式 wij=wij+α( yj-oj) xi取代了算法 3-2
第 2.1.3步中的多个判断
? yj与 oj之间的差别对 wij的影响由 α( yj-oj) xi
表现出来
? 好处:不仅使得算法的控制在结构上更容
易理解,而且还使得它的适应面更宽
2013-3-3 113
算法 3-3 连续多输出感知器训练算法
1,用适当的小伪随机数初始化权矩阵 W;
2,初置精度控制参数 ε,学习率 α,精度控制变量 d=ε+1;
3,While d ≥ ε do
3.1 d=0;
3.2 for 每个样本 ( X,Y) do
3.2.1 输入 X( =(x1,x2,…, xn)) ;
3.2.2 求 O=F( XW) ;
3.2.3 修改权矩阵 W,
for i=1 to n,j=1 to m do
wij=wij+α(yj-oj)xi;
3.2.4 累积误差
for j = 1 to m do
d=d+(yj-oj)2
2013-3-3 114
算法 3-3 连续多输出感知器训练算法
1,程序实现,ε,α,d,i,j,n,m为简单变量来表示,
W为 n行 m列的二维数组 。 样本集二维数组
2,系统的调试
3,Minsky在 1969年证明, 有许多基本问题是感知器无
法解决
4,问题线性可分性可能与时间有关
5,很难从样本数据集直接看出问题是否线性可分
6,未能证明, 一个感知器究竟需要经过多少步才能完
成训练 。
2013-3-3 115
3.3 线性不可分问题
3.3.1 异或 (Exclusive –OR)问题
g( x,y)
y
0
1
x
0
0
1
1
1
0
2013-3-3 116
用于求解 XOR的单神经元感知器
x
y
o
单神经元感知器 的图像
ax+by=θ
1
y
x
1 (0,0)
(1,1)
2013-3-3 117
线性不可分函数
变量 函数及其值
x y f1 f2 f3 f4 f5 f6 f7 f8 f9 f10 f11 f12 f13 f14 f15 f16
0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1
0 1 0 0 0 0 1 1 1 1 0 0 0 0 1 1 1 1
1 0 0 0 1 1 0 0 1 1 0 0 1 1 0 0 1 1
1 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1
2013-3-3 118
线性不可分函数
? R,O,Windner 1960年
自变量个数 函数的个数 线性可分函数的个数
1 4 4
2 16 14
3 256 104
4 65,536 1882
5 4.3*109 94,572
6 1.8*1019 5,028,134
2013-3-3 119
3.3.2 线性不可分问题的克服
? 用多个单级网组合在一起,并用其中的一
个去综合其它单级网的结果,我们就可以
构成一个两级网络,该网络可以被用来在
平面上划分出一个封闭或者开放的凸域来
? 一个非凸域可以拆分成多个凸域。按照这
一思路,三级网将会更一般一些,我们可
以用它去识别出一些非凸域来。
? 解决好隐藏层的联接权的调整问题是非常
关键的
2013-3-3 120
两级单输出网在 n维空间中划分
出 m边凸域

x1
ANm
AN1
ANo
xn

o
2013-3-3 121
第 1次课堂测试( 5分 *4)
1,Newell和 Simon的物理符号系统所基于的
假说是什么? 它在什么层面上如何实现对
人类智能的模拟?
2,联接主义观点所基于的假说是什么? 它在
什么层面上如何实现对人类智能的模拟?
3,画出有导师算法的流程图 。
4,证明:一个激活函数为线性函数的 3级非
循环网等价于一个单级网 。
2013-3-3 122
习题
? P38 1,6
2013-3-3 123
第 1次课堂测试解答要点
1,Newell和 Simon的物理符号系统所基于的
假说是什么? 它在什么层面上如何实现对
人类智能的模拟?
要点:物理符号系统;心理;符号对事务及变换
的描述
2,联接主义观点所基于的假说是什么? 它在
什么层面上如何实现对人类智能的模拟?
要点:联接机制;生理;模式, 联接权的调整
与对变换的表示
2013-3-3 124
第 1次课堂测试解答要点
3,画出有导师学习算法的流程图 。
要点:如何处理精度与样本集两层循环
4,证明:一个激活函数为线性函数的 3级非
循环网等价于一个单级网 。
要点:一级网与多级网的的数学模型
2013-3-3 125
上次课内容回顾,学习算法
? 离散单输出感知器训练算法
– W=W+X;W=W-X
– W=W+(Y-O)X
? 离散多输出感知器训练算法
– Wj=Wj+(yj-oj)X
? 连续多输出感知器训练算法
– wij=wij+α(yj-oj)xi
2013-3-3 126
上次课内容回顾,线性不可分问题
ax+by=θ
1
y
x
1 (0,0)
(1,1)
? 线性不可分问题的克服
?两级网络可以划分出封闭或开放的凸域
? 多级网将可以识别出非凸域
?隐藏层的联接权的调整问题是非常关键
2013-3-3 127
第 4章 BP网络
? 主要内容,
– BP网络的构成
– 隐藏层权的调整分析
– Delta规则理论推导
– 算法的收敛速度及其改进讨论
– BP网络中的几个重要问题
? 重点,BP算法
? 难点,Delta规则的理论推导
2013-3-3 128
第 4章 BP网络
4.1 概述
4.2 基本 BP算法
4.3 算法的改进
4.4 算法的实现
4.5 算法的理论基础
4.6 几个问题的讨论
2013-3-3 129
4.1 概述
1,BP算法的出现
非循环多级网络的训练算法
UCSD PDP小组的 Rumelhart,Hinton和 Williams1986年
独立地给出了 BP算法清楚而简单的描述
1982年, Paker就完成了相似的工作
1974年, Werbos已提出了该方法
2,弱点,训练速度非常慢, 局部极小点的逃离问题,
算法不一定收敛 。
3,优点,广泛的适应性和有效性 。
2013-3-3 130
4.2 基本 BP算法
? 4.2.1 网络的构成
神经元的网络输入,
neti=x1w1i+x2w2i+… +xnwni
神经元的输出,
n e ten e tfo ???? 1
1)(
)1()(
)1(
1
)( 22 ooooe
e
n e tf n e tn e t ?????
?
??? ??
2013-3-3 131
输出函数分析
0.5
f ′(net)
0.25
o
0 1
1
( 0,0.5)
net
( 0,0)
o
n e teo ??? 1
1
– 应该将 net的值尽量控制在收敛比较快的范围

– 可以用其它的函数作为激活函数, 只要该函数
是处处可导的
2013-3-3 132
网络的拓扑结构
x1 o1
输出层 隐藏层 输入层
x2 o2
om xn
… … … … … … …
W(1) W(2) W(3) W(L)
2013-3-3 133
网络的拓扑结构
1,BP网的结构
2,输入向量, 输出向量的维数, 网络隐藏层
的层数和各个隐藏层神经元的个数的决定
3,实验:增加隐藏层的层数和隐藏层神经元
个数不一定总能够提高网络精度和表达能
力 。
4,BP网一般都选用二级网络 。
2013-3-3 134
网络的拓扑结构
x1 o1
输出层 隐藏层 输入层
x2 o2
om xn
… … … …
W V
2013-3-3 135
4.2.2 训练过程概述
样本,(输入向量,理想输出向量 )
权初始化:, 小随机数, 与饱和状态;, 不
同, 保证网络可以学。
1,向前传播阶段,
( 1) 从样本集中取一个样本 (Xp,Yp),将 Xp
输入网络;
( 2) 计算相应的实际输出 Op,
Op=Fl(… (F2(F1(XpW(1))W(2))… )W(L))
2013-3-3 136
4.2.2 训练过程概述
2,向后传播阶段 ——误差传播阶段,
( 1) 计算实际输出 Op与相应的理想输出 Yp
的差;
( 2) 按极小化误差的方式调整权矩阵 。
( 3) 网络关于第 p个样本的误差测度,
? ??
?
??
m
j
pjpjp oyE
1
2
2
1
( 4) 网络关于整个样本集的误差测度,
??
p
pEE
2013-3-3 137
4.2.3 误差传播分析
1、输出层权的调整
wpq= wpq+?wpq
?wpq=αδqop
=αfn′ (netq)(yq-oq)op
=αoq(1-oq) (yq-oq)op
wpq
ANp ANq
第 L-1层 第 L层
?wpq
2013-3-3 138
2、隐藏层权的调整
ANp ANq ANh
vhp δpk-1
δ1k
wp1
wpq δqk
wpm
δmk
第 k-2层 第 k层 第 k-1层


2013-3-3 139
2、隐藏层权的调整
δpk-1的值和 δ1k,δ2k,…, δmk 有关
不妨认为 δpk-1
通过权 wp1对 δ1k做出贡献,
通过权 wp2对 δ2k做出贡献,
……
通过权 wpm对 δmk做出贡献 。
δpk-1= fk-1′(netp) (wp1δ1k+ wp2δ2k+… + wpmδm k)
2013-3-3 140
2、隐藏层权的调整
vhp=vhp+?vhp
?vhp=αδpk-1ohk-2
=αfk-1 ′(netp)( wp1δ1k+ wp2δ2k+… + wpmδmk)ohk-2
=αopk-1(1-opk-1)( wp1δ1k+ wp2δ2k+… + wpmδmk)ohk-2
ANp ANq ANh
vhp δpk-1
δ1k
wp1
wpm δqk
wpq
δmk 第 k-2层 第 k层 第 k-1层 …

2013-3-3 141
上次课内容回顾
? 基本 BP算法
– neti=x1w1i+x2w2i+…+x nwni
n e ten e tfo ???? 1
1)(
)1()(
)1(
1
)( 22 ooooe
e
n e tf n e tn e t ?????
?
??? ??
2013-3-3 142
上次课内容回顾
x1 o1
输出层 隐藏层 输入层
x2 o2
om xn
… … … …
W V
2013-3-3 143
上次课内容回顾
? 样本
? 权初始化
? 向前传播阶段
– Op=Fn(…(F 2(F1(XpW(1))W(2))…)W (n))
? 误差测度
? ??
?
??
m
j
pjpjp oyE
1
2
2
1
2013-3-3 144
上次课内容回顾
? 向后传播阶段 ——误差传播阶段
– 输出层权的调整
? ?wpq= αδqop =αfn′ (netq)(yq-oq)op =αoq(1-oq) (yq-oq)op
– 隐藏层权的调整
ANp ANq ANh
vhp δpk-1
δ1k
wp1
wpq δqk
wpm
δmk …

?vhp =αopk-1(1-opk-1)( wp1δ1k+ wp2δ2k+…+ w pmδmk)ohk-2
2013-3-3 145
4.2.4 基本的 BP算法
? 样本集,S={(X1,Y1),(X2,Y2),…,(Xs,Ys)}
? 基本思想,
– 逐一地根据样本集中的样本 (Xk,Yk)计算出实际输
出 Ok和误差测度 E1,对 W(1), W(2), …, W(L)各
做一次调整,重复这个循环,直到 ∑Ep<ε。
– 用输出层的误差调整输出层权矩阵,并用此误差
估计输出层的直接前导层的误差,再用输出层前
导层误差估计更前一层的误差。如此获得所有其
它各层的误差估计,并用这些估计实现对权矩阵
的修改。形成将输出端表现出的误差沿着与输入
信号相反的方向逐级向输入端传递的过程
2013-3-3 146
算法 4-1 基本 BP算法
1 for k=1 to L do
1.1 初始化 W(k);
2 初始化精度控制参数 ε;
3 E=ε+1;
4 while E>ε do
4.1 E=0;
2013-3-3 147
算法 4-1 基本 BP算法
4.2 对 S中的每一个样本 ( Xp,Yp),
4.2.1 计算出 Xp对应的实际输出 Op;
4.2.2 计算出 Ep;
4.2.3 E=E+Ep;
4.2.4 根据相应式子调整 W(L);
4.2.5 k=L-1;
4.2.6 while k≠0 do
4.2.6.1 根据相应式子调整 W(k);
4.2.6.2 k=k-1
4.3 E=E/2.0
2013-3-3 148
4.3 算法的改进
1,BP网络接受样本的顺序对训练结果有较大
影响 。 它更, 偏爱, 较后出现的样本
2,给集中的样本安排一个适当的顺序, 是非常
困难的 。
3,样本顺序影响结果的原因:, 分别,,, 依
次,
4,用 (X1,Y1),( X2,Y2), …, ( Xs,Ys) 的
,总效果, 修改 W(1), W(2), …, W(L)。
?w(k)ij=∑?p w(k)ij
2013-3-3 149
算法 4-2 消除样本顺序影响的 BP算法
1 for k=1 to L do
1.1 初始化 W(k);
2 初始化精度控制参数 ε;
3 E=ε+1;
4 while E>ε do
4.1 E=0;
4.2 对所有的 i,j,k,? w (k)ij=0;
2013-3-3 150
4.3 对 S中的每一个样本 ( Xp,Yp),
4.3.1 计算出 Xp对应的实际输出 Op;
4.3.2 计算出 Ep;
4.3.3 E=E+Ep;
4.3.4 对所有 i,j根据相应式子计算 ?p w (L)ij;
4.3.5 对所有 i,j,? w (