第 01讲 绪论电信系 邹 江以冯 ·诺依曼型计算机为中心的信息处理技术的高速发展,使得计算机在当今的信息化社会中起着十分重要的作用。但是,当用它来解决某些人工智能问题时却遇到了很大的困难。
大脑是由生物神经元构成的巨型网络,它在本质上不同于计算机,是一种大规模的并行处理系统,它具有学习、联想记忆、综合等能力,
并有巧妙的信息处理方法。
人工神经网络 (简称神经网络 )也是由大量的、
功能比较简单的形式神经元互相连接而构成的复杂网络系统,用它可以模拟大脑的许多基本功能和简单的思维方式。
1,1 神经网络的研究发展史
1,1,1 第一次神经网络研究高潮对大脑神经元的研究表明,当其处于兴奋状态时,
输出侧的轴突就会发出脉冲信号,每个神经元的树状突起与来自其它神经元轴突的互相结合部 (此结合部称为 Synapse,即突触 )接收由轴突传来的信号。如果 — 神经元所接收到的信号的总和超过了它本身的,阈值,,
则该神经元就会处于兴奋状态,并向它后续连接的神经元发出脉冲信号。
1943年,W,S,McCulloch和 W,Pitts根据上述研究发表了他们的神经元模型,通常称为 MP
模型。
1949年,D.O.Hebb提出了神经元的学习法则,即
Hebb法则。
50年代末,F,Rosenblatt基于上述原理提出了一种模式识别机,即感知机 (Perceptron)模型。
感知机是现代神经计算的出发点。 Block于
1962年用解析法证明了感知机的学习收敛定理。
正是由于这一定理的存在,才使得感知机的理论具有实际的意义,并引发了 60年代以感知机为代表的第一次神经网络研究发展的高潮。
M,Minsky和 S.Papert进一步发展了感知机的理论,他们把感知机定义为一种逻辑函数的学习机 。
B,Widraw在稍后于感知机一些时候提出了 Adline分类学习机。它在结构上与感知机相似,但在学习法则上采用了最小二乘平均误差法。
1961年,E,R,Caianiello提出了能实现记忆和识别的神经网络模型,它由学习方程式和记忆方程式两部分组成。
遗憾的是感知机只能对线性可分离的模式进行正确的分类。当输入模式是线性不可分离时,则无论怎样调节突触的结合强度和阂值的大小也不可能对输入进行正确的分类。
1,1,2 第二次神经网络研究高潮
1982年,美国物理学家 Hopfield对神经网络的动态特性进行了研究,提出了所谓 Hopfield
神经网络模型。
以 Rumelhart为首的 PDP(Parallel Distributed
Processing)并行分布处理研究集团对联结机制
(connectionist)进行了研究。
T,J,Sejnowski等人还研究了神经网络语音信息处理装置。
这些成功的研究对第二次神经网络研究高潮的形成起了决定性的作用。
Hopfield模型的动作原理是,
只要由神经元兴奋的算法和神经元之间的结合强度所决定的神经网络的状态在适当给定的兴奋模式下尚未达到稳定,
那么该状态就会一直变化下去,直到预先定义的一个必定减小的能量函数达到极小值时,状态才达到稳定而不再变化。
1985年,Hopfield和 D,W,Tank用上述模型求解了古典的旅行推销商问题
(Traveling Salesman Problem),简称
TSP问题 。
1983年,S,E,Farmann和 Hiton提出了波尔兹曼机 BM(Boltzmann Machine),该神经网络模型中使用了概率动作的神经元,把神经元的输出函数与统计力学中的波尔兹曼分布联系起来。
1985年,W,O,Hillis发表了称为联结机
(connection)的超级并行计算机。他把 65536个
lbit的微处理机排列成起立方体的互连形式,每个微处理机还带有 4kbit的存贮器。
误差反向传播神经网络 BP(Error Back Propagation
Neural Network)是 1986年由 Rumelhart和 Hinton
提出的,
1,1,3存在的问题神经网络识别机的原型是感知机,而 BP只是学习方法改进了的感知机,所以把它当作识别机械时,可能存在着中间层神经元的个数会很庞大、学习时间太长、结合系数的范围太宽等严重缺点。
当把 Hopfield神经网络模型和波尔兹曼机用作最优解的求解机时,还需要弄清楚该模型对具体的对象是否适用。
当把神经网络用于运动控制装置时,另一个重要的问题是如何获得自组织的运动模式。
综上所述,神经网络的研究虽然时有起伏,出现了研究的高潮与低潮,但总的方向无疑还是正确的。
1,2 并行分布处理理论
1986年,Rumelhart和 McClelland发表了
《并行分布处理 —— 认知微结构探索》
一书。
书中系统地总结了 PDP的概念、理论、数学方法、产生的背景和发展前景。著名的 BP神经网络学习法则就是在本书中由
Rumelhart提出的。
1,2,1 PDP的基本概念
PDP是一种联结理论,与心理学、神经生理等学科有密切的联系。
随着信息处理和人工智能学的迅速发展,人们发现复杂模式的识别,不确定、不完善知识的处理,机器人控制和组合优化计算等问题用现有的单台计算机是很难完善解决的,必须靠许多台计算机联合工作才行,并且只有用并行的联结,即神经网络的工作方式才能较好地解决问题,这也是 80年代 PDP概念形成的基础。
1,2,2 联结性和并行分布性联结是一种微推理过程,网络中的每个单元均可以看作是某项目的一种微特征,联结强度 (即结合强度 )就是微特征间的微推理程度,调节联结强度可使该项目的各种微特征共存并存贮在联结中。而这种微推理过程既可以加强联结强度,也可以削弱联结强度。
PDP模型的信息处理是并行的,而信息的表达则是分布的,
知识被各单元之间的连接所编码,所以 PDP具有分布式的编码方式,这与数字计算机不同。
分布式编码具有许多优点:一是可以节省大量单元 (它并不要求每个特征对应一个单元 ),二是信息的存取是多个单元并行动作,所以速度快,最突出的优点是它具有较强的容错性和鲁棒性。
1,2,3 非符号性和连续性认知科学认为大脑的思考方式一般应含有论理的思考和直观的思考两种方式。
前者把信息概念化,并用符号或语言来表示,接着以论理为主体,在符号操作的基础上进行推理,这种方式的思考是在人的意识或经验支配下实行的,计算机专家系统选择这种方式可以说是理所当然的。
后一种思考方式则是人们把各种事件作为信息置于脑中,
常常在无意识中综合全部信息,并由此突然得出一个
,好主意,或问题的解决办法,这种形式的思考方式归根结底是通过神经元之间同时、并行地相互作用的动态过程而实现的。
1,3 神经网络的研究概况神经网络的研究主要可分为以下三个方面:
1,大脑和神经系统的信息处理原理 。
2,构造能实现信息处理的神经网络模型 。
3,能实现信息处理基本原理的技术研究一 — 神经计算机 。
美国军方,认为神经网络技术是比原子弹工程更重要的技术。美国国防部 (DARPA)曾宣布执行一项总投资为 4亿美元的八年计划,其主要研究目标为:连续语音信号识别、声纳信号识别、
目标识别及跟踪等。
日本通产省早在 1988年也提出了所谓人类尖端科学计划 (Human Frontier Science Program),即所谓的第六代计算机计划,研制能模拟人类智能行为的计算机系统。
到目前为止,已经发表了多达几十种的神经网络模型,
它们具备不同的信息处理能 力,典型的神经网络模型如表 1.2所示 。
1987年 6月 21至 24日在美国加州圣地亚哥 (San
Diego)召开的第一届神经网络国际会议 ;
1988年,我国在北京召开了神经网络的国际研究工作会议,并出版了论文集。
关于神经网络的主要国际性杂志有:
(1)Neural Networks(国际神经网络协会会刊 )
(2)IEEE Transactions on Neural Networks
(3)IEEE Transactions on Parallel
Distributed System
(4)Connections Science
(5)Neurocomputing
(6)Neural Computation
(7)International Journal of Neural Systems