第六章 计算机可靠性设计
计算机可靠性设计
? 计算机故障
? 计算机可靠性
? 计算机容错与冗余技术
计算机故障
? 计算机故障,是指造成计算机功能错误的
硬件物理损坏或程序的错误。
? 故障可分为两大类,
– 一类是元器件、电路、机械、介质等部分的物
理损坏,称为硬故障;
– 另一类是因电磁干扰、偶尔落入的尘埃、温度
变化、电源掉电或病毒感染而导致系统功能不
正常,不能正常运行的故障称为软故障。
计算机故障
? 计算机故障可以分为以下类别,
– 按照故障部位可以分为独立故障,局部性故障,
全局性故障。
– 按照故障发生时间可以分为暂时、永久性,边
缘性故障。
– 按照故障原因可以分为硬件故障,机械故障,
人为故障,软件故障,病毒故障。
计算机故障
? 故障产生的原因,
– 集成电路本身缺陷
– 静电感应击穿
– 电气干扰
– 环境影响
– 管理不善
计算机故障
? 故障检测原则,
– 先软件后硬件,先外设后主机,先电源后负载,先一
般设备后特殊设备,先公用后专用,先简单后复杂。
? 故障检测方法主要有,
– 原理分析法、诊断程序法、直接观察。
– 插拔或更换器件、静态芯片测量、动态分析、升温降
温法。
– 对时隐时现的故障往往用拉偏的方法可以使故障现象
再现,从而便于查找。
计算机可靠性设计
? 计算机故障
? 计算机可靠性
? 计算机容错与冗余技术
? 计算机可靠性 RAS是可靠性,可维护性,可用性
的综合。
– 可靠性是计算机在规定时间与条件下完成规定功能的
概率。其中规定条件:环境条件,作用条件,维护条
件,操作条件。
– 可维护性是因为故障而失效时,通过维护恢复正常的
能力。
– 可用性是计算机各种功能满足需要的程度,是计算机
在执行任务中任何时刻都能够正常工作的概率。
计算机可靠性
? 计算机可靠性主要有两个方面:避错和容
错。
– 避错就是故障检测、故障诊断技术则是通过检
测和排除系统元器件或线路故障,或纠正程序
的错误来保证和提高系统可靠性的方法。
– 所谓, 容错技术,,是指用增加冗余资源的方
法来掩盖故障造成的影响,使系统在元器件或
线路有故障或软件有差错时,仍能正确地执行
预定算法的功能。
计算机可靠性设计
? 计算机故障
? 计算机可靠性
? 计算机容错与冗余技术
计算机容错与冗余技术
? 计算机修理可以分为热修理与冷修理,其
区别就在于修理过程是否计算机加电运行。
? 为了防止数据丢失,允许进行数据备份,
也可以分为热备份与冷备份。
计算机容错与冗余技术
? 冗余技术是采用多个设备同时工作,当其中一个
设备失效时,其它设备能够接替失效设备继续工
作的体系。
? 在 PC服务器上,通常在磁盘子系统、电源子系统
采用冗余技术。
? 冗余可以分为多个层次。
– 用户容错是用户自行备份数据。
– 线路容错是对通讯线路与网络进行冗余备份。
– 存储容错是对存储器进行容错。
计算机容错与冗余技术
? 在存储器容错中使用最多的技术就是冗余磁盘阵
列技术。
? 冗余磁盘阵列 RAID技术 1987年由加州大学伯克利
分校提出。
? 所谓 RAID( Redundant Array of Inexpensive
Disks),是指将多个磁盘连成一个阵列,然后以
某种方式写磁盘,这种方式可以在一个或多个磁
盘失效的情况下防止数据丢失。
计算机容错与冗余技术
? 磁盘控制器是一个在主机和磁盘组之间提
供接口的电子器件。
? 从主机的角度看,控制器使得整个磁盘组
就象一片又快、又大、又可靠的虚拟磁盘。
? RAID的另一特征是具备数据校验 (Parity)功能。
– 校验可被描述为用于 RAID级别 2以上的额外的信息,当
磁盘失效的情况发生时,校验功能结合完好磁盘中的
数据,可以重建失效磁盘上的数据。
? 数据可用性 (Data Availability)也是 RAID系统的指
标之一。
– 数据可用性指的是阵列内部容错能力的水平,数据可
用性程度越高,可被理解为当发生越多的部件失效时
而数据访问仍不丢失。
? RAID通过基带条、奇偶校验和镜像实现其冗余和
容错的目标。
? 基带条意味着在文件可同时被写入多个磁盘的数
据块中。
? 通过在传输后对所有数据进行冗余检测,奇偶校
验能够确保数据的有效性。通过奇偶校验,当
RAID系统的一个磁盘发生故障时,其它磁盘能够
重建该故障磁盘。
? 镜像包括创建磁盘的复制拷贝。
? 磁盘阵列其实也分为软阵列 (Software Raid)
和硬阵列 (Hardware Raid)两种。
– 软阵列即通过软件程序并由计算机的 CPU提供
运行能力所成。
– 硬阵列是由独立操作的硬件提供整个磁盘阵列
的控制和计算功能。不依靠系统的 CPU资源。
– 软阵列只适用于 Raid0和 Raid1。
? RAID可以分为 0- 6等级。
– RAID0是数据基带条阵列
– RAID1称为镜像的磁盘阵列
– RAID2使用并行阵列与汉明码
– RAID3是带有奇偶校验的并行阵列
– RAID4是带有专用奇偶校验驱动器的独立式传动装置
– RAID5是独立式传动装置,所有驱动器均包括奇偶校验
– RAID6是拥有两个校验块。