第十四章现代计算机技术
1.高性能计算与高性能计算机系统
2.计算机体系结构的分类
3.构筑高性能计算机的 3种模式
4.高性能计算机发展现状
5.高性能计算机的技术走向
14.1高性能计算机系统高性能计算与高性能计算机系统
1.高性能计算
2.高性能计算机
3.高性能计算机应用领域
Return
高性能计算,
高性能计算 (HPC,High Performance
Computing)是指必须借助高性能计算机、
采用大规模科学与工程计算技术才能解决的、影响人类社会的一些关键性科学问题的计算。如全球气候模型、人类基因工程、湍流分析、飞行动力学、海洋环流、核爆炸仿真、流体力学和超导模型等等。
Return
高性能计算机,
高性能计算机又称为巨型计算机
(Super Computer),是指运算速度极快、
存储容量巨大、具有相当规模、价格昂贵的计算机系统。
高性能计算能力已成为一个国家综合竞争力的象征,
许多大国都投入巨资以提高高性能计算能力,力求在未来的竞争中占据优势。
Return
计算机体系结构的分类
1,单指令流单数据流计算机
2,单指令流多数据流计算机
3.多指令流单数据流计算机
4,多指令流多数据流计算机
Return
单指令流单数据流计算机
Return
在同一时刻只能执行一条指令 (即只有一个控制流 ),处理一个数据 (即只有一个数据流 )的计算机,被称为单指 令 流 单 数 据 流 (SISD,Single
Instruction Single Data)计算机 。
示意图
Return
CU PU MM
IS
IS DS
(a) SISD示意图
CU:控制部件
PU:处理部件
MM:存储器模块
IS:指令流
DS:数据流单指令流多数据流计算机
Return
计算机在执行操作时,一条指令可以同时对多个数据 (组成一个向量 )
进行运算,这种计算机就是单指令流多数据流 (SIMD,Single Instruction
Multiple Data)计算机 。 向量计算机就是 SIMD计算机 。
示意图
Return
……
IS
DS1
DS2
DS3
IS
PU1 MM1
MM2
MM3
PU2
PU3
CU
( b) SIMD示意图多指令流单数据流计算机
Return
在多指令流单数据流 ( MISD:
Multiple Instruction Single Data) 计算机中,多个处理单元组成一个线性阵列,分别执行不同的指令流,而同一个数据流则顺次通过这个阵列中的各个处理单元,这种系统结构只适用于某些特定的算法 。
示意图
Return
ISn
CUn PUn
MM1 MM1 …… MMn
PU2
…………
CU2
CU1 PU1
……
DS
DS
ISn
IS2
IS1
IS2
IS1
( c) MISD示意图
Return
多指令流多数据流计算机在此类计算机中含有多个处理单元,它们可分别对同一个数据集中的不同数据进行并行的计算,相互交换计算的结果并进行协调。
由于多个处理单元都是根据不同的控制流程执行不同的操作,处理不同的数据,属于并行处理。因此,这种计算机被称作多指令流多数据流 (MIMD,Multiple Instruction
Multiple Data)计算机。
示意图
Return
( d) MIMD示意图
CUn
……
CU2
CU1
PUn
PU2
……
PU1 MM1
MM2
MM3
……
ISn
IS2
IS1 DS1
DS2
DSn
构筑高性能计算机的 3种模式
1.向量并行处理机
2.大规模并行机
3.集群计算机系统
Return
向量并行处理机
Return
1.定义,所谓向量并行处理机 (VPP,Vector
Parallel Processing)系统又称为向量巨型机,
它采用高性能的定制处理器。
2.主要技术:提高半导体制造工艺,高时钟频率、
流水线技术,提高单位时间可执行的指令数、增加 CPU高速缓存容量、提高 CPU的 I/O带宽
3.典型的向量巨型机,美国的 Cray YMP-90和 NEC
SX-3等、日本的 Fujitsu VP-2000以及我国的银河系列等。
大规模并行机
Return
1.什么是大规模并行机
2.大规模并行机的组成
3.大规模并行机采用的主要技术
4.大规模并行机的种类
Return
什么是大规模并行机由一组 ( 几百或几千台 ) 处理单元 ( 处理器 ) 组成的,这组处理单元通过相互之间的通信与协作,
高速度共同 ( 并行 ) 完成一项大规模的计算任务的计算机系统 。
并行处理基本原理
Return
大规模并行机的组成并行计算机的两个最主要的组成部分:计算节点和通信协作节点 。
主要采用商品化的高性能微处理器 。
Return
大规模并行机采用的主要技术
● 增加可以同时执行的指令数 ( 流水线级数增加 ) ;
● 采用铜布线等新的半导体技术;
● 配备用于高速存储器输入输出的设备,提高处理器与外部存储器及其他处理器之间的数据传输速率;
● 采用先进的加工工艺;
● 增加多媒体功能 ( 多媒体指令 ) 。
Return
大规模并行机的种类
1.集中式共享存储的多处理机系统
2.大规模分布式并行处理系统
Return
集中式共享存储的多处理机系统集中式共享存储的多处理机 (SMP,Shared
Memory Multiprocessors)系统是多处理机 /单存储器结构,包括对称多处理机 (SMP:Symmetric
Multiprocessors)、可缩放共享存储多处理机
(SSMP,Scalable Shared Memory
Multiprocessors )及各种变形。其主要特点是,有一个每个处理机都能访问的一个统一的内存,即所有内存统一编址。
典型的 SMP系统有 SGI Power Challenge、曙光
1号等。
示意图处 理 器缓 存处 理 器缓 存处 理 器缓 存处 理 器缓 存总 线 或 交 叉 开 关共 享 内 存 I/O桥网卡键盘其他知识
PCI总线图 1.2 集中式共享内存结构
Return
Return
大规模分布式并行处理系统大规模分布式并行处理 (MPP:
Massively Parallel Processing)系统是多处理机 /多存储器结构的、以单 CPU、
SMP或 SSMP为基本结点的、多个处理机访问各自的存储器、各节点间的通信用消息传递方式完成的计算机系统。
典型的 MPP系统有 Intel Paragon、
IBM SP2、曙光 1000等。
示意图
Return
128-port
100MB/s
fibre
channel
switch
图片说明:一个由 1024个处理器分级组织的机器 。 这种机器能够实现包含海量并行计算和共享内存多任务的编程模式 。
图 1.3
Shared memory
SMP containing
32 Mips R 10000
processors
running at
190 MHz and
four 100 MB/s
fibre channel
adapterrs
4-100MB/s
集群 (Cluster)计算机概念
集群,将多个计算机系统通过 网络 连接起来如同一个系统一样提供服务 。
高并行处理能力,多结点间通过并行环境和并行程序设计实现应用的高效并行处理 。
高可用性,通过,failover”(失效恢复 )集群技术获得 。 当然某结点发生故障时候,资源可以自动在 2个或者多个结点间自动 迁移 。
负载均衡,通过在多个结点上实现应用的负载均衡实现 。
管理便捷性,通过机群系统软件和机群管理软件对整个机群实现单一管理 。
高性价比,投资风险小,可扩展性好,可继承现有软硬件资源,
开发周期短,可编程性好等特点
Return
示意图集群计算机结构
CPU
Memory
I/O Channel
...CPUMemory
I/O Channel
CPU
Memory
I/O Channel
CPU
Memory
I/O Channel
CPU
Memory
I/O Channel
系统网络、存储网络
Return
Return
高性能计算机发展现状
1.总体情况 2.美国
3.日本 4.欧洲国家
5.俄罗斯 6.印度
7.中国 8.TOP500
Return
总 体 情 况高速度,目前,,世界巨型机 500强排行榜 (TOP500)”中,
速度最慢的计算机为 1.64 亿万次 / 秒,冠 军 为 美 国
,BlueGene/ L)”系统,计算速度接近 280.6万亿次 /秒 。
并行化,集群化,在这 500套系统中,以体系结构分类,
采用 MPP结构和 SMP结构的占 292台;集群 (Cluster)结构的占 208台;无单处理机系统 。
应用商业化,10年前,大多数安装在大学和政府部门 。
现在,用于工业界的 245台;用于研究部门的 111台;用于学术部门的 93台;用于保密部门的 17台;销售商自用 14台,
半数以上安装在工商界 。
单级化,从 TOP500安装的地域来看,美,欧,日装机数占 414。
美国高性能计算机发展状况
1.世界上 91%的超级计算机由美国制造
2,HPCC和 ASCI
3,Gray 公司
4,IBM 公司
5,HP 公司
Return
1993年美国提出总统科学战略项目高性能计算和通信计划
( HPCC,High Performance Computing and Communication蓝色行星 ) 。
1994年美国能源部 (DOE,Department of Energy)又发起和制订了加速战略计算创始计划 ( ASCI,Accelerated Strategic
Computing Initiative) 。 ASCI计划为期 10年 (1995~ 2004)分五个阶段完成,分别研制万亿次,3万亿次,10万亿次,30万亿次和 100万亿次的系统 。 目前,ASCI计划已基本完成 ( 2005年,BlueGene/L,
280.6 万亿次,安 装 在 美 国 劳 伦 斯 - 利弗莫尔 ( Lawrence-
Livermore) 国家实验室 ) 该计划主要由美国圣地亚哥国家实验室,
洛斯阿拉莫斯国家实验室 ( Los Alamos National Lab),劳伦斯 -利弗莫尔 ( Lawrence Livermore) 国家实验室和 Utah大学,Stanford
大学,Chicago大学和 Caltech(加州理工学院 ),Intel,IBM、
SGI/Cray等公司参加 。
Return
● 1976年,Gray公司研制出第一台超级向量计算机 Cray-1;采用了
RISC技术,具有 8MB内存,晶体管存储器,引入向量寄存器的概念 。
对后继的巨型机,包括我国的巨型机研制都产生过深远的影响 。
● 20世纪 80年代,Cray向量机 CPU数量增加到了 16个 ( 并行处理 ) ;
● 1994年,NSF的匹兹堡超级计算机中心第一次展示了多个处理器
(512个至 2048个处理器 )的 Cray T3D/E型机器,速度为 1300Gflops
对超级计算机的设计产生了持续的影响 。
● 1996年,Cray在巨型机领域领导潮流达 20年之久,错过了以微处理器为基础的集群超级计算机革命而破产 。
● 2002年,开始 Cray X1( 红色风暴 ) 计划 。 同时采用向量处理和
DSM(分布式共享内存 )系统架构,使用的标准部件为多线程处理器 ( MSP),Cray X1由 64个液冷机柜组成 ( 包含 1024个节点,即
4096个定制 MSP处理器 ),共享存储器容量为 16TB~ 64TB,运算速度将达到每秒 52.4万亿次 。
Return
IBM 公司巨型机
1.ASCI蓝色太平洋 计划
2.ASCI 白色计划
3.ASCI 蓝色基因 /L计划
Return
1.ASCI蓝色太平洋 计划
2000 年,IBM 推出,ASCI 蓝 色 太平 洋 ( Blue
Pacific),,该机具有 1464个节点或称为处理单元,
每个处理单元有 4个处理器,共有 5856个处理器用
IBM的专有互连硬件技术连接起来 。 Blue Pacific的内存高达 2.6TB(万亿字节 ),为普通台式 PC内存的数十万倍 ;其存储容量为 75TB的外部存储器足以容下美国国会图书馆所有藏书的内容 。 该机体积庞大,
占地约 8000平方英尺,重达 10.5万磅,使用了 4英里长的电缆,耗电 3900瓦 。 该巨型机装于 Lawrence
Livermore国家实验室,主要任务是模拟核武器爆炸试验 。
Return
Return
2002年,IBM又制造一台当时世界上最快的超级计算机,其计算机能力达到每秒钟运算 12.3
万亿次 (Trillion),这台命名为,ASCI White”的
RS/6000 SP系列计算机有两个篮球场大,用于测试美国存储的核武器的可靠性和安全性,从而替代真实的核爆试验 。,ASCI White”系统使用了
8192个微处理器,内存达到 6TB,磁盘存储能力达 160TB,能够将美国国会图书馆所有的书装 6
遍 。
2.ASCI 白色计划
Return3,ASCI蓝色基因 /L计划
(1)机构:美国加州 Lawrence Livermore实验室和 IBM;
(2)目标:,蓝色基因 /L” ( Blue Gene/L) 超级计算机 。
拟采用 13万个处理器,运算速度达 360万亿次 /秒 。
(3)阶段,2003-2005
2003年,Blue Gene/L的小规模原型机,机柜体积 1
立方米,每秒 2万亿次,04年世界 TOP500的第 73位 。
2005年,Blue Gene/L机器,CPU采用 130000个
PC440,360万亿次 /秒,64个机柜 ( 半个网球场 ),
耗电仅为目前其他超级计算机的 1/15,CPU,安装在美国劳伦斯 -利弗莫尔 ( Lawrence-Livermore) 国家实验室 。
美国计划在 2010年前研制出,蓝色基因 /P”千万亿次超级计算机 。
日本巨型机发展状况
(1)基本情况日本生产巨型机仅次于美观,占巨型机市场 10%。
(2)目前
“地球模拟器”,2003年,36万亿次,世界 Top500 No.1,5120
个定制的处理器,10TB内存,640TB硬盘空间以及 1.5PetaByte
(1PB=1024 TB ) 的辅存系统,2005年,世界 Top500 No.4;
东京大学正在研制 GRAPE-6,其速度将达 180万亿次 。
(3)富土通 HPC2500。 富士通 HPC2500使用大规模并行可伸缩设计,
其使用的是 1.3GHz的 Sparc64 V处理器 。 Fujitsu能使每个节点 ( 含
128个处理器 ) 达到 665.6 Gflops的理论峰值速度,当 128个节点
( 总共 16384个处理器 ) 通过高速光互联连接到一起时,峰值速度将高达 85.1万亿次 。
(4)未来 在 2010年实现千万亿次量级的巨型机 。
Return
欧洲国家 巨型机发展状况欧洲国家在 1991年就制定了,TeraFlops计划,,
1994年投入 2.4亿欧元实施,高性能计算与网络 (HPCN:
High Performance Computing and Network)”计划 。
目前,欧洲最强的超级计算机位于德国的于利克研究中心,其运算能力达到了每秒 45.6万亿次浮点运算 。
英国政府,高端运算超巨型资源 ( High-End
Computing Terascale Resource),,这台 超级计算机研制成功后将达到每秒一百万亿次浮点运算的能力 。
Return
俄罗斯巨型机发展状况
Return
俄罗斯是世界上少数几个能够研制高性能计算机的国家。 2005年下半年,俄 -白联合研制出速度达每秒 2.5万亿次,在 11月 9日公布的世界超级计算机 500强中排名第 98位,该机运用了俄罗斯自行研制的 96位处理器 MBC-1000。
印度巨型机发展状况印度将高性能计算放在很高的战略地位 。
1993年着手研制千亿次级的计算机,前后推出了
PARAM8000,9000和 10000系统 。 其中,1998年 3
月推出一千亿次巨型机 PARAM10000。
印度计算机构正计划在全国范围建造超级算计网格 —I-Grid (information grid) 。 印度先进计算开发中心 (C-DAC)计划在 I-Grid中连接七所著名技术学院,印度科学院和其他学术机构 。
Return
中国巨型机发展状况
Return
( 1) 银河系列
( 2) 曙光系列
( 3) 清华 -浪潮超级集群系统
( 4) 联想集群计算机系统
( 5) 神威系列
( 6) 国家高性能计算环境
( 7) 中国 TOP100
银河系列:
★ 1978年 3月,在全国第一次科学大会上,邓小平谈到计算机技术发展时指出:“中国要搞四个现代化,不能没有巨型机 !”。
★ 1983年 11月,我国第一台亿次巨型机银河 -Ⅰ,银河”的巨型电子计算机在国防科技大学诞辰并通过鉴定。中国成了继美、日等国之后,能够独立设计和制造巨型机的国家。银河 -Ⅰ 采用向量阵列结构( 示意图 )。
★ 1992年 11月 19日“银河 -Ⅱ,10亿次 巨型计算机在长沙通过鉴定。
★ 1997年 6月,“银河 -Ⅲ,并行巨型计算机在北京通过鉴定。它采用 分布式共享存储结构,由 128个计算处理结点,8个计算处理备份结点和 8个 I/O处理结点 及相应的系统软件构成,基本字长 64
位,全系统容量 9.15GB,峰值性能为 每秒 130亿次 浮点运算。
“银河 -Ⅲ,的系统综合技术达到当时国际先进水平。
Next
银河系列:
★ 1999年 11月,第四代银河高性能分布仿真计算机系统推出。“银河 -IV”处理能力已达到 1万亿次
/秒 。其最大特点是,在国内首次采用 HLA/RTI国际 高级 仿真结构标准 ;自行设计了达到当今世界先进水平的分布交互仿真软硬件平台;将超级计算机 (巨型机 )的互联技术和长距离传输技术相结合,构成了适用于强实时仿真的毫秒级传输网络,
可以提供几十米的分布距离,在标准 PCI工作频率下以 64字节的 MP报文通信,其单向点对点带宽可达 30Mbps,单向无阻塞延迟小于 6μs,实现了从单系统仿真到多系统仿真的技术跨越。
Return
曙光系列:
★ 1990年 3月,由中国科学院计算机研究所组建国家智能计算机研究开发中心,开始启动曙光系列机及其产品的研制开发。
★ 1993年 10月,我国第一台以微处理器芯片构成的 全对称多处理机 系统曙光一号研制成功。系统包含 4~ 16个处理器,定点运算速度达到每秒 6.4亿次,在并行操作系统、系统吞吐量、加速比等并行计算关键技术方面有重要突破。
★ 1995年 5月,曙光 1000并行计算机研制成功。采用 MPP结构,由
36个节点处理器 组成,其中 32个计算节点,2个服务节点,2个输入输出节点,采用 6× 6的网格结构,互连机构采用了自行研制的先进的蛀洞 (Wormhole)路由芯片,内存容量 1GB,峰值速度达到每秒 25亿次浮点运算 。
Next
曙光系列:
★ 1996年,曙光 1000A并行计算机系统研制成功,它采用国际主流技术,具有灵活的可扩展体系结构和先进的并行软件编程环境,运算速度达到每秒 40亿次以上。
★ 1998年和 1999年,又成功地研制了曙光 2000-I和曙光 2000-Ⅱ 。
曙光 2000-I系统运算速度为每秒 192亿次浮点运算,内存容量 8GB,
硬盘容量 128GB。采用 SUMA技术 (即可扩展性 Scalability、好用性
Usability、可维护性 Manageability和高可用性 Availability技术 )、服务器聚集技术、单系统映像技术、高效系统通信技术等。
★曙光 2000-Ⅱ 系统的技术水平和性能指标比曙光 2000-I又有了很大的提高,系统峰值速度达到每秒 1117亿次浮点运算,内存容量
50GB,磁盘总容量 622GB。含 4个千兆以太网端口 )和用作高速并行计算的 80端口的高速专用网,吞吐能力强。
Next
曙光系列:
★ 2001年 2月曙光 3000 (3000亿次 )问世。系统由 64个计算节点,6
个服务节点组成,节点采用包含 280个 SMP处理器,其峰值计算速度达到每秒 4032亿次;内存容量 160GB,硬盘容量 3TB;互连机构采用自行研制的路由芯片形式,路由芯片工作频率 35MHz、
数据宽度 32位、带宽 140MB/s,排在当年 TOP500第 80位。
★ 2004年 6月,曙光 4000A ( 图 ),其运算能力为 8Tflop(约 10
万亿次 /每秒),使用了 2560个 AMD芯片。 全球 TOP500 排在第
10名,2004年底则位列第 17;
★ 2005年全球 TOP500 排在第 41名 ;
★ 曙光还将在随后几年内陆续研发面向网格的 4000H和 4000T等超级计算机。
Return
清华 -浪潮超级集群系统浪潮集团和清华大学发布了基于 128颗处理器的浪潮超级集群计算机系统 。 此系统是由 16个接点组成的超级集群系统,最大可扩展为 128颗 Xeon处理器,其处理速度最大可达 1600亿次 /s。 浪潮并行处理系统可以选择节点类型,
包括 2通道,4通道和 8通道 SMP,最大可支持 16个接点,
并由低延迟,高带宽的交换机互联 。 节点之间固有隔离特性,每个节点都运行自己的 Solaris或 Linux操作系统,确保故障不会从测试和开发系统蔓延到业务运作系统 。 为了协助操作,可以将单独的节点分配给特定的应用程序或机构,多个节点可以通过高速 Switch相互通讯 。 同时,系统提供程序运行回卷恢复系统 。
Return
20个机柜,263个结点机,526颗 CPU
内存总量为 272 GB,磁盘存储总量为 6 TB
278个嵌入式处理器组成独立的监控系统,能全面,准确,实时地监测 5000多个软硬件参数
完整的商品化系统,中标中科院数学与系统科学研究院 LSSC-II项目,9月初交付客户使用
国际上第一个 万亿次机群产品
获得 2004年度国家科学技术进步奖
Linpack实测性能指标达到
1046Gflops(每秒一万亿次双精度浮点运算速度)
No.43 2002年 11月 www.Top500.org
No.1 2002年 11月 中国 Top50
联想深腾 1800万亿次服务器( 2002.8)
Next
40个机柜,512个结点机,1024颗 Itanium2
1.3 GHz处理器
Linpack实测性能指标达到 4.183万亿次双精度浮点运算 /秒)
No.14 2003年 11月 Top500
No.26 2004年 6月 Top500
No.72 2005年 6月 Top500
No.1 2003年 11月 中国 Top50
No.2 2004年 11月 中国 Top50
获得 2005年度国家科学技术进步奖联想深腾 6800四万亿次服务器
(2003)
Return
2005年 6月,联想集团拟开发 1000万亿次高性能服务器计算机。
图 1.4 银河巨型机
Return
神威系列:
1999年 8月,由国家并行计算机工程技术研究中心牵头研制的,神威 Ⅰ,问世,。,神威,是一种可缩放的大规模并行计算机系统,由 384个 CPU组成,内存容量 48G,其峰值运算速度可高达每秒
3840亿浮点结果 。 位居当年全世界已投入商业运行的前 500位高性能计算机的第 48位 。 其系统主要由主机系统,前端系统,磁盘阵列系统和软件系统组成,并配备了大容量主存和磁盘阵列,与工业标准兼容的分布式并行操作系统,多种并行程序开发及支持环境,科学计算软件库,数据库系统和可视化系统等 。
Return
国家高性能计算环境:
建设国家高性能计算环境 (简称计算网格 ),改变了过去各自为政研制超级计算机的思路,其目标是在网络化时代建设新一代信息基础设施,攻克相关关键技术,解决国家在经济建设,国防,科研,
教育等领域急需解决的重大问题,实现资源共享,提高设备利用率 。
在国家高性能计算环境项目中,将主要的国产高性能计算机如深腾,神威,银河包含在内,形成由多种国产超级计算机构成的异构平台 。 国家高性能计算环境的布点是在原有的国家高性能中心基础上适当扩充,在北京中科院网络中心 (曙光 2000-Ⅱ),清华大学
(同方 108机群 ),国家气象中心 (神威一号 ),联想万亿次集群系统,
中国科技大学 (曙光 1号,曙光 1000,曙光 2000),复旦大学 (曙光
1000A,曙光 2000),西南交通大学 (曙光 2000),国防科技大学 (银河 ) 和西安交通大学 (曙光 3000)设立了 8个网格节点,除东北暂时空缺外,基本覆盖了全国主要的行政区域 。 规划将这些网格节点用高速网络连接,形成统一调度的计算环境 。
Return
高性能计算机的技术走向传统电子计算机技术:
集成电路系统结构系统软件
Return
非电子计算机技术:
超导计算机量子计算机生物计算机光计算机集成电路:
今后十多年内摩尔定律仍然成立,超级计算机所用的器件会发生相应的变化 。 采用商用元器件仍然是主流,且器件的高度集成化,
高频率,低电压的趋势更为明显 。 CPU,大容量 Cache,存储控制器和网络接口将逐步集成在一起,CPU嵌入到存储器 (Processor In
Memory)的技术将进一步发展,最终可能出现单一品种芯片的超级计算机 。
Return
科学与工程计算结构分析、碰撞仿真、数值天气预报、实时仿真、油藏模拟、地震资料处理、遥感处理、量子化学计算、材料科学计算、基因研究、蛋白质折叠、信号处理、数值风洞模拟、芯片设计、分子动力学、核电安全分析、
散热分析、地球科学虚拟科研环境生成系统等商业计算事务处理,数据仓库,数据挖掘,OLAP,风险分析,税务,电信,
高速计算环境下的科学数据库应用系统等信息服务大规模 Web/Email,搜索引擎,数字图书馆,流媒体,电子商务,数字地球,网络信息过滤与分析,网络安全等服务器集中信息中心,数据中心,IDC
高性能计算机的应用领域
Return
军事核爆炸模拟战场仿真,IDC
系统结构:
超级计算机系统结构研究的重点将主要集中在三个不同的层次上:
1,第一个层次是 共享存储多处理机,包括对称多处理机 (SMP),可缩放共享存储多处理机 (SSMP)及各种变形;
2,第二个层次是以单 CPU,SMP或 SSMP为基本结点的 大规模并行计算机 (MPP),或采用消息传送机制,
或采用共享存储和消息传送相结合的机制 。 ;
3,最高层次是连接分布在不同地点的各类同构或异构计算机的 计算格网 (Computational Grid),最终实现全国或全球的元计算 。
Return
系统软件:
系统软件在今后 3~ 5年内将主要围绕在
Tflops量级的系统解决可扩展性,容错性,开放性,易用性和系统效率等问题上 。 利用自由软件设计自主的操作系统将成为一种趋势,自由软件对多处理器的支持将得到重大改善 。
微软近日推出了跳票半年之久的 Windows
Compute Cluster Server(WCCS)测试版,该操作系统专为集群计算设计,支持每台服务器 4个
CPU,多台使用 Windows操作系统的个人电脑未来能构成廉价的网格超级计算机 。
Return
程序与指令的执行过程
1.计算机程序由完成一定功能的指令序列组成。
2.程序指令序列依次连续存放于计算机内存中间。
3.程序的执行就是从程序的第一条指令开始依次执行指令序列。
4.单处理器计算机串行执行指令,也就是说一个时刻只执行一条指令指令。
5.通常计算机每执行一条指令都是分成三个阶段进行:
取指令 ( f e t c h )
分析指令 ( d e c o d e )
执行指令 ( e x e c u t e )
存储访问(如果需要 M E M,)
回写寄存器(如果需要 W B,)
Next执行一条指令 原理图流水线技术基本原理流水线技术是一种将每条指令分解为多步,并让各步操作重叠,从而实现几条指令并行处理的技术。程序中的指令仍是一条条顺序执行,但可以预先取若干条指令,并在当前指令尚未执行完时,提前启动后续指令的另一些操作步骤。 流水线设计的步 (级 )
数越多,其完成一条指令的速度越快。
如 8 0 4 8 6和 P e n t i u m均使用了取指令、指令译码、地址生成、取操作数、执行指令、存储或,写回,结果等 6步流水线结构。
Pe n t i u m,Pentium Pro和 Pentium II处理器的超标量设计则分别结合了两条和三条独立的指令流水线;
奔腾 Ⅳ 的流水线就长达 20步;
流水线工作原理图流水线工作原理图 Return
执行一条指令 原理图
Return
I F:取指令
I D:指令译码
E X E:指令执行
M E M:存储访问(如果需要)
W B:回写寄存器(如果需要)
Return
Cray T 3 E巨型机由 6 ~ 2 0 4 8个处理器组成,价格在 50万 $~3500万 $
美元之间。
Return
2004 年 世 界 TOP 500
日本 NEC公司的,地球模拟器,(Earth Simulator)连续第五次占据了榜首的位置 (35.86万亿次 flops);
美国 California Digital Corporation的 Thunder排名第 2,用了 4096颗英特尔的安腾 2芯片,运算速度 目前已经达到了 19.9万亿次 flops。
在 TOP500榜上有名的超级计算机中,IBM(224套 ),
HP的系统 (140台 );
两台蓝色基因 /L”的原型机分别 0排名第四和第八位,
运算速度分别达到 11.68和 8.65万亿次 flops。每个芯片将集成大量的复杂组件:双处理器,4个数学计算协处理器,4MB内存以及连接 5个独立网络的通讯系统;
上海超级计算机中心定制的曙光 4000A以每秒 8.061万亿次浮点运算的 Linpack实际运算速度排名 第十位 ;
2005 年 世 界 TOP 500
*位列榜首,IBM公司 Blue Gene/L,每秒 280.6万亿次 ;
*第二,IBM公司 BlueGene/W ( Watson Blue Gene),采用
30000个 PowerPC CPU,运算速度 每秒 136.8万亿次 。
*第三:位于劳伦斯 -利沃莫尔国家实验室的 ASC Purple,运算能力
63.39Tflops。
*第四,日本日立公司的 SR11000 model( K1多用途超级计算系统和 IBM日本的蓝色基因系统联合组成),二者的运算能力分别为
2.15Tflops和 57.3Tflops,整体运算能力接近 60Tflops;
*第四,安装在美国 NASA Ames研究中心的 SGI Columbia系统,
性能为 51.9 teroflop;
*第六:戴尔的 Thunderbird( 38.3 teraflop)
*第七:克雷的 Red Storm( 36.2 teraflop)。
*第八,NEC的 Earth Simulator,性能为 35.9 teraflop。
*第九,IBM的系统 —— MareNostrum( 27.9 teraflop)。
*曙光 4000A以每秒 8.061万亿次浮点运算排名 第 41位 ;
2005 年 世 界 TOP 500
性能提升猛、更新速度快现在只有运算速度超过 1Tflops的系统才能进入 TOP500。本次排行榜中最后一位系统的 k性能为 1.66Tflops,相当于 1993年第一次 TOP500中所有 500台系统的集合能力;
美国的霸主地位不可动摇在 TOP10机器中,美国公司研发制造 9台,5台安装在 美国;总共 500台中,美国生产共制造了
475台,安装:美国 277台;欧洲,114台;亚洲,58台(日本,23,大陆,19,香港,1,台湾:
2);
Intel处理器风光无限
Itanium2和 Xeon EM64T处理器( 333),Power系列处理器( 77台),HP的 PA-RISC处理器
( 36台),AMD的 Opteron处理器( 25台);
IBM占据半壁江山
IMB( 259),HP( 131) SGI( 24),DELL( 21) CRAY( 16),联想( 2),曙光( 1);
机群系统成为主流
304台,其中,IBM 公司( 193),HP 公司( 53);
工业、科研和学术仍是主要应用领域工业( 264),科研学术( 204);
2005年月 11月 TOP500中各国计算能力分布图
Return
HP 超级计算机( 2004年以前)
连续 4次成为全球 TOP500超级计算机的最大供应商
在 TOP500榜上有名的超级计算机中,165台为 HP
系统就占据了,接近三分之一,其中,121台是配备了 RA-RISC或安腾处理器的 HP超腾系统,18台是基于 AlphaServer的超级计算机;
2004年,在最大的 5台超级计算机中,就有两台是
HP系统,它们分别是安装在美国洛杉矶国家实验室的全球排名第二的超级计算机,和安装在太平洋西北国家实验室的排名第五的超级计算机。
2003年中国高性能计算机性能 TOP100排行榜中,有
57台是 HP系统。 2005年,魔兽世界 的 5台 HP服务器
( CPU 8个 Blade Cluster BL-20P,INTEL至强 32位处理器,主频 3.2G。总重达 40吨)以每秒 3.076万亿次速度分别位列榜单的 150至 154位。
Return
曙光 4000A
8Tflop,2560个 AMD公司的 Opteron芯片。
Return
Cray X1
Return
超级计算机 中的 IBM蓝色基因
Return
Return
计算网格( Computational Grid)也称元计算
( Metacomputing)、远程计算( Distance Computing),
主要是指基于高性能互联网络( Internet Ⅱ )实现的高端计算技术,众多计算资源通过高性能互联网广域连接构成高端计算环境,为科技人员和普通百姓提供更多的资源、
功能和交互性,让人们透明地使用计算、存储等资源。网格的主要特征是:资源共享,动态配置,协同工作,不存在任何集中控制;使用标准、通用、开放的协议和接口;
高服务质量,包括响应时间、流量、可用性和安全性。计算网格主要包括网格( Grid),P2P( Peer-to-peer)计算技术等。
21世纪高性能计算的趋势是与网络结合,特别是面向广域网的新技术。
Return
2005年中国高性能计算 TOP100排行榜第一,IBM超级计算机,每秒 21万亿次,国家气象局,
第二:落户上海超算中心的 11万亿次计算性能的曙光 4000A。
Return
2005年月 11月 TOP500中各国计算能力分布图第 2节 新一代计算机
1.电子计算机目前的计算机技术主要基于电子计算机芯片的制造技术,
这项技术 50多年来已取得了巨大的进展,并有力地支持了
,摩尔定律 (Moors Law)”的理论。据估计现在全球每天有
2亿亿个晶体管在使用,平均每人 4000万个!每年芯片制造商制造的晶体管差不多与地球上的蚂蚁一样多!
目前,研究人员正在研究下一代光刻技术 (NGL,Next
Generation Lithography)。包括极紫外 (EUR,End
ultraviolet radiation)光刻、离子束投影光刻技术 (IPL,Ion
Projection Lithography)、角度限制投影电子束光刻技术以及 X射线光刻技术。所进行的这些改进技术中的成功部分将会应用于未来计算机的制造。
2 光计算机随着计算机芯片的处理速度愈来愈快,数据的传送速度而非处理速度成为主要问题。目前计算机使用的金属引线已无法满足大量信息传输的需要。因此,未来的计算机可能是混合型的,即把极细的激光束与快速的芯片相结合。在光计算机中,
不采用金属引线,而是以大量的透镜、棱镜和反射镜将数据从一个芯片传送到另一个芯片。这种传送方式称为自由空间光学技术。
自由空间光学技术的原理是:首先,将硅片内的电子脉冲转换为极细的闪烁光束,
,接通,表示,1”,,断开,表示,0”。然后,将数据流通过反射镜和棱镜网络投射到需要数据的地方。在接收端,透镜将每根光束聚焦到微型光电池上,由光电池将闪光重又转换成一系列电子脉冲。
光计算机有三大优势。光子的传播速度无与伦比,电子在导线中的运行速度与其相比简直就像蜗牛爬行,传送速度最高为每秒 109个字节,而采用硅 -光混合技术后,其传送速度就可达到每秒万亿字节。更重要的是光子不像带电的电子那样相互作用,因此经过同样窄小的空间通道可以传送更多数据。尤其值得一提的是光无须物理连接。如能将普通的透镜和激光器做得很小,足以装在微芯片的背面,
那么明天的计算机就可以通过稀薄的空气传送信号了。因此,光计算机在处理数据的能力上要比电子计算机高 1000多倍,处理信息的速度为每秒 10亿次,接近于人脑的思维能力。
总之,传统电子计算机中,电子在金属线中传输来处理信息,光计算机将采用光子在光纤或薄膜中传输。科学家认为,商用光计算机仍需时日。
3 生物计算机
1.生物计算机概述生物计算机又称为 DNA计算机。从 60年代开始,一批富有远见的科学家就开始寻求出路。西方一些学提出一些新的计算机理论。其中,最具代表性的是美国南加利福尼亚大学伦纳德 ·阿德勒曼 (Leonard M.Adleman)提出的脱氧核糖核酸
( DNA,DeoxyriboNucleic Acid)计算机理论。 1994年,阿德勒曼已研制成功 DNA计算机的逻辑判断装置,并做了生物化学运算试验,解决了数学中的经典 "汉密尔顿路程 "问题生物计算机元器件的密度将是人类自身神经密度的 100万倍,
传送信息的速度也将是人类大脑思维速度的 100万倍。
4,量子计算机
1.量子计算机基本原理所谓量子计算机,就是组成计算机硬件的各种元件由一些原子构成,其体积不到目前同类元件的 1%。不过,目前虽然在量子记忆元件和量子基本元件的研究方面已经取得了一些进展,
但是,离开发出真正的量子计算机还有一段相当长的路程。因此,严格地说,目前量子计算机尚处于概念阶段。在量子计算机中,原子的特异能阶状态可以用来记录信息。每一个原子就是一个点,基态 E0代表一个 0点,E1能态的原子就代表一个 1点,一串氢原子就可以用来记录一串信息。原子的能量状态只能作阶式的存在,能量的状态变化只能由一个能阶跳入另一个能阶,而不能连续地升或降。原子的这种特异能阶状态被用来记录信息,每个原子就是一个点,一串原子就可用来记录一串信息。
量子计算机的主要优点是系统的某部分发生故障时,输入的原始数据会自动绕过,进入系统的正确部分进行正常运算,运算能力相当于 1000亿个奔腾处理器,运算速度比现有的计算机快 100倍。
2.量子计算机发展现状近年来,基于量子力学效应 (如量子相干、量子隧穿、库仑阻塞效应等 )的固态纳米电子器件研究也取得很大进展。美国劳伦斯伯克利国家实验室的研究人员目前证实,直径为人头发的
1/50000的中空纯碳纳米管上存在着原子大小的电子器件。纳米管器件理论上早有预言,但这是首次证实这种器件确实存在。
目前,量子计算机尚处于理论与现实之间。不管哪种技术最终被证明是制造量子芯片的最好技术,都还要面对多年艰苦的研究工作。大多数专家认为量子计算机会在今后的几十年间出现。不过,科学家们仍然预见终究将有一天,几兆的量子点会叠放在原来是硅片的层面。这个前景意味着有可能实现针尖上的超级计算机,它已使这种奇特的结构成为量子前沿最火的新兴领域的一部分。可以肯定,量子化计算机技术将会给人类世界带来巨大的变化。
5.可穿戴计算机
1.概述计算机自问世以来,为满足应用的需要,一直在不断变化,从二进制输入和指示灯显示,到现在常见的主机和桌面上的显示器、鼠标、键盘、网络;从掌上电脑到巨型机等。但是,近年来许多应用领域都要求计算机能随着人的活动在任何时间、任何地点运行程序并上网工作,也就是说,跟着人进行,移动计算,和,移动网络通信,。例如,新闻记者进行现场报道时,需要抢时间对信息进行实时处理并随时上网;飞机维修人员要边维修、边阅读手册,可能还要上网进行讨论和交流,并在使用计算机的同时不影响双手的维修操作;军事上的应用则更为普遍,
像特种兵的作战和侦察等。于是人们设想人与计算机能够浑然一体,即把计算机从桌面移到人的身上,通过微小型设计和合理的布局,将各模块分布到人体的各个部位,从而能,穿,在身上,并与人相结合,通过无线传输构成一个移动节点,
实现移动网络计算。这就是人们所憧憬的新一代计算机 ——可穿戴计算机。
可穿戴计算机是一种能时刻伴随使用者的计算机,它的主要特点如下:
● 解放了人的双手,在对计算机操作时不影响双手做其他工作;
● 具备移动性;
● 具有感知能力;
● 具有无线组网能力;
● 可保持连续工作状态;
● 具有十分友好的人机交互能力。
2.2.可穿戴计算机基本组成、工作方式和主要功能一个基本的可穿戴计算机系统主要包括微小型计算机、头戴显示器
( HMD)、微型摄像头,GPS定位器、耳机、话筒、无线电台、手写输入板、电池等,如图 10.1所示。所有设备分别戴在头上和装在衣服口袋里。
可穿戴计算机系统的基本工作方式是:通过摄像头摄取图像,通过话筒和手写板分别输入语音和文字,计算机将声、图、文信息进行压缩加密后,通过电台传到另一节点或处理中心;然后,电台接收另一节点或处理中心传来的声、图、文信息并送到计算机,经过解密和解压缩后,再分别传送到显示器和耳机,可通过手写板和几个功能键实现简单操作。
可穿戴计算机系统的主要功能有:
● 定位通过 GPS可准确确定使用者的位置;
● 视觉延伸通过摄像将现场图像传回远程接收点;
● 语音命令通过语音来操作计算机;
● 手写输入;
● 多媒体集成;
● 决策根据现场信息做出预测分析和决策。
图 10.1可穿戴计算机系统组成框图综上所述,从近期看,可穿戴计算机可能取代个人电脑;从长远看,超导、光子、生物与量子计算是实现高性能计算的新途径,在 21世纪内,这些新技术可能导致一场新的计算机技术革命,但是,这些新技术的成熟还有一个过程。而电子计算机仍有强大的生命力。在近半个世纪内,其他计算技术还不大可能完全取代电子计算机。人们不应强调研制纯而又纯的超导、光学、生物和量子计算机,而应发挥各自的长处,
在优势互补、系统集成上多下功夫。事实上,各种混合技术,
如光电技术、超导 —电子混合技术,光学生物混合技术等都取得了较大进展。因此,可以预见,21世纪的计算机是电子、
超导、分子、光学、生物与量子计算机相互融合、取长补短的 "混合型计算机 ",它将具有极快的运算速度和惊人的存储容量,它的进展将在经历一段平缓期后获得巨大的技术飞跃甚至定义新的,摩尔定律,。而且,21世纪计算机的存在形式也会更加多种多样,它可能比针尖还小,甚至存在于人的大脑里,全球网络及数字通讯也将因此更加发达。
第 3节 微处理器技术
一,微处理器技术的基本知识
1.微处理器的定义微处理器( microprocessor)又称为中央处理器
(CPU:Central Processing Unit)。中央处理器是计算机硬件系统中最重要的一个组成部分,由算术逻辑运算部件、寄存器、控制部件组成,它是计算机内部对数据进行处理并对处理过程进行控制的部件。伴随着大规模集成电路技术的迅速发展,芯片集成密度越来越高,使得 CPU的组成部件可以都集成在一个半导体芯片上,这种具有中央处理器功能的大规模集成电路器件,统称为,微处理器,。
2.微处理器的分类根据微处理器的应用领域,微处理器大致可分为三类:
( 1) 通用高性能微处理器
( 2) 嵌入式微处理器和数字信号处理器
( 3) 微控制器
2.微处理器的分类根据微处理器的应用领域,微处理器大致可分为三类:
( 1) 通用高性能微处理器
( 2) 嵌入式微处理器和数字信号处理器
( 3) 微控制器
3,微处理器的结构组成微处理器是计算机系统的核心,主要包括运算器和控制器两个部件,其内部结构归纳起来可以分为控制单元、逻辑单元和存储单元三大部分,这三个部分相互协调,便可以进行分析,判断、运算并控制计算机各部分协调工作。
4.微处理器的工作过程
CPU的工作过程就是跟踪指令并完成相应的计算机处理过程。
工作时,指令指示器将指向内存中存放指令的地方,从中取出指令,并把它交给解码器。解码器解释指令,并确定为完成该指令所需要的步骤,而一条指令也可以由许多按预定的顺序来完成的步骤组成。然后,ALU(算术逻辑单元 )执行指令所要求的操作:对数据进行加、减运算,或者其它的一些处理。在 CPU解释并执行完一条指令后,控制器会告诉取指器去内存中取出下一条指令。这就是 CPU的工作过程,是一个持续进行的、周而复始的过程,其速度非常快,是人脑不可比拟的。
5,CPU的架构
CPU架构是按 CPU的安装插座类型和规格确定的。目前常用的 CPU按其安装插座规范可分为 Socket x和 Slot x两大架构。
6,缓存技术缓存就是指可以进行高速数据交换的存储器,它先于内存与
CPU交换数据,因此速度极快,所以又被称之为高速缓存
( Cache)。与处理器相关的缓存一般分为两种,一级( L1)
缓存(也称片内缓存)和二级( L2)缓存。
7,CPU的指令体系所谓指令系统,就是指一整套的指令格式和 CPU处理指令的方式,由于指令排列的顺序和种类不同,形成不同的指令体系,也造成了 CPU内部结构的不同。目前 CPU的指令系统大致可分为复杂指令集 (CISC)和精简指令集( RISC)两大体系。
复杂指令集是一种为了便于编程和提高内存访问效率的芯片设计体系,它拥有较多的指令,可处理更强大的工作或是运算,但是执行速度相对较慢,且售价较昂贵。精简指令集是为了提高处理器运行的速度而设计的芯片体系,它拥有较少的处理指令,指令系统小;一个时钟周期内可以执行一条或者多条指令;采用标准长度指令;存储器访问只使用加载和存储两个指令等,价格也相对便宜。
二,微处理器技术的发展
1,微处理器技术发展概况微电子技术水平迅速提高:每 18个月集成度提高一倍。
微处理器结构设计者可在片内实现各种先进体系结构。
微处理器及外围支援器件的性价比达到前所未有水平。
微计算机系统的性价比迅速提高:达到传统意义的工作站与小型机的水平。
高性能、低能耗、高速度和低成本将是未来的微处理器的发展方向。
2,微处理器的新发展
( 1) 更小的布线宽度和更多的晶体管芯片制造界有一条众所周知的摩尔法则:集成在一块芯片上的晶体管数量大约每两年增加一倍。目前,Intel和 AMD的 CPU都已经采用了 0.13微米技术。专家预计,2006年单片系统集成芯片的设计将达到这样一些指标:最小特征尺寸 0.1微米,芯片集成度 2亿个晶体管。就目前的硅芯片来说,减小布线宽度是提升 CPU速度的关键。而从制作工艺方面讲已取得了一些突破。 IBM开发出了一种新的芯片封装技术 ——铜导线技术,
它使芯片厂商能够使用铜导线代替传统的铝制连线以连接芯片上的晶体管。采用铜导线技术来生产 CPU比起传统的铝导线技术可以在相同面积的硅晶片中集成更多的晶体管。而且铜的导电性要优于铝,电阻小,所以发热量也小于铝,从而可以有效地提高 CPU的工作频率和稳定性。因此,铜导线技术全面取代铝导线技术是必然的趋势。在 2005年之前,我们就能够看到 5GHz处理器的出现。今后 8年之内,20GHz的处理器可望进入商业应用。
下表为 Intel对今后 5年制造工艺的预测,
( 2) P4 Prescott,TeraHertz晶体管架构及 BBUL封装技术
2002年 3月 Intel首次公布了下一代全新 P4处理器 Prescott的研发计划。据 Intel表示 Prescott将采用 0.09微米工艺,其核心尺寸为 81平方毫米,初期采用 667MHz前端总线 (166MHz
× 4)或 800MHz FSB(200MHz × 4)。核心电压 1.2V(未最终确定 ),工作频率将在 3.5GHz以上 (甚至更高 )。
另外 Intel还透露在 2005年将推出采用全新的 TeraHertz晶体管架构的处理器产品,该架构采用了 SOI(Silicon-On-
Insulator,硅单晶薄膜 )工艺,以及 High-K Dielectrics(高 K绝缘体 ),Epitaxial wafers(外延晶圆 )等众多全新技术,令芯片的发热量及功耗大幅降低,同时芯片的工作频率也会大幅提升,Intel表示 TeraHertz晶体管的功耗会达到低于 100W的水准。理论上采用 TeraHertz晶体管架构能够制造出 10GHz-
20GHz的处理器产品,在 2007年前达到 20GHz也是 Intel未来
10年的主要发展目标之一。
(3) 新一代 VLIW架构的 64位 CPU
VLIW架构即超长指令集架构,采用了先进的 EPIC(清晰并行指令)设计,每个指令周期可执行 20条指令,大概是 RISC(精简指令结构 )指令集的 4倍,是 CISC(复杂指令结构)指令集的 5倍,可见 VLIW要比 CISC和 RISC强大得多。 VLIW的最大优点是简化了处理器的结构,删除了处理器内部许多复杂的控制电路,这些电路通常是超标量芯片( CISC和 RISC)协调并行工作时必须使用的,VLIW将所有的这类工作交给编译器去完成。 VLIW的结构简单,也能够使其芯片制造成本降低,价格低廉,能耗少,而且性能也要比超标量芯片高得多。 VLIW
的优势,将会促使 CISC和 RISC转移到 VLIW架构,这种转移将是,历史发展的必然趋势,。
64位 CPU能够处理 64位的数据和 64位的地址,能够提供更高的计算精确度和更大的存储器寻址范围,可以快速而精确地执行应用程序,允许程序人员在设计程序时可以使用比以往更大的数据库和存储空间,可以处理很复杂的计算模型。
(4)更高的总线速度现在的总线越来越限制了高性能 CPU的发挥。为此,各个厂商都在想办法提高总线速度。预计到三年之内,总线速度应该能超过 1GHz。
(5)芯片集成三级缓存三级缓存是采用一种新型的管线技术,浮点的马力更加强大,技术更加精湛。目前此项技术已逐步进入 64位处理领域。
Intel公司推出的新一代 Itanium处理器中有 96MB的二级缓存和 4MB的 3级缓存,其中二级缓存封装在芯片内,三级缓存封装于另外一枚芯片上。 Intel还计划在其采用 0.13微米制造工艺的第三代安腾 ——“Madison”中内置高达 6MB的三级缓存,未来采用 0.09微米工艺,集成 8000万颗左右晶体管的第四代安腾 ——“Montecito”可支持 12MB的三级缓存。
(6)多处理器技术多处理器技术采用多指令流多数据流( MIMD)的操作方式。从结构上看,一类是具有共享存储器的系统;另一类是具有分布存储器的系统。
目前应用较广的 SMP对称多处理器系统采用的就是一个统一的共享主存空间。多处理器在互连结构上有总线型、交叉开关型、多端口存储器型、
开关枢纽型等几种分类。
总线型实现简单,但容易形成数据传送瓶颈;交叉开关是在不断增加总线后的极限状况,这使得每个存储模块都有他自己单独可用的通路,
数据传送效果好,但硬件开支很大,不易大规模投入使用;如果把分布在交叉开关网络中的控制、转接和优先级仲裁逻辑分布到存储器模块的接口上,就形成了多端口存储器系统,缺点是扩充性不好;开关枢纽采用一种有多个入端口和出端口的结构,在外加控制信号的作用下,选择性地实现连通,这种方式比较灵活。
另外有一种多处理器技术是在一个封装里实现多个子 CPU的工作方式,
让多个子 CPU同时分别执行一个线程,而每个线程内部照样使用现在最先进的超标量、流水线等结构。这种形式在未来的一些 64位 CPU中已经有所体现。
三,典型微处理器
1.英特尔的 CPU
( 1) 奔腾 II
奔腾 II系列产品的主频有,450MHz,400MHz,350MHz、
333MHz,300MHz,266MHz,233MHz。基于奔腾 II的计算机系统非常适合于适合管理金融交易,商务运作或者是进行多人游戏。因为它的浮点、整数及多媒体运算的性能非常好。
它提供了 100MHz前端总线与 MMX技术,在多媒体应用,个人计算机影像制作,因特网通讯以及电子商务应用等方面都具备许多特殊的功能。
( 2)奔腾 III
奔腾 III是英特尔的主打产品,拥有 256KB全速 ATC
( Advanced Transfer Cache,高级转移缓存)二级缓存,
32KB一级缓存,133MHz外频,SSE和 MMX SIMD指令集,可以运行绝大部分软件。 全新的 Intel(R)奔腾 III CPU 450 至
1.13GMHz已经隆重推出。这是专为台式计算机而设计的,
最先进的和功能最强大的 CPU。能让计算机在新时代互联网上大显身手,并具有兼容性。该系列 CPU揉合了全新的 Intel
公司的所有技术,增加了 70项新指令,主要技术参数如下:
CPU运算速度,450至 1.13GHz。
配备 133或 100MHz系统总线。
512K L2 Cache,或 256K高级传输高速缓存。
( 3) 奔腾 Ⅳ
Intel公司于 2000年底推出的最新产品,称为第四代 CPU芯片,其运行速度为 1.5 GMHz。它将逐渐取代奔腾 III的地位,拥有 256KB全速 ATC
( Advanced Transfer Cache,高级转移缓存)二级缓存,8KB一级追踪缓存,SSE2指令集,主要是为高频率而设计。对于现在的软件来说,它的效率比较低,IPC( Instructions Per Clock Cycle,指令 /时钟周期)亦较少。
在没有软件为它优化的情况下,比同频率 Athlon和奔腾 3都要慢,通过特殊的编译器和 SSE 2寄存器,可以使其性能得到惊人幅度的提升,甚至可达 300%。
Pentium Ⅳ 有两种不同的核心的产品,第一代就是最早的 willamette核心的产品,采用 0.18微米的铝导线工艺,配合低温半导体介质 (low-
kdiclcctric)技术,是一颗就有超级深层次管线化构架的处理器,核心采用
1.7v到 1.75v的电压。(常见的 1.3g~2.0g基本都是这种核心)。后来 Intel
又推出了采用新核心 NorthWood的 Pentium 4处理器,它采用了更先进的
0.13微米的铜导线连接工艺,核心采用更低的电压 0.15v。它运行于
533MHz前端总线,工作频率分别为 2.53/2.40/2.26GHz。这款处理器均采用 300毫米晶圆 0.13微米工艺 Northwood核心,mPGA478封装,核心集成
5,500万晶体管,支持 SSE2指令集,配备 512KB二级缓存,是以前
willamette核心的 2倍,核心电压 1.5V。 Northwood核心才能体现 Pentium
4的强大性能!其后又推出稍低频率的产品,从 Pentium 4 1.6A开始到
2.0G的产品,不过这些低频率的产品采用的还是 400Mhz的总线设计。
( 5) 赛扬 II
赛扬( Celeron) II主要为了填补奔腾 II与奔腾 III之间的空白地带,拥有 32KB一级缓存,128KB合速二级缓存,
Coppermine内核(与奔腾 III相同),SSE/MMX SIMD指令集。
最大优势是价格便宜,适合旧系统的廉价升级。在国内市场上销路非常的好,许多个人,甚至集团用户也将它作为首选产品。目前,已经发行的产品的主频为,266MHz,300MHz、
333 MHz,400 MHz,433 MHz,466 MHz,600 MHz,666
MHz,780 MHz,850 MHz等。与奔腾 II相比,主要的不足之处是普通的赛扬 CPU没有 L2 Cache,图形图像处理能力稍逊。
但 466 MHz以上的产品性能非常好,其主要特点是:
( 1) 128K内置 L2 Cache。
( 2)基于 Intel的 P6微型构架,与奔腾 II如出一辙。
( 3)配备 Intel MMX技术,能输出流畅的图形图像与丰富多彩影音效果
2.AMD的 CPU
AMD是第二大 x86微处理器生产商,凭借 Athlon和 K6-2分别打入桌面和移动式市场。下面介绍的 AMD芯片都支持 3DNow!,
增强 FPU的运算能力,也可以说是 AMD版的 SSE。
( 1) Atlhon(速龙)
AMD Athlon集成了 2200万个晶体管,采用 Slot A接口方式,
目前有 500-1000MHZ不同主频的产品,总线速度 100MHZ,
采用了扩展的 3DNOW!技术,0.25- 0.18微米制造工艺,核心电压为 2.0V。片内集成 128K一级缓存,包括指令缓存 64KB,
数据缓存 64KB。片外二级缓存容量为 512KB,最大可以支持
8M的二级缓存,运行在处理器主频速度一半的状态下。 AMD
Athlon采用全新的宏处理结构,拥有三条 X86指令译码器,可以并行进行乱序执行,而且运行速度超过 Intel芯片的 X86代码运行速度,提供了强大的浮点运算能力,打破了 Intel长期以来在浮点运算方面的霸主地位。目前已发行的产品的主频有:
500MHz,550 MHz,600 MHz,650 MHz,700 MHz,750
MHz,800 MHz,850 MHz,900 MHz,950 MHz,1000MHz
等款
( 2) Duron(毒龙)
用来取代 K6的低端产品,采用了改良后的 Athlon内核,集成了 128KB全速一级缓存,以及 64KB全速二级缓存,在所支持的主板上还将有一部分的 L3,使用 0.18微米的制作工艺,使用 200MHZ的总线和 3条浮点流水线将在很大程度上弥补 L2的不足,采用 FC-
PGA封装技术,采用全新的 Socket A(Socket 462)接口,主频范围为 500~700MHZ。 Duron的主板与
Athlon相同,未来可以轻易地升级到雷鸟 Athlon。
( 3) AMD K6-2/3
AMD K6-2集成了 930万个晶体管,生产时间为 1998年,目前有 266到 533MHZ等不同频率范围的产品,外频总线速度为 66
到 100MHZ,加入了 3DNOW!技术,3DNOW!指令是对 X86
体系结构的重大突破,大大加强了处理 3D图形和多媒体数据所需要得密集浮点运算能力,同时支持超标量 MMX技术,采用 0.25微米制造工艺,核心电压为 2.2V,低电压使 K6-2的发热量大幅降低。内建一级缓存为 64KB,其中包括指令缓存
16KB,数据缓存 16KB。二级缓存为 256KB到 1MB集成在主板上。 K6-2有 266 MHz,300 MHz,333 MHz,350 MHz,380
MHz,400 MHz,450 MHz等不同频率的产品,与其相应的
CPU外部频率也有 66 MHz,95 MHz,100MHz等几种。