哈尔滨工业大学计算机科学与技术学院
并行处理与体系结构
哈尔滨工业大学计算机科学与技术学院
第 4章 处理器构件
一、基础知识
?流水线的基础
?指令流水线的设计
?数据流水线的设计
哈尔滨工业大学计算机科学与技术学院
二、高性能的设计技术
?超标量设计技术
?超流水线设计技术
?后 RISC、多媒体和超长指令字技
术
哈尔滨工业大学计算机科学与技术学院
?三、处理器的发展
?未来的处理器芯片将可能是,
?更高密度;
?更大微芯片;
?更高的时钟速率;
?更高的 lLP开发;
?更低的 CPI;
?更大的功耗;
?更复杂的软件支持。
哈尔滨工业大学计算机科学与技术学院
?1.硬件发展趋向和物理极限
?1994年半导体工业协会 (SIA)已 预
测,
?在 2010年将生产出有 8亿晶体管的
CPU芯片,该芯片会有数千个引脚,
1000位总线,超过 2GHz的时钟速率
以及功耗将高达 180瓦。
?微处理器性能在 10年内将增加 50倍。
哈尔滨工业大学计算机科学与技术学院
哈尔滨工业大学计算机科学与技术学院
? 主要限制,
① 在体系结构和编译器方面若没有大
的突破,要开发更高的 ILP是相当困
难的。
② 另一个限制是巨型 CPU芯片所释放的
过分热量,冷却和封装将是实际问
题。
③ 物理障碍在未来的几年中有待跨越。
哈尔滨工业大学计算机科学与技术学院
?2.未来的工作负载和挑战
处理器体系结构的发展受所期望的应
用工作负载的驱动。
? 在以后的 20年中,无论是对通用还是
对专用处理器来讲它们的工作负载将
会有很大变化。
? 用户接口将消耗多媒体微处理器中更
多功率。在实时和嵌入式应用中的多
媒体工作负载将会继续增长。
哈尔滨工业大学计算机科学与技术学院
?四、未来微处理器的体系结构
?下面提供一些正在开发先进体系结
构的美国的主要研究小组。
?目的:追踪他们未来的成果。
哈尔滨工业大学计算机科学与技术学院
哈尔滨工业大学计算机科学与技术学院
?(1)多路超标量处理器
? Yale Patt领导的密西根大学的研究小组
? 研究了后 RISC的特性,如下图;
? 针对当今的超标量处理器大都是 3或 4发射
的设计,已弄清 指令供应、数据存储器供
应以及 1个可实现的执行核心 是妨碍目前
超标量提升到 16路或 32路设计的关键问题;
? 提议采用无序取指、多种混合的转移预测
器以及路径高速缓存以改善指令供应;
哈尔滨工业大学计算机科学与技术学院
哈尔滨工业大学计算机科学与技术学院
? 提议使用巨大的片内高速缓存和对数
据值的猜测以增强数据供应;
? 提倡使用大型的无序发射指令窗口
(2000条指令 );
? 功能部件的群集堆以及对就绪指令的
层次调度;
? 提议欲保持与目前单处理器芯片的软
件兼容性。
哈尔滨工业大学计算机科学与技术学院
?(2)超级猜测处理器
?John Shen领导的卡内基 — 梅隆大学小
组提出;
? 侧重于在所有层次上使用大规模猜测
以达到改善性能目的。
? 他们提出了一个超流 (Superflow)微体
系结构,取指宽度 32,重排序缓冲器
128以及供各种存储器构造使用的 128
项存储队列;
哈尔滨工业大学计算机科学与技术学院
? 他们使用的是弱相关模型,从而对于某
些基准程序可达到每周期处理多至 19条
指令 (IPC)的超级猜测性能,而对于
SPEC95的整数基准程序组可获得的调和
均值性能为 9IPC。
? 这种模型的使用不需要重新编译或对 ISA
进行改变。
? 他们的研究成果在许多方面是对密西根
的多路超标量体系结构的补充。
哈尔滨工业大学计算机科学与技术学院
? (3)同时执行的多线程处理器,
? 由 SusanEggerst领导的华盛顿大学的研究小组提
出的;
? 同时执行多线程 (SMT)代表多现场单处理器。
? SMT方法远离了那些单线程的单处理器体系结构。
? SMT处理器在由多道程序工作负载产生的多线程
间共享一条激进流水线。
? 该方法的成功与否主要取决于线程级的高 ILP的
可用性。
? 到目前为止,只有模拟的实验结果证明该方法可
获得某种性能增益。
哈尔滨工业大学计算机科学与技术学院
? (4)路径 (多标量 )处理器
? 由威士康星大学的 Smith和 VaJaeyam提出的。
? 其构思是使用由 多个片内处理器核心 组成的
路径处理器,各个核心同时执行代码的一个
不同路径。
? 除了一个核心以外,其他核心都使用转移预
测选择路径并猜测地执行这些路径。
? 威士康星小组认为未来的多标量处理器将主
要依赖于复制、层次化和预测方法以动态地
增加一般顺序程序的执行速度。
哈尔滨工业大学计算机科学与技术学院
?(5)向量 IRAM处理器
? IRAM-Intelligent random access
memory。
? 这是 David Pattersonl领导的加州大学
伯克莱分校的一个研究项目。针对存储
器性能瓶颈开展。
? 探索 DRAM技术可将可扩展多处理器嵌入
到片内的大型存储器阵列中。
? 巨大片内存储器容量和高带宽应使成本
有效的向量处理机比传统的体系结构获
得高得多的性能。他们相信未来的工作
负载将会含有更多可向量化成分。
哈尔滨工业大学计算机科学与技术学院
? (6)单片多处理器
? 斯坦福大学开发单片多处理器 (CMP)的
研究项目;
? 它在单芯片上实现 4到 16个快速处理器。
? 每个处理器与一个小型的 1级高速缓存
紧密耦合,而所有处理器又共享一个
大型的 2级高速缓存。
? 这些处理器可合作处理一个并行作业
或是各自运行独立任务。
哈尔滨工业大学计算机科学与技术学院
?要使 CMP要求编译器必须显式地使
代码并行化。
?CMP体系结构与老的 ISA不兼容,虽
然它们可以缓慢或低效地运行在小
规模处理器上。
?斯坦福研究人员期待线程和进程并
行性在未来将会广为流传。
哈尔滨工业大学计算机科学与技术学院
?(7)原始 (可构造 )处理器
?MIT计算机科学实验室的研究项目
?提出了 远离传统的体系结构。
?它的基本思想是在单芯片上用几
百个,每个带有某些可重构逻辑
的非常简单的处理器,来实现高
度并行的体系结构。
哈尔滨工业大学计算机科学与技术学院
?并行执行和通信完全凭借软件控
制和合作。
?该方法去除了传统的指令系统的
接口。它直接将重复的体系结构
暴露给编译器。
?此可构造体系结构允许编译器为
每种应用定制相应硬件。
并行处理与体系结构
哈尔滨工业大学计算机科学与技术学院
第 4章 处理器构件
一、基础知识
?流水线的基础
?指令流水线的设计
?数据流水线的设计
哈尔滨工业大学计算机科学与技术学院
二、高性能的设计技术
?超标量设计技术
?超流水线设计技术
?后 RISC、多媒体和超长指令字技
术
哈尔滨工业大学计算机科学与技术学院
?三、处理器的发展
?未来的处理器芯片将可能是,
?更高密度;
?更大微芯片;
?更高的时钟速率;
?更高的 lLP开发;
?更低的 CPI;
?更大的功耗;
?更复杂的软件支持。
哈尔滨工业大学计算机科学与技术学院
?1.硬件发展趋向和物理极限
?1994年半导体工业协会 (SIA)已 预
测,
?在 2010年将生产出有 8亿晶体管的
CPU芯片,该芯片会有数千个引脚,
1000位总线,超过 2GHz的时钟速率
以及功耗将高达 180瓦。
?微处理器性能在 10年内将增加 50倍。
哈尔滨工业大学计算机科学与技术学院
哈尔滨工业大学计算机科学与技术学院
? 主要限制,
① 在体系结构和编译器方面若没有大
的突破,要开发更高的 ILP是相当困
难的。
② 另一个限制是巨型 CPU芯片所释放的
过分热量,冷却和封装将是实际问
题。
③ 物理障碍在未来的几年中有待跨越。
哈尔滨工业大学计算机科学与技术学院
?2.未来的工作负载和挑战
处理器体系结构的发展受所期望的应
用工作负载的驱动。
? 在以后的 20年中,无论是对通用还是
对专用处理器来讲它们的工作负载将
会有很大变化。
? 用户接口将消耗多媒体微处理器中更
多功率。在实时和嵌入式应用中的多
媒体工作负载将会继续增长。
哈尔滨工业大学计算机科学与技术学院
?四、未来微处理器的体系结构
?下面提供一些正在开发先进体系结
构的美国的主要研究小组。
?目的:追踪他们未来的成果。
哈尔滨工业大学计算机科学与技术学院
哈尔滨工业大学计算机科学与技术学院
?(1)多路超标量处理器
? Yale Patt领导的密西根大学的研究小组
? 研究了后 RISC的特性,如下图;
? 针对当今的超标量处理器大都是 3或 4发射
的设计,已弄清 指令供应、数据存储器供
应以及 1个可实现的执行核心 是妨碍目前
超标量提升到 16路或 32路设计的关键问题;
? 提议采用无序取指、多种混合的转移预测
器以及路径高速缓存以改善指令供应;
哈尔滨工业大学计算机科学与技术学院
哈尔滨工业大学计算机科学与技术学院
? 提议使用巨大的片内高速缓存和对数
据值的猜测以增强数据供应;
? 提倡使用大型的无序发射指令窗口
(2000条指令 );
? 功能部件的群集堆以及对就绪指令的
层次调度;
? 提议欲保持与目前单处理器芯片的软
件兼容性。
哈尔滨工业大学计算机科学与技术学院
?(2)超级猜测处理器
?John Shen领导的卡内基 — 梅隆大学小
组提出;
? 侧重于在所有层次上使用大规模猜测
以达到改善性能目的。
? 他们提出了一个超流 (Superflow)微体
系结构,取指宽度 32,重排序缓冲器
128以及供各种存储器构造使用的 128
项存储队列;
哈尔滨工业大学计算机科学与技术学院
? 他们使用的是弱相关模型,从而对于某
些基准程序可达到每周期处理多至 19条
指令 (IPC)的超级猜测性能,而对于
SPEC95的整数基准程序组可获得的调和
均值性能为 9IPC。
? 这种模型的使用不需要重新编译或对 ISA
进行改变。
? 他们的研究成果在许多方面是对密西根
的多路超标量体系结构的补充。
哈尔滨工业大学计算机科学与技术学院
? (3)同时执行的多线程处理器,
? 由 SusanEggerst领导的华盛顿大学的研究小组提
出的;
? 同时执行多线程 (SMT)代表多现场单处理器。
? SMT方法远离了那些单线程的单处理器体系结构。
? SMT处理器在由多道程序工作负载产生的多线程
间共享一条激进流水线。
? 该方法的成功与否主要取决于线程级的高 ILP的
可用性。
? 到目前为止,只有模拟的实验结果证明该方法可
获得某种性能增益。
哈尔滨工业大学计算机科学与技术学院
? (4)路径 (多标量 )处理器
? 由威士康星大学的 Smith和 VaJaeyam提出的。
? 其构思是使用由 多个片内处理器核心 组成的
路径处理器,各个核心同时执行代码的一个
不同路径。
? 除了一个核心以外,其他核心都使用转移预
测选择路径并猜测地执行这些路径。
? 威士康星小组认为未来的多标量处理器将主
要依赖于复制、层次化和预测方法以动态地
增加一般顺序程序的执行速度。
哈尔滨工业大学计算机科学与技术学院
?(5)向量 IRAM处理器
? IRAM-Intelligent random access
memory。
? 这是 David Pattersonl领导的加州大学
伯克莱分校的一个研究项目。针对存储
器性能瓶颈开展。
? 探索 DRAM技术可将可扩展多处理器嵌入
到片内的大型存储器阵列中。
? 巨大片内存储器容量和高带宽应使成本
有效的向量处理机比传统的体系结构获
得高得多的性能。他们相信未来的工作
负载将会含有更多可向量化成分。
哈尔滨工业大学计算机科学与技术学院
? (6)单片多处理器
? 斯坦福大学开发单片多处理器 (CMP)的
研究项目;
? 它在单芯片上实现 4到 16个快速处理器。
? 每个处理器与一个小型的 1级高速缓存
紧密耦合,而所有处理器又共享一个
大型的 2级高速缓存。
? 这些处理器可合作处理一个并行作业
或是各自运行独立任务。
哈尔滨工业大学计算机科学与技术学院
?要使 CMP要求编译器必须显式地使
代码并行化。
?CMP体系结构与老的 ISA不兼容,虽
然它们可以缓慢或低效地运行在小
规模处理器上。
?斯坦福研究人员期待线程和进程并
行性在未来将会广为流传。
哈尔滨工业大学计算机科学与技术学院
?(7)原始 (可构造 )处理器
?MIT计算机科学实验室的研究项目
?提出了 远离传统的体系结构。
?它的基本思想是在单芯片上用几
百个,每个带有某些可重构逻辑
的非常简单的处理器,来实现高
度并行的体系结构。
哈尔滨工业大学计算机科学与技术学院
?并行执行和通信完全凭借软件控
制和合作。
?该方法去除了传统的指令系统的
接口。它直接将重复的体系结构
暴露给编译器。
?此可构造体系结构允许编译器为
每种应用定制相应硬件。