哈尔滨工业大学计算机科学与技术学院 1
并行处理与体系结构
哈尔滨工业大学计算机科学与技术学院 2
第 3章 性能指标和基准程序
??1 系统和应用的基准程序
??2 性能和成本
??3 基本性能指标
??4 并行计算机性能
??5 并行程序性能
??6 可扩展性和加速比分析
哈尔滨工业大学计算机科学与技术学院 3
? 用户经常提到 6种性能,
① 执行时间
② 速度
③ 吞吐率
④ 利用率
⑤ 成本有效性
⑥ 性能/成本比
? 对在相同计算机平台上执行相同的应期程
序,这些需求可能导致很大差别的结论。
哈尔滨工业大学计算机科学与技术学院 4
?用到的一些概念
?工作负载( W)是程序中的计算操
作数
?Ppeak是处理器的峰值速度
哈尔滨工业大学计算机科学与技术学院 5
术语 记号 单位
机器规模 n 无量纲
时钟速率 f MHz
工作负载 W Mflop(兆浮点运算 )
顺序执行时间 T1 s(秒 )
并行执行时间 Tn s(秒 )
速度 Pn=W/T Mflop/ s
加速比 Sn= T1/Tn 无量纲
效率 En=Sn/n 无量纲
利用率 Un=Pn/(nPpeak) 无量纲
启动时间 t0 μ s
渐近带宽 r∞ MB/s
哈尔滨工业大学计算机科学与技术学院 6
?例题,
? 用执行时间测量性能的陷阱
? 在并行计算机 x上成功地运行他的代
码测得执行时间为 1000s。
? 该代码在另一台机器 y上运行需要
500s时间,
?推不出:结论 x机比 y机慢
哈尔滨工业大学计算机科学与技术学院 7
? 一、执行时间和吞吐率
? 1.处理速度,
? 是指单位时间的工作负载( W)的处理;
? 对于许多应用,用户可能对达到某一处理速
度感兴趣。
? 系统吞吐率
? 是指单位时间处理的作业数
? 提高系统吞吐率的两个方法
① 流水化
② 无相关的分配
哈尔滨工业大学计算机科学与技术学院 8
在 256个结点的 SP2上所测得的 STAP性能
程序 执行时间
(s)
速度
(GFlop/ s)
加速比 利用
率
APT
HO-PD
GEN
0,16
0,56
1,40
9
23
3,8
90
233
86
13%
34%
6%
哈尔滨工业大学计算机科学与技术学院 9
? 例题,在 256个结点的 SP2上希望 STAP
在 0.5秒完成
? 根据上表,只有 APT能完成
? 例题,在 256个结点的 SP2上希望 STAP
速度为 10GFLOP/S
? 根据上表,只有 HO-PD能完成
哈尔滨工业大学计算机科学与技术学院 10
?2.系统吞吐率
?是指单位时间处理的作业数
?提高系统吞吐率的两个方法
① 流水化
② 无相关的分配
哈尔滨工业大学计算机科学与技术学院 11
? 例题,在 256个结点的 SP2上
?APT程序的吞吐率是单位时间作业数
?0.16S一个 APT
?或 1/0.16=6.25
? 例题:并行 APT中吞吐率和速度改进
? 上表的工作负载 =9*0.16=1.44Gflop
? 用两级流水 0.14S,0.11S
? 吞吐率 =1/0.14S=7.14或 10.34
哈尔滨工业大学计算机科学与技术学院 12
二、利用率和成本有效性
1,执行时间、速度和利用率是最重
要的 3个指标
2,利用率,
? 它是一个给定计算机实际可达到速
度与峰值速度之比
哈尔滨工业大学计算机科学与技术学院 13
? 例题:执行 APT的 IBMSP2的利用率
? 假定每个 CPU小时需收费 10美元
? 则由下表,计算 APT程序运行在 256个结
点和 1个结点上时的利用率
?256个结点和 1个结点哪一个更成本有效?
哈尔滨工业大学计算机科学与技术学院 14
程序 执行时间
(s)
速度
(GFlop/ s)
加速比 利用率
APT
HO-PD
GEN
0,16
0,56
1,40
9
23
3,8
90
233
86
13%
34%
6%
在 256个结点的 SP2上所测得的 STAP性能
哈尔滨工业大学计算机科学与技术学院 15
? 解,每个 SP2结点的峰值速度为 266 Mflop/
s(见表 3-2 136G/512=266)
? 一个有 256个结点的 SP2,其峰值速度为,
266x256=68Gflop/ s;
? APT程序在 256个结点上可达到的速度为,
9Gflop/ s;
? 在 1个结点可求出达到的速度为,
100Mflop/ s;
哈尔滨工业大学计算机科学与技术学院 16
? 转换成利用率则各自分别为,
? 利用率 Un=Pn/(nPpeak)
?256个结点利用率 =9G/68G=13,3%
? 单个结点利用率 =100M/266M=37,6%
? 结论,
?表明 APT程序在 SP2上运行,在一个
结点上时是更为成本有效
哈尔滨工业大学计算机科学与技术学院 17
? 根据上面的要求,
? 在 256个结点上执行 APT需 0.16s
? 执行一个 APT的总成本为,
$10x 256x0.16/ 3600=$0.11
? 这相应于成本有效性为 (9 Gflop/ s)
/ $0,11=79Gflop/ s每美元。
哈尔滨工业大学计算机科学与技术学院 18
? 在一个结点时,执行时间约为 14,4s
? 总的成本仅为,
$10x14,4/ 3600=$0,04,
? 成本有效性为
(9Gflop/s?)/$0,04=225Gflop/ s每美元
? 总结,
? 该例子表明较高利用率对应地有较高的每美
元 Gflop/ s
? 当 CPU 1小时费用值固定时这总是成立的
? CPU一小时的费用在不同机器上对不同类型的
作业可能有高有低。
哈尔滨工业大学计算机科学与技术学院 19
3,推广
? 如果用成本来衡量,Gflops/美元
? 低利用率总是对应一个差的程序或
编译器。
哈尔滨工业大学计算机科学与技术学院 20
4,经验估计值,
? 运行在单 MPP处理器上,
? 顺序应用程序(利用率) --5%到 40%
之间;
? 典型是 --8%到 25%之间。
? 某些个别的子程序可达到 75%以上。
? 对于在多个处理器上运行的并行应
用程序利用率在 1%到 35%之间;典
型地则是在 4%到 20%之间。
哈尔滨工业大学计算机科学与技术学院 21
5,一个广为流传的错误概念是,
单结点或顺序计算总是有最高的
利用率?(由下图说明)
? 并行计算有额外通信和闲置开销,
这并非总是正确的。
哈尔滨工业大学计算机科学与技术学院 22
6,例子,
? 给出在 3个 MPP(Intel Paragon,
IBM SP2和 CrayT3D)上;
? 运行并行 APT和 HO基准程序;
? 测出利用率如下,
哈尔滨工业大学计算机科学与技术学院 23
哈尔滨工业大学计算机科学与技术学院 24
哈尔滨工业大学计算机科学与技术学院 25
NAS并行基准测试程序的 3种 MPP的利
用率
哈尔滨工业大学计算机科学与技术学院 26
哈尔滨工业大学计算机科学与技术学院 27
?例题:峰值性能/价格比可能产
生错误概念
?持续性能/价格比都在一个区域之
间。
?Cray J916的峰值性能/价格比比
Convex SPP1000,CrayT3D以及
SGIPowerChallenge要低得多 。
?但它的持续性能/价格比,实际上
比它们的都要高。
哈尔滨工业大学计算机科学与技术学院 28
并行处理与体系结构
哈尔滨工业大学计算机科学与技术学院 2
第 3章 性能指标和基准程序
??1 系统和应用的基准程序
??2 性能和成本
??3 基本性能指标
??4 并行计算机性能
??5 并行程序性能
??6 可扩展性和加速比分析
哈尔滨工业大学计算机科学与技术学院 3
? 用户经常提到 6种性能,
① 执行时间
② 速度
③ 吞吐率
④ 利用率
⑤ 成本有效性
⑥ 性能/成本比
? 对在相同计算机平台上执行相同的应期程
序,这些需求可能导致很大差别的结论。
哈尔滨工业大学计算机科学与技术学院 4
?用到的一些概念
?工作负载( W)是程序中的计算操
作数
?Ppeak是处理器的峰值速度
哈尔滨工业大学计算机科学与技术学院 5
术语 记号 单位
机器规模 n 无量纲
时钟速率 f MHz
工作负载 W Mflop(兆浮点运算 )
顺序执行时间 T1 s(秒 )
并行执行时间 Tn s(秒 )
速度 Pn=W/T Mflop/ s
加速比 Sn= T1/Tn 无量纲
效率 En=Sn/n 无量纲
利用率 Un=Pn/(nPpeak) 无量纲
启动时间 t0 μ s
渐近带宽 r∞ MB/s
哈尔滨工业大学计算机科学与技术学院 6
?例题,
? 用执行时间测量性能的陷阱
? 在并行计算机 x上成功地运行他的代
码测得执行时间为 1000s。
? 该代码在另一台机器 y上运行需要
500s时间,
?推不出:结论 x机比 y机慢
哈尔滨工业大学计算机科学与技术学院 7
? 一、执行时间和吞吐率
? 1.处理速度,
? 是指单位时间的工作负载( W)的处理;
? 对于许多应用,用户可能对达到某一处理速
度感兴趣。
? 系统吞吐率
? 是指单位时间处理的作业数
? 提高系统吞吐率的两个方法
① 流水化
② 无相关的分配
哈尔滨工业大学计算机科学与技术学院 8
在 256个结点的 SP2上所测得的 STAP性能
程序 执行时间
(s)
速度
(GFlop/ s)
加速比 利用
率
APT
HO-PD
GEN
0,16
0,56
1,40
9
23
3,8
90
233
86
13%
34%
6%
哈尔滨工业大学计算机科学与技术学院 9
? 例题,在 256个结点的 SP2上希望 STAP
在 0.5秒完成
? 根据上表,只有 APT能完成
? 例题,在 256个结点的 SP2上希望 STAP
速度为 10GFLOP/S
? 根据上表,只有 HO-PD能完成
哈尔滨工业大学计算机科学与技术学院 10
?2.系统吞吐率
?是指单位时间处理的作业数
?提高系统吞吐率的两个方法
① 流水化
② 无相关的分配
哈尔滨工业大学计算机科学与技术学院 11
? 例题,在 256个结点的 SP2上
?APT程序的吞吐率是单位时间作业数
?0.16S一个 APT
?或 1/0.16=6.25
? 例题:并行 APT中吞吐率和速度改进
? 上表的工作负载 =9*0.16=1.44Gflop
? 用两级流水 0.14S,0.11S
? 吞吐率 =1/0.14S=7.14或 10.34
哈尔滨工业大学计算机科学与技术学院 12
二、利用率和成本有效性
1,执行时间、速度和利用率是最重
要的 3个指标
2,利用率,
? 它是一个给定计算机实际可达到速
度与峰值速度之比
哈尔滨工业大学计算机科学与技术学院 13
? 例题:执行 APT的 IBMSP2的利用率
? 假定每个 CPU小时需收费 10美元
? 则由下表,计算 APT程序运行在 256个结
点和 1个结点上时的利用率
?256个结点和 1个结点哪一个更成本有效?
哈尔滨工业大学计算机科学与技术学院 14
程序 执行时间
(s)
速度
(GFlop/ s)
加速比 利用率
APT
HO-PD
GEN
0,16
0,56
1,40
9
23
3,8
90
233
86
13%
34%
6%
在 256个结点的 SP2上所测得的 STAP性能
哈尔滨工业大学计算机科学与技术学院 15
? 解,每个 SP2结点的峰值速度为 266 Mflop/
s(见表 3-2 136G/512=266)
? 一个有 256个结点的 SP2,其峰值速度为,
266x256=68Gflop/ s;
? APT程序在 256个结点上可达到的速度为,
9Gflop/ s;
? 在 1个结点可求出达到的速度为,
100Mflop/ s;
哈尔滨工业大学计算机科学与技术学院 16
? 转换成利用率则各自分别为,
? 利用率 Un=Pn/(nPpeak)
?256个结点利用率 =9G/68G=13,3%
? 单个结点利用率 =100M/266M=37,6%
? 结论,
?表明 APT程序在 SP2上运行,在一个
结点上时是更为成本有效
哈尔滨工业大学计算机科学与技术学院 17
? 根据上面的要求,
? 在 256个结点上执行 APT需 0.16s
? 执行一个 APT的总成本为,
$10x 256x0.16/ 3600=$0.11
? 这相应于成本有效性为 (9 Gflop/ s)
/ $0,11=79Gflop/ s每美元。
哈尔滨工业大学计算机科学与技术学院 18
? 在一个结点时,执行时间约为 14,4s
? 总的成本仅为,
$10x14,4/ 3600=$0,04,
? 成本有效性为
(9Gflop/s?)/$0,04=225Gflop/ s每美元
? 总结,
? 该例子表明较高利用率对应地有较高的每美
元 Gflop/ s
? 当 CPU 1小时费用值固定时这总是成立的
? CPU一小时的费用在不同机器上对不同类型的
作业可能有高有低。
哈尔滨工业大学计算机科学与技术学院 19
3,推广
? 如果用成本来衡量,Gflops/美元
? 低利用率总是对应一个差的程序或
编译器。
哈尔滨工业大学计算机科学与技术学院 20
4,经验估计值,
? 运行在单 MPP处理器上,
? 顺序应用程序(利用率) --5%到 40%
之间;
? 典型是 --8%到 25%之间。
? 某些个别的子程序可达到 75%以上。
? 对于在多个处理器上运行的并行应
用程序利用率在 1%到 35%之间;典
型地则是在 4%到 20%之间。
哈尔滨工业大学计算机科学与技术学院 21
5,一个广为流传的错误概念是,
单结点或顺序计算总是有最高的
利用率?(由下图说明)
? 并行计算有额外通信和闲置开销,
这并非总是正确的。
哈尔滨工业大学计算机科学与技术学院 22
6,例子,
? 给出在 3个 MPP(Intel Paragon,
IBM SP2和 CrayT3D)上;
? 运行并行 APT和 HO基准程序;
? 测出利用率如下,
哈尔滨工业大学计算机科学与技术学院 23
哈尔滨工业大学计算机科学与技术学院 24
哈尔滨工业大学计算机科学与技术学院 25
NAS并行基准测试程序的 3种 MPP的利
用率
哈尔滨工业大学计算机科学与技术学院 26
哈尔滨工业大学计算机科学与技术学院 27
?例题:峰值性能/价格比可能产
生错误概念
?持续性能/价格比都在一个区域之
间。
?Cray J916的峰值性能/价格比比
Convex SPP1000,CrayT3D以及
SGIPowerChallenge要低得多 。
?但它的持续性能/价格比,实际上
比它们的都要高。
哈尔滨工业大学计算机科学与技术学院 28