哈尔滨工业大学：并行处理与体系结构：第3章第5节讲义12月5

分类：计算机格式：ppt 日期：2007年03月16日

哈尔滨工业大学计算机科学与技术学院 1
并行处理与体系结构
哈尔滨工业大学计算机科学与技术学院 2
第 3章性能指标和基准程序
??1 系统和应用的基准程序
??2 性能和成本
??3 基本性能指标
??4 并行计算机性能
??5 并行程序性能
??6 可扩展性和加速比分析
哈尔滨工业大学计算机科学与技术学院 3
?5 并行程序性能
说明,
1,讨论有关并行应用的一些性能问
题和性能指标
2,提出的所有性能指标，有通用性
哈尔滨工业大学计算机科学与技术学院 4
?一、性能指标
?1.前言
? 设顺序程序 C由一串 A个分计算阶段 C1，
C2,… Ck所组成
?DOPi是并行性
? 下图给出了一个阶段并行程序
哈尔滨工业大学计算机科学与技术学院 5
哈尔滨工业大学计算机科学与技术学院 6
2.基本指标
?从语义上讲，上图有顺序执行的
?步 Ci计算的工作负载，如上图示
?可求总并行性开销
哈尔滨工业大学计算机科学与技术学院 7
?当在 n个处理器上执行工作负载时，
步 Ci并行执行时间,
Tn(i)=T1(i)/ n
?在 n个结点上总的并行执行时
间为,
哈尔滨工业大学计算机科学与技术学院 8
? 3.极值指标
① 存在几个极值指标以给出 Pn,Tn和
Sn的下限和上限。设 T∞ 是关键路
径的长度，有,
哈尔滨工业大学计算机科学与技术学院 9
② 使得 Tn=T∞ 的 n最小值称为最大并
行性，记为 Nmax。可由
Nmax=max1≤j ?k(DOPi)计算该指标。
③ 持续加速比 Pn的最大值 P∞ =W／ T
∞ 是它的上限。
④ N个结点执行时间 Tn的下限值为
T1／ n和 T∞ 。 Tn≥max(T 1/n,T∞ )
哈尔滨工业大学计算机科学与技术学院 10
⑤ 平均并行性 T1/T∞, 是加速比的上限。
即 Sn≤T 1/Tn。
⑥ Brent已证明，若不计所有并行性和
交互开销,Tn受限于下列不等式,
T1/n≤ Tn ? T1/n+T∞
⑦ 将 Tn≥max(T 1/n,T∞ )代入可得,
max(T1/n,T∞ )≤ Tn ? T1/n+T∞ 。
? 这些不等式在估计并行执行时间时
很有用。
哈尔滨工业大学计算机科学与技术学院 11
?下表基于阶段并行模型性能的一
些指标,
哈尔滨工业大学计算机科学与技术学院 12
哈尔滨工业大学计算机科学与技术学院 13
?4.例题,STP中 APT基准程序
?为便于理解,STAP基准程序组中
的 APT程序可描述如下,
?其中变量 N为问题参数。记号 [.]
?变量 house是一个含有约 80KB信息
的矩阵，与 N无关
哈尔滨工业大学计算机科学与技术学院 14
? For(j=0； j<N； j++)
? for(k=0； k<32； k++)
? fft(data[.][j][k])；
? ht(data[1][.][.],house)；
? for(i=0； i<N； i++)
? bf(data[i][.][.],housedetect[i][.])
? For(j=0； j<N； j++)
? for(i=0； i<N； i++)
? td(detect[i][j],target_report)；
哈尔滨工业大学计算机科学与技术学院 15
哈尔滨工业大学计算机科学与技术学院 16
?5.例题：并行 APT基准测试程序的
性能指标
哈尔滨工业大学计算机科学与技术学院 17
? 假设条件,
① 每个计算步的工作负载由上图 (STP中
APT图）中值求得，以单 SP2结点的 Mflop
和执行时间表示。并行性开销忽略不计。
② 在忽略不计所有通信开销情况下，来预
测性能指标的极端值，称其为 0_开销预
测。
③ 一个粗粒度阶段并行算法，参数 N=256。
哈尔滨工业大学计算机科学与技术学院 18
?由上图可知最大并行性为,
max(8192,1,256,256)=8192
?总工作负载 W=1447Mflop；
?顺序执行时间 T1=14,37s；
?关键路径为
哈尔滨工业大学计算机科学与技术学院 19
?求得最大性能值
?P∞ =W/T∞ =1447/0.08=18087Mflop
／ s,
?而平均并行性为
T1/T∞ =14,37/0.08=180。
哈尔滨工业大学计算机科学与技术学院 20
?6.例题：估计 APT基准测试程序中
的交互开销
?可用上述表的表达式来估计运行
在 SP2上的并行 APT程序的交互开
销。交互开销是 3种通信的和：
T=Tcomp+Tpar+Tinteract
哈尔滨工业大学计算机科学与技术学院 21
哈尔滨工业大学计算机科学与技术学院 22
哈尔滨工业大学计算机科学与技术学院 23
哈尔滨工业大学计算机科学与技术学院 24
?从上表和图可见,16.7/n2MB的全
交换开销为,
?Tindex=80logn+0.03n1.29mμ s=0.00
008logn+0.5n-0.71秒
?广播开销的表达式
为,Tbcast=52logn+(0.029logn)
mμ s=0.00237logn秒
哈尔滨工业大学计算机科学与技术学院 25
? 归约 n个 flop数所需时间为：
20logn+23μ s；
? 其中由 n个结点中的每一个提供一个
flop数。在 APT图的归约步中，组合
了 n个目标报告，每个有 100个 flop数。
可保守地评估归约开销,
Treduce=100(20logn+23)μ s=0.002log
n+0.0023秒
哈尔滨工业大学计算机科学与技术学院 26
? 那么总的交互开销为,
? T0=Tinteract=0.5n-0.71+ 0.00445logn+
0.0023；有以下说明,
① 并行处理中的一个观念是通信开销
随所使用结点数的增加而增长。但
由上面例子可见，这可能是错的。
② 在 APT程序中当所使用结点不多于
256时，总的通信开销随机器规模增
加而减少。
哈尔滨工业大学计算机科学与技术学院 27
? 7.例题,APT基准测试程序期望执行时间
? 来预测并行 APT算法在 n<256结点的 SP2上
的执行时间。并计算当 n=256时的平均颗
粒度。
? 使用 n个结点的总执行时间为,
?T=Tcomp+Tpar+Tinteract
=14.33/n+0.5n-0.71+ 0.00445logn +
0.0423
哈尔滨工业大学计算机科学与技术学院 28
? 单 SP2结点的总工作负载
W=1447Mflop或 14,37s。
? 平均颗粒度为,
W/T0=1447M/0.0479=30209
? 对于每 Mflop计算，平均的通信开销
为,
1／ 30209=33μ s
哈尔滨工业大学计算机科学与技术学院 29
? 也可将执行时间作为工作负载。
? 那么平均颗粒度变为
? W/T0=14.37/0.0479=300
? 因此平均而言，对于每秒通信,256个结
点共完成 300s计算,
? 或对于每秒通信，每个结点完成 300／
256=1,17s计算。
哈尔滨工业大学计算机科学与技术学院 30
?二、基准程序中的可用并行性
?关于并行成分的讨论
?应用程序中潜在并行性有很宽的范
围。
?工程和科学代码具有数据并行性，
有很高的 DOP 。
哈尔滨工业大学计算机科学与技术学院 31
? 数据的并行,
? Kumar(1988年 )已报导过密集计算代码在理想
环境下于每个时钟内可并发地执行 500到 3500
个算术操作。
? 指令级并行,
? 要低得多。 Wall指出指令级并行性的极限约
在 5左右，很少超过 7。
? Bulter等 (1991年 )曾报道过当去除所有约束
时，在某些科学程序中 lLP可超过每周期 17条
指令。
哈尔滨工业大学计算机科学与技术学院 32
? 某些程序跟踪结果指出，如果体系结构
和编译器能完满地工作，则在一个合理
设计的超标量处理器上，可期待的 lLP
为每周期并发执行 2.0到 5.8条指令。
? 下表中为 PERFECT基准测试程序组中
12个程序中的每一个给出了其平均
并行性。
哈尔滨工业大学计算机科学与技术学院 33
哈尔滨工业大学计算机科学与技术学院 34
?例题,3个 STAP基准测试程序性能
?下表中示出了使用最小、最大和名
义数据集时,STAP基准测试程序组
中 3个程序的某些性能指标。
?其中的输入数据规模和工作负载由
STAP基准测试程序规范给定。
哈尔滨工业大学计算机科学与技术学院 35
哈尔滨工业大学计算机科学与技术学院 36
?以上可用并行性的测量表明,
?非数值计算的相对并行性很小。
?编译器优化和算法的重新设计可增
加应用中的可用并行性，但对基本
块的有限并行性的抽取使得一般程
序中的潜在并行性因子被限制在 2到
5之间。
?使用多处理器同时地开发科学代码
中的 DOP值。
哈尔滨工业大学计算机科学与技术学院 37
?总结,
?讨论了并行程序
?基本性能
?一些有用的指标。

课件简介

课件名称：	哈尔滨工业大学：并行处理与体系结构
课件分类：	计算机
课件类型：	电子教案
文件大小：	2.97MB
下载次数：	0
评论次数：	0
用户评分：	0

显示更多>>

用户列表

更多用户>>

关于我们|帮助中心|意见反馈|联系我们