哈尔滨工业大学计算机科学与技术学院 1
并行处理与体系结构
哈尔滨工业大学计算机科学与技术学院 2
第 3章 性能指标和基准程序
??1 系统和应用的基准程序
??2 性能和成本
??3 基本性能指标
??4 并行计算机性能
??5 并行程序性能
??6 可扩展性和加速比分析
哈尔滨工业大学计算机科学与技术学院 3
一,工作负载和速度指标
常用 3个指标来测量程序 C的计
算工作负载,
① 执行时间;
② 执行的指令数;
③ 执行的浮点操作数。
哈尔滨工业大学计算机科学与技术学院 4
哈尔滨工业大学计算机科学与技术学院 5
1,关于指令数的说明
2,关于执行时间的说明
? 执行时间依赖于许多因素,
① 算法
② 数据结构
③ 输入数据
④ 平台
⑤ 语言
⑥ 浮点数
哈尔滨工业大学计算机科学与技术学院 6
哈尔滨工业大学计算机科学与技术学院 7
? 例题,FFT处理的利用率
? 假定 STAP一个 DP(多普勒处理 )步由 2048个,
每个为 8192点的 FFT所组成。每个 N点 FFT
处理的工作负载为 W=5NlogN flop。
? 则多普勒处理步的总工作负载是 2048x(5x
8192xlog 8192)flop,约为 1,09Gflop。
? 对于在 X机上 50s的执行时间,其速度约为
22Mflop/ s。
? 假设 X机的峰值速度为 266Mflop/ s,则多
普勒处理可达到的利用率为
? 22/ 266=8,27%
? 仅为峰值性能的很低比值 。
哈尔滨工业大学计算机科学与技术学院 8
? 在进行理论性能分析时,常假设每条
指令或 flop需要相同时间量。
? 在实际系统中这种均匀速度假设是不
成立的。
? 在单 IBM SP2结点上,观察到的速度可
从 5变化到 250Mflop/s。
? 在测量工作负载时,也广泛使用顺序执
行时间以补充统计 flop或指令数的方法
哈尔滨工业大学计算机科学与技术学院 9
二、有关性能指标的总结
1,所有 3种指标都是有用的,特别是
flop数和执行时间。
2,在预测和测量应用的性能时,应统
一地使用单工作负载,即使是在并
行计算机上也应如此。
哈尔滨工业大学计算机科学与技术学院 10
? 例题,
哈尔滨工业大学计算机科学与技术学院 11
并行处理与体系结构
哈尔滨工业大学计算机科学与技术学院 2
第 3章 性能指标和基准程序
??1 系统和应用的基准程序
??2 性能和成本
??3 基本性能指标
??4 并行计算机性能
??5 并行程序性能
??6 可扩展性和加速比分析
哈尔滨工业大学计算机科学与技术学院 3
一,工作负载和速度指标
常用 3个指标来测量程序 C的计
算工作负载,
① 执行时间;
② 执行的指令数;
③ 执行的浮点操作数。
哈尔滨工业大学计算机科学与技术学院 4
哈尔滨工业大学计算机科学与技术学院 5
1,关于指令数的说明
2,关于执行时间的说明
? 执行时间依赖于许多因素,
① 算法
② 数据结构
③ 输入数据
④ 平台
⑤ 语言
⑥ 浮点数
哈尔滨工业大学计算机科学与技术学院 6
哈尔滨工业大学计算机科学与技术学院 7
? 例题,FFT处理的利用率
? 假定 STAP一个 DP(多普勒处理 )步由 2048个,
每个为 8192点的 FFT所组成。每个 N点 FFT
处理的工作负载为 W=5NlogN flop。
? 则多普勒处理步的总工作负载是 2048x(5x
8192xlog 8192)flop,约为 1,09Gflop。
? 对于在 X机上 50s的执行时间,其速度约为
22Mflop/ s。
? 假设 X机的峰值速度为 266Mflop/ s,则多
普勒处理可达到的利用率为
? 22/ 266=8,27%
? 仅为峰值性能的很低比值 。
哈尔滨工业大学计算机科学与技术学院 8
? 在进行理论性能分析时,常假设每条
指令或 flop需要相同时间量。
? 在实际系统中这种均匀速度假设是不
成立的。
? 在单 IBM SP2结点上,观察到的速度可
从 5变化到 250Mflop/s。
? 在测量工作负载时,也广泛使用顺序执
行时间以补充统计 flop或指令数的方法
哈尔滨工业大学计算机科学与技术学院 9
二、有关性能指标的总结
1,所有 3种指标都是有用的,特别是
flop数和执行时间。
2,在预测和测量应用的性能时,应统
一地使用单工作负载,即使是在并
行计算机上也应如此。
哈尔滨工业大学计算机科学与技术学院 10
? 例题,
哈尔滨工业大学计算机科学与技术学院 11