第六章 计算机性能评价评测
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2016/12/1
15
Linpack测试包括三类: Linpack100、Linpack1000和HPL Linpack100求解规模为100阶的稠密线性代数方 程组 Linpack1000要求求解规模为1000阶的线性代数 方程组 HPL即High Performance Linpack,并行计算基 准测试,它对数组大小N没有限制,求解问题 的规模可以改变,可以调节问题规模大小N(矩 阵大小)、使用到的CPU数目、使用各种优化 2016/12/1 16 方法等来执行该测试程序,以获取最佳的性能。
性能评测包括"评估"与"测试“:
评估是基于一些原始数据进行逻辑推算。
典型的有MIPS(百万指令每秒)、理论峰值(Theoretical peek)和 数据处理速率PDR(Processing Data Rate)。 针对不同内容进行改进和优化的评估分析
测试是通过“尺子”来度量计算机的性能, 基准测试程序 (benchmark Program)。
2016/12/1
9
XI’AN JIAOTONG UNIVERSITY
PDR=L/R(兆位/秒)
其中: L=0.85×定点指令位数+0.15×定点数位数+0.4×浮点指令 位数+0.15×浮点数位数 R=0.85×定点加法时间+0.09×浮点加法时间+0.06×浮点 乘法时间 L、R表示加权平均的每条指令传输的位数和每条指令的时 间(微秒)。PDR曾作为美国政府限制计算机出口的性能指标, 受到广泛的关注。 由于PDR 比较繁琐,而且现今计算机字长主要是32位、64位 两种,所以很多组织还是更偏爱以Mflop/s表示的理论峰值。
2016/12/1
7
XI’AN JIAOTONG UNIVERSITY
性能评估——MIPS、Mflop/s 和PDR MIPS——早期的性能评估指标。是表示每秒能执 行的指令条数。
(仅以CPU周期和每条指令占用周期的数量两个重要因素衡 量计算机的主要性能。没有明确指出每秒能干多少活儿,做出 多少结果。随着流水、向量、并行等技术的应用,每秒执行的 指令数与产生结果数之间的关系变得十分复杂,一条指令可以 产生多个结果,也可以由几条指令产生一个结果。MIPS再也 无法表示计算机的实际性能)
17
2016/12/1
其它计算能力性能测试
NAS
XI’AN JIAOTONG UNIVERSITY
美国NASA的NAS (Numerical Aerodynamic Simulation) 研究组开发 8个空气动力学计算类应用: 5个核心程序和3个伪应用,EP、多重 网格求解、共轭梯度方程求解、三维FFT、整数排序 早期的巨型机和向量机都采用NAS Benchmark 并行版本NPB
XI’AN JIAOTONG UNIVERSITY
Amens实验室首先提出了可扩展的评测程序HINT XI’AN JIAOTONG UNIVERSITY (Hierarchical INTegration)。采用QUIPS (Quality Improvement Per Second) 表示。其评测法是使用二分法得 到方程y=(1-x)/(1+x)在[0,1]区间上和坐标轴围成区域的面积。 通过得到在区域内所有矩形(下界)和包含该区域全部矩形 (上界)的面积的方法来逼近。目标就是在最短的时间内找 出该面积最高精度的值。使用Quality来代表上界和下界的差 值的倒数,运行一分钟后得到Quality每秒增加的幅度。 HINT的优点在于它是一个可以扩展的、固定运行时间的评 测程序;能够适用于各种规模的机器,能很好地并行化。缺 点在于仅仅代表了一个方面的应用,不能全面反映系统的性 能,而且程序代码量很小,能够被Cache完全容纳。
处理器主频、内存大小、内存总线带宽、 I/O总线性能、图形卡指标、OS指标 运行WinBench测试软件
2016/12/1
3
性能评测 Application OS
XI’AN JIAOTONG UNIVERSITY
性能分析
Network,Storage Memory
CPU
从不同层面对计算机性能进行评测
没有一个标准能反映计算机系统的全部性能,它们 代表的只是性能的一个侧面。也可以分为基本性能, 综合性能和局部性能等
XI’AN JIAOTONG UNIVERSITY
常用的标准
计算性能、Web服务性能 数据处理性能、系统软件性能、 定点性能、浮点性能、科学与工程计算性能 电子商务事务
2016/12/1
22
2016/12/1
TPC-W基准(Web商务)
XI’AN JIAOTONG UNIVERSITY
TPC Benchmark W (TPC-W)发布于1998年,是一个通过 Web事务基准。现在的版本是TPC-W 1.1。它的负载是在电 子商务环境内,模拟面向事务的Web服务器的商业活动。这 个基准塑造的应用是因特网上的一个零售商店,顾客可以浏 览,查找和订货。 它的数据库部件包括至少8个单个的表,它们的大小关系如 表2所示。数据库的大小作为性能度量的一部分,它的基数 是用item表的行数(商品的种类)来表示的,标在度量结果 的后面。 TPC-W1.1定义了两大类共14种Web交互操作,它们之间变 化的比例关系决定了交互行为的主要目的:浏览、检索还是 定单。而且这14种交互活动的90%响应时间的最大值也有具 体的定义。例如90%的主页交互必须在3秒内完成。
2016/12/1 compiler:评价HPF编译器 19
Web性能评测程序
XI’AN JIAOTONG UNIVERSITY
随着Web系统在大型项目的应用越来越广泛,针对Web系 统本身的性能评测依据也日趋成为热点。
WebStone
30年前,人们要想获得网络资源必须懂得相当数量的Unix命 令,并需了解网络原理。HTTP协议的出现使得用户能够通 过GUI方便地浏览网络资源,这使得网络突飞猛进地发展起 来,HTTP服务器的数目也与日俱增。为了评测各种HTTP服 务器的性能,SGI于1995年3月提出了采用C/S结构的 WebStone。评测程序向服务器发送HTTP /1.0 GET请求, 验证返回结果,评测得到系统的吞吐量和延迟。
XI’AN JIAOTONG UNIVERSITY
ParkBench
评价大型可扩展系统的计算性能 micro-benchmark:获取单处理器的有关体系结构和编译器的基 本性能参数;测试内容包括时钟调用、算术运算、内存带 宽和延迟、通信延迟和带宽、全局同步操作性能等 kernel-benchmark:矩阵运算、FFT、偏微分方程、NAS核心, I/O Benchmark compact application:气候模型、计算流体动力学、财务模型、 分子动力学、等离子物理、量子化学、水库模型
Perfect
PERFormance Evaluation for Cost-effective Transformations HPCG组织开发,用于评测传统的向量巨型机
2016/12/1
18
科学与工程计算性能
SPLASH
Stanford大学开发,评测共享存储系统性能 7个完整的应用和5个计算核心程序 科学与工程计算,计算机图形学方面的并行程序
XI’AN JIAOTONG UNIVERSITY
第六章 计算机系统性能评测
2016/12/1
1
XI’AN JIAOTONG UNIVERSITY
评价计算机系统内容
价格、服务、应用软件、质量、
功能、升级能力、性能
百度文库
2016/12/1
2
客户端系统
对桌面系统性能评价
XI’AN JIAOTONG UNIVERSITY
XI’AN JIAOTONG UNIVERSITY
WebChildren尽可能向服务器发送页面请求,反映了服务器 的峰值性能。 WebStone的负载依赖于WebChildren的数目, 页面类型以及数量。在WebStone中,文件集中有多个“页 面”组成,每个“页面”包含多个文件,代表了网络页面可 能含有的图像、动画和声音。每个页面有各自的权重来指示 被访问的几率。
Response Time
11
基本作用
用性能评价软件包,了解系统性能, 用户选型和配置提出建议
XI’AN JIAOTONG UNIVERSITY
对
针对不同应用,不同软硬件配置能进行性 能评价和优化,对用户使用系统提出性能 上的建议 建立理论模型,对系统的性能进行预测
2016/12/1
12
Benchmarks
2016/12/1 8
XI’AN JIAOTONG UNIVERSITY
Mflop/s——每秒执行的浮点指令结果。进而扩展 到并行。
理论峰值可以按下式计算: Mflop/s值=MHz值×n×M 其中,MHz是CPU频率、n为每个周期能产生的浮点结果数、 M为处理单元的数量。 可包含超标量技术,多条流水线的并行环境。n即为并行工作 的浮点运算部件个数。当采取乘加链接时,n还要加倍。 (例曙光1000A,芯片频率为200MHz,每周期产生两个浮点 结果,具有32处理单元的曙光1000A的峰值为: 200×2×32=12800Mflop/s(128亿浮点结果每秒) Mflop/s没有考虑字长
2016/12/1
20
XI’AN JIAOTONG UNIVERSITY
WebStone的结构如图所示。WebMaster控制着所有 WebChildren的行为,WebChildren通过指定的网络和HTTP 服务器相连。可以看出,WebStone 是一个分布式、多进程 的评测程序。WebMaster进程读取配置文件和命令参数,然 后向WebChildren发出命令。每个WebChildren根据命令中 的参数进行HTTP性能评测。完毕后由WebMaste 搜集所有 WebChildren的运行信息并给出统计结果。在评测过程中, WebChildren之间相互独立,也不和WebMaster交互。 2016/12/1 21
2016/12/1
10
标准测试程序
基准测试 微基准测试 宏基准测试 机器平衡值 概率分布 响应时间
2016/12/1
XI’AN JIAOTONG UNIVERSITY
Benchmark Micro-benchmark Macro-benchmark System BalanceNumber
Possibility Distribution
基准程序测试的两个阶段: 上世纪70年代以LINPACK就是这类基准测试的典型代表; 上世纪80年代中后期创建的,最主要的有系统性能评测委员会SPEC和事 务处理性能测试委员会TPC等。 基准测试(benchmark)涉及基准测试程序和测试者(benchmarker)两个方 面。在讨论基准测试程序时,自然要涉及测试组织。 在很多场合,“benchmark”既表示基准测试者,也代表基准测试程序,而有些 团体既开发程序,也组织测试。
13
计算性能评测程序
XI’AN JIAOTONG UNIVERSITY
计算性能是计算机性能的重要部分,有很多评 测程序就是为了评测系统浮点、定点运算性能 而设计的。 Whenstones: 测试浮点运算速度,用FORTRAN语言编写 Dhrystones: 用于测试定点和逻辑运算速度, 用C语言编写。
2016/12/1 5
单项性能指标
带宽 Bandwidth
XI’AN JIAOTONG UNIVERSITY
延迟
吞吐率 加速比 Amdahl定律 效率
2016/12/1
Latency
Throughput Speedup Amdahl Law Efficiency
6
XI’AN JIAOTONG UNIVERSITY
2016/12/1
14
XI’AN JIAOTONG UNIVERSITY
Linpack
Linpack是最早的评测系统浮点运算能力的程序之一。 主要功能是求解线性方程组和最小二乘问题。对参 数矩阵,Linpack使用面向列的算法来提高Cache命 中率,最早的Linpack采用矩阵大小为 100×100, 后来有300×300及1000×1000的版本问世。 Linpack的问题在于仅评测了系统的一种计算模式, 很容易量化,在向量机上能获得较优的性能。
2016/12/1 4
单向性能
执行时间(CPU时间、等待时间、Elapsed
XI’AN JIAOTONG UNIVERSITY
Time)
峰值速度 Peak Performance
负载 开销 利用率 load Overhead Utilization Ratio
饱和性能 Saturate Performance