GPU大规模异构并行计算

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 应用适应性
不适应的应用特点 计算访存比低 并行度低 分支判断多、向量化程度低 内存占用量大 数据频繁传入传出
应用举例 气象数值计算 材料物理Vasp 石油勘探层析 生命科学BWA
原因分析 GPU单核内存带宽低 众核计算 SIMD计算模式 GPU显存较低 4-24GB PCIE瓶颈
6
实时应用
• 机器学习/深度学习
• 视频、音频处理
– 视频、音频编解码 – 视频检测 – 视频分析
5
GPU大规模计算面临的挑战
• 并行算法
– 粗粒度 + 细粒度
• CPU(Multi-core)+GPU(Many-core) • Vectorization computing
– SIMD andSIMT
• 编程效率 – MPI+CUDA/OpenCL • Bigdata& IO
50
40 39
46 Nvidia GPU
Intel MIC
19 AMD GPU IBM Cell
• 主流两种异构计算解决方 案
– CPU+GPU
• Titan
Jun-10 Jun-11 Jun-12 Jun-13 Jun-14 Sep-10 Dec-10 Sep-11 Dec-11 Sep-12 Dec-12 Sep-13 Dec-13 Mar-11 Mar-12 Mar-13 Mar-14
• 通用架构并行
– 同来自百度文库多核并行(粗粒度)
• X86CPU多核并行计算(美洲豹) • 非X86CPU多核并行计算
– 红杉(Power) – 神威蓝光(国产) – 京 (日本超级计算机)
– 异构众核并行(细粒度)
• CPU+GPU异构协同计算(Titan) • CPU+MIC异构协同计算(Tianhe-2)
– CPU+MIC
• Tianhe-2
3
GPU众核计算
• 更多的芯片面积用于计算单元而不是Cache
– 实现数据处理,而不是数据cache和逻辑控制
• 更简单的逻辑处理部件,但提供更高效的轻量级线程处理 • 通过并行度的提升获得性能的提升(计算和访存)
4
GPU应用适应性
• 擅长计算密集型、高并行、SIMD模式应用 • 最擅长图形图像应用 • 应用算法
– IO-IntensivetoComputing-Intensive
– GPU memorysize – Devices IObandwidth
• Storage/Network • PCIE(between CPU and GPU) • GPU memory bandwidth(GB/core)
2
异构计算解决方案
• 四类异构计算平台
– Nvidia GPU – Intel MIC – AMD GPU – IBMCell
近5年Top500异构架构系统
60 50 40 30 20 10 0 6 3 10 10 6 10 12 5 20 20 21 7 3 0 12 3 0 13 20 20 35 53
• 专用架构并行
• CPU+FPGA异构协同计算
1
CPU多核并行计算面临的挑战
• 性能功耗比 – CPU :3G/W – GPU/MIC:5G/W – Sequoia:1000pFlops/ 2100.88MFlops/W =400MW • 内存带宽 – CPU :50GB/s – GPU:288GB/s – MIC:352GB/s
– Dense LinearAlgebra – Sparse LinearAlgebra – Structured grids – Unstructured grids – Spectralmethod (FFT) – N-bodymethod (Particles) – MonteCarlo
– 语音识别、训练 – 图像识别 – 广告推荐 – 企业安全
相关文档
最新文档