高性能运算技术-CUDA
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高性能运算技术——CUDA
[摘要]在游戏和3D等的推动作用下,GPU得到快速的发展,目前其运算速度已经大大超过CPU,为了充分利用有限的资源,有必要将其用于除了图像处理之外的领域。
但是传统的GPGUP模式使用受到图形API的限制,而且开发困难,难以得到发展。
CUDA的出现解决了以上问题,给GPGPU的发展带来新的希望,是计算机技术领域中的一大突破。
什么是CUDA
在介绍CUDA之前,不得不先介绍一个硬件——GPU(Graphic Processing Unit 图形处理单元)。
顾名思义,这是专业处理图形信息的核心处理器,是现代显卡的核心部件。
早期的计算机图形处理相对简单,图形、视频等需要大量运算的功能都是交由CPU(Central Processing Unit中央处理器)独立完成。
但是随着人们对图形视觉要求的不断提高,尤其是大量3D图形,高清影视,3D游戏的出现,人们发现庞大的图形数据计算量已经超出CPU承载能力。
为了满足海量数据的图形计算需求,人们将图形计算功能脱离出来,为其设计一块专门的芯片,这就是GPU。
1999年NVIDIA公司首先提出GPU的概念,起初的设计的宗旨只是实现图形加速。
但是在其出现之后,在游戏产业的推动下,GPU得到飞跃的发展,基本上平均每
6个月就有性能翻倍的产品面世,短短几年间,GPU的运算能力就已远远超越了CPU。
人们开始觉得如此强大的计算能力如果只能应用在图形方面,对计算资源来说是一个极大的浪费。
为了能够在图形计算之外的更多领域发挥GPU强大的计算功能,人们开始研究如何能够利用GPU完成图形数据之外的数据运算,从而提出了GPUG(General-purpose computing on graphics processing units 通用计算图形处理单元)的概念。
但是传统的通用计算图形处理单元(GPGPU)存在很大的不便。
原因在于:首先,传统GUGPU是通过图形API间接使用GPU的计算能力,导致应用程序的
运行依赖于庞大的图形库,同时要求变成人员必须掌握图形库相关的技术;其次,GPU的运算功能受限于图形API,导致GPU在使用上存在许多局限。
2007年6月20日,著名GPU厂商NVIDIA推出了统一计算设备架构——CUDA。
这是一个完整的GPGPU解决方案,它不用再像传统那样必须将计算映射到图形API中,而是供了硬件的直接访问接口,增强了GPU处理不同类型数据的能力;另外一方面,CUDA的GPU编程语言基于标准的c语言,因此任何有C语言基础的用户都很容易地开发CUDA的应用程序,CUDA的开发门槛大大降低了。
CUDA的构成
目前CUDA包含三个部分:开发库、运行时环境和驱动。
开发库是基于CUDA技术所提供的应用开发库。
目前CUDA的1.1版提供了两个标准的数学运算库——CUFFT(离散快速傅立叶变换)和CUBLAS(离散基本线性计算)的实现。
这两个数学运算库所解决的是典型的大规模的并行计算问题,也是在密集数据计算中非常常见的计算类型。
运行时环境提供了应用开发接口和运行时组件,包括基本数据类型的定义和各类计算、类型转换、内存管理、设备访问和执行调度等函数。
运行时组件也分为公共组件、宿主组件和设备组件三个部分,基本上囊括了所有在GPGPU开发中所需要的功能和能够使用到的资源接口。
驱动是可支持CUDA(CUDA-enable)的GPU的设备抽象层,提供硬件设备的抽象访问接口。
CUDA提供运行时环境也是通过这一层来实现各种功能的。
CUDA运行方式
在CUDA的架构下,一个程序分为两个部份:host端和device端。
Host端是指在CPU上执行的部份,而device端则是在GPU上执行的部份。
通常host端程序会将数据准备好后,复制到显卡的内存中,再由GPU执行device端程序,完成后再由host端程序将结果从显卡的内存中取回。
在CUDA架构下,GPU执行时的最小单位是线程。
数个线程可以组成一个块。
一个块中的线程能存取同一块共享的内存,而且可以快速进行同步的动作。
每一
个块所能包含的线程数目是有限的。
不同块中的线程无法存取同一个共享的内存,因此无法直接互通或进行同步。
由于GPU大量并行计算的特性,它处理一些问题的方式和CPU是不同:CPU 通常使用cache来减少存取主内存的次数,以提高执行效率,而GPU则多半没有cache(或很小),而利用并行化执行的方式来提高效率(当第一个线程需要等待内存读取结果时,则开始执行第二个)。
因此,最适合利用CUDA处理的问题,是可以大量并行化的问题,这才能有效
利用GPU上的大量执行单元。
CUDA的优点
CUDA的优势在于可简易的应用GPU的运算能力进行高强度运算,CUDA的运算性能和GPU的性能有很大关系。
GPU具有高速的浮点运算能力,一般在10 Gflops以上(每秒可进行10亿次浮点运算),而GeForce6系列的浮点运算能力已经在40 Gflops左右,GeForce7950GX2更是达到了384 Gflops;在向量计算方面能够获得比CPU高出十倍的计算效率。
GPU并行计算的能力更是强大,它内部具有大量的快速存储系统,NVIDIA的8800有128个处理器,此外,GPU的硬件设计能够管理数千个并行线程,这数千个线程全部由GPU创建和管理而不需要开发人员进行任何编程与管理。
GPU /CPU计算能力比较
GPU/CPU存储器带宽比较
GPU特殊的硬件架构突出了对CPU的优势:拥有高带宽的独立显存;浮点
运算性能高;几何处理能力强;适合处理并行计算任务;适合进行重复计算;适合图像或视频处理任务;能够大幅度降低系统成本。
CUD应用前景
由于CUDA的特点是处理密集型数据和并行数据计算, 因此非常适合需要大规模并行计算的领域。
目前CUDA技术主要运用在游戏、图形动画、科学计算、地质、生物、物理模拟等领域。
将来,CUDA凭借大的并行计算能力,以及越来越方便的开发环境,将来有可能运用于搜索引擎中的排序、文本分类等相关算法的应用,数据库、数据挖掘,电信、金融、证券数据分析,数理统计分析,生物医药工程,导航识别,军事模拟,无线射频模拟,图像语音识别等需要大规模数据密集型计算的领域。
同时对于个人计算机来说,可以进一步协调CPU进行工作,分担CPU的几双负担,实现硬件加速功能能,使普通用户在使用计算机室能够够得到更优异的使用体验,充分利用有限的硬件资源。
“快”是奥林匹克精神之一,也是计算机发展的必然方向。
参考文献:
《CUDA—走向GPGPU新时代》《程序员》2008年03期《CUDA并行计算的应用研究》董荦、葛万成、陈康力同济大学电子与信息工程学院《GPU与CPU的比较分析》钟联波华中科技大学计算机学院
《深入浅出谈CUDA》百度文库
《新一代高能运算技术——CUDA简介》郭境峰,蔡伟涛汕头超声仪器研究所有限公司《CUDA基本介绍》张舒课件
《CUDA:主导GPU计算的革命》超能网测评报告。