我们来了解一下 clfft 编译的基本原理。
clfft 是基于 OpenCL(开放式计算语言)的快速傅里叶变换库,利用GPU 的并行计算能力来加速傅里叶变换的计算过程。
在使用clfft 编译时,首先需要安装OpenCL 运行时环境,并将clfft 库链接到您的项目中。
然后,您可以通过简单的API 调用来实现快速傅里叶变换的计算。
clfft 提供了丰富的配置选项,可以根据实际需求来调整计算的精度、数据格式等参数,以获得最佳的计算性能。
与传统的 CPU 计算相比,使用 clfft 编译进行快速傅里叶变换计算具有明显的优势。
首先,GPU 的并行计算能力远远高于CPU,在处理大规模数据时可以显著提高计算速度。
其次,由于clfft 是基于开放标准的OpenCL,可以在不同厂商的GPU 上进行跨平台运行,具有较好的可移植性。
当然,使用clfft 编译也存在一些局限性。
首先,对于小规模数据的计算,可能无法发挥出GPU 的并行计算优势,反而会因为数据传输等额外开销导致性能下降。
此外,由于OpenCL 的编程模型相对复杂,需要较深的理解和熟练掌握,对于初学者来说可能存在一定的学习曲线。
总的来说,clfft 编译是一个强大的工具,可以帮助我们在并行计算环境下高效地进行快速傅里叶变换计算。
希望本文能够帮助读者更好地理解和应用clfft 编译,提高计算效率,促进科学研究和工程实践的发展。
Parallelization of Dct Using Opencl Model XIANG Yang-xia,ZHANG Hui-min, WANG Zi-qing (Department of Information Engineering, Academy of Armored Force Engineering, Beijing 100072, China)
OpenCL 最早是由 Apple 公司提出,在 Intel、AMD、NVIDIA 等巨头的参与下,2008 年 12 月已形成第一版标准。OpenCL 全称 Open Computing Language[3,4],即“开放计算语言”,为编写跨平台的 GPU 计算的程序提供了方便。
OpenCL语言。又被称为 OpenCL C 编程语言。它是基于 ISO C99 标准的一个扩展子集,主要用来编写 Kernel 程序的语 言,能运行在任何类型的微处理器上。 2) OpenCL 平台 API。它定义了协同执行的单个处理器程序找到 OpenCL 设备所用的函数和函数的功能,以及 OpenCL 应用创
1)对图像块的每行进行一维 DCT 变换。
2)对经行变换的块的每列再进行一维 DCT 变换。
其中,一维 DCT 变换采用线性变换 Y=HX 实现,它将 N 维向量 X 通过变换矩阵 H 转换成新的 N 维向量 Y。公式如式(1)所示[10]:
∑ yk =
2 N
N-1 n=0
+ 1)kπ 2N
从式(2)可以证明得到,DCT 变换核 Hkn是为无理数,H 是正交矩阵且 DCT 完全可逆的,变换对于输入的整数图像数据而言,进
行 DCT 变换时需要进行大量的浮点运算,容易导致图在像轻微失真, 另外还需要进行大量的乘法和除法运算,软件和硬件不易实
为了提高 DCT 变换的速度以及扩展更多的应用,文中主要分析面向 OpenCL 模型的 DCT 变换的并行化。通过结合 OpenCL 语 言和 GPU 的并行特性,充分发掘其中可以并行计算的部分,针对基于 GPU 的 DCT 变换的性能进行优化。
1 OpenCL
随着 GPU 可编程性不断增强,各种编程工具的不断推出,例如 Nvidia 的 CUDA、AMD 的 Brook+、Apple 的 OpenCL、IBM 的 CBE、 Intel 的 Larrabee,这些工具使 GPU 通用计算编程的复杂性大幅度降低,已逐步成为一种新型可编程高性能并行计算资源。对于编 程人员来说他可以选择不同的语言或者 API 进行编程,文中选用 OpenCL 编程。 1.1 OpenCL 的组成
2.2 DCT 变换的并行化
DCT 变换在 GPU 上的实现步骤,如下: 1) 将原始数据从 Host 端的内存传送到 Device 端的显存,将原始图像分成 8×8 的块,每个线程根据对应的索引号读取显存中某 个块中的一列到 GPU 的内存中。 2) 每个线程根据对应的索引号先对某个块中的一列做一维 8 点 DCT 快速正变换,再对变换以后的块中的某行做一维 8 点 DCT 快速正变换,结果为变换后的块。 3) 每个线程根据对应的索引号把某个块中的一列从 GPU 的内存传送到显存中。
2 DCT 在 GPU 上的并行化实现
图 2 AMD GPU 在 OpenCL 下的存储体系
为了方便开发人员在 GPU 平台上进行编程,提高开发效率,目前,各大厂商提供了很多高效、直观的开发平台,即 CAL、 Brook+、CUDA、OpenCL 等,这些平台有各自的特点。文中主要从 OpenCL 角度进行分析 DCT 变换的并行化。
建上下文的函数。 3) OpenCL 运行时 API。它用于管理上下文进行命令队列的创建和运行时发生的其他操作。 图形里面也有很多 API,比如 OpenGL、DirectX 是针对图形的,OpenCL 是针对并行计算的 API。这些构成便于主机程序启动
Kernel 程序,并为并行计算提供了一个有效的开发平台。OpenCL 作为业界公认的第一个异构计算开发语言标准,正逐渐被各主要 计算平台所采用。文中采用的异构处理平台为多核 CPU 和 GPU。
图 1 OpenCL
1.2 OpenCL 平台模型
OpenCL 平台模型为开发人员提供了在计算设备上执行的 OpenCL C 函数。主机(Host)是 OpenCL 平台模型中的核心设备,它能 够连接一个或多个 OpenCL 计算设备(Compute Device)。其中每个 OpenCL 计算设备又由一个或多个计算单元(Compute Unit)组成, 每个计算单元由一个或多个处理单元(Processing Element) 组成,各种计算操作都是在处理单元中完成的。例如 AMD Radeon HD 7970 包含有 32 组 CU,每组 CU 包含 64 个 PE。Host 端是 OpenCL 程序的入口和出口,控制着计算设备中处理单元需要进行的计算, 从而实现管理平台模型中所有计算资源。计算命令通过应用程序从 Host 端向各个 OpenCL 计算设备的处理单元进行传送。GPU 通过单指令多数据(SIMD)指令类型来支持数据并行计算。在单指令多数据流的结构中,单一控制部件向每条流水线分派指令,同 样的指令被所有处理部件同时执行。
GPU 已经不再局限于 3D 图形处理了,由最早以游戏为主要代表的图形应用,到现在大规模并行超级计算机和处理大批量并行 浮点运算,尤其在动画渲染、气象研究、能源勘探、生物医疗、金融分析、地理信息系统等各个领域发挥着重要作用。“天河一号 A”超 级计算机是 GPU 应用的典型代表,它采用了 GPU 和 CPU 混合架构,并使用了超过 14000 颗 CPU,其中配备了 2048 颗我国自主研发 的飞腾 FT-1000 八核心处理器,Tesla M2050 GPU7168 颗,总运算能力 2.5PFLOPS,曾在 2010 年 11 月获得全球速度最快超级计算机 的头衔。它的成功已经充分证明了 GPU 在数据计算方面的重要性。
Com puterKnowledge and Technology电脑知识与技术
K-L 变换的准最优正交变换非常相似,能将图像的大部分能量集中到直流系数中,并且其算法快速有效,因而有利于软件和硬件实
现。K-L 变换(Karhunen-Loeve Transform),由卡尔胡宁(Karhumen)与勒夫(Loeve)分别提出[9]。其具有将图像能量集中于某些系数
ISSN 1009-3044 第Com9p卷ute第rK2n6ow期ledg(e2a0n1d3T年ech0n9ol月ogy) 电脑知识与技术 Vol.9, No.26, Setptember 2013.
E-mail: kfyj@ Com puterhKttnpo:/w/wlewdgwe.dandzsT.neceht.nconlogy电脑知识与技术
Key words: Graphic Processing Unit(GPU);Open Computing Language(OpenCL);Discrete Cosine Transform(DCT);Paralleliza⁃ tion
随着操作系统和应用程序对复杂且高质量的图形要求越来越高,GPU 将 CPU 从视频处理应用繁重的图形任务中解脱出来。 1999 年,世界上第一个 GPU(GeForce 256)是由 NVIDIA 于推向市场[1]。GPU 全称 Graphic Processing Unit,即“图形处理器”[2],是显卡 的“心脏”。现在的 GPU 已经从由若干专用的固定功能单元组成的专用并行处理器,发展成以 GPU 内部的通用计算资源为主,固定 功能单元为辅的架构,这一架构的出现奠定了 GPU 计算的发展基础。GPU 的处理器数目远多于 CPU,其数量决定了其运算能力。
前在 MPEG-4 和 JPEG2000 的静态纹理编码中主要采用 DWT 变换实现,而其他多数图像和视频编码中选择采用 DCT 变换进行实
针对二维图像的 DCT 变换,其变换过程如下:
收稿日期:2013-08-15 作者简介:向阳霞,讲师,主要研究方向为软件工程,图像处理;张惠民,副教授;陈曼青,副教授。
本栏目责任编辑:梁 书
Com puterKnowledge and Technology电脑知识与技术
第 9 卷第 26 期 (2013 年 09 月)
Abstract: In order to improve speed up the DCT inversion, this paper analyzed characteristics and advantages of GPU and Open⁃ CL; and researched working principle of traditional DCT inversion, then tested algorithm on the different platforms, the results shows that parallelization can effectively improve the fast DCT performance.