基于TI_C6000_DSP的C_C++语言代码效率优化

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Ａｂｓｔｒａｃｔ：ＩｎｔｈｅＤＳＰｓｐｒｏｊｅｃｔ，ｔｈｅＣｃｏｄｅｏｐｔｉｍｉｚａｔｉｏｎｉｓｖｅｒｙｉｍｐｏｒｔａｎｔ．Ｔｈｉｓｐａｐｅｒｉｌｌｕｓｔｒａｔｅｓｔｈｅｍｅｔｈｏｄｔｏｒｅａｃｈｈｉ【ｇｈｐｅｒｆｏｒｍａｎｃｅ
ｆｂｆＴＩＣ６０００ＤＳＰｓａｃｃｏｒｄｉＩｌｇｔｏＣ６０００ＤＳＰｓ’ｕｎｉｑｕｅｈ盯ｄｗａｒｅｓｔｒｕｃｔｕｒｅ．Ｔｈｅｎａｎａｌｙｚｅｔｈｅｒｅｓｕｌｔｏｆｔｈｅｏｐｔｉｍｉｚａｔｉｏｎ．Ａｔｌａｓｔ，ｔｈｉｓｐａ－
时间。再次修改如下：
ｖｏｉｄｆｕｎｌ（ｎ。ａｔ宰陀ｓｔｒｉｃｔ。ｕｔｐｕｔ，ｆｌｏａｔ｝ｒｅｓｔｒｉｃｔｉｎｐｕｔ，ｆｌｏａｔ宰ＩｒｅｓｔｒｉｃｔｐｒｅＡｒｒａｙ）
万方数据
５期
刁一平等：基于ＴＩＣ６０００ＤＳＰ的Ｃ／Ｃ＋＋语言代码效率优化
５４７
｛
ｒｅｇｉｓｔｅｒｉｎｔｉ；ｒｅｇｉｓｔｅｒｆｌｏａｔｃｏｌ＝ａｌｐｈａｓ；
图１软件流水线结构
万方数据
微计算机应用
２００７年
６实现高质量流水线的方法
流水线的质量体现在指令的并行度上。其并行度越高，程序执行所需的时间也就越短，Ｃ６０００的峰值是达到８条指令的并行。修改编译器（ｃｏｍｐｌｉｅｒ）的设置，选中如下几个选项：
一０３——表示最高程度的优化，编译器将执行各种优化循环的方法，如软件流水、循环展开。一ｐｍ——在使用一０３选项进行优化时尽量联合使用一ｐｍ选项，一ｐｍ是程序级优化，使优化器访问整个程序，了解循环次数。一叩３——通知编译器会用到其他文件中定义的函数，但不用其他文件中所定义的变量。
一般传统嵌入式系统开发项目分为三个阶段‘３｜：①ｃ代码开发阶段；②ｃ代码优化阶段；③手工汇编代
本文于２００６—１０一１０收到。
万方数据
５期
刁一平等：基于ｎＣ６０００ＤＳＰ的Ｃ／Ｃ＋＋语言代码效率优化
５４５
码重编写阶段。第一阶段编写的ｃ代码以程序编写调试为主要目的，为了便于调试更注重的代码的阅读性，忽视运行
ＴＭＳ３２０Ｃ６０００通用数字信号器是，１１公司推出的一种并行处理的数字，其具体的硬件结构可以参见参考文献［２］。
Ｃ６０００的结构基于超长指令字结构（ＶＬＩＷ）。在ＣＰＵ内核（ｃｏｒｅ）有８个并行独立的处理单元：．Ｌｌ、．Ｓ１、．Ｍ１、．Ｄ１和．匕、．ｓ２、．ＭＹ．、．Ｄ２，以及两组独立的寄存器组。每个单元完成一定的算术和逻辑运算。由于这些独立的并行处理单元，理论上最大可以８条指令同时运行。相当于８个传统的ＣＰＵ（只有一个处理单元）并行工作。３Ｃ６０００算法实现及优化的流程
化主要依靠手工编写汇编指令实现，而ＴＩ（ＴｅｘａｓＩｎｓｔｒｕｍｅｎｔｓ）Ｃ６０００系列ＤＳＰ由于其特殊的硬件结构，可以直接在ｃ语言的层面上进行代码的优化就能达到十几，甚至几十倍的速度提升，这使得大部分的Ｃ６０００ＤＳＰ的开发在Ｃ语言优化阶段就能达到实时的要求。本文从Ｃ６０００的硬件结构展开，讨论其优化的原理、方法和策略。２理器结构简介
ｔ２＝（·８－Ｄ；
ｔｌ幸＝ｃｏｌ；ｔ２·＝ｃ０２；
·８＝ｔｌ＋ｔ２；
８＋＋：
ｐｒｅｓ＊；ｓ－ｆ＊；｝
可以看到，重写的函数中新增加了许多寄存器变量来存放常用系数。在循环体的运算中减少了对内存
的访问次数，减少了ＣＰＵ的等待时间。
在ｌｏｏｐｋｅｒｎｅｌ中得到的最大并行指令如下：
［Ａ２］
ＳＵＢ
．Ｓ１
；１３２ｌ＜２，９＞‘
从反馈信息中可见编译器自动优化的效果是实现了４条指令并行，用ｐｒｏｆｉｌｅｒ测试，得到的结果为７６９９
个ＣＰＵｃｙｃｌｅ。要得到更高的指令并行度，需要对程序本身再进行修改。
因为Ｃ６０００有相当丰富的寄存器组，可以利用寄存器变量（ｒｅｇｉｓｔｅｒｖａｒｉａｂｌｅ）减少ＣＰＵ对存储器的等待
ＣＣｏｄｅＯｐｔｉｍｉｚａｔｉｏｎｆｏｒＴＩＣ６０００ＤＳＰｓ
ＤＩＡＯＹｉｐｉｎｇ，ＺＨＡＯＸｉａｏｑｕｎ（ＣｏｌｌｅｇｅｏｆＥｌｅｃｔｒｏｎｉｃｓａｎｄＩｎｆｕｒｉａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇＴｏｎｇｊｉＵｎｉｖｅｒｓｉｔｙ，Ｓｈａｎｇｈａｉ，２０００９２，Ｃｈｉｎａ）
第２８卷第５期２００７年５月
微计算机应用
ＭＩＣＲＯＣＯＭＰＵＴＥＲＡＰＰＬＩＣＡＴＩＯＮＳ
Ｖ０１．２８Ｎｏ．５Ｍａｙ．２００７
基于ＴＩＣ６０００ＤＳＰ的Ｃ／Ｃ＋＋语言代码效率优化
刁一平赵晓群
（同济大学电信学院上海２０００９２）
摘要：在ＤＳＰ项目开发中，代码优化是非常重要的环节。本文针对，１１公司Ｃ６０００系列ＤＳＰ处理芯片的结构特点，阐述了基于Ｃ６０００硬件结构特点的Ｃ语言高效优化方法的原理，提出了展开复杂表达式以达到多指令并行的优化方法，并对其效果进行了对比分析。对语音增强算法项目中所用的一些实际的经验和技巧进行了概括和总结。关键词：ＤＳＰ并行执行软件流水线循环展开
硝
孙
＾。
一
阐述。
Ｅ２
Ｄ３
Ｃ４
Ｂ５
假设一个循环里有五条指令Ａ、Ｂ、Ｃ、Ｄ、Ｅ。在图ｌ中，阴影
部分是循环的核心，五条指令在同一时间执行。循环核心区之前
Ｅ３
Ｄ４
Ｃ５
为循环流水展开（ｐｉｐｅｌｉｎｅｄ—ｌｏｏｐｐｒｏｌｏｇ），在后则是循环流水收
Ｅ４
Ｄ５
尾（ｐｉｐｅｌｉｎｅｄ—ｌｏｏｐｅｐｉｌｏｇ）。
Ｅ５
４数字信号处理算法的特点
在数字信号处理中，存在着大量的乘加运算和迭代运算，即运算当前输出帧往往需要前输入和后输入帧的内容，以下是一个语音增强算法中的一个典型程序模块：
ｖｏｉｄｆｕｎｌ（ｆｌｏａｔ掌ｏｕｔｐｕｔ，ｆｌｏａｔ木ｉｎｐｕｔ，ｆｌｏａｔ幸ｐｒｅＡｒｒａｙ）｛ｉｎｔｉ；ｆｌｏａｔ木ｓ＿ｆ堆８，掌ｐｒｅ＿ｓ；
一。一产生优化注释语句。
一ｍｖ——产生循环指令清单。 ”一ｍｋ——产生编译器意见文件。
后三个选项主要用于让编译器产生反馈信息（包含在工程文件中自动生成的．ａｓｍ文件中），前三个选项则是编译器的优化选项。Ｃ６０００的Ｃ／Ｃ＋＋编译器提供了大量的编译选项，供用户在编译时选择使用。这些选项中部分会直接影响或控制编译器优化过程，除了上述选项外，编译器针对不同的需要还提供了其他许多设置，详情请见参考文献［３］。
同时对程序修改如下：
ｖｏｉｄｆｕｎｌ（ｆｌｏａｔ宰ｒｅｓｔｒｉｃｔｏｕｔｐｕｔ，ｆｌｏａｔ宰ｒｅｓｔｒｉｃｔｉｎｐｕｔ，ｆｌｏａｔ·
ｒｅｓｔｒｉｃｔｐｒｅＡｒｒａｙ）
｛．…．．．
＃ｐｒａｇｍＭＵＳＴＩＴＥＲＡＴＥ（１２８，，２）
ｆｏｒ（ｉ＝０；ｉ＜ｆｒａｍｅＳｉｚｅ；ｉ＋＋）｛．…··；｝｝
２１倍，比初级优化的效果也提高了ｌｌ倍。
借助软件流水可以大幅度提高代码效率，但要实现流水对程序本身还是有一定的要求，下面列举了一
些常见的无法产生软件流水的情况：寄存器生命周期太长，超过一次循环的最小时间；循环函数内包含过于
复杂的结构体；循环体内有函数的调用；函数体内有跳转指令，比如ｂｒｅａｋ，以及ｉｆｅｌｓｅ的连用；一个函数的调
０
ＭＰＹＳＰＭＰＹＳＰ
．Ｍ１．Ｍ２
Ａ５，Ａ０，Ａ０Ｂ４，Ｂ７，１３７
；１８６ｌ＜３，５＞；Ｊ８６Ｉ＜３，５＞
现在已经实现了７条指令并行，若要达到８条指令并行，即芯片的峰值效率，则需要手工进行汇编代码
重写。
用ｐｒｏｆｉｌｅ工具对代码进行测试比较，最终的优化结果为６７０个ＣＰＵｃｙｃｌｅ，速度比不优化的情况提升了
Ａ２，１，Ａ２
；＜０，１４＞
ຫໍສະໝຸດ Baidu
０［Ａ１］０［！Ａ２］０［！Ａ２］
ＳＵＢＳＴＷＳＴＷ
．Ｌ１．Ｄ１Ｔ１．Ｄ２Ｔ２
Ａ１，１，Ａ１
Ａ４，幸＋＋Ａ６（８）Ｂ８，宰＋＋Ｂ６（８）
；＜０，１４＞；１８６Ｉ＜０，１４＞；１８６Ｉ＜０，１４＞
ＩＩ［ＢＯ］
ＳＵＢ
．ｓ２
Ｂ０，１，Ｂ０
；１９０ｌ＜２，８＞
０
首先增加了ｒｅｓｔｒｉｃｔ关键字。明确代码中不存在存储器相关性。因为当编译器无法肯定两个指针是否
指向同一存储区间时，编译器就采取保守态度，默认为两个指针会指向同一区间，在进行数据读取或存储时
就对所需数据逐一操作，假设ＣＰＵ１次可读或存４个数据，但在默认的模式下，需要进行４次操作，浪费３次
操作的时间。除了ｒｅｓｔｒｉｃｔ的关键词，也可以用编译器中的一ｍｔ选项确定代码中无存储相关性。其次再用伪
编译器自动优化完成后看反馈的汇编信息，在ｌｏｏｐｋｅｒｎｅｌ中看到最大的并行指令如下：
［Ｂ１］
ＳＵＢ
．Ｄ２
Ｂ１，ｌ，Ｂ１
；＜０，３７＞
ｌＩ
ＳＴＷ
．Ｄ１Ｔ２
Ｂ８，半＋Ａｌｌ（４）
；１３２Ｉ＜０，３７＞‘
０
ＭＶＫＬ
．Ｓ２
０ｘ３ｆｅ４ｃｃｃｃ，Ｂ３
；１３２Ｉ＜２，９＞‘
Ｉ｜
ＭＶＫＬ
．Ｓ１
０ｘ３ｆｄ６６６６６，Ａ１
指令ＭＵＳＴ＿ＩＴＥＲＡＴＥ（）告诉编译器待优化的循环体循环次数为２的倍数，可进行２倍的循环展开，并且展
开后循环次数为１２８。在软件流水形成的过程中，一个很重要的概念是循环展开（ｕｎｒｏｌｌ）。这样可以平衡两
组处理单元的工作以及充分利用线宽来读取或存储数据。关于循环展开以及功能单元工作分配的平衡的
具体内容可参看参考文献［４］，这里不做赘述。以上两点是代码优化的基本要求。
ｒｅｇｉｓｔｅｒｆｌｏａｔｃ０２＝ａｌｐｈａ＿ｓ２；ｒｅｇｉｓｔｅｒｆｌｏａｔｔｌ，ｔ２；ｆｌｏａｔ·ｓ—ｆ，｜【８，幸ｐｒｅｓ；ｓ＝ｏｕｔｐｕｔ；ｓｊ＝ｉｎｐｕｔ；ｐｒｅ＿ｓ２ｐｒｅＡｎ－ａｙ；卸ｍ乎ｍＭＵＳＴＩＴＥＲＡＴＥ（１２８，，２）ｆｏｒ（ｉ＝Ｏ；ｉ＜ｆｒａｍｅ，Ｓｉｚｅ；ｉ＋＋）｛ｔｌ＝（宰ｐｒｅｓ）；
ｐｅｒｉｎｔｒｏｄｕｃｅｓｏｍｅｐｒａｃｔｉｃａｌｓｋｉｌｌｓｉｎｔｈｅｐｒｏｊｅｃｔｏｆｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔ．Ｋｅｙｗｏｒｄｓ：ＤＳＰ，Ｐａｒａｌｌｅｌｉｎｓｔｒｕｃｔｉｏｎ，Ｓｏｆｔｗａｒｅｐｉｐｅｌｉｎｅ
１引言代码优化是数字信号处理器‘１１（ＤＳＰ）软件开发中的关键环节。传统的嵌入式项目开发中，硬件级的优
效率。第二阶段以效率为目的对算法进行初级的简化，即算法级优化。在传统的开发方式中，这一阶段仍然不关注具体的硬件平台。最后是手工汇编代码重编写阶段，与具体的硬件平台有着密切的联系，在此阶段有着最大幅度的效率提高，是传统优化中的关键阶段。
但是在Ｃ６０００嵌入式项目的开发中，最大幅度的效率提高是在第二阶段也就是Ｃ语言代码优化阶段中完成，往往可以达到十几甚至于几十倍的提升效果，所以实际开发中很少需要进行第三阶段的开发，也就是手工重写汇编代码的阶段。因为重写汇编代码后效率提升的幅度已经很小，且要耗费大量的开发成本。所以Ｃ代码优化是ＴＩＣ６０００系列ＤＳＰ代码优化的关键步骤。
ｏｕｔｐｕｔ＝ａｌｐｈａ弗ｉｎｔｐｕｔ＋ａｌｐｈａ２书ｐｒｅＡｒｒａｙ
为了对优化效果进行对比，先用ＣＣＳ中的剖析工具ｐｒｏｆｉｌｅｒ对以上程序段ｆｕｎｌ进行效率分析，得到运行时间为２１０３９个ＣＰＵｃｙｃｌｅ。
以下将以此程序为例，提出了在Ｃ代码优化的一种简单而有效的方法。
５Ｃ６０００系列Ｃ语言优化的重点——软件流水
ｓ＝ｏｕｔｐｕｔ；
ｓ＿ｆ＝ｉｎｐｕｔ；ｐｒｅ＿ｓ２ｐｒｅＡｒｒａｙ；
ｆｏｒ（ｉ＝０；ｉ＜ｆｒａｍｅＳｉｚｅ；ｉ＋＋）｛宰８＝（ｆｌｏａｔ）（ａｌｐｈａ—ｓ掌（宰ｐｒｅ—ｓ）＋ａｌｐｈａ—ｓ２木
掌Ｓ
ｐ掣＝
８．，
其中，ｐｒｅＡｒｒａｙ是前一帧的ｏｕｔｐｕｔ的值，ｆｒａｍｅＳｉｚｅ是帧长，预定义为２５６，ａｌｐｈａ和ａｌｐｈａ７．是预定义的常量系数。这段程序的作用是根据当前输入帧和前一输出帧计算当前的输出帧，数学公式如下：
用的寄存器组的数量超过寄存器组的数量；如果有循环嵌套，除了最内层循环体，其他循环体都不能产生软
件流水。
若在程序中出现在上述情况，则无法产生软件流水，此时必须修改代码，下面列举了一些修改程序而实
‘
现流水的策略与方法：
’在算法中存在的循环体会占到整个程序的大部分执行时间。减少这些循环体的执行时间，对于优化的工作有及其重要的
Ａｌ
Ｂｌ
Ａ２
意义。
Ｃｌ
Ｂ２
Ａ３
若Ｃ６０００内核中有８个功能单元同时处理指令，可缩短整个
Ｄｌ
Ｃ２
Ｂ３
Ａ４
循环体的运行时间，这类似于流水线，称为软件流水，如图ｌｗ’”。７
；Ｅ１
Ｄ２
Ｃ３
Ｂ４
～％，？｛