TMS320C64xDSP-----Cache优化(精)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
处理器中的cache是存放于处理器附近的高速存储器,它可以用来保存运算处理时的一些共有的指令,从而加速运算的速度。
在本文中,将比较cache存储器和系统中的普通的存储器,随后将介绍cache的一些基本理论和基本术语,以及在高速处理器结构中cache的重要性。以ti的tms320c64x dsp结构为基础,将着重向开发者介绍cache是如何工作,如何配置,以及如何正确使用cahce,本文将以cache的一致性贯穿全文。
存储器结构
在图一中,左边的模块介绍了普通的存储器系统结构,cpu和内部存储器均工作在300mhz。当cpu访问外部存储器时,将不会发生存储器访问禁止的情况。并且当访问内部存储器时也不会发生访问延迟的情况。
当cpu的时钟增加到600mhz时,只有当存储器的速度也增加到600mhz时才不会发生访问等待的状态。很不幸,对于大多数情况下同样频率工作在600mhz的内部存储器价格将十分昂贵。而300mhz的也不是好的选择,因为将大幅降低cpu的频率。设想一个算法需要在每个周期访问存储器,每一次对存储器的访问需等待一个周期,加倍了访问周期从而抵消了cpu的双倍工作频率。
图一:普通存储器和多层存储器结构
解决的办法就是采用一个多层次的存储器。最靠近cpu的存储器由一块速度快但体积小
组成,访问时不存在任何延迟。稍远离一些cpu的采用体积大但速度稍慢的存储器。对于低级别的存储器来说,最靠近cpu的这块存储器便是典型的cache存储器
位置法则
当然,这个解决办法必须工作在cpu能够最快访问最近的存储器的情况时。由于位置法则,对于大多数cpu来说这一情况都是适用的。这意为着在一个特定的窗口时间内,程序仅仅访问全部地址空间的一块相关的小区域。这包括一下两个基本的位置种类:
1、空间位置法则:一块刚刚被访问过的资源附近的资源更有可能被访问
2、时间位置法则:在过去的一个时间点刚刚被访问的资源更有可能马上在将来被访问
空间位置法则是由计算机程序的编程风格所决定的,一般情况下,相关的数据将被连续的存储在存储器中。例如一个共同的类型在计算时,总是将第一个元素放在第一列,然后是第二个元素,以此类推。同理,时间位置法则形成的原因是程序包含的结构比如循环结构调用的是相同的指令(甚至是同样的数据),以此反复。
图二阐述了空间位置法则,它描述了一个6阶fir滤波器。为了计算y[0]输出,将从输入数据缓存x[](值由预算法则对内存中访问的采样数据决定)里读出6个采样数据。当完成一次数据访问时,cache控制器从内存中取出x[0]和一系列的取样值地址。这个一系列的地址值称为cache 串。如果再从低速率的存储器中取出数据串将导致一些cpu的延迟周期。这样做的目的是而当进行以下计算时,临近x[0]的这些数据有可能马上将被访问。而对于fir 滤波器来说正好适用这个原则,因为接着的五个采样数值(x[1]-x[5])马上将被访问。这五个数值的访问过程将进入到cache中完成而不是在低速率的存储器中进行,因而不会产生任何延迟周期。
图二:位置原则
当计算下一个输出y[1]时,五个抽样值(x[1]-x[5]) 将被再次使用,只有一个抽样值(x[6])是新的。所有的抽样值已经提取
本篇文章来源于百科全书转载请以链接形式注明出处网址:/Article/dsp/200808/20367.html
到cache中,cpu不会发生任何的延迟。这个早先使用过的数据在数据处理中再次被用到的例子很好的说明了时间位置原则。
cache是以局部时间地和空间地访问数据为基础的。因此极大的降低了对低速率的存储器访问,绝大多数数据访问都由高速cache存储器以cpu的工作频率服务于cpu。
存储器数率:
cache系统代表性的包括三种级别
1、第一级cache (l1)位于cpu芯片上并且运算于cpu工作频率。
2、第二级cache(l2)也位于芯片上比l1速度慢而体积大。
3、第三级cache(l3)位于cpu外部,是速度最慢体积最大的存储器。
每一级别的cahce相应执行的因素决定于cache距离处理器的距离。表一中体现了一个有代表性的各自相应的时间。
图三:在一个2ns时钟周期的具有多级cache系统的处理器cache执行时间
当运算器需要从存储器中提取数据时,它首先在最高级的cache中寻找然后在次高级的cache中寻找。如果在cache中找到,则称为命中。反之,则称为不命中。
一个cache系统的性能决定于cache申请命中的次数,也称为命中率。对于一个特定的级别的cache来说,一个高的cache命中率意为着更高的性能。而整个cahce系统的性能决定于各级cache的命中率。比如一个cache系统第一级l1 cache命中率为70%,第二级l2cache 命中率为20%,第三级l3cache命中率为5%,整个存储器的为5%,因此基于图三这个系统的平均存储器性能为:
(0.7 * 4) + (0.2 * 5) + (0.05 * 30) + (0.05 * 220) = 16.30 ns
为了阐述这个概念,我们以ti的tms320c64x dsp 存储器结构为例,(表四)包含了一个两级内部cache存储器以及外部存储器。l1cache可以被cpu无延迟的访问。l2存储器可被编程并且可分配为l2sram(可设地址的片上存储器)和l2cache。无论何种设置中,l2存储器都只能每两个周期被访问一次。l2的大小决定于芯片的不同,但总是比l1大的多。以tms320c6454 dsp为例,l2的大小为1mbyte。而c64x dsp 最多支持2gbytes 的外部存储器。存储器的速度决定于存储器采用的技术种类,绝大多数在100mhz左右。在图三中,所有的cache和数据通道均自动的由cache控制器控制。