面向机器学习的高性能SIMT处理器cache的设计与实现

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

２００６年１１月，ＮＶＩＤＩＡ在其ＴｅｓｌａＧＰＵ架构中提出了一条指令同时驱动多个不相关线程的ＳＩＭＴ处理方式［３］。随后不久，ＡＴＩ公司在２００７年推出了采用类似处理架构的ＴｅｒａＳｃａｌｅ引擎，及相关产品Ｒ６００ＧＰＵ芯片［４］。ＳＩＭＴ架构具有多个执行流程［３］，可以利用多线程隐藏存储延时，减少取指、取数开销，而且执行时不需要将数据凑成合适的矢量长度，便可以进行运算，更有利于适应机器学习处理大规模数据的要求。
本文基于自主研发的ＳＩＭＴ架构进行设计，为了解决ＳＩＭＴ处理器与主存速度不匹配问题［５］，设计使用
收稿日期：２０１８－１２－２３。陕西省重点研发计划项目（２０１７ＺＤＸＭＧＹ００５）；西安市科技局项目（２０１８０５０４０ＹＤ１８ＣＧ２４（５））。许晓燕，硕士生，主研领域：电路，系统。李涛，教授。孙哲，硕士生。邢立冬，博士。
第３６卷第７期２０１９年７月
计算机应用与软件ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓａｎｄＳｏｆｔｗａｒｅ
Ｖｏｌ３６Ｎｏ．７Ｊｕｌ．２０１９
面向机器学习的高性能ＳＩＭＴ处理器ｃａｃｈｅ的设计与实现
许晓燕李涛孙哲邢立冬
（西安邮电大学电子工程学院陕西西安７１０１２１）
第７期
许晓燕等：面向机器学习的高性能ＳＩＭＴ处理器ｃａｃｈｅ的设计与实现
２８３
ｃａｃｈｅ来改善它们之间的性能。目前ｃａｃｈｅ设计有普林斯顿、哈佛两种结构。普林斯顿结构将指令ｃａｃｈｅ与数据ｃａｃｈｅ统一存放，哈佛结构将指令ｃａｃｈｅ和数据ｃａｃｈｅ分开存放［６］。哈佛结构相对普林斯顿结构有利于解决指令和数据冲突的问题，便于指令ｃａｃｈｅ与数据ｃａｃｈｅ的并行执行，方便对指令ｃａｃｈｅ和数据ｃａｃｈｅ的优化，因此ｃａｃｈｅ设计中普遍使用哈佛结构。本设计采用哈佛结构，并根据指令ｃａｃｈｅ、数据ｃａｃｈｅ的局部性和连续性［７］，为指令ｃａｃｈｅ、数据ｃａｃｈｅ设置不同的参数；根据设计需求为ｃａｃｈｅ设计了可配置的替换算法，包括轮询、ＬＦＵ（ｌｅａｓｔｆｒｅｑｕｅｎｔｌｙｕｓｅｄ）、ＬＲＵ（ＬｅａｓｔＲｅｃｅｎｔｌｙＵｓｅｄ）和专用的伪ＬＲＵ替换算法。本文重点介绍基于自主研发的ＳＩＭＴ架构的ｃａｃｈｅ设计与实现。
ＤＥＳＩＧＮＡＮＤＩＭＰＬＥＭＥＮＴＡＴＩＯＮＯＦＨＩＧＨＰＥＲＦＯＲＭＡＮＣＥＳＩＭＴＰＲＯＣＥＳＳＯＲＣＡＣＨＥＦＯＲＭＡＣＨＩＮＥＬＥＡＲＮＩＮＧ
ＸｕＸｉａｏｙａｎＬｉＴａｏＳｕｎＺｈｅＸｉｎｇＬｉｄｏｎｇ
（ＳｃｈｏｏｌｏｆＥｌｅｃｔｒｏｎｉｃＥｎｇｉｎｅｅｒｉｎｇ，Ｘｉ’ａｎＵｎｉｖｅｒｓｉｔｙｏｆＰｏｓｔｓａｎｄＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ，Ｘｉ’ａｎ７１０１２１，Ｓｈａａｎｘｉ，Ｃｈｉｎａ）
Hale Waihona Puke ＡｂｓｔｒａｃｔＩｎｏｒｄｅｒｔｏｍｅｅｔｔｈｅｒｅｑｕｉｒｅｍｅｎｔｓｏｆｂｉｇｄａｔａ，ｐａｒａｌｌｅｌｃｏｍｐｕｔｉｎｇａｎｄｒｅｄｕｃｅｔｈｅｇａｐｂｅｔｗｅｅｎｐｒｏｃｅｓｓｏｒａｎｄｍａｉｎｍｅｍｏｒｙｉｎｍａｃｈｉｎｅｌｅａｒｎｉｎｇ，ｗｅｄｅｓｉｇｎｅｄａｐｉｐｅｌｉｎｅｃａｃｈｅｓｔｒｕｃｔｕｒｅｂａｓｅｄｏｎｓｅｌｆｄｅｖｅｌｏｐｅｄＳＩＭＴｐｒｏｃｅｓｓｏｒ．ＩｔｗａｓｄｅｓｉｇｎｅｄａｃｃｏｒｄｉｎｇｔｏｔｈｅｐｒｉｎｃｉｐｌｅｏｆｌｏｃａｌｉｔｙａｎｄＬＲＵｒｅｐｌａｃｅｍｅｎｔａｌｇｏｒｉｔｈｍ．ＴｈｅｄｅｄｉｃａｔｅｄｐｓｅｕｄｏＬＲＵｒｅｐｌａｃｅｍｅｎｔａｌｇｏｒｉｔｈｍ，ｔｏｇｅｔｈｅｒｗｉｔｈｔｈｅｇｅｎｅｒａｌＲｏｕｎｄＲｏｂｉｎ，ＬＦＵ，ａｎｄＬＲＵｒｅｐｌａｃｅｍｅｎｔａｌｇｏｒｉｔｈｍｓ，ｃｏｍｐｌｅｔｅｄｔｈｅｃｏｎｆｉｇｕｒａｂｌｅｒｅｑｕｉｒｅｍｅｎｔｓｏｆｔｈｅｃａｃｈｅｒｅｐｌａｃｅｍｅｎｔａｌｇｏｒｉｔｈｍｔｏａｃｈｉｅｖｅｆａｓｔｉｎｔｅｒａｃｔｉｏｎｂｅｔｗｅｅｎｔｈｅｐｒｏｃｅｓｓｏｒａｎｄｔｈｅｍａｉｎｍｅｍｏｒｙ．Ｔｈｅｄｅｓｉｇｎｗａｓｉｎｔｅｇｒａｔｅｄｗｉｔｈｔｈｅｘｃｖｕ４４０ｆｌｇａ２８９２２ｅＦＰＧＡｃｈｉｐｏｆＸｉｌｉｎｘｖｉｒｔｅｘｕｌｔｒａｓｃａｌｅｓｅｒｉｅｓ．Ｔｈｅｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｍａｘｉｍｕｍｌａｔｅｎｃｙｏｆｔｈｅｓｔｒｕｃｔｕｒｅｉｎｓｔｒｕｃｔｉｏｎｃａｃｈｅｉｓ２．９２３ｎｓ，ａｎｄｔｈｅｍａｘｉｍｕｍｄｅｌａｙｏｆｔｈｅｄａｔａｃａｃｈｅｉｓ３．２５８ｎｓ，ｗｈｉｃｈｓａｔｉｓｆｉｅｓｔｈｅｐｅｒｆｏｒｍａｎｃｅｒｅｑｕｉｒｅｍｅｎｔｓｏｆＳＩＭＴｐｒｏｃｅｓｓｏｒ．
ＫｅｙｗｏｒｄｓＳＩＭＴｐｒｏｃｅｓｓｏｒＰｉｐｅｌｉｎｅｄｃａｃｈｅｓｔｒｕｃｔｕｒｅＲｅｐｌａｃｅｍｅｎｔａｌｇｏｒｉｔｈｍ
０引言
随着大数据时代的到来，机器学习已经应用到人类生活的各个方面。机器学习的本质是基于互联网的海量数据以及系统强大的并行运算能力，让机器自主模拟人类学习的过程，通过不断“学习”数据来做出智能决策行为［１］。为了解决机器学习中大数据、并行运算需求，本文基于ＳＩＭＴ架构进行设计。ＳＩＭＴ概念首先被ＧＰＵ制造商ＮＶＩＤＩＡ在产品微架构中提出［２］。
摘要为了满足机器学习中大数据、并行计算及降低处理器与主存之间的差距等要求，设计基于自主研发的ＳＩＭＴ处理器的流水线ｃａｃｈｅ结构。依据局部性原理与ＬＲＵ替换算法相结合设计专用的伪ＬＲＵ替换算法，与通用的轮询、ＬＦＵ、ＬＲＵ替换算法共同完成ｃａｃｈｅ替换算法的可配置要求，实现处理器与主存之间的快速交互。采用Ｘｉｌｉｎｘ公司ｖｉｒｔｅｘｕｌｔｒａｓｃａｌｅ系列的ｘｃｖｕ４４０ｆｌｇａ２８９２２ｅＦＰＧＡ芯片对设计进行综合。结果表明该结构指令ｃａｃｈｅ最大时延为２．９２３ｎｓ，数据ｃａｃｈｅ最大时延为３．２５８ｎｓ，满足ＳＩＭＴ处理器性能要求。关键词ＳＩＭＴ处理器流水线ｃａｃｈｅ结构替换算法中图分类号ＴＰ３３３文献标识码ＡＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１０００３８６ｘ．２０１９．０７．０４８