基于FPGA的yolo算法加速研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 79

1.相关介绍
1.1 FPGA
Field-Programmable Gate Arrays (FPGAs)是一种由可配置逻辑模块组成的半导体器件,众多逻辑计算单元组成二维矩阵,逻辑单元之间从水平方向和垂直方向用线网进行连接。

现在一些高端的FPGA芯片,拥有成百上千个可配置逻辑模块,可以实现普通函数的快速计算。

同时FPGA片上拥有一些固定功能的计算单元,比如DSP48,可以实现浮点数乘法运算,同时,FPGA支持多次重新写入和配置。

(1)FPGA和通用处理器对比
FPGA计算单元比传统的一些处理器,比如台式电脑、智能手机、大部分嵌入式系统、GPU等都有优势,这种优势主要是因为FPGA拥有众多可以任意编程的实现通用计算的模块。

这些可配置模块可以用来实现任意专用功能的加速模块,来完成特定的任务,来提高程序的运行速度,使程序有更好的能耗比,实现更大的吞吐量。

拥有这种优势的同时,FPGA牺牲的是它的敏捷性,这意味着开发过程比其他通用处理器更复杂。

开发人员必须详细计算FPGA的可用资源,同时需要考虑如何设计实现框架,可以充分利用FPGA的并行计算优势。

(2)FPGA和ASIC对比
Application-Specific Integrated Circuits (ASICs)是经过专门裁剪和定制的半导体器件。

和FPGA对比,ASIC内部并没有可配置逻辑模块和用于连接各个模块之间的线网,而是直接可以用于固定计算的专用单元,这样的好处就是体积小、运行速度快、性能功耗比高。

但问题是,ASIC复杂的结构设计需要很长的设计周期和前期设计成本,而且要求一次成功率和可扩展的验证。

因此,ASIC非常适合大吞吐量,而又对能耗有要求的应用场景。

ASIC的设计周期和设计成本虽然很昂贵,但是其产品需求量大的时候,这些就都可以被均摊了。

FPGA更适合一些计算电路原型的制作,开发周期相对于ASIC来说短很多。

1.2 Yolo v2算法
Yolo全名为You Only Look Once,是物体检测算法中非常经典的算法之一。

Yolo共有三个版本,本文主要介绍的版本二。

经典的目标检测网络有很多,比如RCNN系列。

RCNN 系列算法又可以分类两大类,首先是Two-Stage类型的算法。

该算法步骤主要分为两步,目标建议和目标分类。

然后是One-Stage类的算法,比如在Faster-RCNN中把目标建议和目标分类作为一个网络,经过一次深度神经网络计算,可以得到两个分支,大大缩短了计算时间。

而Yolo系列算法,则把这两个分支都取消了,前向推理计算时,只用一个网络就可以同时得到待检测目标的分类信息和位置信息。

基于以上背景介绍,本文的主要贡献:
基于FPGA的yolo算法加速研究
同济大学软件学院 孙有腾
(1)基于darknet框架实现了针对该框架下的模型剪枝压缩方法;
(2)将卷积计算模块利用FPGA进行加速。

2.算法实现过程
2.1 剪枝算法的实现
卷积神经网络在进行模型前向推理的过程中,需要将输入特征和权值进行卷积计算。

这些权值也就是卷积核,仔细查看这些权值的分布发现,大部分权值都是处在0的左右,权值的绝对值都很小,比如yolo的权值分布如Figure 1所示。

而且有研究发现,大部分权值其实是冗余的。

因此,可以减去一些多余的卷积核,同时保证对计算结果影响不大。

确定了对减去多余的卷积核的目标之后,那哪些卷积核应该被剪掉呢,本论文采用的方法流程如下:
1)对于某一层,对各个卷积核求L1范数,;
2)对该层的所有卷积核,依据进行排序;
3)剪掉排列最靠后的m个卷积核,同时对于下一层的卷积计算中,对于每个卷积核都要剪掉其对应通道;
4)其余层的卷积核保持不变,直接保存到新的模型中;
本论文根据以上算法流程基于darknet框架实现了此框架下的权值剪枝工具,使用时只需要提供待剪枝的层和剪枝比例,程序会自动完成剪枝工作。

有了以上工具之后,可以方便的对各层进行不同比例的剪枝,然后查看在此剪枝比例下。

Figure 1 权值分布
权值对于最终推理结果的影响,这一步称为敏感度分析。

对Yolo中的卷积层进行敏感度分析之后,可以发现下降的越快的卷积层越敏感,靠后的卷积层的敏感度较低,靠前的卷积层较为敏感,基于以上发现决定对Conv18-23的卷积层进行剪枝,剪枝比例为50%。

仅仅通过这一步的优化,该模型在ARM CPU上的运行时间由50s降低到36s。

模型大小由179M压缩到109M。

• 80

2.2 FPGA加速模块的设计
1)并行设计
FPGA 的主要计算优势体现在其可以支持电路级别的并行计算。

对于3D 卷积来说,每个卷积核都可以同时和输入特征进行计算,每个卷积核的所有通道又可以单独和输入特征进行计算,每个输入特征也可以单独参与计算。

同时,以卷积核尺寸为3为例,需要9个元素同时做乘法,再做加法,这个其中9次乘加操作也可以并行。

2)数据复用
为了支持计算的并行性,对于卷积计算的权值部分,FPGA 加速模块的要求是一次性将某层的全部权值加载到FPGA 的片上缓存。

对于输入特征,本论文采用的是Line buffer 的形式,一次性缓存四行输入特征矩阵的参数,当达到四行之后,重新写入整个数组。

3)FPGA 实现效果
最终实现效果如图2所示,输入特征和权值通过AXI 总线,缓存到FPGA 片上,对于卷积计算的乘累加操作,同时综合处N_PE 个计算单元,这些单元同时进行计算,将结果写入到Oc-ache 中,然后进行累加,得到该输出位置(x,y)上
的输出结果。

最终,使用Yolo v2算法检测单张图片在FPGA 上的运行时间大概为270ms ,比英伟达TX2的计算时间慢10ms ,但是功耗比TX 低,FPGA 上运行消耗的功耗只有6.13W ,而TX2的功耗最低还需要7.5W 。

因此本论文的实现在工
程项目中具有实际应用意义。

Figure 2 FPGA加速模块计算原理图
现代网络信息技术的发展革新,使人们的生活和工作方式都实现大幅度的优化提升,对社会各个领域都产生了深刻的影响。

在此背景下人们越来越重视计算机的网络技术的异常问题。

JAVA作为计算机可移植、跨平台的高级语言,在实际编程过程中经常会遇到各种异常情况。

因此,本文从实践角度出发,对JAVA编程中的异常问题进行了分析探讨,并在总结异常处理语法的基础上,提出了科学有效的异常处理方法和技巧。

JAVA异常处理方法和技巧的掌握,对JAVA编程过程意义重大,作为计算机面向的高级语言,JAVA的应用非常广泛,由于具备跨平台和可移植等诸多优势,JAVA已经成为信息时代的最重要的编程语言之一。

因此,在JAVA编程实践过程中,程序员要全面掌握异常处理的语法和JAVA代码的健壮性,在遇到异常事件的情况下,可以及时抛出异常捕捉异常,进而确保代码的可读性和执行效率。

一、JAVA异常处理的概念
JAVA异常处理是在实际编程过程中,遇到的网络连接异常、文件丢失等一系列异常情况,导致程序员的系统程序受到破坏,而在异常情况下,Throwable是对JAVA异常的描述。

程序员在异常处理过程中,可以调用一些函数,查看是否为常规值进行判断,如果函数运行后不是常规值,就表明了异常情况的出现。

JAVA
编程中异常处理的方法和技巧研究
济宁职业技术学院电子信息工程系 马玉凤 姜

二、JAVA编程中异常处理机制
Exception类是JAVA语言的标准,它是通过程序运行而产生,JAVA异常处理机制具有方便快捷的特点,能够为对象提供更加有针对性的服务。

(一)抛出异常
JAVA系统实际运行时,如果出现程序中的方法被调用,此时往往会出现一些错误,导致这些错误产生的原因往往是多方面的。

在这样一种情况下,JAVA的异常处理机制往往会因为错误的发生而间接的出现异常对象,在此时实现抛出异常则是充分发挥JAVA虚拟机的作用,确保系统能够正常有序的运行。

(二)异常捕获
通过一场处理机实现异常抛出之后,程序员需要查找异常匹配关键语句,这样才可以帮助系统实现对异常的捕获。

JAVA语言通过try-catch-finally等关键语句可以做到捕获异常。

实际应用过程中try关键语句是一种常见的、正常的程序代码,可以存放异常代码;catch关键语句也能够捕获异常;finally能够处理异常;throw能够抛出异常。

在程序代码中异常的种类是多种多样的,正因如此,程序员可以实现用try子句嵌套catch子句。

(三)异常处理
要想实现处理异常的目的就必须将与异常匹配的关键语句找出来,如果程序员不能够找到异常,就必须马上终止运行程序。

当然,如果程序员再找到异常后,没有实现对异常的有效处理,也可以做出抛出处理的决定。

在做出抛出异常决定后还可以将异常转交。

相关文档
最新文档