基于异构多核平台的Caffe框架物体分类算法实现与加速
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第第1199卷卷,第第55期期 Vol 与与 封封 装装 ELECTRONICS & PACKAGING
总 第 193 期 2019 年 5 月
基于异构多核平台的 Caffe 框架物体分类算法实现与加速
谢 达,周道逵,季振凯,戴新宇,武 睿
(中国电子科技集团公司第五十八研究所,江苏 无锡 214072)
Abstract: With the rapid development of deep learning, neural networks and deep learning algorithms have been widely used in image processing. This article explores the FPGA-based neural network acceleration design, and builds an object recognition system based on Convolutional Neural Network of convolutional architecture for fast feature embedding (Caffe) framework, which implements neural network with Zynq-7000 series heterogeneous multicore architecture chip. Transplantation of neural network models and parameters, construction of multi-layer structured neural network, computational intensity analysis and hardware acceleration design are realized. The results show that the Caffe framework object classification system based on heterogeneous multicore platform realizes the function of object recognition and classification, and the recognition speed goes beyond the traditional CPU architecture, which provides a new idea for the subsequent in-depth study. Keywords: Caffe framework; ZYNQ; Convolutional Neural Network; object classification
收稿日期:2018-09-04
- 16 -
第 19 卷第 5 期
谢 达,周道逵,季振凯,等:基于异构多核平台的 Caffe 框架物体分类算法实现与加速
由于 CNN 特定计算需求,通用处理器很难实现 其功能或性能的要求,因此,最近提出了基于现场可 编程门阵列(FPGA)、GPU 甚至 ASIC 设计的各种加速 器来改善 CNN 应用性能。在这些方法中,基于 FPGA 的加速器越来越受到研究人员的关注[2]。
2 机器学习框架及建立
机器学习框架是一种机器学习实现方式的总集, 涵盖用于分类、回归、聚类、异常检测和数据准备的各 种学习方法。深度学习神经网络框架涵盖具有许多隐 藏层的各种神经网络拓扑,这些层包括模式识别的多 步骤过程。 2.1 Caffe 框架
1 引言
卷积神经网络(CNN)是一种从人工神经网络扩展 而来的深度学习架构,该结构通过逐阶递减特征提取
技术以及大数据的训练策略,在多个层面(如图像、语 言、文本分类)性能上都超越了统计学习为主导的机 器学习方法[1]。CNN 避免了对图像的复杂前期预处理, 可以直接输入原始图像,已广泛应用于各种应用程 序,包括视频监控、机器人视觉、图像搜索引擎等。
Implementation and Acceleration of Object Classification Algorithm of Caffe Frame Based on Heterogeneous Multicore Platform
XIE Da, ZHOU Daokui, JI Zhenkai, DAI Xinyu, WU Rui 渊China Electronic Technology Group Corporation No.58 Research Institute, W uxi 214072, China冤
以 FPGA 平台实现 CNN 算法与加速时,由于 FPGA 逻辑资源与存储带宽的双重限制,不同应用案例 拥有许多潜在解决方案以及设计探索空间。本文使用 ARM+FPGA 异构多核实现 CNN 物体分辨系统。FPGA 因其协同处理架构以及高性能、快速开发和动态可重 配的特点,配合 ARM 处理器,耗电量远小于 CPU、 GPU 或 CPU+GPU 架构。同时该架构可以根据网络结 构和运算加速,实现特定算法的硬件化,运行效率更高。
摘 要:随着深度学习的快速发展,神经网络和深度学习算法已经广泛应用于图像处理。基于 FPGA 的神经网络加速设计,搭建了以快速特征嵌入的卷积结构 (Caffe) 框架、卷积神经网络为核心的物 体识别系统,该系统使用 Zynq-7000 系列异构多核架构芯片实现。完成了神经网络模型与参数的移 植、多层结构的神经网络构建、计算密集度分析以及硬件加速设计。结果表明,设计的基于异构多核 平台的 Caffe 框架物体分类系统实现了物体的识别和分类,且识别速度远超传统 CPU 架构的识别速 度,从而为后续的深入研究提供一种新思路。 关键词:Caffe 框架;ZYNQ;卷积神经网络;物体分类 中图分类号:TP391.4 文献标识码:A 文章编号:1681-1070 渊2019冤 05-0016-06
总 第 193 期 2019 年 5 月
基于异构多核平台的 Caffe 框架物体分类算法实现与加速
谢 达,周道逵,季振凯,戴新宇,武 睿
(中国电子科技集团公司第五十八研究所,江苏 无锡 214072)
Abstract: With the rapid development of deep learning, neural networks and deep learning algorithms have been widely used in image processing. This article explores the FPGA-based neural network acceleration design, and builds an object recognition system based on Convolutional Neural Network of convolutional architecture for fast feature embedding (Caffe) framework, which implements neural network with Zynq-7000 series heterogeneous multicore architecture chip. Transplantation of neural network models and parameters, construction of multi-layer structured neural network, computational intensity analysis and hardware acceleration design are realized. The results show that the Caffe framework object classification system based on heterogeneous multicore platform realizes the function of object recognition and classification, and the recognition speed goes beyond the traditional CPU architecture, which provides a new idea for the subsequent in-depth study. Keywords: Caffe framework; ZYNQ; Convolutional Neural Network; object classification
收稿日期:2018-09-04
- 16 -
第 19 卷第 5 期
谢 达,周道逵,季振凯,等:基于异构多核平台的 Caffe 框架物体分类算法实现与加速
由于 CNN 特定计算需求,通用处理器很难实现 其功能或性能的要求,因此,最近提出了基于现场可 编程门阵列(FPGA)、GPU 甚至 ASIC 设计的各种加速 器来改善 CNN 应用性能。在这些方法中,基于 FPGA 的加速器越来越受到研究人员的关注[2]。
2 机器学习框架及建立
机器学习框架是一种机器学习实现方式的总集, 涵盖用于分类、回归、聚类、异常检测和数据准备的各 种学习方法。深度学习神经网络框架涵盖具有许多隐 藏层的各种神经网络拓扑,这些层包括模式识别的多 步骤过程。 2.1 Caffe 框架
1 引言
卷积神经网络(CNN)是一种从人工神经网络扩展 而来的深度学习架构,该结构通过逐阶递减特征提取
技术以及大数据的训练策略,在多个层面(如图像、语 言、文本分类)性能上都超越了统计学习为主导的机 器学习方法[1]。CNN 避免了对图像的复杂前期预处理, 可以直接输入原始图像,已广泛应用于各种应用程 序,包括视频监控、机器人视觉、图像搜索引擎等。
Implementation and Acceleration of Object Classification Algorithm of Caffe Frame Based on Heterogeneous Multicore Platform
XIE Da, ZHOU Daokui, JI Zhenkai, DAI Xinyu, WU Rui 渊China Electronic Technology Group Corporation No.58 Research Institute, W uxi 214072, China冤
以 FPGA 平台实现 CNN 算法与加速时,由于 FPGA 逻辑资源与存储带宽的双重限制,不同应用案例 拥有许多潜在解决方案以及设计探索空间。本文使用 ARM+FPGA 异构多核实现 CNN 物体分辨系统。FPGA 因其协同处理架构以及高性能、快速开发和动态可重 配的特点,配合 ARM 处理器,耗电量远小于 CPU、 GPU 或 CPU+GPU 架构。同时该架构可以根据网络结 构和运算加速,实现特定算法的硬件化,运行效率更高。
摘 要:随着深度学习的快速发展,神经网络和深度学习算法已经广泛应用于图像处理。基于 FPGA 的神经网络加速设计,搭建了以快速特征嵌入的卷积结构 (Caffe) 框架、卷积神经网络为核心的物 体识别系统,该系统使用 Zynq-7000 系列异构多核架构芯片实现。完成了神经网络模型与参数的移 植、多层结构的神经网络构建、计算密集度分析以及硬件加速设计。结果表明,设计的基于异构多核 平台的 Caffe 框架物体分类系统实现了物体的识别和分类,且识别速度远超传统 CPU 架构的识别速 度,从而为后续的深入研究提供一种新思路。 关键词:Caffe 框架;ZYNQ;卷积神经网络;物体分类 中图分类号:TP391.4 文献标识码:A 文章编号:1681-1070 渊2019冤 05-0016-06