智能决策系统的深度神经网络加速与压缩方法综述

合集下载

深度神经网络模型压缩技术

深度神经网络模型压缩技术

深度神经网络模型压缩技术深度神经网络在各个领域中取得了巨大的成功,但其高复杂度和巨大的计算资源需求也成为了一个挑战。

为了改善这一问题,研究人员们提出了深度神经网络模型压缩技术。

本文将探讨这一技术的原理、方法和应用。

一、深度神经网络模型压缩技术的原理深度神经网络模型压缩技术的核心思想是通过减少网络中的参数数量和计算量来实现模型的压缩。

目标是在尽可能保持模型性能的前提下,减少模型的存储空间和计算资源需求。

二、深度神经网络模型压缩技术的方法1. 知识蒸馏知识蒸馏是一种常用的深度神经网络模型压缩技术。

它通过将一个复杂的模型(教师模型)的知识传递给一个小型的模型(学生模型),来减少模型的复杂度。

具体而言,教师模型会生成一个软目标概率分布,而学生模型则通过最小化与软目标概率分布的KL散度来学习。

2. 权重剪枝权重剪枝是另一种常见的深度神经网络模型压缩技术。

它通过对网络中的冗余权重进行剪枝来减少模型的参数数量。

具体而言,该方法会根据权重的重要性进行排序,并将重要性较低的权重进行剪枝。

剪枝后,剩余权重会重新调整,以保持模型的性能。

3. 低秩分解低秩分解是一种通过将卷积层或全连接层的权重矩阵进行分解来减少模型参数的方法。

具体而言,它将原来的权重矩阵分解为两个较小秩的矩阵的乘积。

这样做可以大大减少参数数量,同时降低了计算量。

4. 网络剪枝网络剪枝是一种通过删除网络中的冗余连接来减少模型的计算量。

具体而言,该方法会根据连接的重要性排序,并删除重要性较低的连接。

删除后,网络结构会发生变化,但可以通过微调来恢复模型性能。

三、深度神经网络模型压缩技术的应用深度神经网络模型压缩技术在各个领域中都有广泛的应用。

以下是几个常见的应用案例:1. 移动设备端的应用在移动设备上运行深度神经网络模型往往面临存储空间和计算资源有限的问题。

利用深度神经网络模型压缩技术,可以大大减小模型的体积和计算开销,从而在移动设备上实现高效的推断。

2. 边缘计算边缘计算是一种将计算和存储资源迁移到网络边缘的技术。

卷积神经网络的模型压缩和加速方法(六)

卷积神经网络的模型压缩和加速方法(六)

卷积神经网络(CNN)是一种深度学习模型,广泛应用于图像识别、自然语言处理等领域。

但是随着模型规模的不断增大,CNN在实际应用中的速度和内存消耗也越来越大,因此如何对CNN进行模型压缩和加速成为了一个热门的研究方向。

一、参数剪枝参数剪枝是一种常见的模型压缩方法,它通过消除一些不重要的参数来减小模型规模。

这种方法的基本思想是通过训练得到模型的稀疏表示,然后去除稀疏表示中的一些不重要的参数,从而达到减小模型规模的目的。

参数剪枝的优点是能够在不损失太多性能的情况下显著减小模型的规模,但是其缺点是剪枝过程需要重新训练模型,消耗较大的计算资源。

二、低秩分解低秩分解是另一种常见的模型压缩方法,它通过将原始模型中的权重矩阵分解成多个低秩矩阵来减小模型规模。

低秩分解的基本思想是通过将原始模型中的权重矩阵分解成多个低秩矩阵,从而减小模型规模。

低秩分解的优点是能够显著减小模型规模,并且不需要重新训练模型,但是其缺点是分解过程需要消耗较多的计算资源。

三、深度可分离卷积深度可分离卷积是一种结合了参数剪枝和低秩分解的模型压缩方法,它通过将原始的卷积层分解成深度卷积和逐点卷积来减小模型规模。

深度可分离卷积的基本思想是将原始的卷积层分解成深度卷积和逐点卷积,从而减小模型规模。

深度可分离卷积的优点是能够显著减小模型规模,并且不需要重新训练模型,但是其缺点是分解过程需要消耗较多的计算资源。

四、知识蒸馏知识蒸馏是一种通过在一个较小的模型上学习一个较大模型的知识来减小模型规模的方法。

知识蒸馏的基本思想是通过在一个较小的模型上学习一个较大模型的知识,从而减小模型规模。

知识蒸馏的优点是能够显著减小模型规模,并且不需要重新训练模型,但是其缺点是需要使用额外的计算资源来训练较大的模型。

五、参数量化参数量化是一种通过减少模型中参数的位数来减小模型规模的方法。

参数量化的基本思想是通过将模型中的参数表示为较少位数的定点数或者浮点数,从而减小模型规模。

深度学习模型压缩方法大全

深度学习模型压缩方法大全

深度学习模型压缩方法大全深度学习模型压缩是针对大规模深度神经网络中参数、计算量和存储空间等方面的问题,通过一系列技术手段来减少模型的复杂性和资源消耗,以提高模型的效率和可用性。

本文将介绍一些常见的深度学习模型压缩方法,包括参数剪枝、量化和低秩近似等。

参数剪枝参数剪枝是一种常见的模型压缩方法,通过去除神经网络中不必要的连接和权重,以减少模型的参数数量。

一般来说,参数剪枝可以分为以下几个步骤:1. 权重剪枝:通过设置一个阈值,将权重低于该阈值的连接剪枝掉。

这样可以减少连接的数量,进而减小模型的存储空间和计算量。

2. 稀疏化:在权重剪枝的基础上,进一步引入稀疏性,只保留网络中部分重要的连接。

这样可以更好地保持模型的性能,同时减少参数数量。

3. 通道剪枝:对于卷积神经网络中的通道(channel),剪枝掉一些不重要的通道,以减少计算量和存储空间。

通道剪枝方法可以通过设置通道的权重和梯度等指标来确定哪些通道可以被剪枝。

量化量化方法是通过使用较少的比特数来表示模型中的参数和激活值,从而减少存储和计算的需求。

常见的量化方法包括以下几种:1. 低比特量化:将网络中的参数和激活值用较少的比特数进行表示,比如将浮点数转换为整数表示。

这样可以大幅度减少模型的存储空间和计算量,但也会引入一定的精度损失。

2. 基于哈希的量化:将参数和激活值通过哈希函数映射到一个固定的哈希表中,从而减少存储空间和计算需求。

哈希表的大小可以通过压缩比例来控制。

3. 动态定点量化:根据参数和激活值的分布情况,选择合适的定点表示方法,以在不同的层和网络中保持较高的表示精度。

低秩近似低秩近似是一种通过使用低秩矩阵或张量来替代原始的权重矩阵或张量的方法,以降低模型的参数数量。

常见的低秩近似方法包括以下几种:1.奇异值分解(SVD):将原始的权重矩阵分解为三个矩阵的乘积,其中一个矩阵是对角矩阵,可以选择忽略掉其中较小的奇异值,从而减小参数的数量。

2.分解近似:将权重矩阵分解为两个较低秩的矩阵的乘积,同时引入一个额外的线性变换来保持模型的性能。

2022年深度神经网络模型压缩和加速方法

2022年深度神经网络模型压缩和加速方法

综述:深度神经网络模型压缩和加速方法一、研究背景在神经网络方面,早在上个世纪末,Yann LeCun等人已经使用神经网络成功识别了邮件上的手写。

至于深度学习的概念是由Geoffrey Hinton等人第—次提出,而在2022年,Krizhevsky等人采纳深度学习算法,以超过第二名以传统人工设计特征方法X率10%的庞大领先取得了ImageNet图像分类比赛冠军。

此后的计算机视觉比赛已经被各种深度学习模型所承包。

这些模型依赖于具有数百甚至数十亿参数的深度网络,传统CPU对如此庞大的网络一筹莫展,只有具有高计算能力的GPU才能让网络得以相对快速训练。

如上文中比赛用模型使用了1个包含5个卷积层和3个完全连接层的6000万参数的网络。

通常情况下,即使使用当时性能X的GPU NVIDIA K40来训练整个模型仍需要花费两到三天时间。

对于使用全连接的大规模网络,其参数规模甚至可以到达数十亿量级。

当然,为了解决全连接层参数规模的问题,人们转而考虑增加卷积层,使全连接参数降低。

随之带来的负面影响便是大大增长了计算时间与能耗。

对于具有更多层和节点的更大的神经网络,减少其存储和计算本钱变得至关重要,特别是对于一些实时应用,如在线学习、增量学习以及自动驾驶。

在深度学习的另一端,即更贴近人们生活的移动端,如何让深度模型在移动设备上运行,也是模型压缩加速的一大重要目标。

Krizhevsky在2022年的文章中,提出了两点观察结论:卷积层占据了大约90-95%的计算时间和参数规模,有较大的值;全连接层占据了大约5-10%的计算时间,95%的参数规模,并且值较小。

这为后来的研究深度模型的压缩与加速提供了统计依据。

一个典型的例子是具有50个卷积层的ResNet-50需要超过95MB的存储器以及38亿次浮点运算。

在丢弃了一些冗余的权重后,网络仍照常工作,但节约了超过75%的参数和50%的计算时间。

当然,网络模型的压缩和加速的最终完成需要多学科的联合解决方案,除了压缩算法,数据结构、计算机体系结构和硬件设计等也起到了很大作用。

深度神经网络模型压缩方法与进展

      深度神经网络模型压缩方法与进展

深度神经网络模型压缩方法与进展作者:赖叶静郝珊锋黄定江来源:《华东师范大学学报(自然科学版)》2020年第05期摘要:深度神经网络(Deep Neural Network,DNN)模型通过巨大的内存消耗和高计算量来实现强大的性能,难以部署在有限资源的硬件平台上,通过模型压缩来降低内存成本和加速计算已成为热点问题,近年来已有大量的这方面的研究工作,主要介绍了4种具有代表性的深度神经网络压缩方法,即网络剪枝、量化、知识蒸馏和紧凑神经网络设计:着重介绍了近年来具有代表性的压缩模型方法及其特点;最后,总结了模型压缩的相关评价标准和研究前景。

关键词:深度神经网络压缩:网络剪枝;量化:知识蒸馏;紧凑神经网络中图分类号:TP391 文献标志码:A DOI:10.3969/j,issn,1000-5641.2020910010引言近年来,深度神经网络(DNN)在许多领域取得了巨大的成功,包括但不限于目标识别和检测、语音识别、自然语言处理,这些成功依赖于更多的参数、更大更深的模型,例如,在VGG-16(VisualGeometry Group-16)网络上训练ImageNet数据集得到的模型大小超过500 MB,参数数量高达138 357 544个,自2012年AlexNet出现并拿下当年ImageNet竞赛的冠军后,深度神经网络在计算机视觉领域大放异彩,随后出现的卷积神经网络模型数量大幅度增加,比如VGG、ResNet、DenseNet等,这些深度网络模型在许多领域的实验中表现良好,但在实际应用中仍然受到时间和空间的限制,即使使用图形处理单元(Graphics Processing Unit,GPU)或张量处理单元(Tensor Processing Unit,TPU)进行加速,这些宽而深的网络模型仍然不能满足在许多应用场景中的实时需求,与此同时,手机和边缘设备等资源受限设备的数量每年都在增加,体积大、计算成本高的模型会消耗大量的计算资源,不适用于手机等移动设备,因此,在不影响深度网络模型准确度的前提下,模型压缩是一个重要的研究问题。

《神经网络压缩与加速研究的文献综述3400字》

《神经网络压缩与加速研究的文献综述3400字》

神经网络压缩与加速研究的国内外文献综述当前,针对深度神经网络的压缩与加速,其主要方法有网络剪枝、网络量化、低秩分解、紧凑卷积核和知识蒸馏。

以下分别对这五种方法研究现状进行介绍。

(1)网络剪枝网络剪枝可以去除深度网络模型中冗余的、不重要的参数来减少模型参数量。

前期的剪枝方法,如基于非结构化的,精度理论上较高但需下层的硬件和计算库对其有比较好的支持。

而结构化剪枝方法可以很好地解决上述问题,因此近年来的研究很多是集中在结构化上。

对于非结构化剪枝,早在20世纪九十年代Le Cun等人[8]提出了最优化脑损失策略,该方法基于二阶导数来判定参数是否裁剪,可以达到更高的准确度同时又降低网络复杂度,确保精度损失最小化。

Sriniva等人[9]提出通过建立参数的显著性矩阵来删除不显著的参数,该方法无需使用训练数据和反向传播,运行速度较快。

非结构化剪枝的代表性工作为Han等人[10]的工作,由权重的大小判断权值所含有的信息量进行修剪,剪去数值小于给定阈值的不重要连接及对应参数,大大减少网络参数量,该方法在AlexNet模型上实现了9倍的压缩,在VGG -16模型实现了3倍压缩。

为解决非结构化修剪方法迭代收敛慢,运算效率不足的问题,众多研究开始转向结构化剪枝方法。

这类方法通过度量滤波的显著性,将显性滤波移除进而实现网络预测加速。

Li等人[11]使用滤波器参数的L1范数来判断滤波器权重的显著性,删除不显著的滤波器,从而达到模型压缩的目的。

Molchanov等人[12]基于一阶泰勒展开寻找使损失函数变化最小的滤波器,并将其设定为显著性滤波器。

Luo等人[13]提出了ThiNet网络结构,开始研究下一层滤波器输入通道的重要性,滤波器是否被剪去取决于下一层而不是直接只考虑当前层。

此方法在ImageNet 分类任务上,在ResNet-50模型中加速了 2.26 倍,模型大小压缩了2.06 倍,仅增加了0.84%的分类误差。

(2)网络量化网络模型量化目前包含两个研究方向:其一为权值共享,基本思想就是多个网络连接的权重共用一个权值,如聚类方式共享和哈希方式共享;其二为权值精简,即权值的低比特表示,主要是定点量化。

深度神经网络模型压缩与优化技术研究

深度神经网络模型压缩与优化技术研究

深度神经网络模型压缩与优化技术研究深度神经网络在计算机视觉、自然语言处理和语音识别等领域取得了卓越的成果。

然而,随着深度神经网络模型的规模越来越大,其在存储和计算资源方面的需求也越来越高,给部署和应用带来了挑战。

为了解决这个问题,深度神经网络模型的压缩与优化技术应运而生。

深度神经网络模型压缩技术旨在减少模型的存储空间和计算复杂度,同时尽量保持模型的原有性能。

其中一个常用的压缩技术是剪枝。

剪枝通过移除网络中不重要的连接或节点来减小网络规模。

这些不重要的连接或节点可以通过某些标准进行判断,例如它们的权重大小、梯度信息等。

另外,对于卷积神经网络,参数共享可以在剪枝的同时减小网络的存储空间。

此外,量化是另一种常用的压缩技术。

它将神经网络的参数表示为较低精度的形式,从而减少了存储空间和计算开销。

量化可以通过限制参数的数值范围、使用固定点数或浮点数等技术实现。

利用剪枝和量化等方法,可以显著减小深度神经网络模型的规模,提高模型的部署和运行效率。

除了压缩技术,深度神经网络模型的优化也是一个重要的研究方向。

优化技术旨在提高模型的性能和泛化能力,并加速训练过程。

其中一个常用的优化技术是参数优化。

通过调整网络中的参数,使得模型在训练数据上的表现得到改善。

参数优化可以使用梯度下降法和其变种算法,例如Adam优化器等。

另外,学习率调整也是优化技术中的一部分,它可以在训练过程中动态地调整学习率,以避免陷入局部最优解或震荡。

除此之外,正则化技术也是优化的重要手段,它可以通过引入正则化项或使用Dropout等方法来减少过拟合的风险。

为了进一步提升深度神经网络模型的性能和效率,一些新兴的技术被提出。

其中之一是网络蒸馏技术。

蒸馏通过将一个复杂的模型的知识传递给一个较简单的模型,可以提高较简单模型的性能。

这种知识传递可以通过训练目标函数、软目标函数和注意力机制等方式实现。

另外,神经网络搜索和自动机器学习也是研究的热点。

它们通过自动地搜索网络结构、超参数和优化策略,可以得到更加高效和准确的深度神经网络模型。

人工智能开发中的深度学习模型压缩与加速方法

人工智能开发中的深度学习模型压缩与加速方法

人工智能开发中的深度学习模型压缩与加速方法随着人工智能技术的快速发展,深度学习模型在解决各种复杂问题方面展现出强大的实力。

然而,深度学习模型的训练和推理过程需要大量的计算资源,不仅增加了计算成本,也限制了模型在嵌入式和移动设备上应用的可能性。

因此,研究人员开始关注深度学习模型的压缩与加速方法,以提高其效率和应用范围。

一、模型压缩方法1. 参数剪枝参数剪枝是一种常见的深度学习模型压缩方法,其基本思想是通过移除冗余参数来减小模型的大小。

在模型训练完成后,可以通过设置一个阈值来筛选出对模型影响较小的参数,并将其删除。

参数剪枝有效地减少了模型中的参数数量,从而减小了模型的存储空间和计算量。

2. 知识蒸馏知识蒸馏是一种模型压缩方法,其基本思想是将一个复杂的模型的知识迁移到一个简化的模型上。

具体而言,通过使用复杂模型的输出作为简化模型的标签,可以有效地提高简化模型的性能。

知识蒸馏方法不仅可以减小模型的大小,还能提高模型的泛化能力。

3. 量化量化是一种模型压缩方法,其目标是减少模型中的浮点参数,在保持模型精度的同时减小模型的存储空间和计算量。

量化方法通过限制参数的表示范围,将其映射为有限的离散值,从而减少了参数的位数。

常见的量化方法有定点量化和二值量化,可以有效地减小模型的存储需求和计算开销。

二、模型加速方法1. 硬件加速硬件加速是一种常用的深度学习模型加速方法,通过使用专门设计的硬件加速器来加快模型的计算速度。

例如,图形处理器(GPU)和张量处理器(TPU)等硬件加速器,能够并行执行矩阵运算和卷积操作,从而加速深度学习模型的计算过程。

2. 算法优化算法优化是一种深度学习模型加速方法,通过改进模型的训练过程和推理算法,减少计算量和存储需求。

例如,使用更高效的激活函数和损失函数,优化卷积操作的算法,使用更小的批次大小等方法,可以显著提高模型的计算效率。

3. 前向传播优化前向传播优化是一种深度学习模型加速方法,通过减少前向传播的计算量来提高模型的推理速度。

基于深度神经网络的数据压缩技术研究

基于深度神经网络的数据压缩技术研究

基于深度神经网络的数据压缩技术研究随着互联网的不断发展,数据量呈现爆炸式增长,数据压缩技术变得越来越重要。

数据压缩技术是指将数据以某种方式进行变换,使得原始数据所包含的信息量在尽可能少的数据量下得以保存。

在数据传输、存储等领域中,数据压缩技术可以有效减少数据传输和存储所需的时间和空间。

深度神经网络作为一种新兴的机器学习技术,在最近的几年里在图像识别、自然语言处理等领域中得到了广泛的应用。

相比传统的数据压缩技术,基于深度神经网络的数据压缩技术可以更好地保持数据的信息量同时实现数据压缩。

本文将详细讨论基于深度神经网络的数据压缩技术的研究现状和未来发展方向。

一、传统的数据压缩技术在计算机科学领域,数据压缩技术可以分为两大类:无损压缩和有损压缩。

无损压缩是指将原始数据压缩后再恢复时完全等同于原始数据,这种压缩方法广泛应用于文件传输和存储中。

有损压缩是指将原始数据压缩后再恢复时不能完全等同于原始数据,但是可以尽可能保留原始数据的信息,这种压缩方法广泛应用于图像、音频、视频等领域。

传统的数据压缩技术包括哈夫曼编码、算术编码、Lempel-Ziv编码等。

这些方法虽然有效,但是难以泛化到大规模数据的压缩上。

例如,哈夫曼编码的效率和精度都非常高,但是对于大规模数据的压缩,算法效率较低。

二、基于深度神经网络的数据压缩技术随着深度神经网络技术的不断发展,基于深度神经网络的数据压缩技术也得到了广泛的研究。

深度神经网络能够学习数据的特征表示,并在一定误差范围内重构出原始数据。

在图像和音频领域,使用深度神经网络进行数据压缩处理可以使数据保持更高的保真度,同时实现更高的压缩率。

基于深度神经网络的数据压缩技术可以分为两大类:自编码器和变分自编码器。

自编码器的基本思想是将原始数据经过编码器转换为低维编码,再通过解码器将低维编码解码为原始数据。

变分自编码器是自编码器的一种变种,它通过引入随机噪声使得编码器生成的编码是服从一定分布的。

神经网络压缩联合优化方法的研究综述

神经网络压缩联合优化方法的研究综述

神经网络压缩联合优化方法的研究综述
宁欣;赵文尧;宗易昕;张玉贵;陈灏;周琦;马骏骁
【期刊名称】《智能系统学报》
【年(卷),期】2024(19)1
【摘要】随着人工智能应用的实时性、隐私性和安全性需求增大,在边缘计算平台上部署高性能的神经网络成为研究热点。

由于常见的边缘计算平台在存储、算力、功耗上均存在限制,因此深度神经网络的端侧部署仍然是一个巨大的挑战。

目前,克服上述挑战的一个思路是对现有的神经网络压缩以适配设备部署条件。

现阶段常用的模型压缩算法有剪枝、量化、知识蒸馏,多种方法优势互补同时联合压缩可实现更好的压缩加速效果,正成为研究的热点。

本文首先对常用的模型压缩算法进行简要概述,然后总结了“知识蒸馏+剪枝”、“知识蒸馏+量化”和“剪枝+量化”3种常见的联合压缩算法,重点分析论述了联合压缩的基本思想和方法,最后提出了神经网络压缩联合优化方法未来的重点发展方向。

【总页数】22页(P36-57)
【作者】宁欣;赵文尧;宗易昕;张玉贵;陈灏;周琦;马骏骁
【作者单位】中国科学院半导体研究所;合肥工业大学微电子学院;中国科学院前沿科学与教育局;南开大学人工智能学院
【正文语种】中文
【中图分类】TP181
【相关文献】
1.神经网络模型压缩方法综述
2.智能决策系统的深度神经网络加速与压缩方法综述
3.深度神经网络模型压缩方法综述
4.采用BP神经网络优化的振动信号压缩感知方法
因版权原因,仅展示原文概要,查看原文内容请购买。

卷积神经网络的模型压缩和加速方法(四)

卷积神经网络的模型压缩和加速方法(四)

卷积神经网络的模型压缩和加速方法引言卷积神经网络(CNN)是一种用于图像识别、语音识别和自然语言处理等领域的深度学习模型。

随着大规模数据集的不断增长,以及模型参数规模的不断扩大,CNN模型的训练和推理速度也成为了一个严重的问题。

模型压缩和加速成为了研究的热点之一。

本文将介绍一些常见的CNN模型压缩和加速方法。

参数剪枝参数剪枝是一种常见的模型压缩方法,它通过消除模型中不重要的参数来减少模型的大小。

在训练过程中,我们可以通过设置一个阈值,当参数的绝对值小于这个阈值时,将其设为0。

经过剪枝后的模型可以显著减小参数规模。

同时,剪枝后的模型还可以通过稀疏矩阵的表示方法来进一步压缩,从而减少内存占用和加速推理速度。

不过参数剪枝也存在一些问题,如剪枝后的模型可能不够稳定,需要额外的训练步骤来恢复性能。

低秩近似另一种常见的模型压缩方法是低秩近似。

在CNN模型中,卷积层的参数可以用一个更小的维度的矩阵来近似表示。

这种低秩近似可以显著减小模型的参数规模,同时在一定程度上保留模型的性能。

低秩近似方法不仅可以应用于卷积层,也可以应用于全连接层和循环神经网络等其他类型的深度学习模型中。

不过低秩近似也存在一些局限性,比如过度的低秩近似可能会导致模型性能下降。

知识蒸馏知识蒸馏是另一种模型压缩方法,它通过利用一个大型模型的知识来训练一个小型模型。

在知识蒸馏中,大型模型被称为教师模型,而小型模型被称为学生模型。

通过知识蒸馏,学生模型可以学习到教师模型的知识,从而达到与教师模型相近的性能。

知识蒸馏的方法可以在一定程度上减小模型的参数规模,同时提高模型的推理速度,但是需要额外的训练步骤和计算资源。

深度可分离卷积在CNN模型的设计中,深度可分离卷积是一种有效的加速方法。

它通过将标准的卷积操作分解为深度卷积和逐点卷积两个步骤来减小计算复杂度。

深度可分离卷积在一定程度上减小了模型的参数规模,同时提高了模型的推理速度。

这种方法在移动端和嵌入式设备上得到了广泛的应用。

卷积神经网络的模型压缩和加速方法

卷积神经网络的模型压缩和加速方法

随着人工智能技术的不断发展,卷积神经网络(Convolutional Neural Network,CNN)作为一种用于图像识别、语音识别等领域的重要模型,其在实际应用中需要处理大量的数据和参数,导致计算和存储成本较高。

因此,如何对卷积神经网络进行模型压缩和加速成为了研究的热点之一。

一、稀疏矩阵和低秩分解在对卷积神经网络进行模型压缩和加速时,一种常见的方法是利用稀疏矩阵和低秩分解。

通过对卷积层中的权重矩阵进行稀疏化处理,可以将大部分权重设置为零,从而减少模型的参数数量。

另外,利用低秩分解可以将原始的权重矩阵分解为两个较低秩的矩阵的乘积,也可以达到减少参数数量的效果。

这两种方法在不影响模型性能的前提下,有效地减少了模型的计算和存储成本。

二、剪枝和量化除了稀疏矩阵和低秩分解,剪枝和量化也是常用的模型压缩和加速方法。

剪枝是指在训练模型时,通过设置参数的阈值,将小于阈值的参数剪枝掉,从而减少模型的参数数量。

而量化则是将模型中的参数从浮点数转换为定点数或较少比特数的浮点数,以减少模型参数的存储和计算成本。

这两种方法在一定程度上降低了模型的计算复杂度和存储开销,同时保持了模型的性能。

三、深度可分离卷积在卷积神经网络的设计中,深度可分离卷积是一种有效的模型压缩和加速方法。

与传统的卷积层相比,深度可分离卷积将卷积操作分为深度卷积和逐点卷积两个步骤,从而减少了参数数量和计算量。

这种方法在移动设备等资源受限的环境下表现出了较好的性能,因此得到了广泛的应用。

四、知识蒸馏除了上述方法外,知识蒸馏也是一种常用的模型压缩和加速方法。

知识蒸馏是指通过一个复杂模型(教师模型)的预测结果来训练一个简单模型(学生模型),从而达到减少模型参数和计算开销的目的。

通过知识蒸馏,可以将教师模型中的复杂知识转化为学生模型可以理解和学习的简单知识,从而在一定程度上保持了模型的性能的同时减少了模型的复杂度。

总结综上所述,卷积神经网络的模型压缩和加速方法有很多种,每种方法都有其适用的场景和特点。

人工智能开发技术中的深度学习模型压缩和加速方法

人工智能开发技术中的深度学习模型压缩和加速方法

人工智能开发技术中的深度学习模型压缩和加速方法人工智能(Artificial Intelligence,AI)的快速发展和广泛应用,已经成为当今社会的热门话题。

尤其是深度学习模型的出现和应用,给人工智能带来了巨大的突破和进步。

然而,深度学习模型在应用过程中也面临着一些挑战,例如模型的复杂性和计算资源的需求等。

为了解决这些问题,研究人员们提出了一系列的深度学习模型压缩和加速方法,以提高模型的效率和性能。

模型压缩是指减小深度学习模型的规模和存储空间,以便在嵌入式设备或计算能力有限的环境中使用。

其中一个常见的方法是剪枝(Pruning)。

剪枝通过去除不重要的连接或神经元来减少模型的参数量。

这种方法可以显著减小模型的大小,同时保持较高的精度。

另一个常见的压缩方法是量化(Quantization)。

量化通过减少模型中参数的比特数来降低存储体积。

例如,将浮点数参数量化成固定位宽的整数,可以大大减小模型的大小。

此外,还有一些基于低秩分解和矩阵分解的方法,通过寻找模型中低秩的近似解来压缩模型。

模型压缩的同时也需要保持较高的模型性能。

为此,研究人员们提出了一些加速方法,以提高模型的推理速度。

其中之一是模型量化后的加速方法。

量化模型使用更多位数的整数表示,可以利用硬件的特殊指令集来加速计算。

此外,研究人员还提出了二值网络(Binary Networks)等结构,将模型参数由浮点数转换为二值或多值,从而减少乘法运算,进一步提高模型的推理速度。

此外,为了进一步提高模型的效率,研究人员还提出了一些硬件加速的方法,例如基于FPGA(Field-Programmable Gate Array)的加速器和ASIC(Application Specific Integrated Circuit)芯片等。

这些硬件平台可以通过专门设计的电路和并行计算单元来加速模型的推理过程。

然而,模型压缩和加速并不是没有代价的。

一方面,压缩和加速方法可能会导致模型性能的下降。

深度神经网络压缩与加速综述

深度神经网络压缩与加速综述

深度神经网络压缩与加速综述纪荣嵘;林绍辉;晁飞;吴永坚;黄飞跃【期刊名称】《计算机研究与发展》【年(卷),期】2018(55)9【摘要】深度神经网络在人工智能的应用中,包括计算机视觉、语音识别、自然语言处理方面,取得了巨大成功.但这些深度神经网络需要巨大的计算开销和内存存储,阻碍了在资源有限环境下的使用,如移动或嵌入式设备端.为解决此问题,在近年来产生大量关于深度神经网络压缩与加速的研究工作.对现有代表性的深度神经网络压缩与加速方法进行回顾与总结,这些方法包括了参数剪枝、参数共享、低秩分解、紧性滤波设计及知识蒸馏.具体地,将概述一些经典深度神经网络模型,详细描述深度神经网络压缩与加速方法,并强调这些方法的特性及优缺点.此外,总结了深度神经网络压缩与加速的评测方法及广泛使用的数据集,同时讨论分析一些代表性方法的性能表现.最后,根据不同任务的需要,讨论了如何选择不同的压缩与加速方法,并对压缩与加速方法未来发展趋势进行展望.【总页数】18页(P1871-1888)【作者】纪荣嵘;林绍辉;晁飞;吴永坚;黄飞跃【作者单位】厦门大学信息科学与技术学院福建厦门 361005;福建省智慧城市感知与计算重点实验室(厦门大学) 福建厦门 361005;厦门大学信息科学与技术学院福建厦门 361005;福建省智慧城市感知与计算重点实验室(厦门大学) 福建厦门361005;厦门大学信息科学与技术学院福建厦门 361005;上海腾讯科技有限公司优图实验室上海 200233;上海腾讯科技有限公司优图实验室上海 200233【正文语种】中文【中图分类】TP391【相关文献】1.面向嵌入式应用的深度神经网络模型压缩技术综述 [J], 王磊;赵英海;杨国顺;王若琪2.智能决策系统的深度神经网络加速与压缩方法综述 [J], 黄迪;刘畅3.深度神经网络压缩综述 [J], 李青华;李翠平;张静;陈红;王绍卿4.智能决策系统的深度神经网络加速与压缩方法综述 [J], 黄迪; 刘畅5.深度神经网络模型压缩综述 [J], 耿丽丽;牛保宁因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第10卷㊀第2期㊀2019年4月指挥信息系统与技术C o mm a n d I n f o r m a t i o nS y s t e ma n dT e c h n o l o g yV o l .10㊀N o .2A pr .2019 发展综述d o i :10.15908/j.c n k i .c i s t .2019.02.002智能决策系统的深度神经网络加速与压缩方法综述∗黄㊀迪㊀刘㊀畅(中国科学院大学计算机科学与技术学院㊀北京100049)摘㊀要:深度神经网络凭借其出色的特征提取能力和表达能力,在图像分类㊁语义分割和物体检测等领域表现出众,对信息决策支持系统的发展产生了重大意义.然而,由于模型存储不易和计算延迟高等问题,深度神经网络较难在信息决策支持系统中得到应用.综述了深度神经网络中低秩分解㊁网络剪枝㊁量化㊁知识蒸馏等加速与压缩方法.这些方法能够在保证准确率的情况下减小深度神经网络模型㊁加快模型计算,为深度神经网络在信息决策支持系统中的应用提供了思路.关键词:深度神经网络;低秩分解;网络剪枝;量化;知识蒸馏中图分类号:T P 301.6㊀㊀文献标识码:A㊀㊀文章编号:1674G909X (2019)02G0008G06R e v i e wo fA c c e l e r a t i o na n dC o m p r e s s i o n M e t h o d s f o rD e e p Ne u r a lN e t w o r k s i n I n t e l l i g e n tD e c i s i o nS ys t e m s HU A N G D i ㊀L I U C h a n g(S c h o o l o fC o m p u t e r S c i e n c e a n dT e c h n o l o g y ,U n i v e r s i t y o fC h i n e s eA c a d e m y o f S c i e n c e s ,B e i j i n g 100049,C h i n a )A b s t r a c t :F o r t h e e x c e l l e n t f e a t u r e e x t r a c t i o na b i l i t y a n de x p r e s s i o na b i l i t y ,t h ed e e p n e u r a l n e t Gw o r kd o e sw e l l i n t h e f i e l d s o f i m a g e c l a s s i f i c a t i o n ,s e m a n t i c s e g m e n t a t i o na n do b je c t d e t e c t i o n ,e t c .,a n d i t p l a y s a s i g n if i c a n t r o l eo nt h ed e v e l o p m e n to f t h e i n f o r m a t i o nd e c i s i o ns u p p o r t s y s Gt e m s .H o w e v e r ,f o r t h e d i f f i c u l t y o fm o d e l s t o r a g e a n dh i g hc o m p u t a t i o nd e l a y ,t h e d e e p n e u r a l n e t w o r k i sd i f f i c u l t t ob ea p p l i e d i nt h e i n f o r m a t i o nd e c i s i o ns u p p o r t s ys t e m s .T h ea c c e l e r a t i o n a n dc o m p r e s s i o n m e t h o d s f o r t h ed e e p n e u r a l n e t w o r k ,i n c l u d i n g l o w Gr a n kd e c o m p o s i t i o n ,n e t Gw o r k p r u n i n g ,q u a n t i z a t i o n a n dk n o w l e d ge d i s t i l l a t i o n a r e r e v i e w e d .T h em e t h o d s c a n r e d u c e t h e s i z e o fm o d e l a n d s p e e du p t h e c a l c u l a t i o nu n d e r t h e c o n d i t i o nof e n s u r i ng th e a c c u r a c y ,a n dc a n p r o vi d e t h e i d e a o f t h e a p p l i c a t i o n i n t h e i n f o r m a t i o nd e c i s i o ns u p p o r t s ys t e m s .K e y w o r d s :d e e p n e u r a ln e t w o r k ;l o w Gr a n k d e c o m p o s i t i o n ;n e t w o r k p r u n i n g ;q u a n t i z a t i o n ;k n o w l e d ge d i s t i l l a t i o n ㊀❋基金项目:装备发展部 十三五 预研课题(31511090402)资助项目.收稿日期:2018G11G26引用格式:黄迪,刘畅.智能决策系统的深度神经网络加速与压缩方法综述[J ].指挥信息系统与技术,2019,10(2):8G13.HU A N GD i ,L I U C h a n g .R e v i e wo f a c c e l e r a t i o na n d c o m p r e s s i o nm e t h o d s f o r d e e p n e u r a l n e t w o r k s i n i n t e l l i Gg e n t d e c i s i o n s y s t e m s [J ].C o mm a n d I n f o r m a t i o nS y s t e ma n dT e c h n o l o g y,2019,10(2):8G13.0㊀引㊀言近年来,深度神经网络在人工智能领域表现非凡,受到学界和业界的广泛关注,尤其在图像分类㊁语义分割和物体检测等领域中,表现出了出色的特征提取和表达能力,如N e a g o e 等[1]提出过一种机器学习方法,可用于航空影像中军用地面车辆识别,为信息决策支持系统的改进提供了可能[2].然而,由于深度神经网络的模型复杂㊁计算量大和延时高等问题,将其应用于智能决策系统的技术尚不成熟.针对这些问题,学者们进行了神经网络压缩与加速方法的研究.本文综述了近年来神经网络压缩与加速领域的文献,为深度神经网络在信息决策支持系统中应用提供了思路.1㊀低秩分解将低秩分解应用于卷积运算已有较长历史.由于神经网络中计算基本来自卷积和全连接计算,对卷积核进行低秩分解也自然成为神经网络压缩的经典方法之一,也在应用上取得了一定成果.虽然由于其自身的局限性,已不再是热门的研究方向,但仍是神经网络压缩的一个重要思路.对于卷积神经网络(C N N),其运算量主要来自卷积层的卷积运算,而典型卷积核是一个4维张量,这些张量中往往存在很多冗余.对于含有全连接层的C N N,全连接层的参数量很大,几乎决定了整个网络模型的大小.而全连接层也可视作一个2维矩阵,同样能够使用低秩分解方法.考虑到上述特点,将卷积核进行低秩分解可用于加速C N N.事实上,将低秩分解运用于卷积计算加速已有较长历史,如由1维小波构成的经典高维离散余弦变换和使用张量积的小波系统.2013年,R i g a m o n t等[3]根据字典学习(d i c t i o n a r y l e a r n i n g)这一降维压缩方法,提出可学习㊁可分离的1维卷积核(滤波器).针对C N N的分解主要包括奇异值分解(S V D)㊁C a n o n iGc a l P o l y a d i c分解(一种经典多元分解)㊁T u c k e r分解㊁T e n s o rT r a i n(张量训练)分解和B l o c kT e r m分解(块分解)等方法.对于一些简单的C N N模型,使用了S V D的加速方法率先取得了进展,如通过S V D获得的卷积核的低秩近似及卷积核聚类[4]等,实现了在分类精度降低1%的情况下,对测试C N N 2倍加速.J a d e r b e r g等[5]使用了2种低秩近似方案,在文本识别任务中准确度未下降情况下可得2.5倍加速,在准确度下降1%的情况下可得4.5倍加速.与前面方法不同,该方法是逐层进行低秩近似,每层参数经过低秩近似滤波器后就会固定下来,上层则根据重建误差标准进行微调.L e b e d e v等[6]延续了张量分解的思路,提出了使用非线性最小二乘法计算C P分解,在36类文本分类中以1%的准确率下降得到8.5倍C P U加速.T a i等[7]在此基础上提出了一种新的分解方法,改进了C P分解可能得不到最优分解的问题,但仍无法完全解决数值问题,应用于更大更深的模型仍存在问题.2016年, K i m等[8]提出了一种全网络压缩方案,并使用T u c k e r分解方法分解核张量,在智能手机上测试A l e x n e t㊁V G GGS㊁V G GG16和G o o g L e N e t等多种常见网络,在准确度损失很小情况下,得到了更小的模型㊁更快的运行速度和更低的能耗.为了减小全连接层的参数量,实现含有全连接层的C N N模型的大幅度压缩,A l e x a n d e r等[9]提出了全连接层参数的T e n s o rT r a i n分解形式,在保留全连接层功能情况下实现了极深V G G(V e r y D e e p V G G)网络全连接层200000倍压缩,完整网络的7倍压缩.到2017年,低秩分解在加速压缩神经网络方面的课题研究已不再流行,这是因为:1)矩阵分解方法在过去已发展得很成熟;2)随着V G G和残差网络(R e s N e t)等网络的提出,研究者发现可通过使用小卷积核叠加方式来代替大卷积核,从而起到减少参数量的作用,因此流行网络中大卷积核数量越来越少,大部分网络使用的是3ˑ3甚至1ˑ1的卷积核,而低秩分解方法并不擅长于处理这种小卷积核;3)低秩分解的实现并不简单,需要成本高昂的分解计算.这些因素使得低秩分解在2017 2018年的进展相比其他研究方向显得有些停滞,只有少量的相关研究,如将低秩分解应用于循环神经网络(R N N)[10G11].2㊀网络剪枝早期工作中,剪枝主要用于解决过拟合问题,目前则主要用于神经网络的加速和压缩.通过剪枝减掉神经网络中对特征贡献不大的连接,可有效降低网络复杂度,尤其是网络模型的大小,是神经网络压缩的一个重要研究方向.早在1989年,L e c u n[12]提出了偏差权重衰减,即一种最早期的网络剪枝方法.1993年,H a s s i b i 等[13]在此基础上增加了基于手术恢复权重更新的步骤,在准确率和泛化能力上得到了更新.与此相似,S r i n i v a s等[14]在2015年提出了无需数据的神经网络参数剪枝方法.随后,H a n等[15]以根据神经元连接权值的大小来修剪训练后网络中不重要连接的思想,减少了整个网络的参数和操作总数;在上述研究基础上,又提出了一种综合了剪枝㊁量化和编码的神经网络压缩方法 深度压缩(d e e p c o m p r e sGs i o n),取得了很好的压缩效果.该方法对单个权重参数进行随机剪枝,但随机剪枝方法对硬件实现非常不友好,硬件常无法很好地支持这种剪枝操作,因而出现了分组进行剪枝的结构化剪枝.在结构化剪枝方法中,H a n[16]对权重的更新加9第10卷㊀第2期黄㊀迪,等:智能决策系统的深度神经网络加速与压缩方法综述以类似L1的正则项限制,将权重视作组,将成组的权重规约到0,使大部分权值为0,网络更加稀疏.除了单独使用组稀疏,还可以进行不同稀疏方法的组合.Y o o n等[17]提出了一种组合(g r o u p)稀疏和单独(e x c l u s i v e)稀疏相结合的结构化稀疏方法,可以得到更紧凑和高效的网络,同时还提升了具有全权重的基础网络的性能,且未牺牲预测准确率.除了结构化剪枝,还有滤波器级别剪枝和梯度剪枝等方法.滤波器级别剪枝,即如果某个滤波器表现较弱,那么该滤波器将被整个丢弃.L u o等[18]在2017年国际计算机视觉大会(I C C V)中提出了使用滤波器级别剪枝的框架T h i n e t,一种能够用于训练和测试过程压缩的高效结构,该结构不改变原网络结构,可适配于所有的深度学习框架.不同于其他的剪枝方法,他们将滤波器剪枝形式化定义为优化问题,通过下一层的统计信息指导当前层.该方法获得了非常好的效果,在V G GG16上能够降低3.31倍F L O P s和16.63倍网络参数,而t o pG5准确度下降仅为0.52%.此外,还有其他工作也应用了滤波器剪枝方法[19G20].以上方法均是对前向计算过程的剪枝,而对于反向传播过程中的梯度也可有剪枝操作,即梯度剪枝.如S u n等[21]认为,反向传播过程中大的梯度比小的梯度重要,因此可以对小梯度进行剪枝操作.这种方法能够将权重的更新比例降至1%~4%,且不损失原有网络的训练精度.综上,剪枝操作既可应用于推理过程,也可应用于训练和微调,通过对冗余的连接进行删除得到更小的神经网络模型.目前,剪枝方法已成为神经网络压缩的一个主流研究和应用方向.3㊀量㊀化神经网络的量化是一种通过在神经网络的存储㊁推理或反向传播过程中将数据用低比特位宽表示,从而有效压缩模型大小并加速计算速度的方法.例如, C o u r b a r i a u x等[22]在2015年尝试使用低精度乘法器进行神经网络运算,并指出,深度神经网络主要包括卷积和矩阵乘法,人工神经元本质上是乘法累加器,而降低乘法器的精度有助于加速运算.其试验结果表明,使用半精度进行运算不影响网络精度.2016年,H u b a r a等[23]指出对神经网络进行量化的方法将在低功耗设备,如移动设备中广泛应用.在神经网络量化方面,G u p t a等[24]指出使用随机舍入的16位定点数足够训练已有的神经网络,并且根据该算法设计了一个效率更高的硬件加速器.C o u r b a r i a u x等[25]发现在将权重量化为二值(ʃ1)后,仍可使神经网络在MN I S T(一种手写数字识别数据集)㊁C I F A RG10(一种小型图像分类数据集)及S V H N(一种用于识别真实世界数字的数据集)数据集上保持较高准确率,但小数据集的说服力不强.旷视科技的Z h o u等[26]提出的D o R e F aGN e t可对A l e x N e t进行量化,使用1b i t权值㊁2b i t激活和6b i t梯度训练出46.1%的准确率.除了尝试最低位宽外,很多学者也在探寻量化模型精度下降的原因并尝试解决该问题.L i n等[27]认为量化导致精度下降的原因是推理时激活函数精度不够以及反传时梯度不匹配,并根据该论断提出3种可能的解决方案:1)低精度权值和高精度输入;2)仅对网络的高层进行微调;3)每次只量化网络中的一个层,逐渐微调.同时,在文献[28]中指出神经网络每层的最优位宽不同,因此不应全部设置为同样的位宽,并提出了设置最优位宽的方法.在C I F A RG10数据集上的试验结果显示,每层均使用最优位宽可在保持精度不下降的情况下使模型减小20%.实际上,如坚持使用低位宽定点数进行量化,很难在压缩模型的同时保证模型精度.因此,有学者提出了定点数和浮点数之外的数据格式,尝试使用混合精度方法对神经网络进行量化.英伟达的Kös t e r等[29]将定点数和浮点数的优点相结合,提出了F l e xGp o i n t数据格式.F l e xGp o i n t特点是通过对张量中整数值使用共享指数,降低了对硬件的内存和带宽要求,同时在一定程度上确保了数据精度.文中还提供了自动管理每个张量指数的算法,以避免数据上溢或下溢等问题.除了精度问题,神经网络量化还可能改变超参甚至引入超参,导致网络的调试工作变得更加复杂.针对这一点,N a r a n g等[30]提出了混合精度训练方法,通过半精度浮点数来训练深度神经网络,将权重㊁激活和梯度以I E E E半精度格式存储,但在训练过程中保存权值的单精度副本用于更新.这种方法不仅不会损失模型精度,而且无需修改超参.此外,半精度浮点数除了能够加速运算,还能减少近一半的内存和带宽需求.深度神经网络庞大的计算量也是训练过程中重要问题之一,很多时候需对神经网络模型进行分布式训练.因此,如何对分布式训练过程进行量化对神经网络训练的加速同样具有深远意义.W e n01指挥信息系统与技术2019年4月㊀等[31]提出了一种3b i t的梯度量化方法 T e r n G r a d.T e r nG r a d可大大减少通信时间,从而解决用于同步梯度和参数的高网络通信成本的瓶颈问题.理论上,三元梯度至少可将机器对服务器的流量减少20.18倍.即使使用2b i t来编码一个三元梯度,缩减因子仍能达到16倍.试验表明,在A l e x N e t上应用T e r n G r a d不会导致任何精度损失,甚至可提高精度.此外,由T e r n G r a d引起的G o o g L e N e t的准确度损失平均低于2%.上述均为均匀量化方法,然而,为了符合硬件特性或数据分布情况,有时需对模型进行非均匀量化.如Z h o u等[32]提出的增量网络量化(I N Q)方法,就是为了符合硬件特性,对权值进行指数型非均匀量化.由于考虑了权值数据长尾分布的特性,I N Q量化训练取得了不俗的效果.4㊀知识蒸馏知识蒸馏指将已训练好的复杂神经网络模型中的知识转移到一个较小的神经网络上,即在保持精度不变情况下从复杂神经网络中提取出一个缩小模型.其中,复杂神经网络称为教师网络(T e a c h e r N e t w o r k),而简单神经网络则称为学生网络(S t u d e n tN e t w o r k).通过知识转移对模型进行压缩的想法最早由B u c i l a等[33]提出,并经过H i nGt o n[34]改进后成为一种较成熟的压缩方法.H i n t o n 注意到大部分神经网络会在最后通过S o f t m a x层为不同标签分配概率,概率中隐含标签间的关系.他希望通过超参 温度T调节教师网络中S o f tGm a x的平滑程度,由此将标签间隐含的关系放大,并作为先验概率输入学生网络,从而提升学生网络的准确率.之后,Y i m等[35]指出知识蒸馏的优点:相比同规模的网络,学生网络训练快㊁表现好,且能使用不同任务的教师网络进行训练.2015年,R o m e r o[36]提出了一种更窄且更深的网络 F i t N e t s.更窄是为了减少计算量,更深是因为V G G和G o o g L e N e t等网络表明,层数越深,表现越好.为了使网络更窄且不影响精度,该网络借鉴了知识蒸馏的思想,使用额外的教师网络来辅助训练.为了改进知识蒸馏方法,Z a g o r u y k o等[37]引入注意力机制,通过让学生网络对教师网络的注意力图(a t t e n t i o nm a p)进行学习,进一步提高学生网络的准确率.F u k u d a等[38]则提出了3种将多个教师网络结合训练的方法:将多个教师网络进行加权平均;训练时每个训练批次(b a t c h)随机选择不同的教师网络;使用多个教师网络扩增并重新标注数据,轮流训练.尽管知识蒸馏在图像分类上效果很好,但在其他领域由于多种原因无法应用.C h e n等[39]克服了物体检测中的回归㊁候选区域和标签少的问题,将知识蒸馏方法成功应用于物体检测领域.W e i等[40]将知识蒸馏和量化结合,先训练一个量化后教师网络,再使用教师网络训练一个量化后学生网络,并将该方法应用于物体检测领域.物体检测和语义分割均可应用于军事相关领域,如K h a s h m a n[41]早在2001年就提出,可使用神经网络和尺度空间分析相结合的方法来进行军事目标的自动检测.知识蒸馏方法因对知识的定义及如何度量教师网络和学生网络间的相似度等问题,自提出后未受到特别广泛的关注,但对于模型压缩领域尚有研究价值.5㊀结束语在智能决策系统使用机器学习方法时,常有存储空间㊁计算时间和能耗上的限制.如在军事智能决策中常应用的识别和跟踪系统,一般需确保其占用存储空间小㊁能耗小且适应实时性需求.在某些军事应用中,不能确保网络的实时连接,故此时这些计算和存储工作需在设备上进行,对上述要求将更加严格.使用本文所述神经网络压缩方法可大大减小神经网络模型占用的空间,并降低计算需求,缩短在设备上的计算时间,在无法连接云端服务器情况下也能确保设备的正常使用.自2015年来,神经网络的加速与压缩方面的研究发展迅速,上述低秩分解㊁剪枝㊁量化和知识蒸馏是其中较重要的4类方法.近2年以剪枝和量化研究更为主流,在2017 2018年的智能国际顶级会议中,剪枝方法和量化方法均有超过30篇研究论文;而低秩分解和知识蒸馏方法,则因前文所述的一些局限性,相关研究较少,发展较缓慢.这些方法仍有一定的局限性,如目前的加速和压缩方法常常需要微调(f i n eGt u n e)的过程,这就会在实际应用中产生一些限制,因此,无需f i n eGt u n e 的加速压缩方法是未来的一个重要研究方向.此外,加速压缩过程中常需要多种超参数,对于这些超参数常需经验性判断与调整,未来对超参数的自动调整甚至无需超参数的加速压缩方法也是重要的研究方向.对于神经网络的加速和压缩,不仅要求算11第10卷㊀第2期黄㊀迪,等:智能决策系统的深度神经网络加速与压缩方法综述法上的创新和优化,与硬件的交流与配合同样重要.未来相关研究中,算法与硬件将是不可分割的.参考文献(R e f e r e n c e s):[1]㊀N E A G O EVE,C A R A T ASV,C I O T E CA D.A n a dGv a n c e d n e u r a l n e t w o r kGb a s e d a p p r o a c h f o r m i l i t a r yg r o u n d v e h i c l e r e c o g n i t i o n i n S A R a e r i a li m a g e r y:A F A S E S2016[R].[S.l.]:S c i e n t i f i c R e s e a r c ha n dE d u c a t i o n i n t h eA i rF o r c e,2016.[2]㊀张晓海,操新文.基于深度学习的军事智能决策支持系统[J].指挥控制与仿真,2018,40(2):1G6.[3]㊀R I G AMO N T I R,S I R O N I A,L E P E T I T V,e t a l.L e a r n i n g s e p a r a b l e f i l t e r s[C]//P r o c e e d i n g s o f t h e2013I E E E C o n f e r e n c e o n C o m p u t e r V i s i o n a n d P a t t e r nR e c o g n i t i o n.P o r t l a n d:I E E E,2013:2754G2761.[4]㊀D E N T O N E,Z A R E M B A W,B R U N AJ,e t a l.E x p l o iGt i n g l i n e a r s t r u c t u r ew i t h i nc o n v o l u t i o n a l n e t w o r k s f o re f f i c i e n t e v a l u a t i o n[C]//P r o c e e d i n g s o f t h e27t h I n t e rGn a t i o n a lC o n f e r e n c eo n N e u r a l I n f o r m a t i o nP r o c e s s i n gS y s t e m s.M o n t r e a l:A C M,2014:1269G1277.[5]㊀J A D E R B E R G M,V E D A L D I A,Z I S S E R MA N A.S p e e d i n g u p c o n v o l u t i o n a ln e u r a ln e t w o r k s w i t hl o wr a n ke x p a n s i o n s[E B/O L].(2014G05G15)[2018G11G05].h t t p s://a r x i v.o r g/p d f/1405.3866.p d f.[6]㊀L E B E D E V V,G A N I N Y,R A K HU B A M,e t a l.S p e e d i n gGu p c o n v o l u t i o n a ln e u r a ln e t w o r k su s i n g f i n eGt u n e d C PGd e c o m p o s i t i o n[E B/O L].(2015G04G24) [2018G11G05].h t t p s://a r x i v.o r g/p d f/1412.6553.p d f.[7]㊀C H E N GT,T O N GX,Y I Z,e t a l.C o n v o l u t i o n a l n e u r a l n e t w o r k s w i t h l o wGr a n k r e g u l a r i z a t i o n[E B/O L].(2015G11G10)[2018G11G05].h t t p://a r x i v.o r g/p d f/1511.06067v2.p d f.[8]㊀K I M Y D,P A R K E,Y O O S,e ta l.C o m p r e s s i o no fd e e p c o n v o l u t i o n a ln e u r a ln e t w o r k sf o rf a s ta n dl o wp o w e r m o b i l e a p p l i c a t i o n s[E B/O L].(2015G12G20) [2018G11G05].h t t p://a r x i v.o r g/p d f/1511.06530v1.p d f.[9]㊀N O V I K O V A,P O D O P R I K H I N D,O S O K I N A,e t a l.T e n s o r i z i n g n e u r a ln e t w o r k s[E B/O L].(2015G12G20) [2018G11G05].h t t p://a r x i v.o r g/p d f/1509.06569v1.p d f.[10]WA N G P S,C H E N G J.A c c e l e r a t i n g c o n v o l u t i o n a l n e u r a l n e t w o r k s f o rm o b i l e a p p l i c a t i o n s[C]//P r o c e e dGi n g so ft h e24t h A C M I n t e r n a t i o n a l C o n f e r e n c e o nM u l t i m e d i a.A m s t e r d a m:A C M,2016:541G545.[11]WA N G W Q,S U N Y F,E R I K S S O N B,e ta l.W i d ec o m p r e s s i o n:t e n s o r r i n g n e t s[E B/O L].(2018G02G25)[2018G11G05].h t t p s://a r x i v.o r g/p d f/1802.09052.p d f.[12]Y EJM,WA N GLN,L IGX,e t a l.L e a r n i n g c o m p a c t r e c u r r e n t n e u r a ln e t w o r k sw i t hb l o c kGt e r mt e n s o rd eGc o m p o s i t i o n[E B/O L].(2018G05G11)[2018G11G05].h t t p://a r x i v.o r g/p d f/1712.05134.[13]C U N YL,D E N K E RJS,S O L L ASA.O p t i m a l b r a i nd a m a g e[C]//P r o ce e d i n g s of t h e2n d I n t e r n a t i o n a lC o n f e r e n c e o n N e u r a lI n f o r m a t i o n P r o c e s s i n g S y sGt e m s.[S.l.]:A C M,1989:598G605.[14]HA S S I B I B,S T O R KDG.S e c o n d o r d e r d e r i v a t i v e s f o r n e t w o r k p r u n i n g:o p t i m a l b r a i ns u r g e o n[C]//P r o c e e dGi n g o fA d v a n c e s i nN e u r a l I n f o r m a t i o nP r o c e s s i n g S y sGt e m s.[S.l.:s.n.],1992:164G171.[15]S R I N I V A SS,B A B U R V.D a t aGf r e e p a r a m e t e r p r u nGi n g f o r d e e p n e u r a l n e t w o r k s[E B/O L].(2015G07G22)[2018G11G05].h t t p s://a r x i v.o r g/p d f/1507.06149.p d f.[16]HA N S,P O O L J,T R A N J,e t a l.L e a r n i n g b o t h w e i g h t sa n dc o n n e c t i o n sf o re f f i c i e n tn e u r a ln e t w o r k s[C]//P r o c e e d i n g s o f t h e28t h I n t e r n a t i o n a l C o n f e r e n c eo nN e u r a l I n f o r m a t i o nP r o c e s s i n g S y s t e m s.M o n t r e a l:A C M,2015:1135G1143.[17]Y O O NJ,HWA N G SJ.C o m b i n e d g r o u p a n de x c l uGs i v e s p a r s i t y f o rd e e p n e u r a ln e t w o r k s[C]//P r o c e e dGi n g so f t h e34t hI n t e r n a t i o n a lC o n f e r e n c eo n M a c h i n eL e a r n i n g.[S.l.:s.n.],2017:3958G3966.[18]L U OJ H,WU JX,L I N W Y.T h i n e t:af i l t e r l e v e l p r u n i n g m e t h o df o rd e e p n e u r a ln e t w o r kc o m p r e s s i o n[C]//P r o c e e d i n g s o f2017I E E EI n t e r n a t i o n a lC o n f e rGe n c e o nC o m p u t e rV i s i o n.[S.l.]:I E E E,2017:5068G5076.[19]L I U Z,L IJG,S H E N Z Q,e ta l.L e a r n i n g e f f i c i e n tc o n v o l u t i o n a l n e t w o r k s t h r o u g h n e t w o r k s l i mm i n g[C]//P r o c e e d i n g s o f2017I E E EI n t e r n a t i o n a lC o n f e rGe n c e o nC o m p u t e rV i s i o n.[S.l.]:I E E E,2017:2755G2763.[20]H EY H,Z HA N G X Y,S U NJ.C h a n n e l p r u n i n g f o ra c c e l e r a t i n g v e r y d e e p n e u r a ln e t w o r k s[C]//P r o c e e dGi n g so f2017I E E EI n t e r n a t i o n a lC o n f e r e n c eo nC o mGp u t e rV i s i o n.[S.l.]:I E E E,2017:1398G1406.[21]S U N X,R E N XC,MAS M,e t a l.m e P r o p:s p a r s i f i e db ac k p r o p a g a t i o n f o r a c c e l e r a t e dde e p l e a r n i n g w i t h r eGd u ce d o v e rf i t t i n g[C]//P r o c e e d i ng s o f th e34t h I n t e r n aGt i o n a l C o n f e r e n c e o n M a c h i n eL e a r n i n g.[S.l.:s.n.],2017:3299G3308.[22]C O U R B A R I A U X M,B E N G I O Y,D A V I DJP.T r a i nGi n g d e e p n e u r a ln e t w o r k sw i t hl o w p r e c i s i o n m u l t i p l iGc a t i o n s[E B/O L].(2015G09G23)[2018G11G05].h t t p://a r x i v.o r g/p d f/1412.7024.p d f.[23]HU B A R AI,C O U R B A R I A U X M,S O U D R Y D,e t a l.21指挥信息系统与技术2019年4月㊀Q u a n t i z e dn e u r a ln e t w o r k s:t r a i n i n g n e u r a ln e t w o r k s w i t h l o w p r e c i s i o n w e i g h t sa n da c t i v a t i o n s[E B/O L].(2016G09G22)[2018G11G05].h t t p s://a r x i v.o r g/p d f/1609.07061.p d f.[24]G U P T AS,A G R AWA L A,G O P A L A K R I S HN A N K,e t a l.D e e p l e a r n i n g w i t hl i m i t e dn u m e r i c a l p r e c i s i o n[E B/O L].(2016G09G22)[2018G11G05].h t t p://w w w.a r x i v.o r g/p d f/1502.02551.p d f.[25]C O U R B A R I A U X M,B E N G I O Y,D A V I DJP.B i n aGr y C o n n e c t:t r a i n i n g d e e p n e u r a ln e t w o r k s w i t hb i n a r yw e i g h t sd u r i n gp r o p a g a t i o n s[C]//P r o c e e d i n g so ft h e 28t hI n t e r n a t i o n a lC o n f e r e n c eo n N e u r a lI n f o r m a t i o n P r o c e s s i n g S y s t e m s.M o n t r e a l:A C M,2015:3123G3131.[26]Z HO U S C,WU Y X,N IZ K,e ta l.D o R e F aGN e t: t r a i n i n g l o w b i t w i d t h c o n v o l u t i o n a ln e u r a ln e t w o r k s w i t h l o w b i t w i d t h g r a d i e n t s[E B/O L].(2018G02G02) [2018G11G05].h t t p s://a r x i v.o r g/p d f/1606.06160.p d f.[27]L I N D D,T A L A T H ISS.O v e r c o m i n g c h a l l e n g e s i nf i x e d p o i n tt r a i n i ng o f d e e p c o n v o l u t i o n a ln e t w o r k s[E B/O L].(2016G07G08)[2018G11G05].h t t p s://a r xGi v.o r g/p d f/1607.02241.p d f.[28]L I N D D,T A L A T H IS S,A N N A P U R E D D Y V S.F i x e d p o i n t q u a n t i z a t i o n o f d e e p c o n v o l u t i o n a ln e tGw o r k s[C]//P r o c e e d i n g s o f t h e33r d I n t e r n a t i o n a l C o nGf e r e n c eo n M a c h i n e L e a r n i n g.[S.l.:s.n.],2016:2849G2858.[29]KÖS T E R U,W E B B TJ,WA N G X,e t a l.F l e x p o i n t:a na d a p t i v en u m e r i c a l f o r m a tf o re f f i c i e n tt r a i n i n g o fd e e p n e u r a l n e t w o r k s[E B/O L].(2017G12G02)[2018G11G05].h t t p s://a r x i v.o r g/p d f/1711.02213.p d f.[30]N A R A N G S,M I C I K E V I C I U S P,A L B E N J,e ta l.M i x e d p r e c i s i o n t r a i n i n g[E B/O L].(2018G02G15) [2018G11G05].h t t p://a r x i v.o r g/p d f/1710.03740.p d f.[31]W E N W,X U C,Y A NF,e t a l.T e r n G r a d:t e r n a r yg r aGd ie n t st o r e d u c e c o mm u n i c a t i o ni n d i s t r i b u t e d d e e pl e a r n i n g[E B/O L].(2017G12G29)[2018G11G05].h tGt p s://a r x i v.o r g/p d f/1705.07878.p d f.[32]Z HO U AJ,Y A O A B,G U O Y W,e t a l.I n c r e m e n t a l n e t w o r k q u a n t i z a t i o n:t o w a r d s l o s s l e s sC N N sw i t h l o wGp r e c i s i o n w e i g h t s[E B/O L].(2017G08G25)[2018G11G05].h t t p s://a r x i v.o r g/p d f/1702.03044.p d f.[33]B U C I L A C,C A R U A N A R,N I C U L E S C UGM I Z I L A.M o d e l c o m p r e s s i o n[C]//P r o c e e d i n g s o f t h e12t hA C MS I G K D DI n t e r n a t i o n a lC o n f e r e n c eo n K n o w l e d g eD i sGc o v e r y a nd D a t a M i n i n g.P h i l a de l p h i a:A C M,2006:535G541.[34]H I N T O N G,V I N Y A L S O,D E A N J.D i s t i l l i n g t h e k n o w l e d g e i nan e u r a ln e t w o r k[E B/O L].(2015G03G09)[2018G11G05].h t t p s://a r x i v.o r g/p d f/1503.02531.p d f.[35]Y I M J,J O O D,B A EJ,e t a l.A g i f t f r o m k n o w l e d g ed i s t i l l a t i o n:f a s t o p t i m i z a t i o n,ne t w o r k m i n i m i z a t i o na n dt r a n s f e r l e a r n i n g[C]//P r o c e e d i n g so f2017I E E EC o n f e r e n c e o nC o m p u t e rV i s i o na n dP a t t e r nR e c o g n iGt i o n.H o n o l u l u:I E E E,2017:7130G7138.[36]R OM E R O A,B A L L A S N,K A HO U SE,e ta l.F i tGN e t s:h i n t s f o r t h i nd e e p n e t s[E B/O L].(2015G03G27) [2018G11G05].h t t p s://a r x i v.o r g/p d f/1412.6550.p d f.[37]Z A G O R U Y K OS,K OMO D A K I S N.P a y i n g m o r ea tGt e n t i o n t o a t t e n t i o n:i m p r o v i n g t h e p e r f o r m a n c e o f c o nGv o l u t i o n a l n e u r a ln e t w o r k sv i aa t t e n t i o nt r a n s f e r[E B/O L].(2017G02G12)[2018G11G05].h t t p s://a r x i v.o r g/ p d f/1612.03928.p d f.[38]F U K U D A T,S U Z U K I M,K U R A T A G,e ta l.E f f iGc i e n t k n o w l ed ge d i s t i l l a t i o nf r o ma n e n s e m b l e o f t e a c hGe r s[C]//P r o c e e d i n g so fI n t e r s p e e c h.[S.l.:s.n.],2017:3697G3701.[39]C H E N GB,C HO IW,Y U X,e t a l.L e a r n i n g e f f i c i e n t o b j e c t d e t e c t i o n m o d e l s w i t h k n o w l e d g e d i s t i l l a t i o n[C]//P r o c e e d i n g s o f t h e31s t I n t e r n a t i o n a lC o n f e r e n c eo n N e u r a l I n f o r m a t i o n P r o c e s s i n g S y s t e m s.L o n gB e a c h:AC M,2017:742G751.[40]W E IY,P A N X Y,Q I N H W,e ta l.Q u a n t i z a t i o n m i m i c:t o w a r d s v e r y t i n y C N N f o ro b j e c td e t e c t i o n[E B/O L].(2018G09G13)[2018G11G05].h t t p s://a r xGi v.o r g/p d f/1805.02152.p d f.[41]K HA S HMA N A.A u t o m a t i c d e t e c t i o no fm i l i t a r y t a rGg e t su t i l i s i n g n e u r a l n e t w o r k sa n ds c a l es p a c ea n a l y s i s[R].N o r t h e r nC y p r u s:N e a rE a s tU n i v e r s i t y,2001.作者简介:黄㊀迪,男(1995 ),硕士研究生,研究方向为计算机体系结构和人工智能.刘㊀畅,女(1996 ),硕士研究生,研究方向为计算机体系结构和人工智能.(本文编辑:李素华)31第10卷㊀第2期黄㊀迪,等:智能决策系统的深度神经网络加速与压缩方法综述。

相关文档
最新文档