【CN110046702A】神经网络计算加速器及其执行的方法【专利】

合集下载

神经网络加速器运行方法、架构及相关装置[发明专利]

神经网络加速器运行方法、架构及相关装置[发明专利]

专利名称:神经网络加速器运行方法、架构及相关装置专利类型:发明专利
发明人:周明君,方攀,陈岩
申请号:CN201910556997.1
申请日:20190625
公开号:CN112132271A
公开日:
20201225
专利内容由知识产权出版社提供
摘要:本申请实施例公开了一种神经网络加速器运行方法、架构及相关装置,其特征在于,应用于电子设备,神经网络加速器运行架构,架构包括映射库、映射工具、模型执行器、硬件加速器,方法包括:通过映射库加载标准模型文件,标准模型文件包括标准模型图文件和标准模型数据文件;获取并解析标准模型文件格式,并根据所述标准模型文件生成模型内部表示;调用映射工具将标准模型文件格式映射为硬件模型格式,硬件模型格式为硬件加速器可识别的模型格式;根据标准模型文件格式或硬件模型格式,通过模型执行器获取硬件执行流;执行硬件执行流。

本申请实施例有利于实现灵活选择适合的模型的运行方案,以达到最优的系统性能。

申请人:OPPO广东移动通信有限公司
地址:523860 广东省东莞市长安镇乌沙海滨路18号
国籍:CN
代理机构:深圳市慧实专利代理有限公司
代理人:马友鹏
更多信息请下载全文后查看。

一种卷积神经网络加速器及加速方法[发明专利]

一种卷积神经网络加速器及加速方法[发明专利]

专利名称:一种卷积神经网络加速器及加速方法专利类型:发明专利
发明人:刘强,曾成龙
申请号:CN201911102633.2
申请日:20191112
公开号:CN111047008A
公开日:
20200421
专利内容由知识产权出版社提供
摘要:本发明公开了一种卷积神经网络加速器,包括数据输入控制模块、输入缓存器、行缓存模块、矩阵模块、卷积处理单元、权值输入模块、输出缓存器模块、偏置模块及池化模块。

本发明采用复用并行度的结构,提高加速器中乘法器和加法器的利用率,在有限的资源下,满足高性能、低功耗、高灵活性的要求。

此外,本发明还公开了一种卷积神经网络加速方法。

申请人:天津大学
地址:300072 天津市南开区卫津路92号
国籍:CN
代理机构:天津市北洋有限责任专利代理事务所
代理人:潘俊达
更多信息请下载全文后查看。

用于加速神经网络处理器的方法和系统及神经网络处理器[发明专利]

用于加速神经网络处理器的方法和系统及神经网络处理器[发明专利]

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201710777737.8(22)申请日 2017.09.01(71)申请人 中国科学院计算技术研究所地址 100190 北京市海淀区中关村科学院南路6号(72)发明人 韩银和 许浩博 王颖 (74)专利代理机构 北京泛华伟业知识产权代理有限公司 11280代理人 王勇 苏晓丽(51)Int.Cl.G06N 3/063(2006.01)(54)发明名称用于加速神经网络处理器的方法和系统及神经网络处理器(57)摘要本发明提供了用于加速神经网络处理器的方法及相应神经网络处理器,其中从待处理的神经网络模型的原始数据和权重中提取非零值及其偏移量分别加载至相应数据存储单元和权重存储单元,在计算时选择具有相同偏移量的权重和数据加载至神经网络处理器的计算单元参与运算。

这样,可有效降低神经网络处理器所处理的数据规模,从而减少片上存储开销,加快了运算速度并降低了能耗,使得神经网络处理系统性能更高效。

权利要求书1页 说明书5页 附图3页CN 107491811 A 2017.12.19C N 107491811A1.一种用于加速神经网络处理器的方法,所述方法包括:步骤1)从待处理的神经网络模型的原始数据和权重中提取非零元素及其相对位置,并分别加载至神经网络处理器的数据存储单元和权重存储单元;步骤2)对来自所述权重存储单元的权重和来自数据存储单元的数据进行匹配,仅将相对位置相同的权重和数据加载至神经网络处理器的计算单元参与运算。

2.根据权利要求1所述的方法,还包括从来自神经网络处理器的计算单元的输出数据中提取非零元素及其相对位置,并将其保存到数据存储单元。

3.一种神经网络处理器,包括控制单元、计算单元、权重存储单元、数据存储单元,数据匹配单元,其中控制单元用于控制相关数据的调度、运算与存储;权重存储单元存储已经训练好的神经网络权重中非零元素及其相对位置;数据存储单元存储神经网络原始数据及中间结果数据中非零元素及其相对位置;数据匹配单元用于对来自所述权重存储单元的权重和来自数据存储单元的数据进行匹配,仅将相对位置相同的权重和数据加载至计算单元中。

加速深度神经网络算法的加速芯片的运算装置及方法[发明专利]

加速深度神经网络算法的加速芯片的运算装置及方法[发明专利]

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201610979814.3(22)申请日 2016.11.08(66)本国优先权数据201510792463.0 2015.11.17 CN(71)申请人 中国科学院计算技术研究所地址 100080 北京市海淀区中关村科学院南路6号(72)发明人 李震 刘少礼 张士锦 罗韬 钱诚 陈云霁 陈天石 (74)专利代理机构 北京律诚同业知识产权代理有限公司 11006代理人 祁建国 梁挥(51)Int.Cl.G06N 3/06(2006.01)(54)发明名称加速深度神经网络算法的加速芯片的运算装置及方法(57)摘要本发明提供一种加速深度神经网络算法的加速芯片的运算装置及方法,所述装置包括:向量加法处理器模块,进行向量的加法或减法、和/或深度神经网络算法中的池化层算法的向量化的运算;向量函数值运算器模块,深度神经网络算法中的非线性求值的向量化运算;向量乘加器模块,进行向量的乘加运算;所述三个模块执行可编程指令,互相交互以计算神经网络输出结果以及代表中间层之间神经元作用强度的突触权重变化量;所述三个模块中均设置有中间值存储区域,并对主存储器进行读取与写入操作。

由此,能够减少对主存储器的中间值读取和写入次数,降低加速器芯片的能量消耗,避免数据处理过程中的数据缺失和替换问题。

权利要求书3页 说明书8页 附图5页CN 106529668 A 2017.03.22C N 106529668A1.一种加速深度神经网络算法的加速芯片的运算装置,其特征在于,包括:向量加法处理器模块,用于进行向量的加法或减法、和/或深度神经网络算法中的池化层算法的向量化的运算;向量函数值运算器模块,用于深度神经网络算法中的非线性求值的向量化运算;向量乘加器模块,用于进行向量的乘加运算;被配置为执行可编程指令的所述向量加法处理器模块、向量函数值运算器模块、和向量乘加器模块之间互相交互以计算神经网络中间层网络输出结果以及中间层之间神经元作用强度的突触权重变化量;所述加速深度神经网络算法的加速芯片的运算装置对于平均池化层的结果,是先由向量加法处理器模块计算向量输出中每个神经元所对应的输入累加值,然后用向量乘加器模块乘以平均因子求得;所述加速深度神经网络算法的加速芯片的运算装置对于最大池化层的结果,是由向量加法处理器模块计算向量输出中每个神经元所对应的输入最大值求得;所述加速深度神经网络算法的加速芯片的运算装置对于卷积层以及全连接层的结果,是先使用向量加法处理器模块叠加输出神经元对应的部分和以及偏置,然后再由向量函数值运算器模块求得输出神经元值;所述部分和为通过外界处理器求得后通过总线传输给所述运算装置;所述加速深度神经网络算法的加速芯片的运算装置对于局部响应归一化层的结果,则是先用向量函数值运算器模块求得非线性函数值,然后再与输入层神经元通过向量乘加器模块相乘得到;所述加速深度神经网络算法的加速芯片的运算装置对于突触权重的变化量是通过向量乘加器模块将反向传播求得的残差和对应的输入神经元值相乘以及学习率因子相乘获得,所述反向传播求得的残差是通过外界处理器求得后通过总线传输给所述运算装置;所述加速深度神经网络算法的加速芯片的运算装置通过数据总线与外界处理器进行数据交互;所述向量加法处理器模块、向量函数值运算器模块、和向量乘加器模块中均设置有中间值存储区域,用于存储依照所述指令所计算的向量化的中间值,并对主存储器进行读取与写入操作。

神经网络系统以及用于实施神经网络的加速器[发明专利]

神经网络系统以及用于实施神经网络的加速器[发明专利]

专利名称:神经网络系统以及用于实施神经网络的加速器专利类型:发明专利
发明人:I·L·克嫩,D·W·米彻列尔
申请号:CN201910363399.2
申请日:20190430
公开号:CN110428047A
公开日:
20191108
专利内容由知识产权出版社提供
摘要:本申请涉及神经网络系统以及用于实施神经网络的加速器。

所述实施方案允许用于所述神经网络的所述计算在加速器或处理器上执行。

所述加速器和所述处理器共享存储器并且在总线上通信以执行所述计算并且共享数据。

所述实施方案使用权重压缩和精简以及并行处理以减少计算、存储和功率需求。

申请人:半导体组件工业公司
地址:美国亚利桑那州
国籍:US
代理机构:北京律盟知识产权代理有限责任公司
代理人:章蕾
更多信息请下载全文后查看。

一种针对神经网络计算的加速方法及装置[发明专利]

一种针对神经网络计算的加速方法及装置[发明专利]

专利名称:一种针对神经网络计算的加速方法及装置专利类型:发明专利
发明人:赵茂祥,李全忠,何国涛,蒲瑶
申请号:CN201711477494.2
申请日:20171229
公开号:CN108196882A
公开日:
20180622
专利内容由知识产权出版社提供
摘要:本发明公开了一种针对神经网络计算的加速方法,该方法包括:根据CPU核的并发能力,确认线程数n;根据线程数和网络的每层参数和每层网络特点,确定单个线程需要计算的网络层数;第一线程的输出作为第二线程的输入,第二线程输出作为第三线程的输入,第n‑1的线程的输出作为第n线程的输入。

本发明能够在多核CPU应用环境下,利用多核的计算能力,对神经网络计算进行加速。

申请人:普强信息技术(北京)有限公司
地址:100085 北京市海淀区北清路永丰路与北清路交汇口东南角四维图新大厦F座2层
国籍:CN
代理机构:北京华旭智信知识产权代理事务所(普通合伙)
代理人:李丽
更多信息请下载全文后查看。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

( 30 )优先权数据 62/618 ,102 2018 .01 .17 US 62/621 ,614 2018 .01 .25 US 16/246 ,884 2019 .01 .14 US
(71)申请人 联发科技股份有限公司 地址 中国台湾新竹市新竹科学工业园区笃 行一路一号
(72)发明人 郭羽庭 林建宏 王绍宇 洪圣哲 郑孟璿 吴奇达 沈栢瀚 陈怡秀 陈泰龙
( 19 )中华人民 共和国国家知识产权局
( 12 )发明专利申请
(21)申请号 201910036553 .5 (22)申请日 2019 .01 .15
(10)申请公布号 CN 110046702 A (43)申请公布日 2019.07.23
(51)Int .Cl . G06N 3/063(2006 .01)
2
CN 110046702 A
权 利 要 求 书
பைடு நூலகம்
2/3 页
齐,Y与所述输入特征图的高度维度对齐。 10 .如权利要求9所述的加速器,其特征在于,所述控制器还用于选择区块遍历方案,所
述区块遍历方案基于所收 集的 系统统计指定生成X ,Y 和Z维 度的区块的 顺序 ,其中Z与所述 输出特征图的深度维度对齐。
(74)专利代理机构 深圳市威世博知识产权代理 事务所(普通合伙) 44280
代理人 李庆波
权利要求书3页 说明书8页 附图6页
( 54 )发明 名称 神经网络计算加速器及其执行的方法
( 57 )摘要 本申请提供了提供神经网络计算加速器及
其执行的方法。其中 ,所述神经网络计算加速器 包括多个硬件引擎,包括卷积引擎和至少一个第 二引擎,每个硬件引擎包括执行神经网络运算的 电 路 ;和加速器内的缓冲存储器 ,用于存储输入 特征图的第一输入区块和至少一个第二输入区 块,其中所述至少一个第二输入区块与所述第一 输入区块在所述缓冲存储器中重叠 ;其中所述卷 积引擎运算以从所述缓冲存储器获取所述第一 输入区块,对所述第一输入区块执行卷积运算以 生成中间特征图的中间区块,并通过所述缓冲存 储器将所述中间区块传递给所述第二引擎。实施 本发明实施例,可以减少从系统内存中取出相邻 区块所引起的数据移动。
CN 110046702 A
CN 110046702 A
权 利 要 求 书
1/3 页
1 .一种神经网络计算加速器,其特征在于,包括: 多个硬件 引擎 ,包括卷积 引擎 和至 少一个 第二 引擎 ,每个硬件 引擎包括执行 神经网 络 运算的电路;和 加速器内的缓冲存储器,用于存储输入特征图的第一输入区块和至少一个第二输入区 块,其中所述至少一个第二输入区块与所述第一输入区块在所述缓冲存储器中重叠; 其中所述卷积引擎运算以从所述缓冲存储器获取所述第一输入区块,对所述第一输入 区块执行卷积运算以生成中间特征图的中间区块,并通过所述缓冲存储器将所述中间区块 传递给所述第二引擎。 2 .如权利要求1所述的加速器,其特征在于,当所述卷积引擎在至少一个所述第二输入 区块上执行所述卷积运算时,所述第二引擎在所述中间区块上执行第二运算。 3 .如权利要求1所述的加速器,其特征在于,所述缓冲存储器包括卷积缓冲器,用于由 卷积引擎访问以获取输入,所述卷积缓冲器包括用于存储输入特征图的一个或多个输入区 块的第一部分,以及用于存储卷积运算的一组或多组滤波器权重的第二部分。 4 .如权利要求3所述的加速器,其特征在于,所述卷积缓冲器的第一部分是环形缓冲 器。 5 .如权利要求1所述的加速器,其特征在于,所述卷积引擎在生成所述中间区块时,无 需生成第一边界资料; 所述加速器还包括:历史引擎用于: 存储所述第一边界数据 ,当所述第二 引擎对所述中间区块执行运算时 ,加载所述第一 边界数据给所述第二引擎作为所述中间区块的一部分重新使用,其中所述第一边界数据为 所述中间特征图中所述中间区块与一个或多个第一相邻区块的重叠部分且所述一个或多 个第一相邻区块已被所述卷积引擎生成和已被所述第二引擎处理;和 当所述第二引擎对所述中间区块执行运算后存储第二边界数据,以便作为一个或多个 第二相邻区块的一部分重新使用, 其中所述第二边界数据为所述中间特征图中所述一个或多个第二相邻区块与所述中 间区块的重叠部分,且所述一个或多个第二相邻区块尚未被所述卷积引擎生成和尚未被所 述第二引擎处理。 6 .如权利要求1-5中任一项所述的加速器,其特征在于,所述第二引擎是对所述中间区 块执行池化运算的池化引擎。 7 .如权利要求1-5中任一项所述的加速器,其特征在于,所述硬件引擎还包括可运算以 执行逐元数学计算的 激活 引擎 ,并且其中所述中间区块进一步为所述激活 引擎的 输出 ,并 且所述第二引擎是池化引擎以在所述激活引擎的输出上执行池化运算。 8 .如权利要求1所述的加速器,其特征在于,所述输入特征图和所述中间特征图中的一 个或多个包含非均匀尺寸的区块。 9 .如权利要求1所述的加速器,其特征在于,还包括: 监视器以监视和收集系统统计信息,所述系统统计信息包括所述加速器的计算负载和 耦合到所述加速器的系统内存的数据访问量;和 控 制器 ,用于选择区 块方案 ,所述区 块方案基于收 集的 所述 系统统计 信息指定 用于在 XY平面中 平铺所述输入特征图的 一个或多个尺寸 ,其中X与所述输入特征图的 宽度维 度对
11 .如权利要求10所述的加速器,其特征在于,所述控制器还可用于在运行时为所述神 经网络运算的一个或多个层选择所述区块方案和所述区块遍历方案。
12 .一种用于神经网络计算的加速器执行的方法,其特征在于,包括: 通过加速器中的卷积引擎获取来自加速器内的缓冲存储器的输入特征图的第一输入 区块; 对所述第一输入区块执行卷积运算以生成中间特征图的中间区块;和 通过缓冲存储器将所述中间区块传递到加速器中的第二引擎; 其中所述缓冲存储器存储第一输入区块和至少一个第二输入区块,所述至少一个第二 输入区块与所述第一输入区块在所述缓冲存储器中重叠。 13 .如权利要求12所述的方法,其特征在于,还包括: 当卷积引擎对输入特征图的至少一个第二输入区块执行卷积运算时 ,由 第二 引擎执行 对中间区块的第二运算。 14 .如权利要求12所述的方法,其特征在于,所述缓冲存储器包括卷积缓冲器,用于由 卷积引擎访问以获取输入,所述卷积缓冲器包括用于存储输入特征图的一个或多个输入区 块的第一部分,以及用于存储卷积运算的一组或多组滤波器权重的第二部分。 15 .如权利要求14所述的方法,其特征在于,所述卷积引擎在生成所述中间区块时,无 需生成第一边界资料; 所述方法还包括:使用历史引擎执行如下操作: 存储所述第一边界数据 ,当所述第二 引擎对所述中间区块执行运算时 ,加载第一边界 数据给所述第二引擎作为所述中间区块的一部分重新使用,其中所述第一边界数据为所述 中间特征图中所述中间区块与一个或多个第一相邻区块的重叠部分且所述一个或多个第 一相邻区块已被所述卷积引擎生成和已被所述第二引擎处理;和 当所述第二引擎对所述中间区块执行运算后存储第二边界数据,以便作为一个或多个 第二相邻区块的一部分重新使用, 其中所述第二边界数据为所述中间特征图中所述一个或多个第二相邻区块与所述中 间区块的重叠部分,且所述一个或多个第二相邻区块尚未被所述卷积引擎生成和尚未被所 述第二引擎处理。 16 .如权利要求12-15中任一项所述的方法,其特征在于,所述中间区块进一步为激活 引擎的输出,并且所述第二引擎是池化引擎以在所述激活引擎的输出上执行池化运算。 17 .如权利要求12所述的方法,其特征在于,还包括: 监视和收集系统统计信息,所述系统统计信息包括加速器的计算负载和耦合到加速器 的系统内存的数据访问量;和 选择区块方案,该方案指定用于基于收集的系统统计信息在XY平面中平铺输入特征图 的区块大小,其中X与所述输入特征图的宽度维度对齐,Y与所述输入特征图的高度维度对 齐。
相关文档
最新文档