深度学习PPT幻灯片
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
❖ 案例:星光智能一号广泛应用于高清视频监控、智能驾驶辅助、无人机、 机器人等嵌入式机器视觉领域
14
深度学习硬件加速方式——ASIC
❖ 阻碍深度学习发展的瓶颈仍是算法速度 ❖ 传统处理器需要多条指令才能完成一个神经元的处理 ❖ ASIC根据深度学习算法定制:处理效率、能效均最高 ❖ 代表:Cambricon(寒武纪科技)DianNao芯片、谷歌的TPU芯片、
11
深度学习硬件加速方式——GPU
❖ SIMD方式,计算能力强,并行度支持好 ❖ 通用性,并非针对深度学习
➢ 运行效率受影响 ➢ 能耗仍较大 ❖ 代表: NVIDIA Tesla P100 GPU ❖ 案例:基于GPADAS)方面与众多车企进行合作
样思考
取新的知识技能,并
应用:国际跳棋程序
改善自身性能
应用:垃圾邮件过滤
深度学习
一种机器学习方法,模 拟人脑机制解释数据, 通过组合低层特征形成 更加抽象的高层属性类 别或特征
应用:谷歌视频寻猫
1950's 1960's 1970's 1980's 1990's 2000's 2010's
3
深度学习的流程
Horizon Robotics(地平线机器人)BPU芯片 ❖ 案例:基于TPU的AlphaGo与围棋冠军李世石人机大战,总比分4:1获胜
15
深度学习硬件加速方式比较
加速方式
优点
缺点
CPU
通用结构、可独立工作 通用性导致效率和能效比低
GPU FPGA DSP ASIC
强大的并行计算能力
通用性导致效率受影响、能耗大
灵活性好、设计空间大、 省去流片过程 改动小、计算能力较高
能效比最好
效能与功耗上不能更紧密适配算 法、成本高
缺乏深度学习全面计算能力、核 心数量较少,并行性支持较差
灵活性差、缺乏通用潜力、 成本较高
16
其他人工神经网络芯片
❖ 上述均为基于深度学习的加速芯片。作为人工神经网络芯片,还有另外 一支,是从类似或模拟生物神经系统来实现的神经形态网络芯片(类脑 芯片)
❖ 谷歌TensorFlow占绝对优势
➢ 强大的人工智能研发水平、快速的迭代更新
7
深度学习的开源框架
❖ 谷歌2015年底发布开源深度学习框架TensorFlow
➢ Tensor(张量):多维数组在高维空间的数学运算 ➢ Flow(流):基于数据流图的计算 ❖ TensorFlow关键特性 ➢ 代码简洁多语言支持 ➢ 分布式算法执行效率高 ➢ 移值灵活伸缩性好 ➢ 支持多种神经网络算法
➢ 输入图像与滤波器、偏置进行卷积,产生卷积层的特征映射图 ➢ 卷积层特征映射图经求和,加权值,偏置,函数处理得到采样层 ➢ 采样层重复上述流程处理后产生新的采样层 ➢ 全连接层提取归类获得足够好的高层特征表达信息
5
深度学习的算法
❖ 一层卷积学到的特征是局部的,层数越高,特征就越全局化。 ❖ 卷积和采样具体过程为:
12
深度学习硬件加速方式——FPGA
❖ 能效较高且硬件配置灵活 ➢ 顶级GPU性能的1/5,能效相当 ➢ 相比CPU,性能提升1个数量级,能效提升2个数量级 ➢ 增长的门资源和内存带宽带来更大的设计空间 ➢ 省去ASIC方案所需流片过程
❖ 代表:DeephiTech(深鉴科技)、Xilinx 、Altera ❖ 案例:微软用Altera FPGA 实现基于卷积神经网络的数据中心加速,效
深度学习及其硬件加速
1
报告提纲
1 深度学习概念及其算法 2 深度学习硬件加速方式 3 典型神经网络芯片介绍
2
人工智能、机器学习与深度学习
❖ 人人工工智智能—能—为机器赋予人的智能
模拟、延伸和扩展人
机器学习
的智能的理论、方法、 人工智能的分支,研
技术及应用系统的技 究机器模拟或实现人
术科学;让机器象人一 类的学习行为,以获
➢ 卷积过程:滤波器fx卷积输入图像后,加偏置项bx,得卷积层Cx ➢ 采样过程:每邻域4个像素求和得一个像素,通过标量Wx+1加权,加
偏置项bx+1,通过sigmoid激活函数产生缩小4倍的特征图Sx+1
6
深度学习的开源框架
❖ 深度学习开源框架层出不穷,用来实现深度学习算法
➢ 避免重复工作,降低算法门槛 ➢ Google、Microsoft、Facebook 等均发布深度学习框架
能优异。算法用于图像分类、图像识别及自然语言处理
13
深度学习硬件加速方式——DSP
❖ 用传统SIMD/DSP架构来适配 ➢ 运算逻辑作修改,以适用卷积神经网络 ➢ 对深度学习全面计算能力支持不足 ➢ 核心数量较少,并行性支持较差
❖ 代表:Cadence的Tensilica Vision P5处理器、Synopsys的EV处理器、 中星微视频处理芯片星光智能一号
8
报告提纲
1 深度学习概念及其算法 2 深度学习硬件加速方式 3 典型神经网络芯片介绍
9
深度学习硬件加速方式
❖ 当前深度学习硬件加速方式主要有 CPU、GPU 、FPGA 、DSP、ASIC
10
深度学习硬件加速方式——CPU
❖ 通用级加速方式,高度灵活性和易用性 ❖ 架构上有先天弱势
➢ 运算能力较弱 ➢ 访存带宽受限 ❖ 代表:Intel Xeon Phi系列芯片、高通骁龙820 ❖ 案例:Google Brain项目用16000个CPU Core的并行计算平台保证训练 算法速度,通过观看YouTube的视频,识别出猫
❖ 训练阶段:
输入大量带标注动物图片,训练网络学会辨别
❖ 推理阶段:
输入未标注图片
提取图片内容的低层特征,如轮廓
分析提取高层的结构特征,如四肢
分析获得顶层的抽象概念,如动物类型
基于前期训练结果,预测图片内容
4
深度学习的算法
❖ 深度学习典型算法为卷积神经网络,以2层卷积为例,算法为:
❖ 代表:IBM TrueNorth(真北)、Brainchip等
17
报告提纲
1 深度学习概念及其算法 2 深度学习硬件加速方式 3 典型神经网络芯片介绍
18
典型神经网络芯片——IBM TrueNorth
❖ IBM,2014年发布能模拟人类大脑的超大规模神经突触芯片TrueNorth ➢ 基于类似人脑、非冯·诺依曼的计算架构 ➢ 含有100万神经元,通过 2.56 亿个突触彼此通信 ➢ 4096个神经突触,每秒可执行 46 千兆突触运算 ➢ 三星28nm工艺,54亿晶体管,功耗仅为70mW
14
深度学习硬件加速方式——ASIC
❖ 阻碍深度学习发展的瓶颈仍是算法速度 ❖ 传统处理器需要多条指令才能完成一个神经元的处理 ❖ ASIC根据深度学习算法定制:处理效率、能效均最高 ❖ 代表:Cambricon(寒武纪科技)DianNao芯片、谷歌的TPU芯片、
11
深度学习硬件加速方式——GPU
❖ SIMD方式,计算能力强,并行度支持好 ❖ 通用性,并非针对深度学习
➢ 运行效率受影响 ➢ 能耗仍较大 ❖ 代表: NVIDIA Tesla P100 GPU ❖ 案例:基于GPADAS)方面与众多车企进行合作
样思考
取新的知识技能,并
应用:国际跳棋程序
改善自身性能
应用:垃圾邮件过滤
深度学习
一种机器学习方法,模 拟人脑机制解释数据, 通过组合低层特征形成 更加抽象的高层属性类 别或特征
应用:谷歌视频寻猫
1950's 1960's 1970's 1980's 1990's 2000's 2010's
3
深度学习的流程
Horizon Robotics(地平线机器人)BPU芯片 ❖ 案例:基于TPU的AlphaGo与围棋冠军李世石人机大战,总比分4:1获胜
15
深度学习硬件加速方式比较
加速方式
优点
缺点
CPU
通用结构、可独立工作 通用性导致效率和能效比低
GPU FPGA DSP ASIC
强大的并行计算能力
通用性导致效率受影响、能耗大
灵活性好、设计空间大、 省去流片过程 改动小、计算能力较高
能效比最好
效能与功耗上不能更紧密适配算 法、成本高
缺乏深度学习全面计算能力、核 心数量较少,并行性支持较差
灵活性差、缺乏通用潜力、 成本较高
16
其他人工神经网络芯片
❖ 上述均为基于深度学习的加速芯片。作为人工神经网络芯片,还有另外 一支,是从类似或模拟生物神经系统来实现的神经形态网络芯片(类脑 芯片)
❖ 谷歌TensorFlow占绝对优势
➢ 强大的人工智能研发水平、快速的迭代更新
7
深度学习的开源框架
❖ 谷歌2015年底发布开源深度学习框架TensorFlow
➢ Tensor(张量):多维数组在高维空间的数学运算 ➢ Flow(流):基于数据流图的计算 ❖ TensorFlow关键特性 ➢ 代码简洁多语言支持 ➢ 分布式算法执行效率高 ➢ 移值灵活伸缩性好 ➢ 支持多种神经网络算法
➢ 输入图像与滤波器、偏置进行卷积,产生卷积层的特征映射图 ➢ 卷积层特征映射图经求和,加权值,偏置,函数处理得到采样层 ➢ 采样层重复上述流程处理后产生新的采样层 ➢ 全连接层提取归类获得足够好的高层特征表达信息
5
深度学习的算法
❖ 一层卷积学到的特征是局部的,层数越高,特征就越全局化。 ❖ 卷积和采样具体过程为:
12
深度学习硬件加速方式——FPGA
❖ 能效较高且硬件配置灵活 ➢ 顶级GPU性能的1/5,能效相当 ➢ 相比CPU,性能提升1个数量级,能效提升2个数量级 ➢ 增长的门资源和内存带宽带来更大的设计空间 ➢ 省去ASIC方案所需流片过程
❖ 代表:DeephiTech(深鉴科技)、Xilinx 、Altera ❖ 案例:微软用Altera FPGA 实现基于卷积神经网络的数据中心加速,效
深度学习及其硬件加速
1
报告提纲
1 深度学习概念及其算法 2 深度学习硬件加速方式 3 典型神经网络芯片介绍
2
人工智能、机器学习与深度学习
❖ 人人工工智智能—能—为机器赋予人的智能
模拟、延伸和扩展人
机器学习
的智能的理论、方法、 人工智能的分支,研
技术及应用系统的技 究机器模拟或实现人
术科学;让机器象人一 类的学习行为,以获
➢ 卷积过程:滤波器fx卷积输入图像后,加偏置项bx,得卷积层Cx ➢ 采样过程:每邻域4个像素求和得一个像素,通过标量Wx+1加权,加
偏置项bx+1,通过sigmoid激活函数产生缩小4倍的特征图Sx+1
6
深度学习的开源框架
❖ 深度学习开源框架层出不穷,用来实现深度学习算法
➢ 避免重复工作,降低算法门槛 ➢ Google、Microsoft、Facebook 等均发布深度学习框架
能优异。算法用于图像分类、图像识别及自然语言处理
13
深度学习硬件加速方式——DSP
❖ 用传统SIMD/DSP架构来适配 ➢ 运算逻辑作修改,以适用卷积神经网络 ➢ 对深度学习全面计算能力支持不足 ➢ 核心数量较少,并行性支持较差
❖ 代表:Cadence的Tensilica Vision P5处理器、Synopsys的EV处理器、 中星微视频处理芯片星光智能一号
8
报告提纲
1 深度学习概念及其算法 2 深度学习硬件加速方式 3 典型神经网络芯片介绍
9
深度学习硬件加速方式
❖ 当前深度学习硬件加速方式主要有 CPU、GPU 、FPGA 、DSP、ASIC
10
深度学习硬件加速方式——CPU
❖ 通用级加速方式,高度灵活性和易用性 ❖ 架构上有先天弱势
➢ 运算能力较弱 ➢ 访存带宽受限 ❖ 代表:Intel Xeon Phi系列芯片、高通骁龙820 ❖ 案例:Google Brain项目用16000个CPU Core的并行计算平台保证训练 算法速度,通过观看YouTube的视频,识别出猫
❖ 训练阶段:
输入大量带标注动物图片,训练网络学会辨别
❖ 推理阶段:
输入未标注图片
提取图片内容的低层特征,如轮廓
分析提取高层的结构特征,如四肢
分析获得顶层的抽象概念,如动物类型
基于前期训练结果,预测图片内容
4
深度学习的算法
❖ 深度学习典型算法为卷积神经网络,以2层卷积为例,算法为:
❖ 代表:IBM TrueNorth(真北)、Brainchip等
17
报告提纲
1 深度学习概念及其算法 2 深度学习硬件加速方式 3 典型神经网络芯片介绍
18
典型神经网络芯片——IBM TrueNorth
❖ IBM,2014年发布能模拟人类大脑的超大规模神经突触芯片TrueNorth ➢ 基于类似人脑、非冯·诺依曼的计算架构 ➢ 含有100万神经元,通过 2.56 亿个突触彼此通信 ➢ 4096个神经突触,每秒可执行 46 千兆突触运算 ➢ 三星28nm工艺,54亿晶体管,功耗仅为70mW