人工智能芯片行业发展分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
TPU是针对自身产品的人工智能负载打造的张量处理单元TPU。第一代主要应用于在下游推理端TPU。本质上沿用了脉动阵列机架构(systolic arraycomputers),让推理阶段以时间换吞吐量。第二代TPU除了在推理端应用, 还可以进行深度学习上游训练环节。
AI
我们仍然强调:在人工智能浪潮中,芯片市场蛋糕越做越大,足以让拥有不同功能和定位的芯片和平共存,百花齐放。后摩尔定律时代,AI芯片间不是零和博弈。我们认为在3-5年内深度学习对GPU的需求是当仁不让的市场主流。在深度学习上游训练端(主要用在云计算数据中心里),GPU作为第一选择,英伟达表示Hyperscale巨头作为第一波客户在训练端的复购高渗透率正在向推理端延伸,针对数据中心推理的P4处理器开始出货,第二波客户则是其他云计算大公司开始放量,第三波客户则是基于云计算的互联网企业海量的数据和AI应用计算需求。
人工智能芯片行业发展分析
TPU
差异化
TPU
TPU目前未能取代GPU,只是在某些特定算法上做针对性优化。谷歌这次将TPU开放给客户是为了提供云计算服务的差异化,提升谷歌云的机器学习即服务(MLaaS)易用性。谷歌目前没有以硬件产品方式出售TPU的计划,而是依靠TPU浮点运算精度的提高及针对TensorFlow的深度优化,以云计算服务形式销售共享。与我们此前强调的一致,我们认为Google通过Cloud TPU+TensorFlow的软硬结合,以及此后TPU Pod的加持,可进一步激活中小企业以及科研单位的云计算需求,另辟AWS、Azure之外蹊径。
图2:深度学习在神经网络模型的应用中主要分为上游训练端和下游推理端
资料来源:英伟达官网,天风证券研究所
在推理阶段,由于更接近终端应用需求,更关注响应时间而不是吞吐率。由于CPU和GPU结构设计更注重平均吞吐量(throughout)的time-varying优化方式,而非确保延迟性能。谷歌设计了一款为人工智能运算定制的硬件设备,张量处理单元(TensorProcessingUnit,
谷歌云Q4单季收入跨越10亿美元门槛,但相对于AWS 51亿,微软智能云78亿的体量尚不能及;AWS龙头尚稳份额增加0.5%,微软份额增加3%为最多;谷歌份额增加1%。当前包括亚马逊AWS、微软Azure都提供了机器学习基本工具,而通过TensorFlowAPI+TPU,Google提供包括图像识别ResNet-50、机器翻译Transformer和物体识别RetinaNet在内的主流模型训练开发功能,日后还会提供其他服务。此外Google针对TPU的使用进行功耗优化,进一步降低数据中心的运营成本。我们认为,云计算巨头为了提高在使用服务器芯片时的议价能力,未来会消防Google寻求自主芯片开发的方案,但主要针对特定需求进行定制开发。
ASwenku.baidu.comC
AI立夏已至,以ASIC为底芯片的包括谷歌的TPU、寒武纪的MLU等,也如雨后春笋。但我们此前强调包括TPU在内的ASIC仍然面临通用性较弱,以及开发成本高企等局限。TPU虽理论上支持所有深度学习开发框架,但目前只针对TensorFlow做了深度优化。另外ASIC芯片开发周期长和成本非常高,在开发调试过程中复杂的设计花费有时甚至会花数亿美元,因此需要谷歌这样的计算需求部署量才能将成本分摊到大量使用中。同时ASIC开发周期长,也可能会出现硬件开发无法匹配软件更新换代而失效的情况。
图1:目前深度学习领域常用的四大芯片类型,“通用性和功耗的平衡”
资料来源:微软Build,天风证券研究所
神经网络的两个主要阶段是训练(Training和Learning)和推理(Inference和Prediction)。当前几乎所有的训练阶段都是基于浮点运算的,需要进行大规模并行张量或多维向量计算,GPU依靠优秀的通用型和并行计算优势成为广为使用的芯片。
ASIC(ApplicationSpecificIntegratedCircuit,专用集成电路):细分市场需求确定后,以TPU为代表的ASIC定制化芯片(或者说针对特定算法深度优化和加速的DSA,Domain-Specific-Architecture),在确定性执行模型(deterministicexecutionmodel)的应用需求中发挥作用。我们认为深度学习ASIC包括英特尔的Nervana Engine、Wave Computing的数据流处理单元、英伟达的DLA、寒武纪的NPU等逐步面市,将依靠特定优化和效能优势,未来在深度学习领域分一杯羹。
风险提示:芯片开发周期过长,市场需求不达预期等。
1.谷歌TPU:以时间换吞吐量,软硬兼施,冲入云端
AI芯片市场蛋糕越做越大,足以让拥有不同功能和定位的芯片和平共存,百家争鸣非零和博弈。“通用性和功耗的平衡”——在深度学习上游训练端(主要用在云计算数据中心里),GPU是当仁不让的第一选择,ASIC包括谷歌TPU、寒武纪MLU等也如雨后春笋。而下游推理端更接近终端应用,需求更加细分,GPU主流芯片之外,包括CPU/FPGA/ASIC也会在这个领域发挥各自的优势特点。
但我们需要强调,包括TPU在内的ASIC仍然面临通用性较弱,以及开发成本高企等局限。TPU虽然理论上支持所有深度学习开发框架,但目前只针对TensorFlow进行了深度优化。另外ASIC芯片开发周期长和成本非常高,在开发调试过程中复杂的设计花费有时甚至会超过亿美元,因此需要谷歌这样的计算需求部署量才能将成本分摊到大量使用中。同时ASIC开发周期长,也可能会出现硬件开发无法匹配软件更新换代而失效的情况。
而下游推理端更接近终端应用,需求更加细分,我们认为除了GPU为主流芯片之外,包括CPU/FPGA/ASIC等也会在这个领域发挥各自的优势特点。FPGA适用于开发周期较短的IoT产品、传感器数据预处理工作以及小型开发试错升级迭代阶段等。以TPU为代表的ASIC定制化芯片,包括英特尔的Nervana Engine、Wave Computing的数据流处理单元、以及英伟达的DLA等,针对特定算法深度优化和加速,将在确定性执行模型(deterministic execution model)的应用需求中发挥作用。我们认为深度学习ASIC芯片将依靠特定优化和效能优势,未来在细分市场领域发挥所长。
AI
我们仍然强调:在人工智能浪潮中,芯片市场蛋糕越做越大,足以让拥有不同功能和定位的芯片和平共存,百花齐放。后摩尔定律时代,AI芯片间不是零和博弈。我们认为在3-5年内深度学习对GPU的需求是当仁不让的市场主流。在深度学习上游训练端(主要用在云计算数据中心里),GPU作为第一选择,英伟达表示Hyperscale巨头作为第一波客户在训练端的复购高渗透率正在向推理端延伸,针对数据中心推理的P4处理器开始出货,第二波客户则是其他云计算大公司开始放量,第三波客户则是基于云计算的互联网企业海量的数据和AI应用计算需求。
人工智能芯片行业发展分析
TPU
差异化
TPU
TPU目前未能取代GPU,只是在某些特定算法上做针对性优化。谷歌这次将TPU开放给客户是为了提供云计算服务的差异化,提升谷歌云的机器学习即服务(MLaaS)易用性。谷歌目前没有以硬件产品方式出售TPU的计划,而是依靠TPU浮点运算精度的提高及针对TensorFlow的深度优化,以云计算服务形式销售共享。与我们此前强调的一致,我们认为Google通过Cloud TPU+TensorFlow的软硬结合,以及此后TPU Pod的加持,可进一步激活中小企业以及科研单位的云计算需求,另辟AWS、Azure之外蹊径。
图2:深度学习在神经网络模型的应用中主要分为上游训练端和下游推理端
资料来源:英伟达官网,天风证券研究所
在推理阶段,由于更接近终端应用需求,更关注响应时间而不是吞吐率。由于CPU和GPU结构设计更注重平均吞吐量(throughout)的time-varying优化方式,而非确保延迟性能。谷歌设计了一款为人工智能运算定制的硬件设备,张量处理单元(TensorProcessingUnit,
谷歌云Q4单季收入跨越10亿美元门槛,但相对于AWS 51亿,微软智能云78亿的体量尚不能及;AWS龙头尚稳份额增加0.5%,微软份额增加3%为最多;谷歌份额增加1%。当前包括亚马逊AWS、微软Azure都提供了机器学习基本工具,而通过TensorFlowAPI+TPU,Google提供包括图像识别ResNet-50、机器翻译Transformer和物体识别RetinaNet在内的主流模型训练开发功能,日后还会提供其他服务。此外Google针对TPU的使用进行功耗优化,进一步降低数据中心的运营成本。我们认为,云计算巨头为了提高在使用服务器芯片时的议价能力,未来会消防Google寻求自主芯片开发的方案,但主要针对特定需求进行定制开发。
ASwenku.baidu.comC
AI立夏已至,以ASIC为底芯片的包括谷歌的TPU、寒武纪的MLU等,也如雨后春笋。但我们此前强调包括TPU在内的ASIC仍然面临通用性较弱,以及开发成本高企等局限。TPU虽理论上支持所有深度学习开发框架,但目前只针对TensorFlow做了深度优化。另外ASIC芯片开发周期长和成本非常高,在开发调试过程中复杂的设计花费有时甚至会花数亿美元,因此需要谷歌这样的计算需求部署量才能将成本分摊到大量使用中。同时ASIC开发周期长,也可能会出现硬件开发无法匹配软件更新换代而失效的情况。
图1:目前深度学习领域常用的四大芯片类型,“通用性和功耗的平衡”
资料来源:微软Build,天风证券研究所
神经网络的两个主要阶段是训练(Training和Learning)和推理(Inference和Prediction)。当前几乎所有的训练阶段都是基于浮点运算的,需要进行大规模并行张量或多维向量计算,GPU依靠优秀的通用型和并行计算优势成为广为使用的芯片。
ASIC(ApplicationSpecificIntegratedCircuit,专用集成电路):细分市场需求确定后,以TPU为代表的ASIC定制化芯片(或者说针对特定算法深度优化和加速的DSA,Domain-Specific-Architecture),在确定性执行模型(deterministicexecutionmodel)的应用需求中发挥作用。我们认为深度学习ASIC包括英特尔的Nervana Engine、Wave Computing的数据流处理单元、英伟达的DLA、寒武纪的NPU等逐步面市,将依靠特定优化和效能优势,未来在深度学习领域分一杯羹。
风险提示:芯片开发周期过长,市场需求不达预期等。
1.谷歌TPU:以时间换吞吐量,软硬兼施,冲入云端
AI芯片市场蛋糕越做越大,足以让拥有不同功能和定位的芯片和平共存,百家争鸣非零和博弈。“通用性和功耗的平衡”——在深度学习上游训练端(主要用在云计算数据中心里),GPU是当仁不让的第一选择,ASIC包括谷歌TPU、寒武纪MLU等也如雨后春笋。而下游推理端更接近终端应用,需求更加细分,GPU主流芯片之外,包括CPU/FPGA/ASIC也会在这个领域发挥各自的优势特点。
但我们需要强调,包括TPU在内的ASIC仍然面临通用性较弱,以及开发成本高企等局限。TPU虽然理论上支持所有深度学习开发框架,但目前只针对TensorFlow进行了深度优化。另外ASIC芯片开发周期长和成本非常高,在开发调试过程中复杂的设计花费有时甚至会超过亿美元,因此需要谷歌这样的计算需求部署量才能将成本分摊到大量使用中。同时ASIC开发周期长,也可能会出现硬件开发无法匹配软件更新换代而失效的情况。
而下游推理端更接近终端应用,需求更加细分,我们认为除了GPU为主流芯片之外,包括CPU/FPGA/ASIC等也会在这个领域发挥各自的优势特点。FPGA适用于开发周期较短的IoT产品、传感器数据预处理工作以及小型开发试错升级迭代阶段等。以TPU为代表的ASIC定制化芯片,包括英特尔的Nervana Engine、Wave Computing的数据流处理单元、以及英伟达的DLA等,针对特定算法深度优化和加速,将在确定性执行模型(deterministic execution model)的应用需求中发挥作用。我们认为深度学习ASIC芯片将依靠特定优化和效能优势,未来在细分市场领域发挥所长。