汽车自动驾驶芯片行业市场分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

汽车自动驾驶芯片行业市场分析
核心观点:
1.自动驾驶与智能座舱芯片一体化趋势明显,自动驾驶芯片具有高算力发展趋势。

市场容量未来5年将会高速增长。

2.目前自动驾驶芯片企业中英伟达依托自己的前期GPU积累和算力优势,CUDA生态占据市场领导地位。

3.市场渗透率仍低同时还未固化,需求和技术路线仍在探索。

国内自动驾驶芯片企业有望依托国内强势新能源车企业获得突破。

1、自动驾驶芯片概况
1.1、自动驾驶芯片简介:车规级芯片要求更加严苛
芯片按应用场景可分为消费芯片、工业芯片、汽车芯片和军工芯片等。

汽车是芯片应用场景之一,汽车芯片需要具备车规级。

车规级芯片对加工工艺要求不高,但对质量要求高。

需要经过的认证过程,包括质量管理标准ISO/TS16949、可靠性标准AEC-QI00、功能安全标准ISO26262等。

汽车内不同用途的芯片要求也不同,美国制定的汽车电子标准把其分为5级。

汽车各系统对芯片要求由高到低依次是:动力安全系统>车身控制系统>行驶控制系统>通信系统>娱乐系统。

车规级芯片特殊的技术和工艺要求挡住了企业进入的脚步。

车规级芯片有着比消费级芯片更高的技术门槛,需满足温度、振动、电磁干扰、长使用寿命等高要求,还要通过可靠性标准AEC-QI00、质量管理标准ISOZTS16949、功能安全标准ISo26262等严苛的认证流程,大部分芯片企业尚不具备转型
进入能力。

目前\车规级芯片在传统汽车中的成本约为2270元/车,在新能源汽车中的成本约为4540元/车。

随着汽车向电动化和智能化发展,芯片的种类、数量和价格占比将进一步提高。

1.2、自动驾驶芯片产品趋势:一体化
云和边缘计算的数据中心,以及自动驾驶等超级终端领域,都是典型的复杂计算场景,这类场景的计算平台都是典型的大算力芯片。

大芯片的发展趋势已经越来越明显的从GPU、DSA的分离趋势走向DPU、超级终端的再融合,未来会进一步融合成超异构计算宏系统芯片。

BOSCH给出了汽车电气架构演进示意图。

从模块级的ECU到集中相关功能的域控制器,再到完全集中的车载计算机。

每个阶段还分了两个子阶段,例如完全集中的车载计算机还包括了本地计算和云端协同两种方式。

英伟达创始人黄仁勋在2023秋季GTC大会上发布了新自动驾驶芯片一Thor o Thor的特点:一是超高A1性能,拥有770亿晶体管,而上一代的Orin是170亿晶体管。

A1性能为2000TF1OPS@FP8。

如果是INT8格式,估计可以达到4000TOPSo二是支持FP8格式,英伟达、英特尔和ARM三家联合力推FP8格式标准,力图打通训练与推理之间的鸿沟。

三是超高CPU性能,Thor的CPU可能是ARM的服务器CPU架构V2或更先进的波塞冬平台。

四是统一座舱、自动驾驶和自动泊车,一颗芯片包打天下。

英伟达发布的一体化自动驾驶芯片A1tan&Thor的设计思路是完全的“终局思维”,相比BOSCH给出的一步步的演进还要更近一层,跨越集中式
的车载计算机和云端协同的车载计算机,直接到云端融合的车载计算机。

云端融合的意思是服务可以动态的、自适应的运行在云或端,方便云端的资源动态调节。

A1tan&Thor采用的是跟云端完全一致的计算架构:Grace-nextCPU›Ampere-nextGPU以及BIuefieIdDPU,硬件上可以做到云端融合。

2、自动驾驶芯片架构分析
2.1、>主流架构方案对比:三种主流架构
当前主流的A1芯片主要分为三类,GPU、FPGA、ASIC。

GPU、FPGA 均是前期较为成熟的芯片架构,属于通用型芯片。

AS1C属于为A1特定场景定制的芯片。

行业内已经确认CPU不适用于A1计算,但是在A1应用领域也是必不可少。

CPU遵循的是冯•诺依曼架构,其核心是存储程序/数据、串行顺序执行。

因此CPU的架构中需要大量的空间去放置存储单元(Cache)和控制单元(ControI),相比之下计算单元(A1U)只占据了很小的一部分,所以CPU在进行大规模并行计算方面受到限制,相对而言更擅长于处理逻辑控制。

GPU(GraphicsProcessingUnit),即图形处理器,是一种由大量运算单元组成的大规模并行计算架构,早先由CPU中分出来专门用于处理图像并行计算数据,专为同时处理多重并行计算任务而设计。

GPU中也包含基本的计算单元、控制单元和存储单元,但GPU的架构与CPU有很大不同,其架构图如下所示。

与CPU相比,CPU芯片空间的不
到20%是A1U,而GPU芯片空间的80%以上是A1U o即GPU拥有更多的A1U用于数据并行处理。

CPU由专为顺序串行处理而优化的几个核心组成,而GPU则拥有一个由数以千计的更小、更高效的核心组成的大规模并行计算架构,这些更小的核心专为同时处理多重任务而设计。

CPU和GPU之所以大不相同,是由于其设计目标的不同,它们分别针对了两种不同的应用场景。

CPU需要很强的通用性来处理各种不同的数据类型,同时又要逻辑判断又会引入大量的分支跳转和中断的处理。

这些都使得CPU的内部结构异常复杂。

而GPU面对的则是类型高度统一的、相互无依赖的大规模数据和不需要被打断的纯净的计算环境。

对于深度学习来说,目前硬件加速主要靠使用图形处理单元。

相比传统的CPU,GPU的核心计算能力要多出几个数量级,也更容易进行并行计算。

GPU的众核体系结构包含几千个流处理器,可将运算并行化执行,大幅缩短模型的运算时间。

随着NVID1A、AMD等公司不断推进其GPU的大规模并行架构支持,面向通用计算的GPU已成为加速并行应用程序的重要手段。

目前GPU已经发展到了较为成熟的阶段。

利用GPU来训练深度神经网络,可以充分发挥其数以千计计算核心的高效并行计算能力,在使用海量训练数据的场景下,所耗费的时间大幅缩短,占用的服务器也更少。

如果针对适当的深度神经网络进行合理优化,一块GPU卡可相当于数十甚至上百台CPU服务器的计算能力,因此GPU已经成为业界在深度学习模型训练方面的首选解决方案。

2.2、F PGA方案:FPGA芯片定义及结构
FPGA(FieId-ProgrammabIeGateArray),即现场可编程门阵列,它是在PA1、GA1、CP1D等可编程器件的基础上进一步发展的产物。

它是作为专用集成电路领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。

FPGA芯片主要由6部分完成,分别为:可编程输入输出单元、基本可编程逻辑单元、完整的时钟管理、嵌入块式RAM、丰富的布线资源、内嵌的底层功能单元和内嵌专用硬件模块。

目前主流的FPGA仍是基于查找表技术的,已经远远超出了先前版本的基本性能,并且整合了常用功能(如RAM、时钟管理和DSP)的硬核(AS1C型)模块。

由于FPGA需要被反复烧写,它实现组合逻辑的基本结构不可能像ASIC 那样通过固定的与非门来完成,而只能采用一种易于反复配置的结构。

查找表可以很好地满足这一要求,目前主流FPGA都采用了基于SRAM工艺的查找表结构,也有一些军品和宇航级FPGA采用F1ash或者熔丝与反熔丝工艺的查找表结构。

通过烧写文件改变查找表内容的方法来实现对FPGA的重复配置。

查找表(1OOk-Up-TabIe)简称为1UT,1UT本质上就是一个RAM。

目前FPGA中多使用4输入的1UT,所以每一个1UT可以看成一个有4位地址线的的RAM0当用户通过原理图或HD1语言描述了一个逻辑电路以后,P1D/FPGA开发软件会自动计算逻辑电路的所有可能结果,并把真值表(即结果)事先写入RAM,这样,每输入一个信号进行逻辑运算就等于输入一个地址进行查表,找出地址对应的内容,然后输出即可。

2.3、A S1C方案:AS1C定义及特点
ASIC芯片可根据终端功能不同分为TPU芯片、DPU芯片和NPU芯片等。

其中,TPU为张量处理器,专用于机器学习。

如Goog1e于2016年5月研发针对Tensorf1ow平台的可编程A1加速器,其内部指令集在Tensorf1ow程序变化或更新算法时可运行。

DPU即DataProcessingUnit,可为数据中心等计算场景提供引擎。

NPU是神经网络处理器,在电路层模拟人类神经元和突触,并用深度学习指令集直接处理大规模电子神经元和突触数据。

ASIC有全定制和半定制两种设计方式。

全定制依靠巨大的人力时间成本投入以完全自主的方式完成整个集成电路的设计流程,虽然比半定制的ASIC更为灵活性能更好,但它的开发效率与半定制相比甚为低下。

ASIC芯片非常适合人工智能的应用场景。

例如英伟达首款专门为深度学习从零开始设计的芯片TesIaPIOO数据处理速度是其2014年推出GPU系列的12倍。

谷歌为机器学习定制的芯片TPU将硬件性能提升至相当于当前芯片按摩尔定律发展7年后的水平。

正如CPU改变了当年庞大的计算机一样,人工智能ASIC芯片也将大幅改变如今A1硬件设备的面貌。

如大名鼎鼎的A1PhaGo使用了约170个图形处理器(GPU)和1200个中央处理器(CPU),这些设备需要占用一个机房,还要配备大功率的空调,以及多名专家进行系统维护。

而如果全部使用专用芯片,极大可能只需要一个普通收纳盒大小的空间,且功耗也会大幅降低。

ASIC技术路线是有限开放,芯片公司需要面向与驾驶相关的主流网络、模型、算子进行开发。

在相同性能下,芯片的面积更小、成本更低、功耗更低。

ASIC技术路线未来的潜力会很大,选择ASIC路线并不意味着要对不同车型开发不同的ASIC,或进行不同的验证。

因为不同车型需要实现的功能大致相同,而且芯片面对模型和算子进行有限开放,算法快速迭代不会影响到芯片对上层功能的支持。

车厂与芯片设计公司合作,进行差异化定制,或是更好的选择。

因为即使是进行差异化的定制,芯片内部50%的部分也是通用的。

芯片设计公司可以在原有版本的基础上进行差异化设计,实现部分差异功能。

2.4、主流架构方案对比:三种主流架构
FPGA是在PA1、GA1等可编程器件的基础上进一步发展的产物。

它是作为专用集成电路领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。

优点:可以无限次编程,延时性比较低,同时拥有流水线并行和数据并行、实时性最强、灵活性最高。

缺点:开发难度大、只适合定点运算、价格比较昂贵。

图形处理器(GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板、手机等)上做图像和图形相关运算工作的微处理器。

优点:提供了多核并行计算的基础结构,且核心数非常多,可以支撑大量数据的并行计算,拥有更高的浮点运算能力。

缺点:管理控制能力(最弱),功耗(最高)。

ASIC,即专用集成电路,指应特定用户要求和特定电子系统的需要而设计、制造的集成电路。

目前用CP1D(复杂可编程逻辑器件)和FPGA(现场可编程逻辑阵列)来进行AS1C设计是最为流行的方式之一。

优点:它作为集
成电路技术与特定用户的整机或系统技术紧密结合的产物,与通用集成电路相比具有体积更小、重量更轻、功耗更低、可靠性提高、性能提高、保密性增强、成本降低等优点。

缺点:灵活性不够,成本比FPGA贵。

2.5、唯算力论的局限:TOPS算力不完全等于实际性能随着ADAS、自动驾驶技术的兴起,以及软件定义汽车的逐步深入,智能汽车对于计算能力和海量数据处理能力等的需求暴增,传统汽车的芯片‘堆叠”方案已经无法满足自动驾驶的算力需求。

芯片最终是为车企的车载计算平台服务的,在“软件定义汽车”的情况下,解决智能驾驶系统计算平台的支撑问题,无法只通过芯片算力堆叠来实现。

芯片是软件的舞台,衡量芯片优劣的标准,要看芯片之上的软件能否最大化地发挥作用,算力和软件之间需要有效匹配。

两款相同算力的芯片比较,能让软件运行得更高效的芯片才是“好芯片”。

决定算力真实值最主要因素是内存(SRAM和DRAM)带宽,还有实际运行频率
(即供电电压或温度),以及算法的batch尺寸。

单颗芯片算力TOPS是关键指标,但并非唯一,自动驾驶是一个复杂系统,需要车路云边协同。

所以它的较量除了芯还有软硬协同还有平台以及工具链等等。

芯片算力的无限膨胀和硬件预埋不会是未来的趋势,硬件也需要匹配实际。

高算力背后是高功耗和低利用率的问题。

自动驾驶领域99%的视觉数据在A1处理中是无用的背景。

例如检测鬼探头,变化的区域是很小一部分,但传统的视觉处理仍然要处理99%的没有出现变化的背景区域,这不仅浪费了大量的算力,也浪费了时间。

亦或者像
在沙砾里有颗钻石,A1芯片和传统相机需要识别每一颗沙粒,筛选出钻石,但人类只需要看一眼就能检测到钻石,A1芯片和传统相机耗费的时间是人类的100倍或IOOo倍。

除了冗余信息减少和几乎没有延迟的优点外,事件相机的优点还有由于低时延,在拍摄高速物体时,传统相机由于会有一段曝光时间会发生模糊,而事件相机则几乎不会。

此外事件相机拥有真正的高动态范围,由于事件相机的特质,在光强较强或较弱的环境下,传统相机均会“失明”,但像素变化仍然存在,所以事件相机仍能看清眼前的东西。

3、自动驾驶芯片部分重点企业分析
3.1、>英伟达:从游戏显卡到自动驾驶芯片
英伟达拥有极具前瞻性且清晰的战略能力。

英伟达是全球最大的智能计算平台型公司,公司从早期专注PC图形计算,后来逐步将重点扩展到A1领域,并在3D图形的持续需求与游戏市场规模扩张推动下,利用GPU架构,创建VR、HPC(高性能计算)、A1平台。

英伟达在独立显卡、GPU领域有超过70%的市场份额。

除了优秀的硬件性能外,2006年英伟达开发了基于GPU的“CUDA”开发平台,让只做3D渲染的GPU实现通用计算功能,GPU的应用领域从游戏扩展至高性能计算、自动驾驶等多个领域。

2023年英伟达实现总收入269.1亿美元,游戏业务仍是支柱业务,占比近半,汽车部门收入5.6亿美金,占总收入比例2.08%。

3.2、英特尔Mobi1eye:EyeQ系列发展历程
2004年4月,EyeQI开始生产,随后公司收获多轮融资,将商业模式转向
汽车安全,陆续与大陆、意法半导体、麦格纳、电装、德尔福等全球顶级零部件供应商签署合作协议。

2007年,宝马、通用和沃尔沃成为首批配装Mobi1eye芯片的车企,Mobi1eye产品正式商用。

2008年,MObiIeye对外发布EyeQ2,公司进入稳定发展期。

2013年,MObiIeye累计卖出产品突破100万台,随后出货量呈现爆发式增长。

2017年3月,MObiIeye被芯片巨头英特尔以153亿美元的价格收购。

Mobi1eye在2023年推出了新型EyeQUItra,它专为自动驾驶而生。

据Mobi1eye称,EyeQUItra采用5nm工艺,将10个EyeQ5的处理能力集成在一个封装中。

但是其芯片的计算能力似乎略逊色于英伟
达,EyeQ1ntra芯片具有170TOPS,包括12个RISC内核、
256gigaf1ops、许多GPU和加速器内核等等,功耗不到IOoW,可以“处理4级(14)自动驾驶的所有需求和应用”,而无需将多个系统集成在一起的计算能力和成本,解决两个行业面临的重大挑战。

EyeQUItra预计将在2025年全面投产。

3.3、特斯拉:自动驾驶芯片发展之路
TeSIa经历了外购主控芯片到自研的道路。

2014年・2016年,Tes1a配备的是基于Mobi1eyeEyeQ3芯片的AutoPiIotHWkO计算平台,车上包含1个前摄像头+1个毫米波雷达+12个超声波雷达。

2016年・2019年,Tes1a采用基于英伟达的DRIVEPX2AI计算平台的
AutoPi1otHW2.0和后续的AutoPi1otHW2.5,包含8个摄像头+1个毫米波雷达+12超声波雷达。

2017年开始Tes1a开始启动自研主控芯片,尤
其是主控芯片中的神经网络算法和A1处理单元全部自己完成。

2019年4月,AUtOPiIotHW3.0平台搭载了TeSIaFSD自研版本的主控芯片,这款自动驾驶主控芯片拥有高达60亿的晶体管,每秒可完
成144万亿次的计算,能同时处理每秒2300帧的图像。

3.4、地平线:车规级芯片发展历程
自2015年创立以来,地平线仅用了5年的时间即实现了车规A1芯片的量产落地,开启国产车规级A1芯片的前装量产元年。

与此相比,Mobi1eye 的车规芯片从研发到正式商用历时8年;作为全球通用A1芯片龙头的英伟达,在CUDA发布后9年才将K1芯片应用于奥迪A8的车用系统。

地平线首款芯片征程1发布于2017年12月;征程2发布于2019年8月,可提供超过4TOPS的等效算力;征程3算力为5TOPS,发布于2023年9月;征程5发布于2023年7月,算力128TOPS。

地平线的第三代车规级产品征程5兼具大算力和高性能,支持16路摄像头感知计算,能够支持自动驾驶所需要的多传感器融合、预测和规划控制等需求。

征程5是地平线第三代车规级产品,也是国内首颗遵循ISO26262功能安全认证流程开发,并通过ASI1-B认证的车载智能芯片;基于最新的地平线BPU®贝叶斯架构设计,可提供高达128ToPS算力。

2023年4月21日,比亚迪与地平线正式宣布达成定点合作,比亚迪将在其部分车型上搭载地平线高性能、大算力自动驾驶芯片征程5,打造更具竞争力的行泊一体方案,实现高等级自动驾驶功能。

按照计划,搭载地平线征程5的比亚迪车型最早将于2023年中上市。

2023年9月30日,理想18
搭载征程5全球首发上市。

从研发到正式量产上车,征程5芯片仅用了近三年的时间,同样刷新了高性能智能驾驶芯片的应用效率。

除了比亚迪、理想18之外,征程5也已获得上汽集团、一汽红旗、自游家汽车等多家车企的量产定点合作,更多合作车型将陆续量产发布。

3.5、华为:MDC智能驾驶计算平台
华为于2018年10月首次发布智能驾驶计算平台,支持13的
MDC600、支持14的MDC300;2023年9月发布支持12+的
MDC210>支持13-14的MDC610oMDC610正在洽谈搭载的车型有广汽埃安A1c)N1X、长城沙龙机甲龙、广汽传祺。

2023年4月发布支持14-15的MDC810,首搭于北汽极狐阿尔法S华为H1版,正在洽谈搭载于2023年哪吒TA、广汽埃安;并计划2023年推出MDeIo0。

华为MDC所采用的ASCend系列芯片,主要有ASCend310和升级版ASCend910两款芯片。

ASCend包括训练和推理芯片,用于训练的Ascend910,半精度(FP16)算力达256TF1OPS,是业界的2倍。

用于推理的ASCend310,整型(INT8)算力16T0PS,功耗仅8W。

作为一款A1芯片,Ascend310的一大亮点就是采用了达芬奇架构(DaVinci)o达芬奇架构采用3DCube,针对矩阵运算做加速,大
幅提升单位功耗下的A1算力,每个AICore可以在一个时钟周期内实现4096个MAC操作,相比传统的CPU和GPU可实现数量级的提升。

3.6、黑芝麻智能黑芝麻系列芯片产品包括华山一号A500、华山二号
AIOO0、AIOOo1、AIOOOPr0、A2000o2019年8月,黑芝麻智能发布了华山一号自动驾驶芯片A500,算力5-10TOPS;2023年6月,黑芝麻
智能发布华山二号AIoO0,算力在40∙70TOPS,低配版AIooO1在16ToPS,高配版AIOoOPro则在2023年4月发布,算力达至∣J196TOPS。

华山二号A2000是国内首个250T大算力芯片:顶尖7纳米工艺、国产自主知识产权核心IP、满足ASI1B级别的安全认证标准。

黑芝麻华山二号A1000系列芯片已完成所有车规级认证,已经与上汽通用五菱、江淮等内的多家车企达成量产合作。

在黑芝麻最强芯片华山二号AIOOOPro中,搭载了黑芝麻自研的图像处理器和神经网络加速器。

其中,神经网络加速器能够让AIOoOPro芯片的INT8算力达到106TOPS,INT4算力达至U196TOPS。

3・7、芯驰科技
从2019年到2023年,芯驰科技先后发布了V91/F和V9T自动驾驶芯片,分别可支持ADAS(高级驾驶辅助系统)以及域控制器。

面向集成度更高的汽车电子电气架构,未来两年芯驰科技还将陆续推出能够满足更高级别自动驾驶的高算力芯片。

2023年,芯驰科技计划发布算力在10∙200T之间的自动驾驶芯片——V9P/U,该产品拥有更高算力集成,可支持13级别的自动驾驶。

到2023年,芯驰科技将推出具有更高算力的V9S自动驾驶芯片,该芯片面向中央计算平台架构研发,算力高达500-1000T,可支持14/15级别的自动驾驶的
Robotaxio芯驰科技在2023世界人工智能大会上发布了基于V9系
列芯片开发的全开放自动驾驶平台——UniDrive o UniDrive的可扩展性非常强,从11/12级别ADAS至∣J14/15级另∣J的Robotaxi的开发都能支持。

3.8、芯擎科技
芯擎科技研发的首款7nm智能座舱芯片鳍旨鹰一号”,已于2023年6月流片成功,对标高通8155芯片。

并且“育官鹰一号'即将于2023年底前
实现量产上车,目前针对量产车型的各项测试和验证工作已陆续完成。

芯擎科技计划2023流片的自动驾驶芯片ADIoO0,将满足12+至15级自动驾驶需求。

未来芯擎科技会在自动驾驶领域不断深耕和探索,并且对标最先进的产品。

具体来说,仍会采用7nm制程,将具备更高的算力和安全性。

相关文档
最新文档