自动驾驶的算力革命,英伟达对阵特斯拉,谁会笑到最后?智能动态

2020-07-02

【智能汽车网】

自动驾驶手艺,环境感知是其症结,神经收集算法则是中间。跟着自动驾驶手艺的大面积落地,传统的通用处置惩罚器已不能很好地满足需求,因而特地面向自动驾驶范畴的处置惩罚器应运而生。

那末,这些专用处置惩罚器与传统的通用处置惩罚器比拟有着怎样的上风?差别自动驾驶专用处置惩罚器之间又有着怎样的差别?本日我们就以特斯拉/英伟达所推出的产物为例为人人解答。

自动驾驶算法的特别需求

在之前的文章中我们提到,现今自动驾驶范畴所运用的视觉辨认算法,基本上都基于卷积神经收集的观点,视觉算法的运算本质上是一次次的卷积运算。

这类盘算并不庞杂,本质上只涉及到加减乘除,也就是一种乘积累加运算。但这类简朴运算在卷积神经收集中是大批存在的,这就对处置惩罚器的机能提出了很高的请求。

以ResNet-152为例,这是一个152层的卷积神经收集,它处置惩罚一张224*224大小的图象所需的盘算量大约是226亿次,假如这个收集要处置惩罚一个1080P的30帧的摄像头,他所须要的算力则高达每秒33万亿次,异常巨大。

那末,怎样提高乘积累加运算的效力,就是提高自动驾驶处置惩罚器机能的症结。

并行盘算脱颖而出

通用处置惩罚器(CPU)的架构,旨在能够疾速地实行任何能够盘算的盘算,同时坚持很高的速率,属于串行盘算。这就致使了CPU当中的单个运算单位机能壮大,但构造庞杂,每一个处置惩罚器中一般只能包容数目有限的运算单位。

CPU架构示例,可见运算中间只要四个,但每一个占用面积都很大。

以曾的旗舰级CPU i7-9700k为例(非上图),其具有8个中间,单个中间的运算频次能够到达4.9GHz,也就是每秒49亿次,全部处置惩罚器的算力就是8*4.9GHz=39.2GOPS。这个算力关于ResNet-152收集来讲,每秒只能处置惩罚不到两张224*224大小的图象,没有现实运用的意义。

而图形处置惩罚器GPU则差别,它内部的盘算单位是异常多的小中间,这些中间单个机能不及CPU,只能举行简朴运算,但由于数目多能够同时举行异常多的运算,属于并行盘算。

这是英伟达初期的一颗GK104显卡中间(GPU),推出于2012年,但其内部的流处置惩罚器数目已多达1536个,这就让这款老旧的处置惩罚器,虽然中间频次只要1GHz但全部芯片的最低算力依旧高达1536*1GHz=1.5TOPS。

举个例子,CPU就像几个大学生构成的一个小组,他们晓得种种庞杂的公式,能够对很庞杂的课题举行剖析处置惩罚运算。而GPU就像上千个小学生,他们只会加减乘除,但让他们用高斯勒让德算法求圆周率是不大概的。

而自动驾驶中的视觉辨认算法,恰好就是数十亿次的加减乘除运算,同样是敲盘算器,虽然几个大学生大概敲得快一些,但也敲不过上千个小学生。

所以在神经收集盘算方面,并行盘算的GPU效力要远高于串行盘算的CPU,这就是英伟达这类显卡厂商在AI和神经收集方面的天赋上风。

英伟达DRIVE AGX XAVIER系列

在AI和自动驾驶的海潮下,英伟达也主动转型,将营业中间由图象运算转向了人工智能运算以及自动驾驶。DRIVE AGX XAVIER自动驾驶芯片就是其现在已投向市场的自动驾驶专用芯片之一。

上图是DRIVE AGX XAVIER的架构图和示意图,可见其内部占面积最大的就是一颗Volta Tensor GPU,它具有512个CUDA流处置惩罚器,能够实行FP16或许INT8的张量盘算,在INT8下算力可达22.6TOPS,在FP16下算力为11.3TOPS。

此作为一款专为自动驾驶设想的芯片,英伟达还在个中搭载了DLA模块和PVA向量处置惩罚单位。DLA是深度进修加快模块,这个模块的功用主如果专精于深度进修盘算加快,在INT8精度下能够供应11.4TOPS的算力。而PVA则是一个可编程的视觉加快器,能够比GPU或许DLA模块更迅速地处置惩罚对象检测等视觉处置惩罚中的基本任务。

另外,XAVIER中还搭载了一颗8中间的Carmel架构CPU,以满足一些更庞杂的通用盘算需求。

经由过程多种针对性设想,英伟达终究在30w功耗的基础上,完成了高达30TOPS的低精度算力,能够满足L2或许L2 级别自动驾驶车型对算力的需求。

固然,英伟达并不会止步于L2级,他们同时还推出了面向L4~L5级全自动驾驶车型的专用系统DRIVE AGX XAVIER PEGASUS。

DRIVE AGX XAVIER PEGASUS系统的机能极强,它在两颗XAVIER芯片的基础上,分外搭载了两颗Turing(图灵) GPU。

上图是Turing GPU的架构图,可见其内部搭载的密密层层的中间。与XAVIER芯片差别,Turing GPU是直接面向AI和RT光芒追踪盘算的高机能处置惩罚器,除了多达4608个的CUDA中间外,它还分外搭载了576中间的深度盘算辅佐中间Tensor Core,在INT8精度下能够供应高达220TOPS的算力。

也就是说,DRIVE AGX XAVIER PEGASUS系统中搭载了四颗高机能芯片,这就让其系统算力到达了惊人的320TOPS,为现在已量产的自动驾驶芯片之最。

特斯拉Full Self-Driving Computer

特斯拉Full Self-Driving Computer (FSD),我们偶然也会叫它Hardware 3.0(HW3.0),代表它是特斯拉第三代自动驾驶硬件。

上图就是特斯拉的FSD,这套系统是特斯拉自行设想的,很显著特斯拉的自动驾驶团队深知神经收集盘算的特别性。

FSD上最显著的两颗芯片就是该系统的主芯片,该芯片采纳三星14nm工艺制程制造。要注意的是这两颗芯片现实上是自力事情的,由于高等别的自动驾驶系统有肯定的鲁棒性请求,只要在两颗芯片运算出的效果相同时,系统才会现实输出实行。

上图是FSD主芯片的架构图,能够看出该芯片与通用处置惩罚器和英伟达XAVIER有显著区分,占芯片面积最大的不是CPU也不是GPU,而是Neural Network Processor(NNP、NPU),神经处置惩罚单位。

与GPU类似,NNP也是由一个个细小的盘算单位构成的,但这些盘算单位与英伟达的CUDA流处置惩罚器差别,它被设想为特地处置惩罚乘积累加运算(Multiply Accumulate,MA),所以它盘算中间也被称为MAC。

在每一个NNP单位中,有两个96*96的MAC矩阵,每颗芯片有两个NNP单位,因而我们就能够得知,FSD上的单颗主芯片内搭载了36864个盘算单位,在其2GHz的运算频次下,算力为36864*2GHz=72TOPS,全部系统的双芯片算力为144TOPS,与官方宣布的数据一致。

与英伟达XAVIER类似的是,FSD主芯片内部也内建了一颗12中间的CPU,以应对一些通用盘算的需求。但值得注意的是,它采纳的是ARM A72架构,这是一个ARM在四年前推出的架构,相对老旧一些,但对芯片的重要运用场景影响不大。

按特斯拉官方说法,FSD每秒能够处置惩罚2300张图象,假如依据30帧每秒盘算的话,这意味着FSD最多能够同时处置惩罚76路视频信号,固然,特斯拉并没有申明图象的分辨率以及深度,但我们依旧能够得知FSD是能够满足现在特斯拉的需求的。

谁更先进?

有的朋侪大概会猎奇,FSD的单芯片机能为72TOPS,而英伟达XAVIER只要30TOPS,是不是意味着FSD的芯片比XAVIER大许多?

并不是如许,现实上XAVIER的芯片面积要更大一些。

依据外媒制造的芯片面积对照图,英伟达XAVIER的中间面积要比FSD芯片大不少,而形成这类机能差异的缘由,照样在于其芯片架构的设想。

英伟达XAVIER虽然是针对自动驾驶设想的特地芯片,但个中间依旧沿用了自家的CUDA流处置惩罚器,这类处置惩罚单位虽然远比CPU简朴,但它依旧能够举行多种运算,支撑的指令集也充足雄厚。

而特斯拉的FSD盘算中间MAC,则是特地针对乘积累加运算设想的,指令集异常简朴,只支撑8条指令:DMA Read,DMA Write,Convolution,Deconvolution,Inner-product,Scale,Eltwidth,Stop。它的单个盘算单位构造要远比CUDA简朴,占用的晶体管数目也更少。

所以在自动驾驶算力方面,特斯拉的FSD芯片表现出了更高的效力。

那这是不是意味着特斯拉FSD的架构更先进?

FSD之所以敢如许设想,起首是由于这颗芯片是专为特斯拉设想的,不会有第二家客户,所以有着充足的专用性,本质上更倾向是ASIC(专用集成电路)。

而英伟达的DRIVE平台,其重要目标是向车企供货,所以在保证机能的基础上要有充足的兼容性,以顺应差别用户的开发需求。同时英伟达的Tensor Core张量盘算中间已展示出了更高的矩阵盘算才能。

在前不久英伟达推出的安培架构中大批搭载了Tensor Core,使得该芯片的算力得到了大幅增进,而搭载安培架构的新一代DRIVE Xavier芯片算力能够提拔至200TOPS,搭载四芯片的DRIVE Pegasus Robotaxi自动驾驶平台系统算力更是提拔到了2000TOPS,让算力再次有了质的奔腾,虽然现在照样一个饼。

所以,现在的自动驾驶专用芯片,还不能简朴经由过程架构来推断其先进性。盘算单位并不是做的越简朴越好,支撑的指令集、盘算逻辑等等,都邑对现实的算力形成影响。

不言而喻,这两家的生长战略现实上类似于谷歌和苹果:谷歌推出安卓,重要目标是作为供应商,占据前装市场;而苹果推出iOS,只为了打造自家的闭环生态系统,在自家设想的硬件上举行针对性的优化,保证用户体验,将用户握在本身手中。

这两条路,一条更注重客户端,一边更着重企业端,但异曲同工,中间竞争力都是自动驾驶手艺的好坏,终究都邑带来手艺的提高与落地。

本文以特斯拉和英伟达举例,并不是代表市场中只要这两家厂商。现实上,包含谷歌、苹果,国内的华为、地平线等厂商在内,都针对自动驾驶或许人工智能推出了特地的芯片。

但他们或是没有面向终端的产物(如谷歌的TPU),又或是没有宣布出充足雄厚的信息(如地平线的征程2.0芯片),本文中没有对它们做充足细致的引见。

往后假如他们有充足重磅的产物推出,又或许宣布出了充足雄厚的信息,我们也会在第一时间为人人带来解读,迎接人人继承关注电动知士。

1
联系我们