cslehe 发表于 2021-4-17 22:43:06

全球十大AI训练芯片大盘点:华为昇腾910是中国唯一入选

#111723#<p>AI芯片哪家强?当初,有直接的对照与参考了。
<p>英国一位资深芯片工程师James W. Hanlon,清点了以后十大AI练习芯片。
<p>并给出了各个指标的横向对照,也是现在对AI练习芯片最新的探讨与梳理。
<p>此中,华为昇腾910是中国芯片厂商独一当选的芯片,其机能怎样,也在这一对照中有了展示。

Cerebras Wafer-Scale Engine<p>这一芯片于往年8月份正式面世,被称为“史上最大AI芯片”,名为“晶圆级引擎”(Cerebras Wafer Scale Engine,简称WSE)。
<p>其最大的特点是将逻辑运算、通信和存储器集成到单个硅片上,是一种专门用于深度进修的芯片。
<p>一举创下4项天下记录:
<p>1、晶体管数目最多的运算芯片:统共包括1.2万亿个晶体管。固然三星曾造出2万亿个晶体管的芯片,倒是用于存储的eUFS。
<p>2、芯片面积最大:尺寸约20厘米×23厘米,总面积46225平方毫米。
<p>3、片上缓存最大:包括18GB的片上SRAM存储器。
<p>4、运算中心最多:包括410,592个处置中心
<p>之以是可能有如斯亮眼的数据,直接得益于其集成了84个高速互连的芯片,单个芯片在FP32上的峰值机能表示为40 Tera FLOPs,芯片功率达15千瓦,与AI集群相称。
<p>片上缓存也到达了18GB,是GPU缓存的3000倍;可供给每秒9PB的内存带宽, 比GPU快10,000倍。
<p>晶片范围集成,并不是一个新的主意,但产量、功率传输和热收缩相干的成绩使其很难贸易化。在这些方面,Cerebras都给出了响应的处理措施:
<p>1、为懂得决缺点致使良率不高的成绩,Cerebras在计划的芯片时间斟酌了1~1.5%的冗余,增加了额定的中心,当某个中心呈现成绩时将其屏障不必,因而有杂质不会致使全部芯片报废。
<p>2、Cerebras与台积电配合发现了新技巧,来处置存在万亿加晶体管芯片的刻蚀和通信成绩。
<p>3、在芯片上方装置了一块“冷却板”,应用多个垂直装置的水管直接冷却芯片。
<p>Cerebras公司由Sean Lie(首席硬件架构师)、Andrew Feldman(首席履行官)等人于2016年创建。后者曾创立微型效劳器公司SeaMicro,并以3.34亿美元的价钱出卖给AMD。
<p>该公司在加州有194名员工,此中包含173名工程师,迄今为止曾经从Benchmark等风投契构取得了1.12亿美元的投资。
Google TPU(v1、v2、v3)<p>Google TPU系列芯片正式宣布于2016年,第一代芯片TPU v1只用于推理,并且只支撑整数运算。
<p>通过在PCIe-3之间发送指令来履行矩阵乘法和利用激活函数,从而为主机CPU供给减速,节俭了大批的计划和验证时光。其重要数据为:
<p>1、芯片面积331平方毫米,28nm制程
<p>2、频率为700 MHz,功耗28-40W
<p>3、片上存储为28 MB SRAM:24MB 用于激活,4MB 用于累加器
<p>4、芯片面积比例:35%用于内存,24%用于矩阵乘法单位,剩下的41%面积用于逻辑。
<p>5、256x256x8b压缩矩阵乘法单位(64K MACs/cycle)
<p>6、Int8和 INT16算法(峰值分辨为92和23 TOPs/s)
<p>IO数据:
<p>能够通过两个接口拜访8 GB DDR3-2133 DRAM,速率为34 GB/s
<p>1、PCIe-3x16 (14 GBps)
<p>2017年5月,Google TPU v2宣布,改良了TPU v1的浮点运算才能,并加强了其内存容量、带宽以及HBM 集成内存,不但可能用于推理,也可能用于练习。其单个芯片的数据以下:
<p>2、20nm制程,功耗在200-250W(揣测)
<p>3、BFloat16上机能表示为45 TFLOPs,也支撑 FP32
<p>4、存在标量和矩阵单位的双核
<p>5、集成4块芯片后,峰值机能为180 TFLOPs
<p>单核数据:
<p>1、128x128x32b压缩矩阵单位(MXU)
<p>2、8GB公用HBM,接入带宽300 GBps
<p>3、BFloat16上的最大吞吐量为22.5 TFLOPs
<p>IO数据:
<p>4、16Gb HBM集成内存,600 GBps带宽(揣测)
<p>5、PCIe-3 x8 (8 GBps)
<p>6、Google TPU v2宣布一年以后,Google再度宣布新版芯片——TPU v3。
<p>但对于TPU v3的细节很少,很可能只是对TPU v2一个渐进式改版,机能表示翻倍,增添了HBM2内存使容量和带宽翻倍。其单个芯片的数据以下:
<p>1、16nm或12nm制程,功耗估量在200W
<p>2、BFloat16的机能为105 TFLOPs,可能是MXUs的2倍到4倍
<p>3、每个MXU都能拜访8GB的公用内存
<p>4、集成4个芯片后,峰值机能420 TFLOPs
<p>IO数据:
<p>32GB的HBM2集成内存,带宽为1200GBps (揣测)
<p>PCIe-3 x8 (8 GBps)(揣测)
Graphcore IPU<p>Graphcore建立于建立于2016年,不但备受资源和业界巨子的青眼,还颇受业内大佬的承认。
<p>2018年12月,发布实现2亿美元的D轮融资,估值17亿美元。投资方有宝马、微软等业界巨子,另有有名的风投公司Sofina、Atomico等。
<p>AI巨子Hinton、DeepMind开创人哈萨比斯,都直接表白了夸奖。

<p>Graphcore IPU是这家公司的明星产物,其架构与大批存在小内存的简略处置器高度并行,通过一个高带宽的“交流”互连衔接在一同。
<p>其架构在一个大容量同步并行(BSP)模子下运转,顺序的履行依照一系列盘算和交流阶段停止。同步用于确保全部过程筹备好开端交流。
BSP模子是一个强盛的编程形象,用于消除并发性危险,而且BSP的履行,容许盘算和交流阶段充足应用芯片的动力,从而更好地把持功耗。能够通过链接10个IPU间链路来树立更大的IPU芯片体系。其中心数据以下:16nm制程,236亿个晶体管,芯片面积大概为800平方毫米,功耗为150W,PCIe卡为300 W1216个处置器,在FP32累加的情形下,FP16算法峰值到达125 TFLOPs散布在处置器中心之间有300 MB的片上内存,供给45 TBps的总拜访带宽全部的模子状况保留在芯片上,没有直接衔接DRAM<p>IO数据:
2x PCIe-4的主机传输链接10倍的卡间IPU链接共384GBps的传输带宽<p>单核数据:
1、混杂精度浮点随机算法2、最多运转六个线程Habana Labs Gaudi<p>Habana Labs一样建立于2016年,是一家以色列AI芯片公司。
<p>2018年11月,实现7500万美元的B轮募资,总募资约1.2亿美元。
<p>Gaudi芯片于往年6玉轮相,直接对标英伟达的V100。
<p>其团体的计划,与GPU也有类似之处,特别是更多的SIMD并行性和HBM2内存。
<p>芯片集成了10个100G 以太网链路,支撑近程直接内存拜访(RDMA)。与英伟达的NVLink或OpenCAPI比拟,这类数据传输功效容许应用商用收集装备构建大型体系。其中心数据以下:
TSMC 16 nm制程(CoWoS工艺),芯片尺寸大概为500平方毫米异构架构:GEMM操纵引擎、8个张量处置核(TPCs)SRAM内存同享PCIe卡功耗为200W,夹层卡为300W片上内存未知<p>TPC中心数据:
VLIW SIMD并行性和一个当地SRAM内存支撑混杂精度运算:FP32、 BF16,以及整数格局运算(INT32、INT16、INT8、UINT32、UINT8)随机数天生、超出函数:Sigmoid、Tanh、GeLU<p>IO数据:
4x 供给32 GB的HBM2-2000 DRAM 客栈, 团体达1 TBps芯片上集成10x 100GbE 接口,支撑融会以太网上的 RDMA (RoCE v2)PCIe-4 x16主机接口Huawei Ascend 910<p>华为昇腾910,一样直接对标英伟达V100,于往年8月份正式商用,号称业内算力最强的AI练习芯片。主打深度进修的练习场景,重要客户面向AI数据迷信家和工程师。

<p>其中心数据为:
7nm+EUV工艺,456平方毫米集成4个96平方毫米的 HBM2栈和 Nimbus IO处置器芯片32个达芬奇内核FP16机能峰值256TFLOPs (32x4096x2) ,是 INT8的两倍32 MB的片上 SRAM (L2缓存)功耗350W<p>互联和IO数据:
内核在6 x 4的2d网格封包交流网路中彼此衔接,每个内核供给128 GBps 的双向带宽4 TBps的L2缓存拜访1.2 TBps HBM2接入带宽3x30GBps 芯片外部 IOs2 x 25 GBps RoCE 收集接口<p>单个达芬奇内核数据:
3D 16x16x16矩阵乘法单位,供给4,096个 FP16 MACs 和8,192个 INT8 MACs针对 FP32(x64)、 FP16(x128)和 INT8(x256)的2,048位 SIMD 向量运算支撑标量操纵Intel NNP-T<p>这是Xeon Phi以后,英特尔再次进军AI练习芯片,用时4年,壕购4家创业公司,破费超越5亿美元,在往年8月份宣布。
<p>神经收集练习处置器NNP-T中的“T”指Train,也就是说这款芯片用于AI推理,处置器代号为Spring Crest。
<p>NNP-T将由英特尔的竞争敌手台积电(TSMC)制作,采取16nm FF+工艺。
<p>NNP-T有270亿个16nm晶体管,硅片面积680平方毫米,60mmx60mm 2.5D封装,包括24个张量处置器构成的网格。
<p>中心频率最高可达1.1GHz,60MB片上存储器,4个8GB的HBM2-2000内存,它应用x16 PCIe 4接口,TDP为150~250W。
<p>每个张量处置单位都有一个微把持器,用于指点是数学协处置器的运算,还能够通过定制的微把持器指令停止扩大。
<p>NNP-T支撑3大主流呆板进修框架:TensorFlow、PyTorch、PaddlePaddle,还支撑C++++ 深度进修软件库、编译器nGraph。
<p>在算力方面,芯片最高能够到达每秒119万亿次操纵(119TOPS),然而英特尔并未流露是在INT8仍是INT4上的算力。
<p>作为对照,英伟达Tesla T4在INT8上算力为130TOPS,在INT4上为260TOPS。
英伟达Volta架构芯片<p>英伟达Volta,2017年5月颁布,从 Pascal 架构中引入了张量核、 HBM2和 NVLink 2.0。
英伟达V100芯片就是基于此架构的首款GPU芯片,其中心数据为:TSMC 12nm FFN工艺,211亿个晶体管,面积为815平方毫米功耗为300W,6 MB L2缓存84个SM,每个包括:64个 FP32 CUDA 核,32个 FP64 CUDA 核和8个张量核(5376个 FP32核,2688个 FP64核,672个 TCs)。单个Tensor Core每时钟履行64个FMA操纵(统共128 FLOPS),每个SM存在8个如许的内核,每个SM每个时钟1024个FLOPS。比拟之下,即便采取纯FP16操纵,SM中的尺度CUDA内核只能在每个时钟发生256个FLOPS。每个SM,128 KB L1数据缓存 / 同享内存和4个16K 32位存放器。<p>IO数据:
32 GB HBM2 DRAM,900 GBps带宽300 GBps的NVLink 2.0英伟达Turing架构芯片<p>Turing架构是对Volta架构的进级,于2018年9月宣布,但 CUDA 和张量核更少。
<p>因而,它的尺寸更小,功率也更低。除了呆板进修义务,它还被计划用来履行及时射线追踪。其中心数据为:
TSMC 12nm FFN工艺,面积为754平方毫米,186亿个晶体管,功耗260W72个SM,每个包括:64个 FP32核,64个 INT32核,8个张量核(4608个 FP32核,4608个 INT32核和576个 TCs)带有boost时钟的峰值机能:FP32上为16.3 TFLOPs、FP16上为130.5 TFLOPs、INT8上为261 TFLOPs、INT4上为522 TFLOPs片上内存为24.5 MB,在6MB的 L2缓存和256KB 的 SM 存放器文件之间基定时钟为1455 MHz<p>IO数据:
12x32位 GDDR6存储器,供给672 GBps 聚合带宽2x NVLink x8链接,每个链接供给多达26 GBps 的双向速率<p><em>本文来自转载自大众号「QbitAI」和「量子位」,本文作为转载分享。</em>
更多内容阅读推荐:燃气热水器出水量与什么有关
页: [1]
查看完整版本: 全球十大AI训练芯片大盘点:华为昇腾910是中国唯一入选