全球十大AI训练芯片大盘点：华为昇腾910是中国唯一入选

cslehe 发表于 2021-4-17 22:43:06

#111723#AI芯片哪家强？当初，有直接的对照与参考了。
英国一位资深芯片工程师James W. Hanlon，清点了以后十大AI练习芯片。
并给出了各个指标的横向对照，也是现在对AI练习芯片最新的探讨与梳理。
此中，华为昇腾910是中国芯片厂商独一当选的芯片，其机能怎样，也在这一对照中有了展示。

Cerebras Wafer-Scale Engine这一芯片于往年8月份正式面世，被称为“史上最大AI芯片”，名为“晶圆级引擎”（Cerebras Wafer Scale Engine，简称WSE）。
其最大的特点是将逻辑运算、通信和存储器集成到单个硅片上，是一种专门用于深度进修的芯片。
一举创下4项天下记录：
1、晶体管数目最多的运算芯片：统共包括1.2万亿个晶体管。固然三星曾造出2万亿个晶体管的芯片，倒是用于存储的eUFS。
2、芯片面积最大：尺寸约20厘米×23厘米，总面积46225平方毫米。
3、片上缓存最大：包括18GB的片上SRAM存储器。
4、运算中心最多：包括410,592个处置中心
之以是可能有如斯亮眼的数据，直接得益于其集成了84个高速互连的芯片，单个芯片在FP32上的峰值机能表示为40 Tera FLOPs，芯片功率达15千瓦，与AI集群相称。
片上缓存也到达了18GB，是GPU缓存的3000倍；可供给每秒9PB的内存带宽，比GPU快10,000倍。
晶片范围集成，并不是一个新的主意，但产量、功率传输和热收缩相干的成绩使其很难贸易化。在这些方面，Cerebras都给出了响应的处理措施：
1、为懂得决缺点致使良率不高的成绩，Cerebras在计划的芯片时间斟酌了1~1.5%的冗余，增加了额定的中心，当某个中心呈现成绩时将其屏障不必，因而有杂质不会致使全部芯片报废。
2、Cerebras与台积电配合发现了新技巧，来处置存在万亿加晶体管芯片的刻蚀和通信成绩。
3、在芯片上方装置了一块“冷却板”，应用多个垂直装置的水管直接冷却芯片。
Cerebras公司由Sean Lie（首席硬件架构师）、Andrew Feldman（首席履行官）等人于2016年创建。后者曾创立微型效劳器公司SeaMicro，并以3.34亿美元的价钱出卖给AMD。
该公司在加州有194名员工，此中包含173名工程师，迄今为止曾经从Benchmark等风投契构取得了1.12亿美元的投资。
Google TPU（v1、v2、v3）Google TPU系列芯片正式宣布于2016年，第一代芯片TPU v1只用于推理，并且只支撑整数运算。
通过在PCIe-3之间发送指令来履行矩阵乘法和利用激活函数，从而为主机CPU供给减速，节俭了大批的计划和验证时光。其重要数据为：
1、芯片面积331平方毫米，28nm制程
2、频率为700 MHz，功耗28-40W
3、片上存储为28 MB SRAM：24MB 用于激活，4MB 用于累加器
4、芯片面积比例：35%用于内存，24%用于矩阵乘法单位，剩下的41%面积用于逻辑。
5、256x256x8b压缩矩阵乘法单位(64K MACs/cycle)
6、Int8和 INT16算法(峰值分辨为92和23 TOPs/s)
IO数据：
能够通过两个接口拜访8 GB DDR3-2133 DRAM，速率为34 GB/s
1、PCIe-3x16 (14 GBps)
2017年5月，Google TPU v2宣布，改良了TPU v1的浮点运算才能，并加强了其内存容量、带宽以及HBM 集成内存，不但可能用于推理，也可能用于练习。其单个芯片的数据以下：
2、20nm制程，功耗在200-250W（揣测）
3、BFloat16上机能表示为45 TFLOPs，也支撑 FP32
4、存在标量和矩阵单位的双核
5、集成4块芯片后，峰值机能为180 TFLOPs
单核数据：
1、128x128x32b压缩矩阵单位(MXU)
2、8GB公用HBM，接入带宽300 GBps
3、BFloat16上的最大吞吐量为22.5 TFLOPs
IO数据：
4、16Gb HBM集成内存，600 GBps带宽(揣测)
5、PCIe-3 x8 (8 GBps)
6、Google TPU v2宣布一年以后，Google再度宣布新版芯片——TPU v3。
但对于TPU v3的细节很少，很可能只是对TPU v2一个渐进式改版，机能表示翻倍，增添了HBM2内存使容量和带宽翻倍。其单个芯片的数据以下：
1、16nm或12nm制程，功耗估量在200W
2、BFloat16的机能为105 TFLOPs，可能是MXUs的2倍到4倍
3、每个MXU都能拜访8GB的公用内存
4、集成4个芯片后，峰值机能420 TFLOPs
IO数据：
32GB的HBM2集成内存，带宽为1200GBps (揣测)
PCIe-3 x8 (8 GBps)（揣测）
Graphcore IPUGraphcore建立于建立于2016年，不但备受资源和业界巨子的青眼，还颇受业内大佬的承认。
2018年12月，发布实现2亿美元的D轮融资，估值17亿美元。投资方有宝马、微软等业界巨子，另有有名的风投公司Sofina、Atomico等。
AI巨子Hinton、DeepMind开创人哈萨比斯，都直接表白了夸奖。

Graphcore IPU是这家公司的明星产物，其架构与大批存在小内存的简略处置器高度并行，通过一个高带宽的“交流”互连衔接在一同。
其架构在一个大容量同步并行(BSP)模子下运转，顺序的履行依照一系列盘算和交流阶段停止。同步用于确保全部过程筹备好开端交流。
BSP模子是一个强盛的编程形象，用于消除并发性危险，而且BSP的履行，容许盘算和交流阶段充足应用芯片的动力，从而更好地把持功耗。能够通过链接10个IPU间链路来树立更大的IPU芯片体系。其中心数据以下：16nm制程，236亿个晶体管，芯片面积大概为800平方毫米，功耗为150W，PCIe卡为300 W1216个处置器，在FP32累加的情形下，FP16算法峰值到达125 TFLOPs散布在处置器中心之间有300 MB的片上内存，供给45 TBps的总拜访带宽全部的模子状况保留在芯片上，没有直接衔接DRAMIO数据：
2x PCIe-4的主机传输链接10倍的卡间IPU链接共384GBps的传输带宽单核数据：
1、混杂精度浮点随机算法2、最多运转六个线程Habana Labs GaudiHabana Labs一样建立于2016年，是一家以色列AI芯片公司。
2018年11月，实现7500万美元的B轮募资，总募资约1.2亿美元。
Gaudi芯片于往年6玉轮相，直接对标英伟达的V100。
其团体的计划，与GPU也有类似之处，特别是更多的SIMD并行性和HBM2内存。
芯片集成了10个100G 以太网链路，支撑近程直接内存拜访(RDMA)。与英伟达的NVLink或OpenCAPI比拟，这类数据传输功效容许应用商用收集装备构建大型体系。其中心数据以下：
TSMC 16 nm制程（CoWoS工艺），芯片尺寸大概为500平方毫米异构架构：GEMM操纵引擎、8个张量处置核(TPCs)SRAM内存同享PCIe卡功耗为200W，夹层卡为300W片上内存未知TPC中心数据：
VLIW SIMD并行性和一个当地SRAM内存支撑混杂精度运算：FP32、 BF16，以及整数格局运算(INT32、INT16、INT8、UINT32、UINT8)随机数天生、超出函数：Sigmoid、Tanh、GeLUIO数据：
4x 供给32 GB的HBM2-2000 DRAM 客栈，团体达1 TBps芯片上集成10x 100GbE 接口，支撑融会以太网上的 RDMA (RoCE v2)PCIe-4 x16主机接口Huawei Ascend 910华为昇腾910，一样直接对标英伟达V100，于往年8月份正式商用，号称业内算力最强的AI练习芯片。主打深度进修的练习场景，重要客户面向AI数据迷信家和工程师。

其中心数据为：
7nm+EUV工艺，456平方毫米集成4个96平方毫米的 HBM2栈和 Nimbus IO处置器芯片32个达芬奇内核FP16机能峰值256TFLOPs (32x4096x2) ，是 INT8的两倍32 MB的片上 SRAM (L2缓存)功耗350W互联和IO数据：
内核在6 x 4的2d网格封包交流网路中彼此衔接，每个内核供给128 GBps 的双向带宽4 TBps的L2缓存拜访1.2 TBps HBM2接入带宽3x30GBps 芯片外部 IOs2 x 25 GBps RoCE 收集接口单个达芬奇内核数据：
3D 16x16x16矩阵乘法单位，供给4,096个 FP16 MACs 和8,192个 INT8 MACs针对 FP32(x64)、 FP16(x128)和 INT8(x256)的2,048位 SIMD 向量运算支撑标量操纵Intel NNP-T这是Xeon Phi以后，英特尔再次进军AI练习芯片，用时4年，壕购4家创业公司，破费超越5亿美元，在往年8月份宣布。
神经收集练习处置器NNP-T中的“T”指Train，也就是说这款芯片用于AI推理，处置器代号为Spring Crest。
NNP-T将由英特尔的竞争敌手台积电（TSMC）制作，采取16nm FF+工艺。
NNP-T有270亿个16nm晶体管，硅片面积680平方毫米，60mmx60mm 2.5D封装，包括24个张量处置器构成的网格。
中心频率最高可达1.1GHz，60MB片上存储器，4个8GB的HBM2-2000内存，它应用x16 PCIe 4接口，TDP为150~250W。
每个张量处置单位都有一个微把持器，用于指点是数学协处置器的运算，还能够通过定制的微把持器指令停止扩大。
NNP-T支撑3大主流呆板进修框架：TensorFlow、PyTorch、PaddlePaddle，还支撑C++++ 深度进修软件库、编译器nGraph。
在算力方面，芯片最高能够到达每秒119万亿次操纵（119TOPS），然而英特尔并未流露是在INT8仍是INT4上的算力。
作为对照，英伟达Tesla T4在INT8上算力为130TOPS，在INT4上为260TOPS。
英伟达Volta架构芯片英伟达Volta，2017年5月颁布，从 Pascal 架构中引入了张量核、 HBM2和 NVLink 2.0。
英伟达V100芯片就是基于此架构的首款GPU芯片，其中心数据为：TSMC 12nm FFN工艺，211亿个晶体管，面积为815平方毫米功耗为300W，6 MB L2缓存84个SM，每个包括：64个 FP32 CUDA 核，32个 FP64 CUDA 核和8个张量核(5376个 FP32核，2688个 FP64核，672个 TCs)。单个Tensor Core每时钟履行64个FMA操纵（统共128 FLOPS），每个SM存在8个如许的内核，每个SM每个时钟1024个FLOPS。比拟之下，即便采取纯FP16操纵，SM中的尺度CUDA内核只能在每个时钟发生256个FLOPS。每个SM，128 KB L1数据缓存 / 同享内存和4个16K 32位存放器。IO数据：
32 GB HBM2 DRAM，900 GBps带宽300 GBps的NVLink 2.0英伟达Turing架构芯片Turing架构是对Volta架构的进级，于2018年9月宣布，但 CUDA 和张量核更少。
因而，它的尺寸更小，功率也更低。除了呆板进修义务，它还被计划用来履行及时射线追踪。其中心数据为：
TSMC 12nm FFN工艺，面积为754平方毫米，186亿个晶体管，功耗260W72个SM，每个包括：64个 FP32核，64个 INT32核，8个张量核(4608个 FP32核，4608个 INT32核和576个 TCs)带有boost时钟的峰值机能：FP32上为16.3 TFLOPs、FP16上为130.5 TFLOPs、INT8上为261 TFLOPs、INT4上为522 TFLOPs片上内存为24.5 MB，在6MB的 L2缓存和256KB 的 SM 存放器文件之间基定时钟为1455 MHzIO数据：
12x32位 GDDR6存储器，供给672 GBps 聚合带宽2x NVLink x8链接，每个链接供给多达26 GBps 的双向速率本文来自转载自大众号「QbitAI」和「量子位」，本文作为转载分享。
更多内容阅读推荐：燃气热水器出水量与什么有关

页: [1]

计算机技术论坛's Archiver

全球十大AI训练芯片大盘点：华为昇腾910是中国唯一入选