超级计算机和FPGA

cslehe · 发表于 2021-4-12 06:36:44

#111723#01
超等盘算机和FPGA
1、超算?
大数据、基因迷信、金融工程、人工智能、新资料计划、制药和医疗工程、景象灾祸猜测等范畴所触及的盘算处置，家用团体盘算机级其余机能是远远不敷的。超等盘算机(以下简称超算)就是为懂得决这类超大范围的成绩而开辟的。超算并没有一个明白的界说，平日所说的超算大抵是机能在家用盘算机的1000倍以上，或许实践机能在50 TFLOPST以上的体系。
FPGA作为能够进步超算能效比的通用器件遭到了普遍存眷。从机能、机动性和功耗效力方面，CPU、FPGA和ASIC外面FPGA走的是旁边线路。FPGA的功耗效力是高于CPU的，机动性高于ASIC；从功耗效力、机能保证性和算法实用性来看，FPGA应当是碾压GPU的。GPU实用的算法十分无限，拿到一个算法，是否到达终究的机能是有危险的；初期GPU的实现算法十分轻易，然而自从Xilinx在高档次综合HLS方面深度耕作后，FPGA的编程轻易度也下降了良多。其上风是岂但能够作为运算减速器，还能够作为衔接器件让超算中浩繁的运算处置器和运算减速器更严密地联合。另外，IoT技巧正在推进硬件基本设备的进级，以后运算和数据的会合化和疏散化过程都市减速开展。在这个过程傍边，为了应用超算技巧，也请求数据核心具有愈加簇新和无效的方式和技巧口。除了大范围盘算之外，从强化进级社会IT基本建立的角度上看，超算技巧也越来越须要。因而，PLD/FPGA势必会在超算中失掉更普遍的应用。

02
超算中的FPGA利用案例
1、起首是筑波大学20世纪70年月开端研发用于迷信盘算的并行盘算机PACS/PAX，而HA-PACS是该系列的第8代。PACS/PAX系列自开辟之初就以实现了CPU和内存间的高速互联架构而驰名。HA-PACS是PACS/PAX系列中初次采取GPU作为运算减速器的超算。用GPU进步超算机能，还必需要实现可能充足施展GPU高运算机能的并行体系架构。但是，HA-PACS开辟时的GPU存在些成绩，致使难以实现高效的并行体系架构。比方在多个GPU间同享数据时,传输前后须要在宿主CPU的主存中停止数据复制。另有将数据传输从PCle转为其余通讯方法时，很难增添通讯耽误。为了改良这些成绩，HA-PACS体系基于PEARL ( PCI Express Adaptive and Reliable Link)观点提出了TCA ( Tightly Coupled Accelerato-rs) 技巧，并开端开辟实现TCA的PEACH2板卡。
那末由CPU+GPU+FPGA构成的异构体系的机能又怎样呢? HA-PACS/TCA是一个只有64个节点的小范围体系，实践机能为364.3TFLOPS,实测机能为277.1 TFLOPS, 2013年11月位列TOP500的第134名。别的，因为该体系到达了3.52 GFLOPS/W的高能效比，在2013年11月和2014年6月的Green500榜中位列第3名。HA-PACS/TCA的基本部份采取GPU和CPU组合来实现高机能、低功耗的运算，再加上基于FPGA的PEACH2的应用，进一步进步了跨学科配合利用中的运算机能。
PEACH2供给了能够让多个GPU直接互联通讯的框架。详细来讲，PEACH2扩大了PCle通讯衔接，并实现了GPU间的直接通讯，从而到达了进步数据传输效力的目标”。技巧上，PEACH2实现了一种路由，能够将PCIe协定中Root Complex和多个End Point间的数据包在多个节点间传输。
本来的数据传输门路GPUmem→CPUmem→(InfiniBand/MPI)→CPUmem→GPU mem, 收缩为了GPU mem→(PCIe/PEACH2)→GPU mem,即GPU间的直连传输。另外，通讯协定的同一也实现了比InfiniBand更低的耽误。
上面一同看一下PEACH2的通讯机能。PEACH2具有4个PCleGen2 x8 (8通路)端口。这里的端口数目上的限度并非源于PEACH2自身，而是由于所采取的FPGA器件的物理限度，这点能够通过FPGA制作技巧的晋升而改良。PEACH2中GPU对GPU的DMA的Ping-pong耽误为2.0us ( 100万分之2秒)，CPU对CPU的耽误为1.8 us,能够说通讯耽误非常小了。PEACH2能到达这类机能要归功于应用了PLD/FPGA,正因如斯它才干将传输开消下降到2.0 us的水平。这特性能和MVAPICH2 v2.0-GDR ( 带GDR : 4.5us ;不带GDR : 19 us) 比拟曾经充足了。FPGA的采取实现了轻量化协定、多RootComplex互联、Block-Stride通讯硬件，从而取得了高利用机能。另外，在Ping-pong带宽方面，PEACH2 的CPU对CPU的DMA传输机能约为3.5 GB/s,到达了实践机能的95%;GPU对GPU的DMA机能约为2.8GB/s。但是，当负载巨细超越512 KB时MVAPICH2 v2.0-GDR的机能更高，能够在现实利用时依据需要停止抉择。综上，不管研讨范畴或贸易体系，以后都市持续摸索可能施展PLD/FPGA上风的高效方式，从而进步体系的团体机能。

接着，因为高效运算多是履行大批反复性的运算，比方景象猜测、风洞测试等，以是能够将履行的利用顺序转化成FPGA内的组态(ConfiguraTIon)顺序，以硬件线路方法来履行运算，如斯将比过往用纯软件方法履行快上数倍至数十倍的效力，乃至在特定的利用运算上能达一百倍以上的效力。
更细心而言，实在是将全部利用顺序中反复性最高、且最常常用的函数库停止转化，并以FPGA的硬件线路履行，如斯就能取得最大的减速后果。
Cray如斯，与Cray同为高效运算市场的另一家业者：SGI(视算科技)也履行雷同的作法，SGI提出所谓的RASC(Reconfigurable ApplicaTIon Specific Computing，可组态化利用顺序性运算，）RASC也是以模块方法让原有的超等盘算性能取得减速后果。
SGI的作法与Cray有部份雷同也有部份差别，Cray是将模块设置在原有超等盘算机的机内，而SGI则是应用既有超等盘算机机箱的上部来加搭减速模块，不外就功能机制而言二者异曲同工，另外二者都应用Xilinx的VIRTEX系列FPGA，然而内存与I/O部份两家也履行差别的计划，Cray是应用QDR II SRAM，SGI则是可履行QDR SRAM，或许也可用DDR2 SDRAM，前者容量少(80MB)但速率快，后者容量大(20GB)而速率慢，供给两种抉择的缘由是可根据差别的利用顺序特征来选用。
别的，高效运算业者平日有独门的机内通信传输技巧，RapidArray等于Cray的独家技巧，而SGI本身也有独家的传输技巧，即NUMAlink 4(已是第四代技巧)，以是SGI的RASC不是应用RapidArray，而是应用NUMAlink 4。
实在Cray体系内所用的FPGA模块是与DRC Computer公司技巧配合而成，因而DRC Computer本身也有供给邻近计划，DRC的RPU(Reconfigurable Processor Units)一样也是用FPGA来减速，一样是用Xilinx VIRTEX FPGA，但与主体系间的衔接接口改成AMD Opteron处置器的接座接口，如斯个别应用AMD Opteron处置器的x86效劳器也能够加装RPU来晋升高效运算的效力。

原文题目：FPGA利用案例——超等盘算机
文章出处：【微信大众号：FPGA技巧同盟】欢送增加存眷！文章转载请注明出处。

更多内容阅读推荐：电磁炉不检锅的原因是什么

账号		自动登录	找回密码
密码			立即注册