详细介绍GPGPU计算的原理和应用

cslehe · 发表于 2021-4-12 04:18:25

#111723#当下，嵌入式体系计划重要面对两个艰苦，可将其演绎为：算力的丧失和功耗的增添。重要的“祸首罪魁”包含：数据源的涌入（influx），技巧的延续进级，体系范围的缩小以及体系外部密度的增添。
高机能嵌入式盘算机（HPEC）体系曾经开端在通用图形处置器单位（GPGPU）上应用公用的并行盘算速率和机能，使体系计划职员可能将杰出的功率和机能带入牢固耐用的小型化计划（SFFs）。
GPU减速盘算将图形处置单位（GPU）与中心处置单位（CPU）联合在一同，以减速利用顺序，并将一些盘算麋集型义务从CPU移到到GPU。
这里，须要特殊存眷的是，跟着处置请求的一直进步，主盘算引擎——CPU——终究会不胜重负。而GPU曾经开展成为一种极为机动且强盛的处置器，而且因为存在改良的可编程性、精度和并行处置才能，能够比CPU更好、更快地处置某些盘算义务。
假如能深刻懂得GPGPU盘算，包含其强盛的功效和范围性，能够辅助计划职员为利用抉择能供给最好机能的产物。
上面，咱们就来剖析一下对于GPGPU的11种说法和认知，看哪些是对的，哪些是错的。
1.GPGPU只实用于花费类电子产物，如游戏中的图形衬着
这类说法错误。正如从前几年所展现的那样，GPGPU正在从新界说数据处置和深度进修收集方面的才能，以及塑造着其在人工智能范畴的抽象和冀望。且有越来越多基于GPGPU技巧的军事和国防名目在利用中安排，包含用于雷达的进步处置才能，图象辨认，分类，活动检测，编码等体系。
2.由于是“通用的”，以是GPU不是为处置庞杂的高密度盘算义务而计划的
这类说法也是错的。典范的强盛RISC或CISC CPU存在数十个庞杂中心。GPU存在数千个“公用”内核，经由优化可处置和操纵大型数据矩阵，如表现器或输入装备和光学相机（见图1）。这些GPU容许利用顺序在多个内核之间同享算法，而且更轻易构建和履行并行处置。可能在GPU上创立很多并发“内核” ——每个“内核”担任特定盘算的子集——使体系可能履行庞杂的高密度盘算。

图1：固然多核CPU能供给加强的处置才能，但基于CUDA的GPU可供给数千个并交运行，并同时处置大批数据的内核。
GPGPU管道在GPU上应用并行处置来剖析数据，就似乎它是图象或其余图形数据一样。固然GPU在较低频率下运转，但它们平日存在很多中心数目。因而，与传统CPU比拟，GPU每秒能够处置更多的图片和图形数据。应用GPU并行管道扫描和剖析图形数据能够实现大幅减速。
3.GPGPU不敷牢固，没法蒙受如井下监测、挪动或军事利用等卑劣情况
错。加固的义务现实上是在电路板或体系制作商身上。在卑劣的电子情况中应用的很多零部件在制作时并不牢固，这方面，GPGPU与别的器件雷同。这时，就须要计划牢靠体系的常识施展感化了，包含哪种技巧能够最好地加重情况迫害等要素的影响，并确保体系满意特定的利用请求。
比方， Aitech具有基于GPGPU的电路板和SFF体系，这些电路板和SFF体系合乎很多航空电子装备，水师，空中和挪动利用请求，这得益于其数十年积聚起来的、可用于体系开辟的专业常识。
4.当处置才能超越体系请求时，替换计划须要增添功耗（即购置功效更强盛的硬件）
这类说法是对的。假如用户试图防止应用GPGPU，平日会致使CPU机能缺乏。为了实验处理这个困难，平日会增添额定的CPU板，或许现有的板会超频，从而致使功耗增添。在大少数情形下，成果是下降了CPU频任性能以及须要下降时钟以弥补芯片温度回升。
5.不增加另一个处置引擎会增添体系中的庞杂性和集成成绩吗？
在短期内，或许是如许，由于您须要斟酌应用新的尖端技巧的进修曲线。但从久远来看，不是如许。CUDA已成为图象处置和算法的现实上的盘算言语。构建CUDA算法后，您能够在支撑NVIDIA GPGPU板的任何差别平台上“反复应用”它。将它从一个平台移植到另一个平台很轻易，因而，该方式只要要很少的特定硬件，因而更“通用”。
6.因为基于GPGPU的体系处置极大批的数据，因而会增添功耗
不是的。现今的GPGPU十分节能。一些GPGPU板的功耗与CPU板上的功耗雷同。GPGPU板能够应用数千个CUDA内核处置更多的并行数据。因而，功率 - 机能比是以十分踊跃的方法遭到影响的要素。
7.在机能和功耗之间仍须要衡量
是的，这些衡量老是存在的。更高的机能和更快的吞吐量须要更多的功耗，这是现实。但这些是您在应用CPU或别的处置器时，一样须要面临的成绩，无一破例。
比方，采取“NVIDIA Optimus技巧”时，因为它是一种盘算机GPU切换技巧，此中，自力GPU处置全部衬着义务，终究图象输出到表现器仍由RISC处置器及其集成图形处置器（IGP）处置。现实上，RISC CPU的IGP仅用作简略的表现把持器，从而实现无缝、及时、无闪耀的休会，无需在GPGPU或同享CPU上承当图象衬着和天生的全体累赘全部RISC CPU上的图象辨认资本。这类负载同享可使体系愈加强盛。
当运转不太要害或请求较低的利用顺序时，能够封闭自力GPU。英特尔IGP可处置衬着和表现挪用，以节俭电量并供给最高的机能功耗比。
8.均衡CPU上的负载能够通过简略的电路板进级来实现，且足以治理体系所需的数据处置
错。对于这类情形，业界确定会采取并行处置，即采取GPU处置，这是有充足来由的。并行处置图象是GPU最善于的。跟着数据输入和摄像机辨别率的一直增加，对并行处置架构的需要将成为常态，而不是奢靡品。对于须要同时捕捉、比拟、剖析和决议数百个图象的义务和保险行业特别如斯（见图2）。

图2：跟着数据输入的增添，CPU在处置、负载均衡和时钟请求方面的才能将没法满意现实请求。
9.摩尔定律也实用于GPGPU
是的。有一个处理计划。NVIDIA现在正在对多芯片模块GPU（MCM-GPU）架构停止原型计划，虽然现今的集成电路制程工艺进级越来越艰苦，晶体管微缩速率显明减缓，但该架构可实现延续的GPU机能扩大。
在GTC 2019上，NVIDIA对于MCM-GPU芯片的探讨部份，特殊先容了很多可利用于更高等别盘算体系的技巧，包含mesh收集，低耽误信令和可扩大的深度进修架构，以及无机基板上的die-to-die高效传输技巧。
10.进修一种全新的编程言语（如CUDA）须要破费太多的时光和款项投入
现实上，并不是如许的。现在，CUDA是现实上的并行盘算尺度言语，且市场上曾经安排了很多基于CUDA的处理计划，因而，很多算法曾经移植到了CUDA。NVIDIA有一个大型的在线论坛，有很多利用案例，收集培训课程，用户社区等。另外，软件公司乐意辅助计划职员实现CUDA的入门。在很多大学，CUDA当初是编程言语课程的一部份。
进修任何新的盘算技巧仿佛都市使人生畏。然而，凭仗可用资本和GPGPU技巧的辽阔远景，这是一种十分值得投资的编程言语。
11.嵌入式市场没有“产业级”GPGPU，特殊是SFF，SWaP优化体系
错。NVIDIA具有一套完全的、面向嵌入式市场的“Jetson”产物线（见图3）。现在包含以下体系模块（SoM），每个模块都采取SFF计划，对其尺寸、分量和功耗都停止了优化。
TX1
TX2
TX2i：特别的“产业”版本，实用于十分“卑劣”的情况
Xavier

图3：专为产业级和军用级利用而计划的GPGPU，正在从新界说SWaP优化和SFF体系的预期机能。
现实上，NVIDIA推出了存在更永生命周期的TX2i模块，这象征着对于临时打算（如航空航天、国防和太空）以及几种产业利用来讲，组件过期危险较小。业界曾经安排了很多响应的军事和产业名目以及客户打算，天天都有新的利用推出。
更多内容阅读推荐：电视开机后白屏怎么办

账号		自动登录	找回密码
密码			立即注册

详细介绍GPGPU计算的原理和应用

浏览过的版块