找回密码
 立即注册

QQ登录

只需一步,快速开始

  • 欢迎访问 计算机技术论坛-电脑迷与初学者的家园!由于论坛管理严格,新注册会员可能遇到各种问题,无法解决的请发邮件 admin@jsjbbs.cn
查看: 900|回复: 0

相比在硬件性能上超越英伟达,软件生态的赶超难度显然更大-电子发烧友网

[复制链接]
发表于 2021-4-2 03:21:54 | 显示全部楼层 |阅读模式
#111723#英伟达在云端AI练习芯片市场超九成的市占率让新入局的竞争者们都将枪口指向这产业红AI公司。宣称AI机能比英伟达GPU的新产物很多,但真正冲破英伟达护城河的当初仍未看到。
比拟在硬件机能上超出英伟达,软件生态的赶超难度明显更大。不外,微软亚洲研讨院的NNFusion名目以及阿里云的HALO开源名目,正尽力下降从GPU迁徙到新的硬件平台的难度和本钱,再加上在多个主要AI模子上机能超英伟达最新A100GPU的IPU,云端AI芯片市场的格式将来几年可能会产生变更。
微软、阿里云开源名目
下降迁徙出GPU的难度

现在AI的落地,仍以互联网和云盘算为主。因而,科技巨子们很快发明迁徙到新平台不能只看峰值算力。Graphcore高等副总裁兼中国区总司理卢涛表现:“客户斟酌为一个新的软硬件平台买单时,起首斟酌的是可能取得几多收益。其次斟酌的是须要几多本钱,这触及软硬件的迁徙本钱。”
对于科技巨子们而言,GPU确切是一个好抉择,但斟酌到本钱、功耗以及本身营业的特色,依然有自研或许迁徙到别的高机能芯片的能源。此时,软件成为是否疾速、低本钱迁徙的要害。
将已有的AI模子迁徙到新的AI减速器时,当初广泛的做法是在TensorFlow写一些后端集成新硬件,这给社区和AI芯片公司都带来了累赘,也增添了迁徙的难度和本钱。

微软亚洲研讨院的NNFusion以及阿里云的HALO开源名目,都是盼望从AI编译的角度,防止反复性的任务,让用户可能在GPU和别的AI减速器之间只管腻滑迁徙,特殊是GPU和IPU之间的迁徙。


也就是说,NNFusion和HALO向上跨AI框架,既能够集成TensorFlow天生的模子,也能够集成PyTorch或其余框架天生的模子。向下用户只有通过NNFusion或许HALO的接口便可以在差别的AI芯片上做练习或许推理。
这类调理框架在下降迁徙难度和本钱的同时,还能晋升机能。依据2020OSDI(盘算机学界最顶级学术集会之一)宣布的研讨成果,研讨者在英伟达和AMD的GPU,另有GraphcoreIPU上做了种种测试后得出成果,在IPU上LSTM的练习模子失掉了3倍的晋升。
固然,如许的收益仍是须要开源社区与硬件供给方的严密配合,比方Graphcore与微软亚洲研讨院以及阿里云的配合。
增添迁入IPU的便捷性

“咱们与阿里云HALO和微软NNFusion严密配合,这两个名目支撑的最重要的平台是GPU和IPU。”卢涛表现,“现在在阿里云HALO的GitHub里曾经有IPU的完全支撑代码odla_PopArt,下载开源代码就曾经能够在IPU上应用。”
可能便捷地应用IPU也离不开主流呆板进修框架的支撑。Graphcore本月最新宣布了面向IPU的PyTorch产物级版本与PoplarSDK1.4。PyTorch是AI研讨者社区炙手可热的呆板进修框架,与TensorFlow两分世界。
PyTorch支撑IPU引发了呆板进修大神YannLeCun的存眷。之以是激发普遍存眷,是由于这个支撑对于IPU的普遍利用有着踊跃意思。

Graphcore中国工程总担任人,AI算法迷信家金琛先容,“在PyTorch的代码里,咱们引入了一个叫PopTorch的轻量级接口。通过这个接口,用户能够基于他们以后的PyTorch的模子做轻量级封装,以后便可以无缝的在IPU和CPU上运转这个模子。”
这也能更好地与HALO和NNFusion开源社区配合。金琛告知雷锋网,“差别的框架会有差别旁边表现格局,也就是IR(IntermediateRepresentation)。咱们盼望将差别的IR格局转换到咱们通用的PopART盘算图上,这也是兼容性中最要害的一点。”
据悉,IPU对TensorFlow的支撑,是像TPU一样,通过TensorFlowXLAbackend接入到TensorFlow的框架,相称于把一个TensorFlow盘算图转换成为一个XLA的盘算图,而后再通过接入XLA的盘算图下沉到PopART的盘算图,通过编译,便可以天生能够在IPU上履行的二进制文件。
金琛以为,“各个层级图的转换是一个十分要害的要素,也须要一些定制化任务,由于外面的一些通用算子也是基于IPU停止开辟的,这是咱们比拟特别的任务。”
除了须要增添对差别AI框架以及AI框架里自界说算子的支撑,加强对模子的笼罩度的支撑,也可能下降迁徙本钱。
金琛先容,对于练习模子的迁徙,假如是迁徙一个不太庞杂的模子,个别一个开辟者一周便可以实现,比拟庞杂的模子则须要两周时光。假如是迁徙推理模子,个别只要要1-2天便可以实现。
IPU正面挑衅GPU,
云端芯片市场或转变

AI时期,软硬件一体化的主要性愈加突显。卢涛说:“AI处置器公司大抵能够分为三类,一类公司是正在讲PPT的公司,一类公司是有了芯片的公司,一类公司是真正濒临或许是有了软件的公司。”
曾经在软件方面有停顿的Graphcore,硬件的表示是否也让用户有充足的切换能源?本月,Graphcore宣布了基于MK2IPU的IPU-M2000的多个模子的练习Benchmark,包含典范的CV模子ResNet、基于分组卷积的ResNeXt、EfficientNet、语音模子、BERT-Large等天然言语处置模子,MCMC等传统呆板进修模子。


此中有一些比拟大的晋升,比方与A100GPU比拟,IPU-M2000的ResNet50的吞吐量大略能实现2.6倍的机能晋升,ResNeXt101的吞吐量晋升了3.6倍,EfficientNet的吞吐量到达了18倍,DeepVoice3到达了13倍。
值得一提的另有IPU-POD64练习BERT-Large的时光比1台DGX-A100快5.3倍,比3台DGX-A100快1.8倍。1个IPU-POD64和3个DGX-A100的功率和价钱基础雷同。
夸大IPU练习BERT-Large的成就不但由于这是英伟达GPU和谷歌TPU以后第三个宣布可能练习这一模子的AI芯片,还由于BERT-Large模子对当初芯片落地的意思。
卢涛说:“在明天,BERT-Large模子不论是对于产业界,仍是对研讨界都是一个比拟好的基准,它在将来最少一年内是一个上线的模子水准。”
不外,这一成就现在并非MLPerf宣布的成果,正式成果须要等候Graphcore在来岁上半年正式参加MLPerf机能测试。近期,Graphcore发布参加MLPerf治理机构MLCommons。
“我感到咱们参加MLCommons和提交MLPerf标明,IPU行将在GPU的中心范畴外面和GPU正面PK,标明了IPU除了能做GPU不能做的事件,在GPU最善于的范畴,IPU也能以更好TCO实现相称,乃至更优的表示。”卢涛表现。
微软亚洲研讨院、阿里云、Graphcore都在独特推进GPU转向IPU,甚么时间会迎来破局时辰?
更多内容阅读推荐:液晶电视进水了怎么办
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

|计算机技术论坛 JSJBBS.CN @ 2008-2025 ( 鲁ICP备17021708号 )

技术支持 : 腾讯云计算(北京)有限责任公司

快速回复 返回顶部 返回列表