SC14报道之14：GPU才是计算中心的野心

发布时间：2016-10-29 03:42:13 所属栏目：通讯来源：洪钊峰

导读：副标题#e# 【评论】在全球高性能计算领域，GPU作为一种加速计算的技术，其近几年的发展可谓如日中天，越来越多的用户开始把“CPU+GPU”的模式作为构建HPC系统的一种标配。凭借功耗低、每瓦特性能高的优势，GPU早已取代了过去的FPGA，成为一种主流的加速计算

副标题[/!--empirenews.page--]

　　【评论】在全球高性能计算领域，GPU作为一种加速计算的技术，其近几年的发展可谓如日中天，越来越多的用户开始把“CPU+GPU”的模式作为构建HPC系统的一种标配。凭借功耗低、每瓦特性能高的优势，GPU早已取代了过去的FPGA，成为一种主流的加速计算方案，但在NVIDIA的眼中，这还远远不够，GPU最终要变成一种全面的计算平台。

　　11月19日，在新奥尔良的全球超级计算大会上，NVIDIA公司HPC专家王鹏博士向IT168记者全面介绍了该公司的最新技术成果与发展策略，并就GPU市场竞争、百亿亿次、中国高性能计算产业发展等话题做了一些交流。

SC14报道之14：GPU才是计算中心的野心
▲

　　GPU从加速器向计算平台转型的野心

　　在此次SC大会上，NVIDIA一共展出了6个方面的内容：

　　一、与IBM、美国能源部合作开发下一代十亿亿次(100PFLOPS)超级计算机。美国能源部下的橡树岭和劳伦斯利弗莫尔两大国家实验室计划在2017年推出两台性能在150-300PFLOPS的超级计算机，前者用于开放科学领域，后者用于国家核安全任务。有意思的是，这两套超级计算机采用的是IBM POWER CPU+NVIDIA GPU的结构，而不是x86 CPU+GPU的模式，其中POWER主要做调度管理负载，主要的性能则来自于GPU加速系统。据介绍，这是去年IBM推出OpenPOWER开放联盟之后两家公司的合作成果。其中CPU与GPU之间将通过NVIDIA的NVlink高速网络互连起来，据称比PCIe网络性能提高5-6倍。

　　二、NVlink横空出世，为GPU从加速器向计算平台转型辅路。NVlink是NVIDIA开发的一种高速互连技术，可以将CPU与GPU、GPU与GPU、IO模块与GPU之间连接起来。其中值得一提的是，NVIDIA所支持的CPU已经不只是英特尔或AMD的x86处理器(这类CPU与GPU之间的互连仍然通过PCIe连接)，而且也包括IBM的POWER处理器和正在凭借低功耗优势在企业数据中心领域寻求突破的ARM 64位处理器，这两类CPU与GPU的互连将通过NVlink来实现。虽然现在主流的高性能计算机集群大部分仍然使用英特尔的处理器，但IBM和ARM也正在努力扩展市场空间。NVIDIA则希望支持多种CPU，以满足不同用户的需求，也有助于改变自己“加速器”的身份。比如ARM处理器的优点在于功耗极低，但绝对性能不足，而与拥有强大性能的GPU相配合，就在高性能计算领域有了用武之地。而对于POWER而言，这类处理器凭借性能和稳定性在金融、电信、制造等传统行业尤其是一些关键领域里有很强的优势，随着大数据分析应用越来越普及，通过配合GPU来加速数据分析，也有望迎来第二春，实际上，IBM已经将DB2数据库应用移植到了GPU上来做加速。因此，随着GPU技术的发展和应用的普及，NVIDIA已经不满足于仅仅充当加速器这种配角，而是要变成全面的计算平台，包括芯片、互连、编译器、应用程序库等等。NVlink的出现，让NVIDIA迈出了坚实的一步。

　　三、发布最新一代的Tesla GPU产品K80。与上一代的K40相比，K80的GPU内核数由2280个增加到了4992个，内存峰值带宽由228GB/s提升到了480GB/s，使得其在功耗增加30%的基础上，把性能提升了60-70%。K80仍然采用开普勒架构，但寄存器和共享内存数目翻了倍，这两点虽然不会直接提升浮点计算性能，但却对实际应用的性能提升有很大帮助。

SC14报道之14：GPU才是计算中心的野心
▲

　　四、机器学习应用在GPU上有了爆炸式增长。在Facebook、腾讯、百度、微软等互联网公司，海量数据的处理开始寻求GPU的帮助，其应用主要有两个方面，一是对图片视频进行视觉计算，通过GPU后台来分析内容，以提高用户搜索准确率，同时了解网友的行为特征，二是语音识别，其建模计算是一个迭代的过程，需要持续收集不同口音、不同语种、不同方言的素材，因此数据量会不断增长，其处理需要依赖于GPU的加速计算。

　　五、GPU不光计算，还能同时把结果可视化出来。瑞士超算中心在现场演示了在一个1000个节点GPU集群上同时做计算和可视化的过程，这意味着对于那些需要通过图片和三维模型来显示计算结果的科研人员来说，可以一边计算，一边观看结果，一边调优或修改参数，比如药物分子研究中，用户不必等两天之后看到结果再去改参数，而是边模拟边修改，效率会大大提升。王鹏认为，这将是一种开创性的应用模式。

　　与英特尔亦敌亦友

　　谈到NVIDIA与英特尔、AMD的竞争，王鹏认为，NVIDIA早在2007年就开始做GPU加速计算，英特尔和AMD后来加入竞争，这对整个市场而言是好事，大家共同努力才使得GPU加速和异构计算变成了高性能计算领域里的趋势。而且，CPU+GPU的异构模式本身也决定了二得亦敌亦友的关系，有时候竞争大于合作，有时候合作大于竞争。而在在SC14上，英特尔的至强Phi和NVIDIA的K80几乎成了形影不离的朋友，出现在各大HPC软硬件厂商的展台上，双方都在努力经营自己的生态圈。

　　不过，王鹏也提到，由于提前了5年时间来做GPU计算，特别是在CUDA应用移植和软件生态的构建上，这5年时间已经为NVIDIA赢得了竞争优势，毕竟对于很多软件厂商来说，前期的软件移植是需要很大投入的，这对后来者会形成一个强有力的竞争门槛。不过，英特尔方面在推广至强Phi时，主打的宣传牌之一是，至强Phi和普通至强一样都是基于x86架构，因些用户的应用无须重新开发。但王鹏认为，关键还要看应用的性能，无论是GPU加速，还是至强Phi加速，用户的算法都要适用于异构计算，即决定让不同的函数、模块运行在CPU还是GPU上，从而获得加速，这种决定与你用GPU，还是用至强Phi是没有关系的，你都得对软件进行优化，否则就实现不了加速，那也就没有意义了。

　　百亿亿次计算不难实现

　　谈到大家普遍关心的下一代百亿亿次计算(E级计算)，业界的一种普遍观点认为要想实现百亿亿次，需要突破功耗、密度、可用性、成本等方面的限制，而现有的千万亿次超级计算机的集群架构和相关技术积累难以为继。对此，王鹏表示了不同的观点，他认为，到2017年，以上述美国能源部的两套系统为例，届时就可以实现十亿亿次，功耗只需10MW，再利用5年的时间，到2022年，百亿亿次超级计算机就会出现，系统在5年里只需要实现3-4倍的性能增长，这并不是难事，不需要对CPU+GPU的集群架构有大的改变。

　　建言中国HPC产业发展

（编辑：云计算网_汕头站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

5G发展依旧任重道远	边缘计算和5G企业IT的
3G4G5G，我们为啥要那	5G网络设施安全评测护