首页 > 技术 > 正文

播报:美国世界最快超算是摆设?消息称可靠性糟糕

2022-10-10 06:49:06来源:中关村在线  


(相关资料图)

建造一台超级计算机总是具有挑战性的,但是创建业界第一个外挂级系统是遇到了完全意想不到的事情,需要在硬件和软件方面做大量的工作。不幸的是,这种情况可能发生在橡树岭国家实验室的Frontier超级计算机上,它几乎不能在没有众多硬件故障的情况下持续一天。

ORNL的Frontier是业界首个设计用于提供高达1.685 FP64 ExaFLOPS峰值性能的系统,使用AMD的64核EPYC Trento处理器、Instinct MI250X计算GPU和HPE的Slingshot互连,功率为21兆瓦。HPE构建了该系统,并使用了为扩展应用设计的Cray EX(在新标签中打开)架构,主要用于超高速超级计算机。

虽然从纸面上看,Frontier超级计算机看起来特别好,而且机器系统的硬件部分已经交付,但似乎硬件方面的问题一直追着机器上线,并提供给需要大约1 FP64 ExaFLOPS性能的研究人员。

"橡树岭领导力计算设施(OLCF)的项目主管Justin Whitt在接受InsideHPC(在新标签中打开)采访时说:"我们正在解决硬件方面的问题,确保我们了解(它们是什么)。"在这种规模的情况下,你将会出现故障。这种规模的系统的平均故障间隔时间是几小时,而不是几天。"

关于Frontier的潜在硬件故障的传言已经流传了很久。根据InsideHPC(在新标签中打开)的另一篇报道,一些人说该系统的Slingshot互连出现了问题。此外,其他人表示,AMD的Instinct MI250X计算GPU今年并不像预期那样可靠。请记住,拥有更多流处理器和高时钟的X版本只向特定客户提供。

Whitt先生没有证实系统在Instinct或Slingshot方面遇到任何特别的问题,但他压根儿就没有说过机器遭受到众多的硬件问题。

"很多挑战都集中在这些[GPU]上,但这并不是我们看到的大多数挑战,"OLCF的负责人说。"在零部件故障的常见罪魁祸首中,这是一个相当好的分布,它是一个很大的组成部分。我不认为在这一点上,我们对AMD的产品有很多担忧。"

橡树岭国家实验室的Frontier超级计算机到目前为止还不是唯一使用HPE的Cray EX架构与Slingshot互连、AMD的EPYC CPU和AMD的Instinct计算GPU的系统。例如,芬兰的Lumi超级计算机(Cray EX、EPYC Milan、Instinct MI250X计算GPU)提供550 PetaFLOPS的峰值性能,被官方列为世界上第三大最强大的超级计算机。也许,问题是有效的,该机器的规模总共使用了6000万个零件。

鉴于仍未正式部署,最初承诺在2022年上线的 "前沿 "超级计算机是否能在2023年开始供研究人员使用,只有时间才能证明。

标签: 新闻资讯

相关阅读

精彩推荐

相关词

推荐阅读