41
只使用3000个GPU就能训练一个ChatGPT?

橡树岭国家实验室的研究团队在Frontier超级计算机上成功训练了一个与ChatGPT规模相当的大型语言模型(LLM),他们仅动用了37,888个GPU中的3,072个就实现了这一目标。在最新的研究论文中,该团队详细披露了他们的技术方法以及训练过程中遇到的挑战。

QQ图片20240522140155.png

Frontier超级计算机配备了强大的硬件资源,包括9472个Epyc 7A53 CPU和37,888个Radeon Instinct GPU。然而,为了训练一个拥有1万亿参数的LLM,研究团队仅选用了3,072个GPU,而另一个具有1750亿参数的LLM则使用了1,024个GPU。

研究论文指出,训练如此庞大规模的LLM面临的主要挑战是巨大的内存需求,至少需要14TB。为了满足这一需求,研究团队采用了配备64GB VRAM的MI250X GPU。然而,这也带来了新的问题:如何确保多个GPU之间的并行性。因为随着GPU数量的增加,需要更好的通信效率才能充分利用这些资源,否则额外的GPU能力将变得冗余。

为了克服这些挑战,研究团队对Megatron-DeepSpeed和FSDP等框架进行了迭代和优化,使训练程序在Frontier上能够高效运行。最终,他们取得了令人瞩目的成果——弱扩展效率达到了100%,这意味着随着工作负载的增加,更多的GPU被有效地利用起来。

尽管1750亿参数LLM的强缩放效率略低,为89%,而1万亿参数LLM的强缩放效率为87%,但考虑到使用的GPU数量,这样的结果依然非常出色。强可伸缩性指的是在不改变工作负载大小的情况下增加处理器数量,这在高核心数量下往往更具挑战性。

然而,研究团队也指出了在Frontier上实现这种效率所面临的问题,他们表示:“在AMD GPU上实现高效训练性能还需要进一步的工作,ROCm平台尚待完善。”目前,大多数机器学习工作都是在英伟达的CUDA硬件软件生态系统中完成的,相比之下,AMD和英特尔的解决方案尚显不足。但这样的努力无疑将推动这些生态系统的发展。

尽管如此,Frontier作为世界上最快的超级计算机,其硬件全部采用AMD技术。紧随其后的是Aurora超级计算机,它采用了纯英特尔硬件,包括GPU,尽管目前只有一半的硬件用于基准测试。而第三快的超级计算机Eagle则是由英伟达GPU提供动力。为了保持当前的领先地位,AMD和英特尔需要加快步伐,追上英伟达在软件解决方案方面的步伐。


这条帮助是否解决了您的问题? 已解决 未解决

提交成功!非常感谢您的反馈,我们会继续努力做到更好! 很抱歉未能解决您的疑问。我们已收到您的反馈意见,同时会及时作出反馈处理!