只使用3000个GPU就能训练一个ChatGPT？

橡树岭国家实验室的研究团队在Frontier超级计算机上成功训练了一个与ChatGPT规模相当的大型语言模型（LLM），他们仅动用了37,888个GPU中的3,072个就实现了这一目标。在最新的研究论文中，该团队详细披露了他们的技术方法以及训练过程中遇到的挑战。

QQ图片20240522140155.png

Frontier超级计算机配备了强大的硬件资源，包括9472个Epyc 7A53 CPU和37,888个Radeon Instinct GPU。然而，为了训练一个拥有1万亿参数的LLM，研究团队仅选用了3,072个GPU，而另一个具有1750亿参数的LLM则使用了1,024个GPU。

研究论文指出，训练如此庞大规模的LLM面临的主要挑战是巨大的内存需求，至少需要14TB。为了满足这一需求，研究团队采用了配备64GB VRAM的MI250X GPU。然而，这也带来了新的问题：如何确保多个GPU之间的并行性。因为随着GPU数量的增加，需要更好的通信效率才能充分利用这些资源，否则额外的GPU能力将变得冗余。

为了克服这些挑战，研究团队对Megatron-DeepSpeed和FSDP等框架进行了迭代和优化，使训练程序在Frontier上能够高效运行。最终，他们取得了令人瞩目的成果——弱扩展效率达到了100%，这意味着随着工作负载的增加，更多的GPU被有效地利用起来。

尽管1750亿参数LLM的强缩放效率略低，为89%，而1万亿参数LLM的强缩放效率为87%，但考虑到使用的GPU数量，这样的结果依然非常出色。强可伸缩性指的是在不改变工作负载大小的情况下增加处理器数量，这在高核心数量下往往更具挑战性。

然而，研究团队也指出了在Frontier上实现这种效率所面临的问题，他们表示：“在AMD GPU上实现高效训练性能还需要进一步的工作，ROCm平台尚待完善。”目前，大多数机器学习工作都是在英伟达的CUDA硬件软件生态系统中完成的，相比之下，AMD和英特尔的解决方案尚显不足。但这样的努力无疑将推动这些生态系统的发展。

尽管如此，Frontier作为世界上最快的超级计算机，其硬件全部采用AMD技术。紧随其后的是Aurora超级计算机，它采用了纯英特尔硬件，包括GPU，尽管目前只有一半的硬件用于基准测试。而第三快的超级计算机Eagle则是由英伟达GPU提供动力。为了保持当前的领先地位，AMD和英特尔需要加快步伐，追上英伟达在软件解决方案方面的步伐。

产品购买

相关应用

帮助支持

其他链接

联系我们