高阶显卡也能训练模型，AI 研究人员提出“GaLore”减少记忆体用量

AI与大数据 4小时前 0

▼

随着大型语言模型的规模越来越大，若对所有模型参数进行训练，成本势必非常高昂，研究人员设法减少记忆体使用量，其中新方法 GaLore（Gradient Low-Rank Projection）可让训练过程更省记忆体，甚至用家中电脑搭配高阶显示卡就能训练。

训练大型语言模型为运算基础设施带来无法忽视的记忆体挑战，主要是因权重大小和优化器（optimizer）状态不断增加。常见记忆体减少方法，例如微软研究团队所提出 LoRA（Low-Rank Adaptation），概念是冻结原本预训练模型权重，减少训练参数量和优化器状态，也能达到很好的微调（fine-tuning）效果。

不过，LoRA 通常在预训练和微调阶段表现不佳，因为它将参数搜寻限制在 low-rank subspace 并改变训练动态，性能通常比原本训练方法差。

日前发表的《GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection》新论文，研究人员提出 GaLore 是一种新的模型训练策略，可让模型使用全部参数进行学习，同时比 LoRA 更省记忆体。

GaLore 在优化器状态下将记忆体使用量减少多达 65.5%，同时在 LLaMA 1B 和 7B 架构下使用最多 19.7B token 的 C4 资料组进行预训练，依然保持良好性能，及在 GLUE 任务上微调 RoBERTa 的效率和性能。与 BF16 基准相比，8 位元的 GaLore 进一步减少优化器记忆体多达 82.5%，总训练记忆体则减少 63.3%。

GaLore 还有一大优点，是让原本只能用在大型服务器上的大型语言模型，透过家用电脑的高阶显示卡（例如 NVIDIA RTX 4090）也能进行训练，研究人员首次证明在具有 24GB 记忆体的 GPU 预训练 7B 参数模型是可行的。

（首图来源：NVIDIA GeForce）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

AI 微软

相关文章