高阶显卡也能训练模型,AI 研究人员提出“GaLore”减少记忆体用量

高阶显卡也能训练模型,AI 研究人员提出“GaLore”减少记忆体用量

随着大型语言模型的规模越来越大,若对所有模型参数进行训练,成本势必非常高昂,研究人员设法减少记忆体使用量,其中新方法 GaLore(Gradient Low-Rank Projection)可让训练过程更省记忆体,甚至用家中电脑搭配高阶显示卡就能训练。

训练大型语言模型为运算基础设施带来无法忽视的记忆体挑战,主要是因权重大小和优化器(optimizer)状态不断增加。常见记忆体减少方法,例如微软研究团队所提出 LoRA(Low-Rank Adaptation),概念是冻结原本预训练模型权重,减少训练参数量和优化器状态,也能达到很好的微调(fine-tuning)效果。

不过,LoRA 通常在预训练和微调阶段表现不佳,因为它将参数搜寻限制在 low-rank subspace 并改变训练动态,性能通常比原本训练方法差。

日前发表的《GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection》新论文,研究人员提出 GaLore 是一种新的模型训练策略,可让模型使用全部参数进行学习,同时比 LoRA 更省记忆体。

GaLore 在优化器状态下将记忆体使用量减少多达 65.5%,同时在 LLaMA 1B 和 7B 架构下使用最多 19.7B token 的 C4 资料组进行预训练,依然保持良好性能,及在 GLUE 任务上微调 RoBERTa 的效率和性能。与 BF16 基准相比,8 位元的 GaLore 进一步减少优化器记忆体多达 82.5%,总训练记忆体则减少 63.3%。

GaLore 还有一大优点,是让原本只能用在大型服务器上的大型语言模型,透过家用电脑的高阶显示卡(例如 NVIDIA RTX 4090)也能进行训练,研究人员首次证明在具有 24GB 记忆体的 GPU 预训练 7B 参数模型是可行的。

(首图来源:NVIDIA GeForce)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。