MARS(Make vAriance Reduction Shine)是字节跳动推出的创新的优化框架,提升大型模型训练的效率。MARS融合预条件梯度方法与方差减少技术,基于缩放随机递归动量技术优化梯度估计。MARS框架灵活,支持全矩阵或对角Hessian近似,衍生出基于AdamW、Lion和Shampoo的三种优化算法实例。实验结果表明,MARS在训练GPT-2模型时,相较传统的AdamW优化器,展现出卓越的性能。

(图片来源网络,侵删)

(图片来源网络,侵删)
MARS(Make vAriance Reduction Shine)是字节跳动推出的创新的优化框架,提升大型模型训练的效率。MARS融合预条件梯度方法与方差减少技术,基于缩放随机递归动量技术优化梯度估计。MARS框架灵活,支持全矩阵或对角Hessian近似,衍生出基于AdamW、Lion和Shampoo的三种优化算法实例。实验结果表明,MARS在训练GPT-2模型时,相较传统的AdamW优化器,展现出卓越的性能。
全部评论
留言在赶来的路上...
发表评论