Moonlight-16B-A3B 是 Moonshot AI 推出的新型 Mixture-of-Expert (MoE) 模型,具有 160 亿总参数和 30 亿激活参数。模型使用了优化后的 Muon 优化器进行训练,计算效率是传统 AdamW 的两倍。在性能方面,Moonlight 在多个基准测试中表现优异,在英语语言理解(MMLU)和代码生成(HumanEval)等任务中均超越了其他同类模型。模型的训练数据量达到 5.7 万亿 token,展现了更高的样本效率。

Moonlight-baidu0916B-baidu09A3B – 月之暗面开源的 MoE 模型  第1张
(图片来源网络,侵删)
Moonlight-baidu0916B-baidu09A3B – 月之暗面开源的 MoE 模型  第2张
(图片来源网络,侵删)