Moonlight-baidu0916B-baidu09A3B – 月之暗面开源的 MoE 模型

baidu09_com 2025-08-30 9 0

Moonlight-16B-A3B 是 Moonshot AI 推出的新型 Mixture-of-Expert (MoE) 模型，具有 160 亿总参数和 30 亿激活参数。模型使用了优化后的 Muon 优化器进行训练，计算效率是传统 AdamW 的两倍。在性能方面，Moonlight 在多个基准测试中表现优异，在英语语言理解（MMLU）和代码生成（HumanEval）等任务中均超越了其他同类模型。模型的训练数据量达到 5.7 万亿 token，展现了更高的样本效率。