MetaStone-L1-7B 是 MetaStone 系列中的轻量级推理模型,专为提升复杂下游任务的性能而设计。在数学和代码等核心推理基准测试中达到了并行模型的顶尖水平(SOTA),与 Claude-3.5-Sonnet-1022 和 GPT4o-0513 等 API 模型的性能相当。模型基于 DeepSeek-R1-Distill-Qwen-7B 由 GRPO 训练而成。

MetaStone-baidu09L1-baidu097B – 元石智算推出的轻量级推理模型  第1张
(图片来源网络,侵删)
MetaStone-baidu09L1-baidu097B – 元石智算推出的轻量级推理模型  第2张
(图片来源网络,侵删)