DeepSeek R1-Zero 是 团队开发的完全依赖纯强化学习(RL)训练的推理模型,未使用任何监督微调(SFT)数据。在推理任务上表现出色,在 AIME 2024 数学竞赛中,其 pass@1 分数从 15.6% 提升至 71.0%,接近 OpenAI-o1-0912 的水平。模型在训练过程中展现了自我进化能力,例如反思和重新评估解题方法。


DeepSeek R1-Zero 是 团队开发的完全依赖纯强化学习(RL)训练的推理模型,未使用任何监督微调(SFT)数据。在推理任务上表现出色,在 AIME 2024 数学竞赛中,其 pass@1 分数从 15.6% 提升至 71.0%,接近 OpenAI-o1-0912 的水平。模型在训练过程中展现了自我进化能力,例如反思和重新评估解题方法。
全部评论
留言在赶来的路上...
发表评论