DeepCoder-14B-Preview 是 Agentica 和 Together AI 联合开源的大型代码生成模型,基于 Deepseek-R1-Distilled-Qwen-14B 微调而成。DeepCoder-14B-Preview基于分布式强化学习(RL)训练,在代码生成任务上表现出色,特别是在 LiveCodeBench 上达到 60.6% 的准确率,与 OpenAI 的 相当。模型开源了训练数据集、代码、训练日志和系统优化,推动强化学习(RL)在大型语言模型(LLM)中的应用,降低 RL 训练的门槛,促进社区发展。


全部评论
留言在赶来的路上...
发表评论