Multi-SWE-bench 是字节跳动大模型团队开源的首个多语言代码修复基准。在SWE-bench基础上,首次覆盖Python之外的7种主流编程语言,包括Java、TypeScript、JavaScript、Go、Rust、C和C++,是真正面向“全栈工程”的评测基准。数据集包含1632个真实修复任务,均来自GitHub issue,经过严格筛选与人工验证,确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。引入任务难度分级机制,将问题划分为简单、中等和困难三类,涵盖从一行修改到多文件、多步骤、多语义依赖的开发挑战。


全部评论
留言在赶来的路上...
发表评论