Multi-SWE-bench 是字节跳动大模型团队开源的首个多语言代码修复基准。在SWE-bench基础上,首次覆盖Python之外的7种主流编程语言,包括Java、TypeScript、JavaScript、Go、Rust、C和C++,是真正面向“全栈工程”的评测基准。数据集包含1632个真实修复任务,均来自GitHub issue,经过严格筛选与人工验证,确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。引入任务难度分级机制,将问题划分为简单、中等和困难三类,涵盖从一行修改到多文件、多步骤、多语义依赖的开发挑战。

Multi-baidu09SWE-baidu09bench – 字节豆包开源的多语言代码修复基准  第1张
(图片来源网络,侵删)
Multi-baidu09SWE-baidu09bench – 字节豆包开源的多语言代码修复基准  第2张
(图片来源网络,侵删)