Multi-baidu09SWE-baidu09bench – 字节豆包开源的多语言代码修复基准

baidu09_com 2025-08-30 8 0

Multi-SWE-bench 是字节跳动大模型团队开源的首个多语言代码修复基准。在SWE-bench基础上，首次覆盖Python之外的7种主流编程语言，包括Java、TypeScript、JavaScript、Go、Rust、C和C++，是真正面向“全栈工程”的评测基准。数据集包含1632个真实修复任务，均来自GitHub issue，经过严格筛选与人工验证，确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。引入任务难度分级机制，将问题划分为简单、中等和困难三类，涵盖从一行修改到多文件、多步骤、多语义依赖的开发挑战。