AutoCodeBench 是腾讯混元推出的专门测评大模型代码能力基准测试集,包含 3920 个问题,均匀分布在 20 种编程语言中。数据集具有高难度、实用性和多样性,能衡量大模型在多语言编程任务中的性能。基准测试集通过自动化工作流生成数据,保证高质量和覆盖度,且提供了简易版本(AutoCodeBench-Lite)和用在评估基础模型的版本(AutoCodeBench-Complete)。

AutoCodeBench – 腾讯混元开源测评大模型代码能力的数据集  第1张
(图片来源网络,侵删)
AutoCodeBench – 腾讯混元开源测评大模型代码能力的数据集  第2张
(图片来源网络,侵删)