AutoCodeBench – 腾讯混元开源测评大模型代码能力的数据集

baidu09_com 2025-08-28 4 0

AutoCodeBench 是腾讯混元推出的专门测评大模型代码能力基准测试集，包含 3920 个问题，均匀分布在 20 种编程语言中。数据集具有高难度、实用性和多样性，能衡量大模型在多语言编程任务中的性能。基准测试集通过自动化工作流生成数据，保证高质量和覆盖度，且提供了简易版本（AutoCodeBench-Lite）和用在评估基础模型的版本（AutoCodeBench-Complete）。