StarCoder 2是由BigCode项目(Hugging Face和ServiceNow支持)联合Nvidia的团队开发的新一代大型代码语言模型,使用来自 The Stack v2 数据集的 3.3 至 4.3 万亿个代码 token 进行训练,包含 600 多种编程语言,旨在为代码补全、编辑和推理任务提供强大的支持。该系列模型在前一代StarCoder模型的基础上进一步扩展和改进而来,提供了不同规模的模型,包括3B(30亿参数)、7B(70亿参数)和15B(150亿参数)参数的版本。

StarCoder 2 – BigCode推出的第二代开源代码大模型  第1张
(图片来源网络,侵删)
StarCoder 2 – BigCode推出的第二代开源代码大模型  第2张
(图片来源网络,侵删)