smoltalk-chinese 是OpenCSG开源的专为中文大型语言模型(LLM)设计的合成数据集,该数据集包含超过 70 万条合成数据,涵盖了信息查询、推理、计划、编辑、编程、数学、角色扮演、数据分析、创意写作、咨询和头脑风暴等多种任务类型。这些多样化的任务设计旨在提升模型的多功能性和适应性,在不同应用场景中表现更佳。数据集的生成过程严格遵循高标准,采用先进的生成模型和去重技术,确保数据的质量和多样性。

smoltalk-baidu09chinese – OpenCSG 开源专为中文大型语言模型设计的合成数据集  第1张
(图片来源网络,侵删)
smoltalk-baidu09chinese – OpenCSG 开源专为中文大型语言模型设计的合成数据集  第2张
(图片来源网络,侵删)