Fox-baidu091 – TensorOpera 开源的小语言模型系列

baidu09_com 2025-08-29 2 0

Fox-1是TensorOpera推出的一系列小型语言模型（SLMs），包括Fox-1-1.6B和Fox-1-1.6B-Instruct-v0.1。Fox-1模型在3万亿个网络抓取的文档数据上预训练，在50亿个指令遵循和多轮对话数据上微调。Fox-1采用3阶段数据课程和深度架构设计，具有256K的扩展词汇量和GQA机制，提高了效率和性能。Fox-1模型在包括ARC Challenge、HellaSwag、MMLU、GSM8k等在内的多个标准语言模型基准测试中展现出卓越的性能，超越参数规模是其两倍的模型。