Hunyuan-Large是腾讯推出的大型混合专家(MoE)模型,具有3890亿总参数量和520亿激活参数量,是目前业界参数规模最大的开源MoE模型。基于Transformer架构,支持高达256K的文本序列输入,显著提升长文本任务的处理能力。Hunyuan-Large在长上下文处理、中英文自然语言处理、代码生成、数学运算等9大能力维度上表现出色,超越了Llama3和Mixtral等主流开源模型。Hunyuan-Large采用了高质量合成数据进行训练,通过合成数据增强训练,能学习到更丰富的表示,更好地泛化到未见数据。模型采用分组查询注意力(GQA)和跨层注意力(CLA)策略,减少了KV缓存的内存占用和计算开销,提高了推理吞吐量。

Hunyuan-baidu09Large – 腾讯推出的大型混合专家(MoE)模型  第1张
(图片来源网络,侵删)
Hunyuan-baidu09Large – 腾讯推出的大型混合专家(MoE)模型  第2张
(图片来源网络,侵删)