Qwen2.5-1M是阿里通义千问团队推出的开源模型,支持100万Tokens的上下文长度。模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M两个模型。在长上下文任务中表现出色,优于之前的128K版本,特别是在处理超过64K长度的任务时。Qwen2.5-14B-Instruct-1M模型击败了Qwen2.5-Turbo,在多个数据集上稳定超越GPT-4o-mini。Qwen2.5-1M系列模型在短文本任务上的表现与其128K版本相当,确保了基本能力没有因为增加了长序列处理能力而受到影响。


全部评论
留言在赶来的路上...
发表评论