TokenSwift 是北京通用人工智能研究院团队推出的超长文本生成加速框架,能在90分钟内生成10万Token的文本,相比传统自回归模型的近5小时,速度提升了3倍,生成质量无损。TokenSwift 通过多Token生成与Token重用、动态KV缓存更新以及上下文惩罚机制等技术,减少模型加载延迟、优化缓存更新时间并确保生成多样性。支持多种不同规模和架构的模型,如1.5B、7B、8B、14B的MHA和GQA模型。

 

TokenSwift – 超长文本生成加速框架,90分钟内生成10万Token文本  第1张
(图片来源网络,侵删)
TokenSwift – 超长文本生成加速框架,90分钟内生成10万Token文本  第2张
(图片来源网络,侵删)