Mooncake是月之暗面联合清华大学等机构共同开源的大模型推理架构。采用以KVCache为中心的分布式架构,通过分离预填充和解码集群,充分利用GPU集群中未充分利用的CPU、DRAM和SSD资源,实现高效的KVCache缓存。Mooncake的核心优势在于能显著提升大模型推理的吞吐量,降低算力开销,在保持服务延迟相关的服务级别目标(SLO)的同时,处理高负载场景。架构在长上下文场景中表现出色,能显著提高吞吐量,同时支持基于预测的早期拒绝策略,优化过载情况下的资源分配。Mooncake项目在Github上开源,推动大模型技术的高效推理平台发展。


全部评论
留言在赶来的路上...
发表评论