Mooncake – 月之暗面Kimi联合清华等机构推出的大模型推理架构

baidu09_com 2025-08-30 7 0

Mooncake是月之暗面联合清华大学等机构共同开源的大模型推理架构。采用以KVCache为中心的分布式架构，通过分离预填充和解码集群，充分利用GPU集群中未充分利用的CPU、DRAM和SSD资源，实现高效的KVCache缓存。Mooncake的核心优势在于能显著提升大模型推理的吞吐量，降低算力开销，在保持服务延迟相关的服务级别目标（SLO）的同时，处理高负载场景。架构在长上下文场景中表现出色，能显著提高吞吐量，同时支持基于预测的早期拒绝策略，优化过载情况下的资源分配。Mooncake项目在Github上开源，推动大模型技术的高效推理平台发展。