EPLB – DeepSeek 开源的专家并行负载均衡器

baidu09_com 2025-08-28 7 0

EPLB（Expert Parallelism Load Balancer）是推出的专家并行负载均衡器，能解决大规模模型训练中不同专家模型（Expert）负载不均的问题。EPLB 基于冗余专家策略，复制高负载专家，合理分配到不同 GPU 上，实现负载均衡。EPLB结合 group-limited expert routing 技术，将同一组专家放置在同一节点内，减少跨节点通信开销。EPLB 推出了两种负载均衡策略：分层负载均衡（Hierarchical Load Balancing）和全局负载均衡（Global Load Balancing），分别适用于不同场景。基于优化专家模型的复制与放置，EPLB 能显著提升 GPU 资源利用率和训练效率。