MHA2MLA是复旦大学、华东师范大学、上海AI Lab等机构联合推出的数据高效的微调方法,基于引入的多头潜在注意力机制(MLA),优化任何基于Transformer的LLM的推理效率,降低推理成本。MHA2MLA基于两个关键策略实现:一是partial-RoPE,移除对注意力分数贡献较小的查询和键的旋转位置编码(RoPE)维度;二是低秩近似,基于联合奇异值分解(SVD)对键和值进行压缩,减少KV缓存的内存占用。MHA2MLA仅需使用原始数据的0.3%到0.6%进行微调,能在大幅减少KV缓存(如92.19%)的同时,将性能损失控制在极小范围内(如LongBench性能仅下降0.5%)。

MHA2MLA – 复旦、上海AI Lab等推出优化LLM推理效率的方法  第1张
(图片来源网络,侵删)
MHA2MLA – 复旦、上海AI Lab等推出优化LLM推理效率的方法  第2张
(图片来源网络,侵删)