MMaDA – 字节联合普林斯顿大学等推出的多模态扩散模型

baidu09_com 2025-08-29 8 0

MMaDA（Multimodal Large Diffusion Language Models）是普林斯顿大学、清华大学、北京大学和字节跳动推出的多模态扩散模型，支持跨文本推理、多模态理解和文本到等多个领域实现卓越性能。模型用统一的扩散架构，具备模态不可知的设计，消除对特定模态组件的需求，引入混合长链推理（CoT）微调策略，统一跨模态的CoT格式，推出UniGRPO，针对扩散基础模型的统一策略梯度强化学习算法，基于多样化的奖励建模，统一推理和生成任务的后训练，确保性能一致提升。MMaDA在多项任务上展现出超越现有模型的性能，为多模态AI的发展提供新的方向。