MMaDA(Multimodal Large Diffusion Language Models)是普林斯顿大学、清华大学、北京大学和字节跳动推出的多模态扩散模型,支持跨文本推理、多模态理解和文本到等多个领域实现卓越性能。模型用统一的扩散架构,具备模态不可知的设计,消除对特定模态组件的需求,引入混合长链推理(CoT)微调策略,统一跨模态的CoT格式,推出UniGRPO,针对扩散基础模型的统一策略梯度强化学习算法,基于多样化的奖励建模,统一推理和生成任务的后训练,确保性能一致提升。MMaDA在多项任务上展现出超越现有模型的性能,为多模态AI的发展提供新的方向。


全部评论
留言在赶来的路上...
发表评论