Emu3 – 北京智源推出的统一输入与生成多模态模型

baidu09_com 2025-08-28 7 0

Emu3是由北京智源人工智能研究院推出的一款原生多模态世界模型，采用智源自研的多模态自回归技术路径，在图像、视频、文字上联合训练，使模型具备原生多模态能力，实现图像、视频、文字的统一输入和输出。Emu3将各种内容转换为离散符号，基于单一的Transformer模型来预测下一个符号，简化了模型架构。Emu3在图像生成方面，只需一段文本描述可创造出符合要求的高质量图像，表现超越了专门的图像生成模型SDXL。在图像和语言的理解能力上，Emu3能准确描述现实世界场景给出恰当的文字回应，无需依赖CLIP或预训练的语言模型。Emu3能延续现有视频内容，自然地扩展视频场景。