PUMA – 多粒度策略统一的多模态大语言模型

baidu09_com 2025-08-30 7 0

PUMA是一个先进的多模态大型语言模型（MLLM），旨在基于集成多粒度视觉特征统一和增强视觉生成和理解任务。PUMA能处理从文本到图像的生成、详细的图像编辑及其他视觉任务，适应不同层次的细节要求。PUMA基于多模态预训练和微调技术，在多样化的文本到图像生成、图像编辑、条件图像生成和视觉语言理解等应用中展现出尖端能力。项目于2024年10月更新，并持续进行中，由来自CUHK MMLab、HKU MMLab、SenseTime、Shanghai AI Laboratory和Tsinghua University的研究人员共同推出。PUMA项目推动AI视觉语言模型的边界，为多模态AI的未来探索提供灵活而强大的解决方案。