PUMA是一个先进的多模态大型语言模型(MLLM),旨在基于集成多粒度视觉特征统一和增强视觉生成和理解任务。PUMA能处理从文本到图像的生成、详细的图像编辑及其他视觉任务,适应不同层次的细节要求。PUMA基于多模态预训练和微调技术,在多样化的文本到图像生成、图像编辑、条件图像生成和视觉语言理解等应用中展现出尖端能力。项目于2024年10月更新,并持续进行中,由来自CUHK MMLab、HKU MMLab、SenseTime、Shanghai AI Laboratory和Tsinghua University的研究人员共同推出。PUMA项目推动AI视觉语言模型的边界,为多模态AI的未来探索提供灵活而强大的解决方案。


全部评论
留言在赶来的路上...
发表评论