ILLUME是华为诺亚方舟实验室提出的统一多模态大模型,将视觉理解与生成能力融入同一框架中。模型以大型语言模型(LLM)为核心,采用“连续图像输入 + 离散图像输出”的架构,融合了多模态理解与生成的双重能力,深度挖掘了统一框架下理解与生成能力协同增强的潜力。ILLUME通过语义视觉分词器和三阶段训练流程实现高效训练,仅使用15M数据量就达到了与现有统一多模态大模型相当的性能。

ILLUME – 华为诺亚方舟实验室推出的统一多模态大模型  第1张
(图片来源网络,侵删)
ILLUME – 华为诺亚方舟实验室推出的统一多模态大模型  第2张
(图片来源网络,侵删)