VITRON是Skywork AI、新加坡国立大学和南洋理工大学联合推出的像素级视觉大型语言模型(LLM),能全面理解和处理静态图像与动态视频,对图像和视频进行理解、生成、分割和编辑。VITRON结合前端的视觉编码器和后端的视觉专家系统,支持从视觉理解到视觉生成的多种任务。VITRON基于混合方法传递信息,结合离散文本指令和连续信号嵌入,实现精确的功能调用,并设计跨任务协同模块,增强不同视觉任务间的协同效应。

VITRON – Skywork AI 联合新加坡国立、南洋理工推出的像素级视觉大型语言模型  第1张
(图片来源网络,侵删)
VITRON – Skywork AI 联合新加坡国立、南洋理工推出的像素级视觉大型语言模型  第2张
(图片来源网络,侵删)