VITA是腾讯优图实验室推出的全球首个开源多模态大语言模型(MLLM),能理解和处理视频、图像、文本和音频。基于Mixtral 8×7B模型,扩展了中文词汇量,进行了双语指令微调,支持自然人机交互,无需唤醒词即可响应。VITA的开源属性为学术和工业界提供了重要资源,推动了多模态理解和交互技术的发展。

VITA – 腾讯推出的开源多模态AI模型  第1张
(图片来源网络,侵删)
VITA – 腾讯推出的开源多模态AI模型  第2张
(图片来源网络,侵删)