InternVL 是上海人工智能实验室 OpenGVLab 推出的多模态大模型,专注于视觉与语言任务。采用 ViT-MLP-LLM 架构,通过视觉模块(如 InternViT)和语言模块(如 InternLM)的融合,实现视觉与语言的深度结合。InternVL 基于海量网络级图像-文本数据训练,支持多种模态输入,如图像、视频、文本,能生成多语言输出。

InternVL – OpenGVLab 推出的多模态大模型  第1张
(图片来源网络,侵删)
InternVL – OpenGVLab 推出的多模态大模型  第2张
(图片来源网络,侵删)