FastVLM是苹果推出的高效的视觉语言模型(VLM),能提升高分辨率图像处理的效率和性能。模型引入FastViTHD新型混合视觉编码器,有效减少视觉token数量,显著降低编码时间。FastVLM在保持与现有VLM相似性能的同时,大幅提升处理速度,例如在LLaVA-1.5设置中,相比其他模型,将首次生成token的时间(TTFT)缩短3.2倍。FastVLM在多种VLM基准测试中表现出色,且模型尺寸更小,训练数据需求更少,展现在多模态理解任务中的高效性和实用性。

FastVLM – 苹果推出的高效视觉语言模型  第1张
(图片来源网络,侵删)
FastVLM – 苹果推出的高效视觉语言模型  第2张
(图片来源网络,侵删)