Kimi-VL 是月之暗面开源的轻量级多模态视觉语言模型,基于轻量级MoE模型Moonlight(16B总参数,2.8B激活参数)和原生分辨率的MoonViT视觉编码器(400M参数)。Kimi-VL支持单图、多图、视频和长文档等多模态输入,在图像感知、数学、多学科题目、OCR等任务中表现出色,尤其在长上下文(128K)和复杂推理方面有优势。在数学推理、长视频理解等任务中表现优异,超越等模型。Kimi-VL推出支持长思考的模型版本 Kimi-VL-Thinking,基于长链推理微调和强化学习,仅2.8B 激活参数,在较高推理难度的基准测试中,部分成绩接近甚至超过超大尺寸的前沿模型。
最新开源的Kimi-VL-A3B-Thinking-2506版本,在多模态推理基准测试中表现优异,准确性大幅提升且思考长度减少20%。模型视觉理解能力显著增强,支持更高分辨率图像处理,在高分辨率感知和OS-agent接地基准测试中取得显著进步(在V*Benchmark上得分为83.2,ScreenSpot-Pro上为52.8,OSWorld-G上为52.5)。模型在图像理解、图表推理、数学计算等多个领域表现出色,支持特定回答模式和思考链。


全部评论
留言在赶来的路上...
发表评论