Kimi-baidu09VL – 月之暗面开源的轻量级多模态视觉语言模型

baidu09_com 2025-08-29 8 0

Kimi-VL 是月之暗面开源的轻量级多模态视觉语言模型，基于轻量级MoE模型Moonlight（16B总参数，2.8B激活参数）和原生分辨率的MoonViT视觉编码器（400M参数）。Kimi-VL支持单图、多图、视频和长文档等多模态输入，在图像感知、数学、多学科题目、OCR等任务中表现出色，尤其在长上下文（128K）和复杂推理方面有优势。在数学推理、长视频理解等任务中表现优异，超越等模型。Kimi-VL推出支持长思考的模型版本 Kimi-VL-Thinking，基于长链推理微调和强化学习，仅2.8B 激活参数，在较高推理难度的基准测试中，部分成绩接近甚至超过超大尺寸的前沿模型。

最新开源的Kimi-VL-A3B-Thinking-2506版本，在多模态推理基准测试中表现优异，准确性大幅提升且思考长度减少20%。模型视觉理解能力显著增强，支持更高分辨率图像处理，在高分辨率感知和OS-agent接地基准测试中取得显著进步（在V*Benchmark上得分为83.2，ScreenSpot-Pro上为52.8，OSWorld-G上为52.5）。模型在图像理解、图表推理、数学计算等多个领域表现出色，支持特定回答模式和思考链。