HumanOmniV2 – 阿里通义开源的多模态推理模型

baidu09_com 2025-08-29 7 0

HumanOmniV2 是阿里通义实验室开源的多模态推理模型。模型基于强制上下文总结机制、大模型驱动的多维度奖励体系及基于 GRPO 的优化训练方法，解决多模态推理中全局上下文理解不足和推理路径简单的问题。模型能在生成答案前系统性分析视觉、听觉和语言信号，构建完整场景背景，精准捕捉多模态信息中的隐藏逻辑和深层意图。HumanOmniV2 在 IntentBench 等基准测试中表现出色，准确率高达 69.33%，为 AI 理解人类复杂意图提供重要参考，模型现已开源供研究和应用。