豆包视觉理解模型 – 豆包推出视觉理解模型，具备识别和推理能力

baidu09_com 2025-08-31 12 0

豆包视觉理解模型是推出的先进AI大模型，具备视觉识别和理解推理能力。豆包视觉理解模型具备强大的视觉定位能力，支持多目标、小目标及通用目标的框定位和点定位，支持进行定位计数、描述定位内容及3D定位，支持识别图像中物体的类别、形状、纹理等，理解物体间的关系和场景含义，进行复杂的逻辑计算任务。模型在视频理解能力上有大幅提升，比如记忆、总结理解、速度感知、长视频理解等，能细腻地描述视觉内容，创作故事。豆包模型的发布，让视觉理解技术迈入更低成本、更广泛应用时代。