CogAgent-9B是基于 GLM-4V-9B 训练的专用Agent任务模型,仅依赖屏幕截图作为输入,无需HTML等文本表征。CogAgent-9B支持高分辨率图像处理,具备双语(中英文)交互能力,能预测并执行GUI操作,实现自动化任务。在多个GUI操作数据集上取得了领先成绩,模型已开源,推动大模型Agent生态的发展。CogAgent-9B可广泛应用于个人电脑、手机、车机等GUI交互场景。


CogAgent-9B是基于 GLM-4V-9B 训练的专用Agent任务模型,仅依赖屏幕截图作为输入,无需HTML等文本表征。CogAgent-9B支持高分辨率图像处理,具备双语(中英文)交互能力,能预测并执行GUI操作,实现自动化任务。在多个GUI操作数据集上取得了领先成绩,模型已开源,推动大模型Agent生态的发展。CogAgent-9B可广泛应用于个人电脑、手机、车机等GUI交互场景。
全部评论
留言在赶来的路上...
发表评论