AGUVIS是香港大学、Salesforce 联合推出的统一的纯视觉框架,专为自主GUI智能体设计,能在各种平台(如网页、桌面、移动设备)上操作。AGUVIS基于图像观察和自然语言指令与视觉元素的关联,采用一致的动作空间实现跨平台泛化。AGUVIS结合显式规划和推理,增强代理在复杂数字环境中的自主导航和交互能力。框架通过大规模数据集和两阶段训练流程,实现了在离线和在线场景中超越现有方法的性能,成为首个不依赖外部闭源模型独立完成任务的纯视觉GUI代理。

AGUVIS – 香港大学联合 Salesforce 推出统一纯视觉的GUI自动化框架  第1张
(图片来源网络,侵删)
AGUVIS – 香港大学联合 Salesforce 推出统一纯视觉的GUI自动化框架  第2张
(图片来源网络,侵删)