Mobile-Agent 是具有移动性的智能代理软件实体,能在网络的各个节点之间移动,代表用户或其他代理进行工作。能根据具体情况中断当前执行,移动至另一设备上恢复运行,及时返回结果。这种移动的目的是使程序的执行尽可能靠近数据源,降低网络通信开销,节省带宽,平衡负载,加快任务的执行,提高分布式系统的处理效率。

Mobile-Agent 的应用发展迅速,在移动设备操作领域。例如,阿里巴巴与北京交通大学共同提出的 Mobile-Agent-v2 是通过多代理协作实现有效导航的移动设备操作助手。基于多模态大语言模型(MLLM),能自主完成复杂的移动设备操作任务。Mobile-Agent-v2 包含规划Agent、决策Agent和反思Agent三个专业角色,能根据历史操作生成任务,在操作过程中进行自我反思和调整。Mobile-Agent 也支持纯视觉解决方案,不需要依赖系统的UI文件,是通过分析图像来理解和操作手机。使能在不同的移动操作系统环境中灵活应用。

第三代 GUI 智能体框架 Mobile-Agent-v3,基于视觉多模态模型 GUI-Owl,实现 GUI 自动化技术的重大突破,覆盖 PC、Web 和手机系统,能在多平台精准识别界面元素并执行操作。

Mobile-baidu09Agent – 阿里开源的自主多模态移动设备智能体  第1张
(图片来源网络,侵删)
Mobile-baidu09Agent – 阿里开源的自主多模态移动设备智能体  第2张
(图片来源网络,侵删)