ShowUI是新加坡国立大学Show Lab和微软共同推出的视觉-语言-行动模型,能提升图形用户界面(GUI)助手的工作效率。模型基于UI引导的视觉令牌选择减少计算成本,用交错视觉-语言-行动流统一GUI任务中的多样化需求,并管理视觉-行动历史增强训练效率。ShowUI用小规模但高质量的指令跟随数据集,用256K数据实现75.1%的零样本截图定位准确率,训练速度提升1.4倍,展现出在GUI视觉代理领域的潜力。


ShowUI是新加坡国立大学Show Lab和微软共同推出的视觉-语言-行动模型,能提升图形用户界面(GUI)助手的工作效率。模型基于UI引导的视觉令牌选择减少计算成本,用交错视觉-语言-行动流统一GUI任务中的多样化需求,并管理视觉-行动历史增强训练效率。ShowUI用小规模但高质量的指令跟随数据集,用256K数据实现75.1%的零样本截图定位准确率,训练速度提升1.4倍,展现出在GUI视觉代理领域的潜力。
全部评论
留言在赶来的路上...
发表评论