首页 / AI工具 / ScreenAgent – 基于视觉语言模型的计算机控制智能体

AI工具

ScreenAgent – 基于视觉语言模型的计算机控制智能体

baidu09_com 2025-08-30 8 0

ScreenAgent是一个由吉林大学人工智能学院的研究团队开发的计算机控制智能体，该智能体是基于视觉语言模型（VLM）构建的，能够与真实计算机屏幕进行交互。研究人员构建了一个包含“计划-执行-反思”的运行流程，以引导智能体与计算机屏幕进行持续性的交互。ScreenAgent的核心功能是通过观察屏幕截图，并输出相应的鼠标和键盘动作来操纵图形用户界面（GUI），从而执行多步骤的复杂任务。

ScreenAgent – 基于视觉语言模型的计算机控制智能体第1张

（图片来源网络，侵删）

ScreenAgent – 基于视觉语言模型的计算机控制智能体第2张

（图片来源网络，侵删）

基于视觉是啥意思视觉显示基于视觉属性的图像检索论文视觉 transformer 基于视觉的路径规划视觉识别开源视觉guideline

本文由 @baidu09_com 发布在拜读未来科技摆渡人生，如有疑问，请联系我们。
文章链接：https://baidu09.com/news/14768.html

上一篇

AMR中国国际汽保汽配展引领中国汽车后市场可持续发展潮流

下一篇

速马力损害发动机吗？速马力事件最终结果如何

全部评论

留言在路上...

留言在赶来的路上...

发表评论取消回复

登录关灯投稿生成海报返回顶部