OmniParser是微软研究院推出的屏幕解析工具,将用户界面的屏幕截图转换成结构化数据。工具专门设计用在提高基于大型语言模型(如GPT-4V)的UI代理系统的性能,基于准确识别可交互图标和理解截图元素的语义,增强代理执行任务的能力。OmniParser用微调过的模型提取屏幕中的交互区域和元素功能语义,在多个基准测试中提升操作的精确度和代理的性能,无需依赖额外信息如HTML或视图层次结构。OmniParser 能与各种最先进的 LLM 一起使用:OpenAI (//)、、和 Anthropic (Sonnet)。

OmniParser – 微软推出的屏幕解析工具,将UI截图转换为结构化数据  第1张
(图片来源网络,侵删)
OmniParser – 微软推出的屏幕解析工具,将UI截图转换为结构化数据  第2张
(图片来源网络,侵删)