BrowseComp 是 OpenAI 开源的用于评估 AI Agent网络浏览能力的基准测试。包含 1266 个极具挑战性的问题,覆盖电影、科学与技术、艺术、历史、体育、音乐、电子游戏等多个领域。需要 AI Agent在互联网上搜索并匹配复杂约束条件,例如找出特定的足球比赛或电视剧角色等。在测试中,OpenAI 的 GPT-4o 和 GPT-4.5 准确率极低,最新发布的 Agent 模型 Deep Research 准确率高达 51.5%,显示出在自主搜索、信息整合和准确性校准方面的优势。

BrowseComp – OpenAI 开源的 AI Agent 网络浏览能力基准  第1张
(图片来源网络,侵删)
BrowseComp – OpenAI 开源的 AI Agent 网络浏览能力基准  第2张
(图片来源网络,侵删)