BrowseComp – OpenAI 开源的 AI Agent 网络浏览能力基准

baidu09_com 2025-08-28 5 0

BrowseComp 是 OpenAI 开源的用于评估 AI Agent网络浏览能力的基准测试。包含 1266 个极具挑战性的问题，覆盖电影、科学与技术、艺术、历史、体育、音乐、电子游戏等多个领域。需要 AI Agent在互联网上搜索并匹配复杂约束条件，例如找出特定的足球比赛或电视剧角色等。在测试中，OpenAI 的 GPT-4o 和 GPT-4.5 准确率极低，最新发布的 Agent 模型 Deep Research 准确率高达 51.5%，显示出在自主搜索、信息整合和准确性校准方面的优势。