WebWalker是阿里巴巴自然语言处理团队开发的用于评估和提升大型语言模型(LLMs)在网页浏览任务中性能的工具。通过模拟网页导航任务,帮助模型更好地处理长上下文信息。WebWalker的核心功能包括多智能体框架,能有效管理内存并支持模型在网页浏览过程中保持记忆;垂直探索策略,深入探索单个页面或相关页面链,获取更深层次的信息;以及WebWalkerQA数据集,包含680个具有挑战性的查询,覆盖多语言和多领域的网页内容,用于测试模型的性能。

WebWalker – 阿里推出用于评估LLMs在网页浏览任务中性能的基准工具  第1张
(图片来源网络,侵删)
WebWalker – 阿里推出用于评估LLMs在网页浏览任务中性能的基准工具  第2张
(图片来源网络,侵删)