首页 / AI工具 / WebRL – 清华联合智谱AI推出的自进化在线课程强化学习框架

AI工具

WebRL – 清华联合智谱AI推出的自进化在线课程强化学习框架

baidu09_com 2025-08-31 7 0

WebRL是清华大学、智谱AI联合推出的自我进化的在线课程强化学习框架，训练使用开放大型语言模型（LLMs）的高性能网络代理。WebRL动态生成任务、结果监督奖励模型（ORM）评估任务成功与否，及自适应强化学习策略，解决训练任务稀缺、反馈信号稀疏和在线学习中的策略分布漂移等挑战。WebRL显著提升了Llama-3.1和GLM-4等模型在WebArena-Lite基准测试中的成功率，超越专有LLM API和之前训练的网络代理，证明在提升开源LLMs网络任务能力方面的有效性。

WebRL – 清华联合智谱AI推出的自进化在线课程强化学习框架第1张

（图片来源网络，侵删）

WebRL – 清华联合智谱AI推出的自进化在线课程强化学习框架第2张

（图片来源网络，侵删）

清华大学学生联合会清华北大联合去清华联合培养怎么样清华联合培养什么意思清华北大联合学校清华联盟清华联谊

本文由 @baidu09_com 发布在拜读未来科技摆渡人生，如有疑问，请联系我们。
文章链接：https://baidu09.com/news/15150.html

上一篇

国际橡塑展耀世开幕展会规模再创新高 3,900+中外展商聚焦“绿色、智能、先进”

下一篇

宝马烧机油厉害吗，宝马哪款不烧机油

全部评论

留言在路上...

留言在赶来的路上...

发表评论取消回复

登录关灯投稿生成海报返回顶部