RAGEN是开源的强化学习框架,用于在交互式、随机环境中训练大型语言模型(LLM)推理Agent。基于StarPO(State-Thinking-Action-Reward Policy Optimization)框架,通过多轮交互优化整个轨迹,支持PPO、GRPO等多种优化策略。RAGEN通过MDP形式化Agent与环境的交互,引入渐进式奖励归一化策略,有效解决了多轮强化学习中的不稳定性。RAGEN的代码结构经过优化,分为环境管理器、上下文管理器和代理代理三个模块,方便扩展和实验。支持多种环境,如Sokoban、FrozenLake等,展示了良好的泛化能力。

RAGEN – 训练大模型推理 Agent 的开源强化学习框架  第1张
(图片来源网络,侵删)
RAGEN – 训练大模型推理 Agent 的开源强化学习框架  第2张
(图片来源网络,侵删)