RAGEN:RL训练LLM推理新范式!开源强化学习框架让Agent学会多轮决策

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: RAGEN是一个基于StarPO框架的开源强化学习系统,通过马尔可夫决策过程形式化Agent与环境的交互,支持PPO、GRPO等多种优化算法,显著提升多轮推理训练的稳定性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎯 「RL训练LLM推理新范式!开源框架让Agent学会多轮决策,GitHub已标星2k+」

大家好,我是蚝油菜花。当大多数团队还在用单轮提示优化LLM时,这个来自学术界的强化学习框架正在重新定义Agent训练方式!你是否也遇到过这些AI训练困境——

  • 🤖 微调后的模型在简单问答表现良好,遇到多轮交互就"失忆"
  • 🔄 传统RL方法训练LLM时,reward设计像玄学,收敛曲线堪比心电图
  • 🧩 想尝试多环境并行训练,但PPO实现复杂度让人望而却步...

今天要解剖的 RAGEN ,用三大突破解决这些痛点:

  • 轨迹级优化:StarPO框架直接优化完整交互轨迹,告别短视决策
  • 模块化架构:环境管理器/上下文管理器/Agent代理解耦,扩展性拉满
  • 稳定训练黑科技:渐进式奖励归一化+方差过滤,让loss曲线不再蹦极

已有团队用它训练出能玩转Sokoban解谜的AI,金融领域正在测试自动报告生成——你的LLM准备好升级为「多轮推理大师」了吗?

🚀 快速阅读

RAGEN是专为LLM设计的强化学习训练框架。

  1. 功能:通过MDP形式化多轮交互,支持完整轨迹优化
  2. 技术:StarPO框架整合PPO/GRPO算法,采用渐进式奖励归一化策略

RAGEN 是什么

RAGEN

RAGEN是开源的强化学习框架,用于在交互式、随机环境中训练大型语言模型(LLM)推理Agent。基于StarPO(State-Thinking-Action-Reward Policy Optimization)框架,通过多轮交互优化整个轨迹,支持PPO、GRPO等多种优化策略。

RAGEN通过MDP形式化Agent与环境的交互,引入渐进式奖励归一化策略,有效解决了多轮强化学习中的不稳定性。RAGEN的代码结构经过优化,分为环境管理器、上下文管理器和代理代理三个模块,方便扩展和实验。支持多种环境,如Sokoban、FrozenLake等,展示了良好的泛化能力。

RAGEN 的主要功能

  • 多轮交互与轨迹优化:通过StarPO框架将Agent与环境的交互形式化为马尔可夫决策过程(MDP),优化整个交互轨迹
  • 强化学习算法支持:支持PPO、GRPO和BRPO等多种强化学习算法
  • 易于扩展的环境支持:提供添加自定义环境的接口,已支持Sokoban、FrozenLake等环境
  • 稳定性和效率提升:通过基于方差的轨迹过滤、引入"评论家"以及解耦裁剪等技术提高训练稳定性

RAGEN 的技术原理

  • MDP形式化:将Agent与环境的交互形式化为马尔可夫决策过程(MDP),状态和动作是token序列
  • StarPO框架:包含Rollout阶段(生成推理引导的交互轨迹)和Update阶段(优化整个轨迹的预期奖励)
  • 优化策略:支持PPO、GRPO等多种强化学习算法,适应不同训练需求
  • 渐进式奖励归一化策略:引入基于不确定性的过滤、移除KL惩罚和不对称PPO裁剪等策略
  • 模块化设计:采用环境状态管理器、上下文管理器和Agent代理的三模块架构

如何运行 RAGEN

环境配置

bash scripts/setup_ragen.sh

若自动配置失败,可参考scripts/setup_ragen.md进行手动设置

模型训练

基础配置文件为config/base.yaml,包含:

  • config/ppo_trainer.yaml
  • config/envs.yaml

执行训练命令:

python train.py --config-name base

模型评估

python -m ragen.llm_agent.agent_proxy --config-name <eval_config>

需在config/<eval_config>.yaml中设置模型和环境参数

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
2月前
|
存储 机器学习/深度学习 算法
​​LLM推理效率的范式转移:FlashAttention与PagedAttention正在重塑AI部署的未来​
本文深度解析FlashAttention与PagedAttention两大LLM推理优化技术:前者通过分块计算提升注意力效率,后者借助分页管理降低KV Cache内存开销。二者分别从计算与内存维度突破性能瓶颈,显著提升大模型推理速度与吞吐量,是当前高效LLM系统的核心基石。建议收藏细读。
543 125
|
1月前
|
人工智能 自然语言处理 TensorFlow
134_边缘推理:TensorFlow Lite - 优化移动端LLM部署技术详解与实战指南
在人工智能与移动计算深度融合的今天,将大语言模型(LLM)部署到移动端和边缘设备已成为行业发展的重要趋势。TensorFlow Lite作为专为移动和嵌入式设备优化的轻量级推理框架,为开发者提供了将复杂AI模型转换为高效、低功耗边缘计算解决方案的强大工具。随着移动设备硬件性能的不断提升和模型压缩技术的快速发展,2025年的移动端LLM部署已不再是遥远的愿景,而是正在成为现实的技术实践。
|
2月前
|
机器学习/深度学习 人工智能 前端开发
解决推理能力瓶颈,用因果推理提升LLM智能决策
从ChatGPT到AI智能体,标志着AI从对话走向自主执行复杂任务的能力跃迁。AI智能体可完成销售、旅行规划、外卖点餐等多场景任务,但其发展受限于大语言模型(LLM)的推理能力。LLM依赖统计相关性,缺乏对因果关系的理解,导致在非确定性任务中表现不佳。结合因果推理与内省机制,有望突破当前AI智能体的推理瓶颈,提升其决策准确性与自主性。
227 6
解决推理能力瓶颈,用因果推理提升LLM智能决策
|
1月前
|
存储 机器学习/深度学习 PyTorch
119_LLM训练的高效内存管理与优化技术:从ZeRO到Flash Attention
大型语言模型(LLM)的训练面临着前所未有的计算和内存挑战。随着模型规模达到数百亿甚至数千亿参数,高效的内存管理成为训练成功的关键因素之一。2025年,LLM训练的内存优化技术已经取得了显著进展,从ZeRO优化器到Flash Attention等创新技术,为训练超大规模模型提供了可能。
|
1月前
|
机器学习/深度学习 缓存 PyTorch
131_推理加速:ONNX与TensorRT深度技术解析与LLM模型转换优化实践
在大语言模型(LLM)时代,高效的推理加速已成为部署高性能AI应用的关键挑战。随着模型规模的不断扩大(从BERT的数亿参数到GPT-4的数千亿参数),推理过程的计算成本和延迟问题日益突出。ONNX(开放神经网络交换格式)和TensorRT作为业界领先的推理优化框架,为LLM的高效部署提供了强大的技术支持。本文将深入探讨LLM推理加速的核心原理,详细讲解PyTorch模型转换为ONNX和TensorRT的完整流程,并结合2025年最新优化技术,提供可落地的代码实现与性能调优方案。
|
1月前
|
存储 监控 算法
117_LLM训练的高效分布式策略:从数据并行到ZeRO优化
在2025年,大型语言模型(LLM)的规模已经达到了数千亿甚至数万亿参数,训练这样的庞然大物需要先进的分布式训练技术支持。本文将深入探讨LLM训练中的高效分布式策略,从基础的数据并行到最先进的ZeRO优化技术,为读者提供全面且实用的技术指南。
|
2月前
|
机器学习/深度学习 测试技术 决策智能
SAPO去中心化训练:多节点协作让LLM训练效率提升94%
SAPO(Swarm Sampling Policy Optimization)提出去中心化异步强化学习框架,通过节点间共享rollouts提升大模型后训练效率。实验显示,在数千节点上可实现94%回报提升,尤其助力中等规模模型突破性能瓶颈。
113 0
SAPO去中心化训练:多节点协作让LLM训练效率提升94%
|
1月前
|
缓存 监控 安全
80_离线环境搭建:无互联网LLM推理
在当今大语言模型(LLM)蓬勃发展的时代,许多组织和个人面临着一个共同的挑战:如何在无互联网连接的环境中高效部署和使用LLM?这一需求源于多方面的考量,包括数据安全、隐私保护、网络限制、极端环境作业等。2025年,随着企业对数据主权意识的增强和边缘计算的普及,离线LLM部署已成为AI应用落地的关键场景之一。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
53_多模态LLM:图像理解的新范式
在人工智能技术快速发展的今天,单一模态的语言模型已经无法满足日益复杂的应用需求。2025年,多模态大型语言模型(MLLM)的崛起标志着AI技术进入了一个新的发展阶段,特别是在图像理解与文本生成的结合方面取得了突破性进展。本文将深入剖析多模态LLM的技术原理、架构设计、性能评估及实际应用案例,探讨视觉-语言融合技术如何重塑AI应用的边界,以及在未来发展中面临的挑战与机遇。

热门文章

最新文章