DeepSeek技术报告解析：为什么DeepSeek-R1 可以用低成本训练出高效的模型-阿里云开发者社区

DeepSeek技术报告解析：为什么DeepSeek-R1 可以用低成本训练出高效的模型

2025-02-05 1076

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时数仓Hologres，5000CU*H 100GB 3个月

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

实时计算 Flink 版，1000CU*H 3个月

简介： DeepSeek-R1 通过创新的训练策略实现了显著的成本降低，同时保持了卓越的模型性能。本文将详细分析其核心训练方法。

DeepSeek-R1 通过创新的训练策略实现了显著的成本降低，同时保持了卓越的模型性能。本文将详细分析其核心训练方法。

成本优势对比

在推理成本方面，DeepSeek-R1 展现出显著优势：

输入 tokens : $0.55/百万 tokens
输出 tokens : $2.19/百万 tokens

相比之下，O1 的推理成本：

输入 tokens : $15.00/百万 tokens
输出 tokens : $60.00/百万 tokens

核心训练策略

DeepSeek 团队采用了一种独特的训练方案，通过减少监督微调（SFT）步骤来降低训练成本。他们首先尝试完全跳过 SFT，推出了名为 DeepSeek-R1-Zero 的版本，仅依赖强化学习（RL）技术。虽然这种方法在初期带来了较高的计算开销（因为模型需要更多探索），但研究人员发现添加少量冷启动数据可以显著提升训练稳定性和模型推理能力。

RLHF 工作原理

在深入了解 DeepSeek-R1 的训练方法之前，我们需要理解 RLHF（基于人类反馈的强化学习）的基本工作原理：

数据收集： 首先，团队创建提示并收集人类对这些提示的响应。
监督微调（SFT）： 研究人员使用预训练的语言模型并在人类生成的数据上进行微调。模型响应与人类编写的参考进行比较，并根据匹配程度分配分数。
构建奖励模型： 人类评估者对模型的回复进行评分，选择最自然或正确的回复。这些评分用于训练一个独立的"奖励模型"。
策略优化： 主要语言模型从奖励模型获得反馈，并调整其生成文本的策略。通过多次迭代，模型逐渐适应人类期望。

三大关键训练方法

1、创新的策略优化算法（GRPO）

DeepSeek-R1 采用组相对策略优化（GRPO）替代传统的近端策略优化（PPO）。PPO 在 RLHF 过程中的具体工作流程包括：

样本收集：生成响应并收集其相关状态和估计奖励的数据
优势估计：计算每个响应的"优势"，确定响应相对于平均水平的好坏程度
策略更新：使用 PPO 的目标函数调整语言模型的策略以最大化预期奖励
剪辑机制：通过 PPO 的剪辑机制防止策略发生剧变，确保稳定学习

相比之下，GRPO 通过以下创新实现了更高效的训练：

GRPO 的主要优势：

无需单独的价值模型
采用基于组的相对优势估计
显著降低内存和计算开销
增强了模型的数学推理能力

PPO 和 GRPO 的比较

2、高效的双重奖励系统

DeepSeek-R1-Zero 实施了一个精心设计的基于规则的奖励系统，包含两个核心组件：

准确性奖励：

针对数学问题等确定性任务
要求模型在特定格式中提供答案
支持自动化验证答案正确性
对于编程问题可利用编译器进行验证

格式奖励：

引导模型使用标准化的思考过程格式
要求将推理过程放在''和''标签之间
提高输出的结构化程度和可解释性

3、模板化 RLHF 训练

团队开发了一个简洁而有效的训练模板，具有以下特点：

提供清晰的推理过程生成指南
强调结构化输出格式
避免引入特定内容偏见
便于观察和评估模型的学习进展

训练成果与突破

训练中的关键发现：

零监督突破： DeepSeek-R1-Zero 成功证明无需传统的监督微调数据也能实现强大推理能力。通过多数投票机制，性能甚至超越了 OpenAI-o1。
自适应思考： 在训练过程中观察到一个有趣的现象 - 模型学会了在必要时重新评估其初始方法并分配更多思考时间。这种自适应能力展示了强化学习带来的意外收益。
效率提升： 通过 GRPO 和高效奖励系统的结合，模型在保持性能的同时显著降低了计算资源消耗。

这些发现不仅验证了 DeepSeek 团队的创新训练方法的有效性，也为未来大语言模型的开发提供了重要参考。

DeepSeek-R1-Zero 中间版本的一个有趣的"aha 时刻"

DeepSeek-R1 与其他代表性模型的比较

成本效益分析

DeepSeek-R1 的开发成本仅为 600 万美元，相比 OpenAI 的 O1 模型（约 5 亿美元）节省了超过 98% 的成本。这种显著的成本优势主要得益于：

创新的 GRPO 训练算法
高效的奖励系统设计
精简的训练流程
模板化的训练方法

总结

DeepSeek-R1 的成功表明，通过创新的训练方法和精心设计的架构，可以在保持模型性能的同时显著降低训练成本。这为未来大语言模型的开发提供了新的思路，特别是在资源受限的情况下如何实现高性能模型的训练。

这种低成本高效益的训练方法，不仅降低了 AI 研发的门槛，也为开源 AI 社区的发展提供了宝贵的经验。随着这些技术的不断完善和推广，有望看到更多创新且实用的 AI 模型出现。

DeepSeek技术报告解析：为什么DeepSeek-R1 可以用低成本训练出高效的模型

成本优势对比

核心训练策略

RLHF 工作原理

三大关键训练方法

1、创新的策略优化算法（GRPO）

2、高效的双重奖励系统

3、模板化 RLHF 训练

训练成果与突破

成本效益分析

总结

大数据与机器学习

热门文章

最新文章

相关课程

相关电子书

推荐镜像