type
status
date
slug
summary
tags
category
icon
password
一、模型训练流程与核心方法
1. DeepSeek-R1-Zero:纯强化学习驱动的推理模型
训练目标:
通过**纯强化学习(RL)**从基模型(DeepSeek-V3-Base)直接训练,无需监督微调(SFT),探索模型自主进化推理能力。
关键步骤:
- 强化学习框架(GRPO算法):
- 采用分组相对策略优化(Group Relative Policy Optimization),舍弃传统RL中的价值模型(Critic),通过组内样本的奖励均值与标准差计算优势函数(Advantage),降低计算成本。
- 公式核心: \[ A_i = \frac{r_i - \text{mean}(r_{\text{group}})}{\text{std}(r_{\text{group}})} \] 其中,组内奖励标准化减少策略更新的方差。
- 奖励设计:
- 准确性奖励:基于规则验证答案正确性(如数学问题的数值匹配、编程问题的测试用例通过)。
- 格式奖励:强制模型输出结构化思维链(如
<think>推理过程</think>
和<answer>答案</answer>
标签),确保可解析性。
- 自进化过程:
- 模型在RL训练中自发涌现长链推理(CoT)、自我验证和反思行为(“Aha Moment”)。
- 例如,在解决复杂数学问题时,模型会生成多步推导,并在发现错误时重新审视步骤(见表3示例)。
优势与局限:
- 优势:无需标注数据,模型自主进化出强大推理能力(如AIME Pass@1从15.6%提升至71.0%)。
- 局限:输出可读性差、语言混杂(如中英文混合)、依赖规则奖励的泛化性不足。
2. DeepSeek-R1:冷启动与多阶段训练优化
改进目标:
解决DeepSeek-R1-Zero的可读性问题,进一步提升推理性能和对齐人类偏好。
关键步骤:
- 冷启动阶段:
- 数据收集:通过少量人工设计的长链思维示例(数千条),引导模型生成符合人类习惯的推理过程。 示例格式:
- 模型初始化:用冷启动数据对基模型进行初步SFT,作为后续RL训练的起点。
- 多阶段强化学习:
- 第一阶段(推理优化):
- 针对数学、编程等结构化任务进行RL训练,奖励结合准确性和语言一致性(强制输出单语言)。
- 解决语言混杂问题,但轻微牺牲性能(如GPQA Pass@1从75.7%降至71.5%)。
- 第二阶段(对齐人类偏好):
- 结合无害性和有用性奖励,使用多样化提示分布训练。
- 对非推理任务(如写作、问答),采用生成式奖励模型(如DeepSeek-V3评分)。
- 拒绝采样与SFT增强:
- 数据生成:从RL检查点采样生成80万条高质量数据,过滤不可读输出(如混合语言、冗长段落)。
- 混合训练:结合推理数据(60万条)和非推理数据(20万条,如写作、事实问答),对基模型进行两轮SFT。
性能提升:
- MATH-500 Pass@1达97.3%,Codeforces击败率96.3%,与OpenAI-o1-1217持平。
- 通用任务(如AlpacaEval 2.0胜率87.6%)显著优于前代模型DeepSeek-V3。
3. 蒸馏:赋能小模型推理能力
核心策略:
将DeepSeek-R1的推理能力迁移至小参数模型(1.5B~70B),无需复杂RL训练。
实现方式:
- 数据蒸馏:使用DeepSeek-R1生成的80万条高质量数据(含推理链和答案),直接对开源模型(如Qwen、Llama)进行SFT。
- 效果对比:
- 蒸馏优势:
- DeepSeek-R1-Distill-Qwen-32B在AIME 2024达72.6% Pass@1,远超直接对Qwen-32B进行RL训练的结果(47.0%)。
- 蒸馏模型性能接近闭源模型(如Llama-70B蒸馏版MATH-500 Pass@1达94.5%)。
- 效率对比:蒸馏成本远低于大规模RL训练(节省90%以上算力)。
原因分析:
- 大模型通过RL探索的推理模式更优,直接蒸馏可避免小模型RL训练中的局部最优问题。
- 小模型难以通过纯RL自主进化复杂推理能力(需海量计算资源)。
二、实验设计与结果分析
1. 基准测试
- 数学推理:AIME 2024、MATH-500、CNMO 2024。
- 编程任务:Codeforces(算法竞赛)、LiveCodeBench(工程编码)、SWE-Bench(软件修复)。
- 知识问答:MMLU、GPQA Diamond、SimpleQA。
- 通用能力:AlpacaEval 2.0(开放生成)、ArenaHard(复杂问答)。
2. 关键结果
模型 | AIME Pass@1 | MATH-500 Pass@1 | Codeforces击败率 | MMLU Pass@1 |
DeepSeek-R1-Zero | 71.0% | 95.9% | 96.3% | 85.2% |
DeepSeek-R1 | 79.8% | 97.3% | 96.3% | 90.8% |
OpenAI-o1-1217 | 79.2% | 96.4% | 96.6% | 91.8% |
Distill-Qwen-32B | 72.6% | 94.3% | 62.1% | - |
- 结论:
- DeepSeek-R1在数学和编程任务上对标OpenAI-o1-1217,知识问答稍逊但显著优于其他模型。
- 蒸馏模型在低参数量下仍保持高性能(如14B模型超越QwQ-32B-Preview)。
三、方法论创新与设计逻辑
1. 为何选择GRPO算法?
- 计算效率:省去价值模型(Critic),直接通过组内奖励标准化降低策略更新方差。
- 稳定性:组内对比减少单一高奖励样本的过拟合风险(见图2训练曲线平滑)。
2. 冷启动数据的必要性
- 引导可读性:人工设计示例强制模型输出结构化内容,解决DeepSeek-R1-Zero的混乱输出。
- 加速收敛:提供高质量起点,避免RL初期探索的低效性。
3. 拒绝采样的作用
- 数据质量过滤:仅保留格式正确、答案准确的样本,提升后续SFT阶段的数据纯度。
- 多任务平衡:混合推理与非推理数据,防止模型过度偏向单一任务。
四、局限与未来方向
1. 当前局限
- 语言混合:优化仅限于中英文,其他语言查询仍可能混杂输出。
- 工程任务不足:软件修复(SWE-Bench)因评估耗时,RL训练数据覆盖有限。
- 提示敏感性:零样本依赖性强,少样本提示可能干扰模型表现。
2. 未来计划
- 扩展应用场景:将长链推理(CoT)应用于多模态理解、函数调用等任务。
- 异步RL优化:加速软件工程任务的训练效率。
- 多语言对齐:引入更多语言数据,减少非中英文查询的语言混杂。
五、开源与社区影响
- 开源模型:发布DeepSeek-R1-Zero、DeepSeek-R1及6个蒸馏模型(1.5B~70B),覆盖Qwen和Llama架构。
- 研究意义:
- 验证纯强化学习可驱动模型自主进化推理能力,减少对标注数据的依赖。
- 提供高效蒸馏方案,推动小模型在复杂任务中的应用。
- 作者:FXY
- 链接:https://ifxy.vercel.app/article/deepseek
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。