关于Deepseek | FXY’S BLOG

type

status

date

slug

summary

tags

category

icon

password

一、模型训练流程与核心方法

1. DeepSeek-R1-Zero：纯强化学习驱动的推理模型

训练目标：

通过**纯强化学习（RL）**从基模型（DeepSeek-V3-Base）直接训练，无需监督微调（SFT），探索模型自主进化推理能力。

关键步骤：

强化学习框架（GRPO算法）：

采用分组相对策略优化（Group Relative Policy Optimization），舍弃传统RL中的价值模型（Critic），通过组内样本的奖励均值与标准差计算优势函数（Advantage），降低计算成本。

公式核心： \[ A_i = \frac{r_i - \text{mean}(r_{\text{group}})}{\text{std}(r_{\text{group}})} \] 其中，组内奖励标准化减少策略更新的方差。

奖励设计：

准确性奖励：基于规则验证答案正确性（如数学问题的数值匹配、编程问题的测试用例通过）。

格式奖励：强制模型输出结构化思维链（如<think>推理过程</think>和<answer>答案</answer>标签），确保可解析性。

自进化过程：

模型在RL训练中自发涌现长链推理（CoT）、自我验证和反思行为（“Aha Moment”）。

例如，在解决复杂数学问题时，模型会生成多步推导，并在发现错误时重新审视步骤（见表3示例）。

优势与局限：

优势：无需标注数据，模型自主进化出强大推理能力（如AIME Pass@1从15.6%提升至71.0%）。

局限：输出可读性差、语言混杂（如中英文混合）、依赖规则奖励的泛化性不足。

2. DeepSeek-R1：冷启动与多阶段训练优化

改进目标：

解决DeepSeek-R1-Zero的可读性问题，进一步提升推理性能和对齐人类偏好。

关键步骤：

冷启动阶段：

数据收集：通过少量人工设计的长链思维示例（数千条），引导模型生成符合人类习惯的推理过程。示例格式：

模型初始化：用冷启动数据对基模型进行初步SFT，作为后续RL训练的起点。

多阶段强化学习：

第一阶段（推理优化）：

针对数学、编程等结构化任务进行RL训练，奖励结合准确性和语言一致性（强制输出单语言）。
解决语言混杂问题，但轻微牺牲性能（如GPQA Pass@1从75.7%降至71.5%）。

第二阶段（对齐人类偏好）：

结合无害性和有用性奖励，使用多样化提示分布训练。
对非推理任务（如写作、问答），采用生成式奖励模型（如DeepSeek-V3评分）。

拒绝采样与SFT增强：

数据生成：从RL检查点采样生成80万条高质量数据，过滤不可读输出（如混合语言、冗长段落）。

混合训练：结合推理数据（60万条）和非推理数据（20万条，如写作、事实问答），对基模型进行两轮SFT。

性能提升：

MATH-500 Pass@1达97.3%，Codeforces击败率96.3%，与OpenAI-o1-1217持平。

通用任务（如AlpacaEval 2.0胜率87.6%）显著优于前代模型DeepSeek-V3。

3. 蒸馏：赋能小模型推理能力

核心策略：

将DeepSeek-R1的推理能力迁移至小参数模型（1.5B~70B），无需复杂RL训练。

实现方式：

数据蒸馏：使用DeepSeek-R1生成的80万条高质量数据（含推理链和答案），直接对开源模型（如Qwen、Llama）进行SFT。

效果对比：

蒸馏优势：

DeepSeek-R1-Distill-Qwen-32B在AIME 2024达72.6% Pass@1，远超直接对Qwen-32B进行RL训练的结果（47.0%）。
蒸馏模型性能接近闭源模型（如Llama-70B蒸馏版MATH-500 Pass@1达94.5%）。

效率对比：蒸馏成本远低于大规模RL训练（节省90%以上算力）。

原因分析：

大模型通过RL探索的推理模式更优，直接蒸馏可避免小模型RL训练中的局部最优问题。

小模型难以通过纯RL自主进化复杂推理能力（需海量计算资源）。

二、实验设计与结果分析

1. 基准测试

数学推理：AIME 2024、MATH-500、CNMO 2024。

编程任务：Codeforces（算法竞赛）、LiveCodeBench（工程编码）、SWE-Bench（软件修复）。

知识问答：MMLU、GPQA Diamond、SimpleQA。

通用能力：AlpacaEval 2.0（开放生成）、ArenaHard（复杂问答）。

2. 关键结果

模型	AIME Pass@1	MATH-500 Pass@1	Codeforces击败率	MMLU Pass@1
DeepSeek-R1-Zero	71.0%	95.9%	96.3%	85.2%
DeepSeek-R1	79.8%	97.3%	96.3%	90.8%
OpenAI-o1-1217	79.2%	96.4%	96.6%	91.8%
Distill-Qwen-32B	72.6%	94.3%	62.1%	-

结论：

DeepSeek-R1在数学和编程任务上对标OpenAI-o1-1217，知识问答稍逊但显著优于其他模型。
蒸馏模型在低参数量下仍保持高性能（如14B模型超越QwQ-32B-Preview）。

三、方法论创新与设计逻辑

1. 为何选择GRPO算法？

计算效率：省去价值模型（Critic），直接通过组内奖励标准化降低策略更新方差。

稳定性：组内对比减少单一高奖励样本的过拟合风险（见图2训练曲线平滑）。

2. 冷启动数据的必要性

引导可读性：人工设计示例强制模型输出结构化内容，解决DeepSeek-R1-Zero的混乱输出。

加速收敛：提供高质量起点，避免RL初期探索的低效性。

3. 拒绝采样的作用

数据质量过滤：仅保留格式正确、答案准确的样本，提升后续SFT阶段的数据纯度。

多任务平衡：混合推理与非推理数据，防止模型过度偏向单一任务。

四、局限与未来方向

1. 当前局限

语言混合：优化仅限于中英文，其他语言查询仍可能混杂输出。

工程任务不足：软件修复（SWE-Bench）因评估耗时，RL训练数据覆盖有限。

提示敏感性：零样本依赖性强，少样本提示可能干扰模型表现。

2. 未来计划

扩展应用场景：将长链推理（CoT）应用于多模态理解、函数调用等任务。

异步RL优化：加速软件工程任务的训练效率。

多语言对齐：引入更多语言数据，减少非中英文查询的语言混杂。

五、开源与社区影响

开源模型：发布DeepSeek-R1-Zero、DeepSeek-R1及6个蒸馏模型（1.5B~70B），覆盖Qwen和Llama架构。

研究意义：

验证纯强化学习可驱动模型自主进化推理能力，减少对标注数据的依赖。
提供高效蒸馏方案，推动小模型在复杂任务中的应用。

作者:FXY
链接:https://ifxy.vercel.app/article/deepseek
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

相关文章

分子轨道教程

浅谈“过拟合”

数学教学设计

Lakers Roster 数学教学设计

Loading...

FXY

FXY

一个普通的干饭人🍚

最新发布

GOAT👑

军训周记

Release of GPT5

云冈石窟

2025上海卷语文作文

春季视频

公告

🎉FXY’S BLOG