R1相关：R1-Zero的进一步理解和探索

TL;DR

本文通过对近期几篇R1-Zero相关工作进行梳理，同时结合部分已有的工作，从整体上对R1-Zero及其范式进行更深层次的理解和探索。主要观点整理如下：

Base模型是核心，RL在激活能力
- 强模型需高难度数据充分激活能力，弱模型需渐进引导。
- 强模型对格式限制不敏感，弱模型需适配模板以避免探索抑制。
- 自我反思频率与准确率无必然关联，需结合数据质量分析。模型层数增加时，简单问题易被“过度思考”，复杂问题感知简化。
LLM学习模式的关键发现
- 反思能力在预训练早期即显现，随训练逐步提升。
- LLM依赖模式记忆而非数学规则。
- 预训练知识获取分三阶段：统计学习→平台期（记忆回路形成）→个体知识获取。数据调度策略（如“热身训练”）可加速知识获取，微调易导致幻觉与知识损坏。
RL算法
- 算法改进：DAPO、Dr GRPO。
- 强化已有正确推理行为（非注入新知识），领域预训练可显著提升上限。
- 分阶段扩展上下文窗口（短→长任务），按难度课程式学习匹配模型能力。
工程实践关键
- Base模型优先同系列大模型，小模型需更多探索，慎用SFT冷启动（可能限制RL潜力）。
- 数据应覆盖多领域、多难度、多样化回答，避免固定格式限制（弱模型尤其敏感）。
- 弱Base没做过LongCoT的可以先LongCoT。遵循课程式数据设计和训练策略：从短任务逐步过渡到长难题。

总之，Base模型是核心，Base不行先继续训练或LongCoT。RL是激活手段，需结合数据难度与模型能力动态适配。工程上分阶段、重数据质量与课程设计，避免过度依赖微调。

研究速览

近期三篇继续探索、改进R1-Zero本身范式的工作，比较有意思，统一记录一下。

SimpleRL-Zoo

Paper：http://arxiv.org/abs/2503.18892

GitHub：https://github.com/hkust-nlp/simpleRL-reason

HKUST的工作，最有意思的发现是非Qwen系列模型也可以Aha，这在之前的研究中是没有的，比如oat-zero^[1]、Online-DPO-R1^[2]都没有在LLaMA3中观察到Aha。

其实很多结论差不多已经成为共识了。罗列一下关键发现：

响应长度的增加并不总是意味着Aha。也就是说响应长度增加，自我反思频率并不一定增加。这点和其他研究的观察一致，长度的增加本来就和自我反思没有绝对的因果关系，顶多说观察到一定的相关性。
在Llama3-8B和DeepSeek-Math-7B上观察到特定认知推理行为（如验证）的频率提升。这就是本文所谓的Qwen外模型Aha了，其关键是使用了“适当难度”的数据引导“不同能力”的Base。与此相关的一个发现就是：训练数据的难度必须与Base模型的内在探索能力相匹配，否则训练会失败。这与“核心在Base”本质上是一致的但更加清晰，因为本质就是在“激活”Base。如下图所示，随着数据难度增加，Mistral-7B 的性能逐渐下降；而Qwen-2.5-7B的表现则相反，随着数据集难度的降低，模型的平均准确率和响应长度都呈下降趋势。这不但说明Qwen-2.5-7B本身备较强的推理能力，也再次说明这就是在“激活”Base，难度太小的数据反而无法激活能力强的模型。这也是之前LIMO^[3]、LIMR^[4]、LIMD^[5]都在强调数据选择重要性的原因所在。
强制使用固定格式的奖励机制（比如用框圈住答案）严重抑制模型的探索能力。对一开始就难以执行指令的Base模型影响更大。如下图所示，Llama3-8B相差巨大。格式居然会限制模型性能上限，这一点也比较新颖。不过可能还和Base模型能力有关，Base能力差，外在的“限制”更加会影响其“激活”。这里的核心还是“激活”而非真正的SFT，Base模型没见过这种格式，能力弱的Base可能直接就被干懵了。
冷启动可以迅速提升Base模型性能，但会极大限制模型在强化学习阶段自由探索的能力。这种限制会削弱模型的最终性能，并抑制高级推理能力的涌现。如下图所示，最后性能最好的反而是没SFT的Base模型。这点看起来好像和我们之前的认识不太一样，因为SFT+RL一般会被认为能提升性能。个人猜测可能和论文中SFT的数据选择有关，SFT的数据质量要求非常高（数量并不重要）；另外可能也和模型选择有关（Mistral 24B），不知道换成Qwen2.5会怎样。不过我们认知的SFT+RL中的SFT做的其实是LongCoT，并不是激活，也就是我们在DeepSeek R1后LLM新范式 | Yam^[6]中提到的R1-R模式。所以，这里挑战的其实是R1的冷启动+RL模式。在那篇文章里我们也同时提到过：TTS让Base模型把“比较好的那条路径”给展示了出来；而SFT则是展示出来一条“相对还可以的固定路径”（因为激活的数据是确定的）。所以，SFT数据质量不同，激活的Base模型的推理能力就不同。而DPO正好介于SFT和其他RL之间，它展示出来的是一条“相_比较_还可以的固定路径”。是不是因为SFT后将模型“锁定”（尤其是能力弱的模型，可能更容易被锁定）在某条路径上导致后续RL效果打了折扣？

说到这里，突然想起之前LIMR^[4]还有个有意思的结论：“RL 可能更有效地增强数据稀疏场景中的推理能力，尤其对小模型来说，可能比SFT更有效”。是不是意味着RL探索范围更广，对小模型更加“友好”；而SFT相对固定，所以需要Base模型本身能力强。

Understanding R1-Zero-Like Training

Paper：http://arxiv.org/abs/2503.20783

GitHub：https://github.com/sail-sg/understand-r1-zero

这个就是oat-zero^[1]同一个团队的最新成果。这篇文章涉及两个主题：Base和RL，RL主要是Dr. GRPO，Dr. GRPO感觉比较有意思，单独写了一篇：异曲同工之妙的DrGRPO——DAPO几乎同时出现的又一GRPO优化！ | Yam^[7]，此处不再详细展开。

关于Base模型（Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-7B, Llama-3.1-8B, DeepSeek-Math-7B 和DeepSeek-V3-Base-685B）的发现：

本意是检查Base模型是否有QA能力（是否回答问题）。
- Llama 和 DeepSeek 模型通过使用合适的模板（R1模板）提高了回答能力。然而，Qwen2.5 模型在不使用模板时表现最佳。
- 未使用模板时最低的回答率表明 DeepSeek-V3-Base 是一个几乎纯粹的基础模型。
- 所有测试过的模型都是探索性的（因此适合用于RL），其中 Qwen2.5 模型表现最佳。指标用不同采样温度下的 pass@8 准确率，可以作为基础策略探索能力的标志。
- 结论：模板非常重要，所有Base已经具备了数学能力。
考察Qwen2.5系列模型。在数学任务上，因此主要还是Math模型。
- Qwen2.5 Math即使不使用模板，相比4-shot也能有60%的性能提升，推测可能在预训练时使用了拼接的问答对。
- 使用Qwen2.5复现R1-Zero时应谨慎，因为Base本身在没有模板的情况下就已经具备类似SFT的特性。
考察Base模型的Aha。
- 和其他Base模型一样，DeepSeek-V3-Base本来就会Aha。
- 虽然在 R1-Zero 中自我反思行为更为频繁，但这些行为并不一定意味着更高的准确率。

关于RL的发现：

Dr.GRPO优化GRPO两个偏差。
- 响应级别长度偏差：对积极的advantage，这种偏差导致较短的响应获得更大的梯度更新，从而使策略倾向于在正确答案中优先选择更简洁的表达。相反，对于消极的advantage，由于较长的响应具有更大的 |oi|，因此它们受到的惩罚较小，这导致策略在错误答案中倾向于选择较长的响应。
- 问题难度级别偏差：标准差较低的问题（例如，太简单或太困难的问题，结果奖励几乎全为 1 或 0）在策略更新时会被赋予更高的权重。问题级归一化导致不同问题在目标函数中的权重不同，从而在优化过程中产生了难度偏差。
模板与数据覆盖对RL影响
- Qwen2.5-Math-1.5B Base已经具备强大数学能力，添加模板反而会破坏其原有能力，RL 训练过程相当于重建这一能力。
- 当基础模型与提示模板不匹配时，模型的提升主要依赖于 RL 调优，因此问题集的覆盖范围至关重要。但如果选择了合适的模板，即使问题集很小且完全 o.o.d.，RL 仍然可以有效强化推理能力。
- 说明，关键在于强化正确的推理行为，而不是向模型注入新知识。
领域（数学）预训练提升RL上限
- RL可以改善原始的Llama基础模型，但提升较小。
- 加入数学知识后，RL性能提升显著。

FastCuRL

Paper：http://arxiv.org/abs/2503.17287
GitHub：https://github.com/nick7nlp/FastCuRL

来自腾讯混元的FastCuRL，可以看作DeepScaleR^[8]的升级一点点版，比DeepScaleR提升了0.5个点，但只用了一半训练步骤。

按Prompt长度切分数据：3个等级。
- 出发点是回答过长的两类问题：本身较难和包含大量条件（需要不断验证条件）。这两种情况都可能在 8K 上下文窗口内降低模型的训练效率。
- 同时，DeepScaleR在训练初期的裁剪率（clip ratio）较高。刚开始学习太难、回复太长的问题可能效率不高。
- 因此，依据特定特征（如响应长度）对训练数据进行分段处理，可能缓解因上下文限制导致的截断问题，提升训练效率。
不断增加上下文窗口长度进行训练。
- 出发点是要取得长上下文和计算资源的权衡。
- 采用课程学习，逐步扩展上下文窗口进行训练。
- 包括四步：
  - 先学习简单任务（short）：8k上下文。
  - 然后学习混合任务（long+short）：16k上下文。
  - 接着学习困难任务（long）。
  - 最后整体复习所有任务（short+long）。
- 每个阶段最多在相应数据集上进行一次迭代。整个完成后相当于做了3次迭代。

整体视角

前面是从论文角度分别介绍各自观点，我们现在从整体角度梳理一下。

Base的关键作用

首先就是Base模型的关键作用，可以说它就是核心，决定了后续的方向。因为无论SFT还是RL都是在“激活”能力，所以不同能力的Base在激活的选择和效果上就表现出非常大的不同。

能力激活机制：
- 数据难度匹配：训练数据的难度必须与Base模型的内在探索能力相匹配。
  - 强模型激活时相对比较“随意”，相对不太挑方法和数据，但不同难度的数据激活的能力大小不同。一般能力越强激活需要的数据难度越高，简单数据反而无法充分激活其能力。SFT+RL可能获得最好的效果。
  - 弱模型需要选择适当的数据SFT或RL，否则可能会激活失败。高难度数据容易导致性能退化，需逐步引导探索。
- 模板适应性：强制使用固定格式的奖励机制抑制模型的探索能力。
  - 强模型格式限制会对性能有一定影响（模板不匹配时，RL等于重学已有能力，效率低）。无需格式也可以，甚至有更高性能。
  - 弱模型格式限制会严重影响性能，抑制探索。但是使用合适的模板也能提高性能。
Aha现象的普适性：
- 非Qwen模型亦可涌现，Base模型也有。
- Aha与性能的非必然关联：自我反思频率提升未必带来准确率提升，需结合数据质量分析。
SFT/冷启动的争议：
- 潜在副作用：虽快速提升初始性能，但可能锁定模型路径，限制后续RL探索空间，导致最终性能低于纯RL训练（尤其在弱模型上）。
- 与数据质量强相关：若SFT数据质量高（如覆盖关键推理路径），可能正向引导；低质量数据则固化错误模式。

LLM学习模式

这部分内容是对上一部分的额外补充。

关于Base模型的反思能力，近期有一篇论文：Rethinking Reflection in Pre-Training^[9] 对其进行了研究，结果发现，反思能力实际上在模型的预训练阶段就已开始显现。论文在CoT中故意引入错误，并测试模型能否识别和纠正这些错误并得出正确答案。结果是，这种自我纠错能力在预训练早期就已出现，并会随着训练的推进而不断提升。

关于Aha，也有一篇细致研究的论文：Understanding Aha Moments: from External Observations to Internal Mechanisms^[10]，非常有意思，值得大力推荐。该论文证明，“顿悟时刻”的外部表现为更频繁地使用拟人化的语气进行自我反思，并根据问题难度自适应地调整不确定性。这一过程有助于模型完成推理而不会陷入“推理崩溃”。在内部则表现为拟人化特征与纯粹推理之间的分离，即在处理更困难的问题时，拟人化的语气会增强。此外，论文还发现“顿悟时刻”通过改变模型对问题难度的感知帮助其解决复杂问题。随着模型层数的增加，简单的问题往往被认为更复杂（过度思考），而更困难的问题则显得更简单。

说到学习模式，还有两篇非常有意思的论文。

第一篇是：Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models^[11] 这篇论文探讨了一个关键问题：LLM是学习数学原理还是仅仅记忆模式？有意思的是，他们并没有设计复杂的基准测试，而是使用基本的两个整数加法，探究两个核心属性：交换律和组合泛化。结果发现，LLM的算术处理与人类定义的原则不一致，这表明LLM依赖于记忆模式而非真正的规则学习。

还有这篇 How do language models learn facts? Dynamics, curricula and hallucinations^[12] 则探讨了LLM预训练阶段知识获取的动态机制。本文通过一个合成的事实召回（回忆）任务研究此问题，数据集包含N个随机抽样的个体（合成传记数据集）。结论如下：

语言模型的学习分为三个阶段：首先学习整体分布统计，然后表现趋于平稳（性能平台期，对应支持记忆召回的基于注意力机制的回路的形成），最后获取个体特定知识。
不平衡分布加速了通过中间平稳阶段的过渡，但导致了过拟合。数据调度策略能够利用这种加速转变，同时减轻过拟合。论文采用了一种“热身”策略：模型最初在一小部分个体上进行固定步数的训练，然后再对所有个体进行训练。从一小部分个体开始应该能缩短平台期，而随后的均匀分布则在回忆回路建立良好的情况下最大化知识获取。
微调在模型中融入新知识的效果不佳。这源于两个相关因素：首先，一旦模型获得了个体特定知识，就会产生幻觉（对未见过的个体的过度自信预测）。其次，当在新个体上进行训练时，存储在前馈层中的联想记忆会迅速损坏。

这几篇论文都比较有意思，有时间再细读。

RL的优化方向

然后是关于RL的一些认知和优化，可以说RL是当下最佳激活算法并不为过。

RL算法优化：
- Dr GRPO：修正响应长度偏差和问题难度偏差。
- DAPO：从提高上限（Clip-Higher）、动态采样（Dynamic Sampling）、Token 级策略梯度损失和过长奖励塑造四个方面进行优化，对应clip、数据采样、损失计算和最大长度设计。
RL与知识注入：
- RL关键不在于“增加知识”，而是强化“已有正确的推理行为”。即核心是引导Base，而非学习知识。
- 领域预训练能显著提升RL上限，概因为Base模型能力得到提升。
RL训练策略：
- 通过响应长度划分数据，分阶段扩展上下文窗口，优先学习短响应问题，逐步过渡到长难题，平衡效率与效果。其实质是在匹配模型不同阶段的能力水平，课程式数据设计比“大锅乱炖”更有效率。
- 按问题复杂度划分训练集，减少初期高截断率对长答案的干扰。按难度等级逐步激活会有更高的效率，但其最终效果应该和精挑细选的高质量数据集相差不大。最终效果的上限决定于Base模型。

工程实践

最后，我们从实践角度梳理一些关键点。

一个合适的Base：
- 不同系列的Base模型特点不同，需根据任务选择合适的Base模型，或者做继续训练。
- 同系列模型，Size小的需要更多的探索，Size大的模型更容易成功。在数据稀疏或小模型场景中，RL可能比SFT更有效。
高质量的数据：
- 数据的覆盖范围、回答的多样性、不同的难度等级（可以按响应长度或其他方法划分）。激活的数据数量不重要。
- 尝试不限制格式，选择适当的模板。
分阶段训练：
- 弱Base慎用SFT激活，如果Base没做过LongCoT的，可以先做SFT，再RL。当然，也可以先做预训练，然后激活。
- 课程式数据设计和学习节奏比“大锅乱炖”更有效率：从短任务逐步到长任务，遵循能力递增的课程学习路线来“激活”。

References

长琴

知乎：长琴 | 公众号：技术与人