R1相关:R1-Zero的进一步理解和探索

TL;DR

本文通过对近期几篇R1-Zero相关工作进行梳理,同时结合部分已有的工作,从整体上对R1-Zero及其范式进行更深层次的理解和探索。主要观点整理如下:

  • Base模型是核心,RL在激活能力
    • 强模型需高难度数据充分激活能力,弱模型需渐进引导。
    • 强模型对格式限制不敏感,弱模型需适配模板以避免探索抑制。
    • 自我反思频率与准确率无必然关联,需结合数据质量分析。模型层数增加时,简单问题易被“过度思考”,复杂问题感知简化。
  • LLM学习模式的关键发现
    • 反思能力在预训练早期即显现,随训练逐步提升。
    • LLM依赖模式记忆而非数学规则。
    • 预训练知识获取分三阶段:统计学习→平台期(记忆回路形成)→个体知识获取。数据调度策略(如“热身训练”)可加速知识获取,微调易导致幻觉与知识损坏。
  • RL算法
    • 算法改进:DAPO、Dr GRPO。
    • 强化已有正确推理行为(非注入新知识),领域预训练可显著提升上限。
    • 分阶段扩展上下文窗口(短→长任务),按难度课程式学习匹配模型能力。
  • 工程实践关键
    • Base模型优先同系列大模型,小模型需更多探索,慎用SFT冷启动(可能限制RL潜力)。
    • 数据应覆盖多领域、多难度、多样化回答,避免固定格式限制(弱模型尤其敏感)。
    • 弱Base没做过LongCoT的可以先LongCoT。遵循课程式数据设计和训练策略:从短任务逐步过渡到长难题。

总之,Base模型是核心,Base不行先继续训练或LongCoT。RL是激活手段,需结合数据难度与模型能力动态适配。工程上分阶段、重数据质量与课程设计,避免过度依赖微调。

研究速览

近期三篇继续探索、改进R1-Zero本身范式的工作,比较有意思,统一记录一下。

SimpleRL-Zoo

Paper:http://arxiv.org/abs/2503.18892

GitHub:https://github.com/hkust-nlp/simpleRL-reason

HKUST的工作,最有意思的发现是非Qwen系列模型也可以Aha,这在之前的研究中是没有的,比如oat-zero[1]Online-DPO-R1[2]都没有在LLaMA3中观察到Aha。

其实很多结论差不多已经成为共识了。罗列一下关键发现:

  • 响应长度的增加并不总是意味着Aha。也就是说响应长度增加,自我反思频率并不一定增加。这点和其他研究的观察一致,长度的增加本来就和自我反思没有绝对的因果关系,顶多说观察到一定的相关性。

  • 在Llama3-8B和DeepSeek-Math-7B上观察到特定认知推理行为(如验证)的频率提升。这就是本文所谓的Qwen外模型Aha了,其关键是使用了“适当难度”的数据引导“不同能力”的Base。与此相关的一个发现就是:训练数据的难度必须与Base模型的内在探索能力相匹配,否则训练会失败。这与“核心在Base”本质上是一致的但更加清晰,因为本质就是在“激活”Base。如下图所示,随着数据难度增加,Mistral-7B 的性能逐渐下降;而Qwen-2.5-7B的表现则相反,随着数据集难度的降低,模型的平均准确率和响应长度都呈下降趋势。这不但说明Qwen-2.5-7B本身备较强的推理能力,也再次说明这就是在“激活”Base,难度太小的数据反而无法激活能力强的模型。这也是之前LIMO[3]LIMR[4]LIMD[5]都在强调数据选择重要性的原因所在。

  • 强制使用固定格式的奖励机制(比如用框圈住答案)严重抑制模型的探索能力。对一开始就难以执行指令的Base模型影响更大。如下图所示,Llama3-8B相差巨大。格式居然会限制模型性能上限,这一点也比较新颖。不过可能还和Base模型能力有关,Base能力差,外在的“限制”更加会影响其“激活”。这里的核心还是“激活”而非真正的SFT,Base模型没见过这种格式,能力弱的Base可能直接就被干懵了。

  • 冷启动可以迅速提升Base模型性能,但会极大限制模型在强化学习阶段自由探索的能力。这种限制会削弱模型的最终性能,并抑制高级推理能力的涌现。如下图所示,最后性能最好的反而是没SFT的Base模型。这点看起来好像和我们之前的认识不太一样,因为SFT+RL一般会被认为能提升性能。个人猜测可能和论文中SFT的数据选择有关,SFT的数据质量要求非常高(数量并不重要);另外可能也和模型选择有关(Mistral 24B),不知道换成Qwen2.5会怎样。不过我们认知的SFT+RL中的SFT做的其实是LongCoT,并不是激活,也就是我们在DeepSeek R1后LLM新范式 | Yam[6]中提到的R1-R模式。所以,这里挑战的其实是R1的冷启动+RL模式。在那篇文章里我们也同时提到过:TTS让Base模型把“比较好的那条路径”给展示了出来;而SFT则是展示出来一条“相对还可以的固定路径”(因为激活的数据是确定的)。所以,SFT数据质量不同,激活的Base模型的推理能力就不同。而DPO正好介于SFT和其他RL之间,它展示出来的是一条“相_比较_还可以的固定路径”。是不是因为SFT后将模型“锁定”(尤其是能力弱的模型,可能更容易被锁定)在某条路径上导致后续RL效果打了折扣?

    说到这里,突然想起之前LIMR[4]还有个有意思的结论:“RL 可能更有效地增强数据稀疏场景中的推理能力,尤其对小模型来说,可能比SFT更有效”。是不是意味着RL探索范围更广,对小模型更加“友好”;而SFT相对固定,所以需要Base模型本身能力强。

Understanding R1-Zero-Like Training

Paper:http://arxiv.org/abs/2503.20783

GitHub:https://github.com/sail-sg/understand-r1-zero

这个就是oat-zero[1]同一个团队的最新成果。这篇文章涉及两个主题:Base和RL,RL主要是Dr. GRPO,Dr. GRPO感觉比较有意思,单独写了一篇:异曲同工之妙的DrGRPO——DAPO几乎同时出现的又一GRPO优化! | Yam[7],此处不再详细展开。

关于Base模型(Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-7B, Llama-3.1-8B, DeepSeek-Math-7B 和DeepSeek-V3-Base-685B)的发现:

  • 本意是检查Base模型是否有QA能力(是否回答问题)。
    • Llama 和 DeepSeek 模型通过使用合适的模板(R1模板)提高了回答能力。然而,Qwen2.5 模型在不使用模板时表现最佳。
    • 未使用模板时最低的回答率表明 DeepSeek-V3-Base 是一个几乎纯粹的基础模型。
    • 所有测试过的模型都是探索性的(因此适合用于RL),其中 Qwen2.5 模型表现最佳。指标用不同采样温度下的 pass@8 准确率,可以作为基础策略探索能力的标志。
    • 结论:模板非常重要,所有Base已经具备了数学能力。
  • 考察Qwen2.5系列模型。在数学任务上,因此主要还是Math模型。
    • Qwen2.5 Math即使不使用模板,相比4-shot也能有60%的性能提升,推测可能在预训练时使用了拼接的问答对。
    • 使用Qwen2.5复现R1-Zero时应谨慎,因为Base本身在没有模板的情况下就已经具备类似SFT的特性。
  • 考察Base模型的Aha。
    • 和其他Base模型一样,DeepSeek-V3-Base本来就会Aha。
    • 虽然在 R1-Zero 中自我反思行为更为频繁,但这些行为并不一定意味着更高的准确率。

关于RL的发现:

  • Dr.GRPO优化GRPO两个偏差。
    • 响应级别长度偏差:对积极的advantage,这种偏差导致较短的响应获得更大的梯度更新,从而使策略倾向于在正确答案中优先选择更简洁的表达。相反,对于消极的advantage,由于较长的响应具有更大的 |oi|,因此它们受到的惩罚较小,这导致策略在错误答案中倾向于选择较长的响应
    • 问题难度级别偏差:标准差较低的问题(例如,太简单或太困难的问题,结果奖励几乎全为 1 或 0)在策略更新时会被赋予更高的权重。问题级归一化导致不同问题在目标函数中的权重不同,从而在优化过程中产生了难度偏差
  • 模板与数据覆盖对RL影响
    • Qwen2.5-Math-1.5B Base已经具备强大数学能力,添加模板反而会破坏其原有能力,RL 训练过程相当于重建这一能力。
    • 当基础模型与提示模板不匹配时,模型的提升主要依赖于 RL 调优,因此问题集的覆盖范围至关重要。但如果选择了合适的模板,即使问题集很小且完全 o.o.d.,RL 仍然可以有效强化推理能力
    • 说明,关键在于强化正确的推理行为,而不是向模型注入新知识。
  • 领域(数学)预训练提升RL上限
    • RL可以改善原始的Llama基础模型,但提升较小。
    • 加入数学知识后,RL性能提升显著。

FastCuRL

来自腾讯混元的FastCuRL,可以看作DeepScaleR[8]的升级一点点版,比DeepScaleR提升了0.5个点,但只用了一半训练步骤。

  • 按Prompt长度切分数据:3个等级。
    • 出发点是回答过长的两类问题:本身较难和包含大量条件(需要不断验证条件)。这两种情况都可能在 8K 上下文窗口内降低模型的训练效率。
    • 同时,DeepScaleR在训练初期的裁剪率(clip ratio)较高。刚开始学习太难、回复太长的问题可能效率不高。
    • 因此,依据特定特征(如响应长度)对训练数据进行分段处理,可能缓解因上下文限制导致的截断问题,提升训练效率。
  • 不断增加上下文窗口长度进行训练。
    • 出发点是要取得长上下文和计算资源的权衡。
    • 采用课程学习,逐步扩展上下文窗口进行训练。
    • 包括四步:
      • 先学习简单任务(short):8k上下文。
      • 然后学习混合任务(long+short):16k上下文。
      • 接着学习困难任务(long)。
      • 最后整体复习所有任务(short+long)。
    • 每个阶段最多在相应数据集上进行一次迭代。整个完成后相当于做了3次迭代。

整体视角

前面是从论文角度分别介绍各自观点,我们现在从整体角度梳理一下。

Base的关键作用

首先就是Base模型的关键作用,可以说它就是核心,决定了后续的方向。因为无论SFT还是RL都是在“激活”能力,所以不同能力的Base在激活的选择和效果上就表现出非常大的不同。

  • 能力激活机制:
    • 数据难度匹配:训练数据的难度必须与Base模型的内在探索能力相匹配。
      • 强模型激活时相对比较“随意”,相对不太挑方法和数据,但不同难度的数据激活的能力大小不同。一般能力越强激活需要的数据难度越高,简单数据反而无法充分激活其能力。SFT+RL可能获得最好的效果。
      • 弱模型需要选择适当的数据SFT或RL,否则可能会激活失败。高难度数据容易导致性能退化,需逐步引导探索。
    • 模板适应性:强制使用固定格式的奖励机制抑制模型的探索能力。
      • 强模型格式限制会对性能有一定影响(模板不匹配时,RL等于重学已有能力,效率低)。无需格式也可以,甚至有更高性能。
      • 弱模型格式限制会严重影响性能,抑制探索。但是使用合适的模板也能提高性能。
  • Aha现象的普适性:
    • 非Qwen模型亦可涌现,Base模型也有。
    • Aha与性能的非必然关联:自我反思频率提升未必带来准确率提升,需结合数据质量分析。
  • SFT/冷启动的争议:
    • 潜在副作用:虽快速提升初始性能,但可能锁定模型路径,限制后续RL探索空间,导致最终性能低于纯RL训练(尤其在弱模型上)。
    • 与数据质量强相关:若SFT数据质量高(如覆盖关键推理路径),可能正向引导;低质量数据则固化错误模式。

LLM学习模式

这部分内容是对上一部分的额外补充。

关于Base模型的反思能力,近期有一篇论文:Rethinking Reflection in Pre-Training[9] 对其进行了研究,结果发现,反思能力实际上在模型的预训练阶段就已开始显现。论文在CoT中故意引入错误,并测试模型能否识别和纠正这些错误并得出正确答案。结果是,这种自我纠错能力在预训练早期就已出现,并会随着训练的推进而不断提升。

关于Aha,也有一篇细致研究的论文:Understanding Aha Moments: from External Observations to Internal Mechanisms[10],非常有意思,值得大力推荐。该论文证明,“顿悟时刻”的外部表现为更频繁地使用拟人化的语气进行自我反思,并根据问题难度自适应地调整不确定性。这一过程有助于模型完成推理而不会陷入“推理崩溃”。在内部则表现为拟人化特征与纯粹推理之间的分离,即在处理更困难的问题时,拟人化的语气会增强。此外,论文还发现“顿悟时刻”通过改变模型对问题难度的感知帮助其解决复杂问题。随着模型层数的增加,简单的问题往往被认为更复杂(过度思考),而更困难的问题则显得更简单。

说到学习模式,还有两篇非常有意思的论文。

第一篇是:Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models[11] 这篇论文探讨了一个关键问题:LLM是学习数学原理还是仅仅记忆模式?有意思的是,他们并没有设计复杂的基准测试,而是使用基本的两个整数加法,探究两个核心属性:交换律和组合泛化。结果发现,LLM的算术处理与人类定义的原则不一致,这表明LLM依赖于记忆模式而非真正的规则学习。

还有这篇 How do language models learn facts? Dynamics, curricula and hallucinations[12] 则探讨了LLM预训练阶段知识获取的动态机制。本文通过一个合成的事实召回(回忆)任务研究此问题,数据集包含N个随机抽样的个体(合成传记数据集)。结论如下:

  • 语言模型的学习分为三个阶段:首先学习整体分布统计,然后表现趋于平稳(性能平台期,对应支持记忆召回的基于注意力机制的回路的形成),最后获取个体特定知识。
  • 不平衡分布加速了通过中间平稳阶段的过渡,但导致了过拟合。数据调度策略能够利用这种加速转变,同时减轻过拟合。论文采用了一种“热身”策略:模型最初在一小部分个体上进行固定步数的训练,然后再对所有个体进行训练。从一小部分个体开始应该能缩短平台期,而随后的均匀分布则在回忆回路建立良好的情况下最大化知识获取。
  • 微调在模型中融入新知识的效果不佳。这源于两个相关因素:首先,一旦模型获得了个体特定知识,就会产生幻觉(对未见过的个体的过度自信预测)。其次,当在新个体上进行训练时,存储在前馈层中的联想记忆会迅速损坏。

这几篇论文都比较有意思,有时间再细读。

RL的优化方向

然后是关于RL的一些认知和优化,可以说RL是当下最佳激活算法并不为过。

  • RL算法优化:
    • Dr GRPO:修正响应长度偏差和问题难度偏差。
    • DAPO:从提高上限(Clip-Higher)、动态采样(Dynamic Sampling)、Token 级策略梯度损失和过长奖励塑造四个方面进行优化,对应clip、数据采样、损失计算和最大长度设计。
  • RL与知识注入:
    • RL关键不在于“增加知识”,而是强化“已有正确的推理行为”。即核心是引导Base,而非学习知识。
    • 领域预训练能显著提升RL上限,概因为Base模型能力得到提升。
  • RL训练策略:
    • 通过响应长度划分数据,分阶段扩展上下文窗口,优先学习短响应问题,逐步过渡到长难题,平衡效率与效果。其实质是在匹配模型不同阶段的能力水平,课程式数据设计比“大锅乱炖”更有效率。
    • 按问题复杂度划分训练集,减少初期高截断率对长答案的干扰。按难度等级逐步激活会有更高的效率,但其最终效果应该和精挑细选的高质量数据集相差不大。最终效果的上限决定于Base模型。

工程实践

最后,我们从实践角度梳理一些关键点。

  • 一个合适的Base:
    • 不同系列的Base模型特点不同,需根据任务选择合适的Base模型,或者做继续训练。
    • 同系列模型,Size小的需要更多的探索,Size大的模型更容易成功。在数据稀疏或小模型场景中,RL可能比SFT更有效。
  • 高质量的数据:
    • 数据的覆盖范围、回答的多样性、不同的难度等级(可以按响应长度或其他方法划分)。激活的数据数量不重要。
    • 尝试不限制格式,选择适当的模板。
  • 分阶段训练:
    • 弱Base慎用SFT激活,如果Base没做过LongCoT的,可以先做SFT,再RL。当然,也可以先做预训练,然后激活。
    • 课程式数据设计和学习节奏比“大锅乱炖”更有效率:从短任务逐步到长任务,遵循能力递增的课程学习路线来“激活”。

References

[1] oat-zero: https://yam.gift/2025/02/17/NLP/LLM-Training/2025-02-17-DeepSeek-R1/
[2] Online-DPO-R1: https://yam.gift/2025/03/02/NLP/LLM-Training/2025-03-02-LLM-PostTrain-DPO-Data/
[3] LIMO: https://yam.gift/2025/02/18/NLP/LLM-Training/2025-02-18-LLM-PostTrain-SFT-Data/
[4] LIMR: https://yam.gift/2025/02/27/NLP/LLM-Training/2025-02-27-LLM-PostTrain-PPO-Data/
[5] LIMD: https://yam.gift/2025/03/02/NLP/LLM-Training/2025-03-02-LLM-PostTrain-DPO-Data/
[6] DeepSeek R1后LLM新范式 | Yam: https://yam.gift/2025/03/15/NLP/LLM-Training/2025-03-15-R1-New-Paradigm/
[7] 异曲同工之妙的DrGRPO——DAPO几乎同时出现的又一GRPO优化! | Yam: https://yam.gift/2025/03/28/NLP/LLM-Training/2025-03-28-LLM-PostTrain-DrGRPO/
[8] DeepScaleR: https://yam.gift/2025/02/17/NLP/LLM-Training/2025-02-17-DeepSeek-R1/
[9] Rethinking Reflection in Pre-Training: https://arxiv.org/abs/2504.04022
[10] Understanding Aha Moments: from External Observations to Internal Mechanisms: https://arxiv.org/abs/2504.02956
[11] Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models: https://arxiv.org/abs/2504.05262
[12] How do language models learn facts? Dynamics, curricula and hallucinations: https://arxiv.org/abs/2503.21676