从抛光到外推:强化学习在推理能力提升中的角色与边界

在 DeepSeek R1 之后,GRPO 几乎成了后训练的默认选项。它确实“好用”——在很多任务上,模型的 pass@1 明显提高了。但一个更根本的问题始终没有被真正回答:我们是在把模型“教得更会想”,还是只是在把它“已有的正确想法更容易采出来”?

如果答案只是后者,那么强化学习更像是一种采样精炼器;而如果答案是前者,那就意味着模型的推理能力可以被系统性地“向外推”。

这两种理解对应着不同的训练目标,也自然导向了不同的训练策略。与之相关的研究结论之所以看似分化,往往源于训练设定与任务分布的差异:在某些工作中,RL 被观察到伴随能力跃迁;而在另一些设定下,其作用则始终未超出 Base 模型的能力边界。

本文并不试图在“RL 是否能够突破 Base”这一争论中选边站队,而是系统梳理已有工作的结论与假设,试图澄清一个更关键的问题:

在什么条件下,RL 才可能表现为能力外推?而在什么情况下,它更合理地被理解为一种采样与抛光机制?

TL;DR

  • RL 并不等价于推理能力外推:在大多数常见设置下,它更多是在提高采样效率,强化 Base 模型中已存在的推理路径。

  • RL 只有在特定条件下才可能带来真实的能力提升:任务在预训练中未被充分覆盖,且训练数据恰好位于模型的能力边缘。

  • RL 无法在完全失败的问题族上起作用:当 Base 模型在目标问题上呈现 pass@k = 0 时,RL 缺乏有效梯度;但通过细粒度过程奖励进行预热,将模型推出“全零区域”,再配合 RL 训练,可能触发类似 grokking 的相变,实现能力跃迁。

  • RL 与中期训练的职责边界须明确:中期训练负责植入并稳定必要的先验与原语,RL 负责放大探索、推动能力边界;实践中,若目标是稳定可靠性,应侧重中期训练、辅以少量 RL,而若目标是能力外推,则应减少中期训练、加大 RL 探索力度。

  • RL 过程奖励是必要条件,而非锦上添花:将过程级信息纳入奖励设计,有助于缓解 reward hacking,并显著提升推理的稳定性与泛化能力。


背景和问题

DeepSeek R1 之后,GRPO 已经成为后训练的标配,但是关于 “它到底能不能让 LLM 获得全新的推理能力”,其实还存在不少分歧,主要有两种声音。

第一种乐观派观点,认为模型在预训练之外获得了显著的推理提升。比如《2505 Liu et al. ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models[4]展示了 ProRL 能够在基座模型表现较差的任务上扩展推理边界。

另一种自然是怀疑派了,他们认为RL 只是 Base 模型能力提纯器[3],比如《2504 Yue et al. Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?[1]认为,尽管 RLVR 训练后的模型在较小的 k(例如 k = 1)下优于其基座模型,但当 k 较大时,基座模型在 pass@k 上可以达到相同甚至更高的性能。他们的覆盖率与困惑度分析表明,模型的推理能力最终受限于基座模型的支持范围。类似地,《2507 Wu et al. The Invisible Leash: Why RLVR May or May Not Escape Its Origin》也从理论上论证了 RLVR 无法突破基座模型的表示能力上限。[2]

两派观点看起来都很有道理,那真相是什么呢?

当前的 RLVR 是否真的能够类似传统强化学习通过探索发现新策略那样,将模型的推理能力扩展到超出预训练阶段所获得的水平?还是说仅仅在利用 Base 模型中已经存在的推理模式?

更具体点来说,LLM 是否能够通过 RL 解决这样一类问题:即预训练模型在尝试次数足够多的情况下仍然完全失败(pass@K = 0)的问题族?——以及其可迁移性:如果这种可学习性确实存在,那么所学到的能力是否能够系统性地迁移到分布外的测试集上?[2]

我们知道什么

关于 GRPO 我们已经写过多篇文章了,对于这个问题,其实认知中是有一些答案的,我们先回顾一下。

首先是《250302 R1相关:DPO数据选择与DPO等RL算法 | 长琴[5],我们有两个观点:

  • Base 模型有推理能力,RL才能将(在某项任务上)该能力激活。
  • 多样化的数据(激活路径)比算法设计更重要。

简单来说,RL 还是在 Base 基础上展开,在特定任务上探索最佳轨迹。而多样化的数据能够更容易激活能力。

第二篇是《250410 R1相关:R1-Zero的进一步理解和探索 | 长琴[6],我们也有两个观点:

  • RL 的核心是引导!适当难度数据逐步、渐进引导。
  • RL关键不在于“增加知识”,而是强化“已有正确的推理行为”。即核心是引导 Base,而非学习知识。

简单来说,RL 在专门选择的数据上引导、强化推理,而非学习。意味着当前RLVR模型生成的推理路径已在其 Base 模型中存在[1]

第三篇是《250315 DeepSeek R1后LLM新范式 | 长琴[7],我们有下面几个观点:

  • 少量高质量数据 SFT/DPO/RL 能让 Base 模型效果提升。
    • SFT 展示出来“相对还可以的固定路径”,因为激活的数据是确定的。
    • RL 展示出来“比较好的那条路径”,因为数据是随机 rollout 出来的。
    • DPO 介于两者之间,展示出来“相_比较_还可以的固定路径”。
  • GRPO 之所以有效果,核心在于 Base(比如 Qwen 系列可以,LLaMA 系列就不行)。“KL 似乎并没有太多作用” 可能是因为 Base 模型比较稳定,RL 用的数据又不多,较难难“训坏”模型。

根据我们已知的事实来看,其实还是倾向于怀疑派观点,即认为 GRPO 其实是在 “激活” Base,至于能否让模型真的学到新的推理模式,不知道。

2504 Yue et al. Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?[1](后面简称论文1)系统研究了这个问题,给出了以下几个发现:

  • 当前的 RLVR 模型在推理覆盖范围上往往比其 Base 模型更窄。
  • 当前 RLVR 模型所生成的推理路径,实际上已经存在于其 Base 模型中。
  • 现有的 RLVR 算法表现相近,且整体上仍远未达到最优水平。

这篇文章获得了 NeurIPS 2025 最佳论文[8],实验相当扎实、细致。

事情还未结束

如果事情到刚刚那里结束,那显然也不需要专门写这篇文章了。虽然大量证据和研究结果有点偏向怀疑派,但 GRPO 是确实有点香,而且乐观派也不是毫无道理,说明这中间一定还有什么不为人知的东西。莫名想起 19 世纪初期,物理学家迈克尔逊所说:“尽管去断言物理学的未来不会再有惊人的奇迹是不安全的,但是似乎事实很可能就是,大多数基本的大原则已经被牢固地建立起来了。而未来的的进展主要如何对于我们所注意到的所有现象,更加严格地应用这些原则。正是在这里,测量科学显示了它的重要性——定量工作比定性工作更令人渴望。一位著名的物理学家说,物理科学的未来真理要在小数点的第六位找到。[9]

进一步的研究来自《2509 Sun et al. RL Grokking Recipe: How Does RL Unlock and Transfer New Algorithms in LLMs?[2]和《2512 Zhang et al. On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models[3],这两篇文章都意识到了两派观点分歧的根本原因:未受控制的环境。所以,首要的事情是控制环境变量。

前者(下面简称论文2)构建了受控数据集 DELTA(这篇论文第一版就叫《DELTA: How Does RL Unlock and Transfer New Algorithms in LLMs?》):一个合成的编程问题族数据集,刻意隔离不同的推理技能,用于检验模型的:

  • 可学习性:强化学习是否能够向模型灌输一种其先前无法执行的过程;
  • 泛化能力:该过程能否迁移到多样的分布外情形,而非仅仅是记忆化的模式。 具体而言,沿着与 Boden 创造力类型学(《1998 Boden Creativity and artificial intelligence - ScienceDirect[10])一致的三个维度,扩展了 OMEGA 的受控测试:
    • 探索性:在同一问题族内扩展已有技能(例如从六边形推广到八边形);
    • 组合性:将先前彼此独立的技能进行组合(例如同时包含旋转障碍物和箱子的弹跳球问题);
    • 变换性:发现非常规解法(例如保证周期性的特殊初始状态)。

与以往的编程或数学数据集不同,DELTA 引入了完全分布外的问题(名字叫 Manufactoria)以及具有丰富层级的奖励设计,避免了依赖工具的捷径和数据混杂等因素。

后者(下面简称论文3)关注了不同训练阶段(预训练、中期训练和强化)在塑造语言模型推理能力方面如何相互作用。因为显然不同训练阶段是最不可控的环境:预训练时的语料是未知的;中期训练充当预训练和专门后训练目标之间的分布桥梁,它的作用也非常关键,也是不可控的;同理还有后训练。

为此,构建了一个完全可控的框架,用以隔离各训练阶段的贡献。设计基于三个原则:

  • 完全可控的合成推理任务,具备明确的原子操作和由 DAG 定义的依赖结构;
  • 可观察、可解析的推理过程,从而实现过程层面的评估,并减少奖励或评估作弊;
  • 系统性操控预训练、中期训练及后训练的分布,以将因果效应归因于各训练阶段。

同时设计了两个关键维度来评估推理能力:

  • 外推(深度)泛化:评估模型能否通过在更深层次上组合已学原语,解决比预训练阶段遇到的问题更复杂的任务;

  • 情境(广度)泛化:评估模型能否将推理技能迁移到具有相同底层逻辑但表面情境不同的新问题上。

这两个维度共同捕捉了与现实语言模型相关的广泛组合推理和迁移推理能力。

数据生成框架、任务设定以及过程验证评估的整体概览如下图所示,

  • (a)基于依赖图和情境呈现的合成数据生成框架,该框架明确指定了推理过程;
  • (b)用于外推和情境泛化的任务设置;
  • (c)过程验证评估框架,用于评估推理过程和最终答案的准确性。

可学习性

这是论文 2 非常核心的研究成果。首先,他们也认同怀疑派的观点,认为“RL 无法突破基座模型能力边界”的立场是可以理解的,原因很简单:GRPO 依赖不同 rollout 之间的奖励差异。但如果从未有任何 rollout 成功(如在 “pass@K = 0” 的任务中),自然就不存在可用于学习的梯度信号。如下图 (a) 所示,朴素的 GRPO 训练会陷入停滞。

不过他们的关注点在于:**如果没有任何 rollout 达到完整通过,RL 如何传播有意义的学习信号?**对此,给出了具体路径:

  • 按测试用例通过率训练。 一种解决思路是利用“部分得分”,即不再使用全有或全无的完整通过率(只有当所有测试用例均通过时才给 reward = 1),而是采用更细粒度的“按测试用例通过率”,即位于 [0, 1] 区间的连续奖励。如上图 (b) 所示,该信号能够为学习提供初始牵引力。然而,在约 100 个训练步之后,该信号很快饱和,完整通过率仍然可以忽略不计(< 0.01%)。
  • 热身阶段(Warm-up)。 尽管按细粒度的测试用例通过率无法作为完整的替代损失函数,但论文发现它可以作为一个关键的热身阶段,将模型从“全零区域”中推出。如上图 (b) 所示,该信号使模型得以脱离全零区域:尽管完整通过率仍然低于 1%,模型已经开始累积正向梯度。
  • 探索与顿悟(grokking)。 在完成这一热身检查点之后,再切换到使用二值“完整通过”奖励的 RL。上图 © 展示了其动态过程:在大约 450 个训练步内,模型仍处于探索阶段,完整通过率依然低于 1%。随后出现一次突然的“顿悟”时刻,模型发现了解决该问题族的关键策略。训练随之进入收敛阶段,此时 RL 会不断强化并稳定地巩固这一成功的推理路径。在收敛后,RL 训练模型在 pass@k 上相对于参考模型实现了接近 100% 的绝对提升。

简单来说,先用细粒度奖励让模型热身,推出全零区域(哪怕很小),然后再 RLVR,这就解决了 Base 模型“pass@K=0”的问题。这种模型从失败突然跃迁到精通的现象被称为——grokking 式的相变。

与此同时,在较容易的任务区间或较弱的实验设置下,强化学习主要体现为对已有技能的强化。最终呈现哪种结果,关键取决于奖励设计、数据配比、任务难度以及具体的训练流程。

所以,这和怀疑派的观点其实并不完全矛盾,论文 1 的结论是:“当前的 RLVR 方法虽然能够提升采样效率,但几乎不会诱发超出基础模型的新颖推理能力。”如果不考虑论文 2 的调整,两者的结论其实反而是一致的,之所以看起来好像是相反的,其实是因为它们的数据集、训练设置等方面均不相同。

因此,我们有必要进一步看看论文 1 对当前 RLVR 方法的评判,以便更好地理解 RL 对“可学习性”的影响。

论文 1 主要是通过 Pass@k 这一评估指标进行系统性检测和分析,文章观察到,尽管经 RLVR 训练的模型在较小的 k 值(例如 k = 1)下优于其基础模型,但当 k 较大时,基础模型反而能够取得更高的 pass@k 分数。这说明什么?说明 RL 主要作用是提高采样效率,将 Base 模型已有的正确答案路径更容易地“采”出来。

此外,研究也发现,随着 RLVR 训练的推进,大语言模型的推理能力边界往往会收缩。进一步的覆盖率和困惑度分析表明,RLVR 模型生成的推理路径实际上已经包含在基础模型的采样分布之中。也就是说,所观察到的平均得分提升,来源于在这些本就可解的问题上更高效的采样,而非学会了解决新的问题。

而且,论文 1 还深度分析了 RL 训练过程不同配置的影响。

  • RL 算法:不同的 RL 算法采样效率差距仅存在轻微变化。
  • rollout:增加 rollout,pass@k 有所小幅提升,但最终 RL 训练模型仍然被基础模型超越。
  • KL 正则化:引入 KL 正则化的模型在 pass@1 上与不含 KL 的 GRPO 模型表现相近,但其 pass@128 明显更低。这也是 KL “稳定限制”的表现。
  • 熵:输出熵的降低确实是推理边界收窄的一个因素,但仅靠熵的变化并不足以完全解释这一现象。

其实,这些都是对已有结论的佐证或强化,但其中还有一点却与众不同,它就是:“蒸馏”。论文发现,蒸馏可以将更强教师模型中的新型推理模式传递给学生模型,从而突破 Base 模型的推理能力边界。这与 RLVR 是本质上的不同!这真的是知识迁移了,蒸馏过程本身有助于注入一个更优的先验。

加速顿悟

好了,我们回到论文 2,既然有了突破推理能力的路径,一个自然的后续问题就是:如何缩短探索阶段,并使 “grokking” 更早出现。文章考察了两种策略。

  • 经验回放:每一轮采样记录成功的轨迹,当同一 query 再次出现时,会将最近的最多三条成功轨迹附加到该次 rollout 中。结果表明,经验回放确实有助于模型在更早阶段出现顿悟。然而,其收敛速度仍慢于基线 GRPO 算法,猜想其原因可能是被复用的轨迹属于 off-policy 数据。
  • 反馈:将失败反馈直接纳入生成过程,鼓励模型更早提升完整通过率。具体做法是用反馈信息(如失败的测试用例)替换 EOS 标记,并让模型继续生成。结果显示,即使只应用一次反馈,也能够加速顿悟时刻的出现。但与此同时,它也降低了训练稳定性,可能原因是反馈 token 的 off-policy 注入。

看起来成功并不那么容易。

接下来考察预热,一个很自然的问题是:预热效果是否可以通过跨问题家族的课程学习来实现?结果显然也没那么“显然”——有效的课程学习不仅需要控制难度,还必须在结构上与目标问题族保持一致。因而,尽管课程学习可能非常有效,其成功依赖于能否找到在推理结构上适合作为桥梁的相关问题族——而这并非总是可行。相比之下,基于稠密奖励的预热训练具有更广泛的适用性,因为它不需要额外设计或混合新的问题族。

又是一瓢冷水啊——使用按测试用例通过率的预热训练并非万能方案:其有效性取决于模型的能力以及目标问题家族的难度

就知道事情没那么简单,看吧,要突破 Base 能力限制,还是需要很多条件和精心设计的,也许有时候还需要那么一点点运气和成吨的耐心。

泛化能力

论文 2 的研究发现,经 RL 训练的模型能够泛化到更困难及组合后的变体,但性能会随复杂度提升而下降,而变换性情形仍然是最具挑战性的。也就是说,探索和组合还是可能的,但太难了也不太行,至于发现新的非常规解法,那暂时就别想了。

哎哟,你别说,这结论可比外面的空气还冷。这不就说明就是很难突破 Base 能力的限制么,Base 锁定真的够牢固的。不过没关系,论文 2 对泛化的研究相对比较简单,我们看看论文 3 有没有啥新结论。

直接看整体结论吧!

首先,关于强化学习是否真正提升 Base 模型推理能力的两种对立观点,其实并不真正冲突。RL 只有在满足两个条件时,才会带来真实的能力提升:

  • 任务在预训练阶段未被充分覆盖,从而为 RL 探索留下足够空间;

  • RL 数据经过校准,恰好位于模型能力边缘,既不太简单(领域内任务),也不太困难(领域外任务)。

当任一条件不满足时,RL 通常只是强化已有能力,而非真正改进

冷水多了虽然冷但似乎更加冷静……这个结论进一步勾连起了前面的结论:

  • 来自论文 2 的那句:“其有效性取决于模型的能力以及目标问题家族的难度。”你俩还真的是“心有灵犀”。
  • 来自论文 1 的,为啥增加 k,RL 就没优势了,如果 Base 已经很强了,那 RL 在大 k 下还能有啥呢……
  • 我们已经知道的,RL 是引导、是激活、是采样那条比较好的路径。你改进的条件太苛刻了呀!剩下的可不就是 “打磨” 么。

我们继续吧,第二点,RL 仅在 Base 模型中存在相关原语或基础技能时,才会激励情境泛化。如果在新情境上缺乏最低限度的预训练接触,RL 并不会引发迁移。但即使是非常稀疏的覆盖(例如 ≥1%),也能提供足够的种子,使 RL 得以稳健强化,从而实现强有力的跨情境泛化。我说你和论文 2 心有灵犀吧,看看这结论是多么一致,这不就是论文 2 提到的预热推出全零区域吗?至于能不能推出去,那可不是:“其成功依赖于能否找到在推理结构上适合作为桥梁的相关问题族——而这并非总是可行”吗……这是第一点的延续。

第三,引入中期训练阶段作为预训练与后训练分布的桥梁,在固定计算预算下显著增强了领域内和领域外的性能,凸显了中期训练作为训练设计中一个尚未充分探索但极具潜力的杠杆作用。需要说明下啊,这里的中期训练就是继续训练。这不就是第二点的延续吗……预训练没有那 1% 的覆盖,中期训练补呗……

第四,过程奖励能够减轻奖励作弊现象,并提升推理的可靠性。将过程验证纳入奖励函数,使强化信号与有效的推理行为保持一致,从而在复杂的组合性任务中实现可测量的准确率和泛化能力提升。等等,论文 2 咋说来着?“相比之下,基于稠密奖励的预热训练具有更广泛的适用性,因为它不需要额外设计或混合新的问题族”。

至此,平静的冷水已冻结成冰……

一些指引

讲真的,是不是都不想看下去了。且慢,这里还有一些仔细分析后的实践指导,相信可以给我们一些温暖。其实再不济,我们阿 Q 一下,“找到比较好的路径”在实际中也非常重要呀,线上推理时总不能用很大的 k 吧,大部分时候不还是 k=1!

首先,我们已经知道,RL 只有在预训练阶段未被充分覆盖且RL 数据难度适当时才能真正实现推理能力提升。这就有了一个比较实践的指导方针:围绕模型能力边缘设计 RL 数据。文章建议将 RL 的 rollout 任务分布限制在“pass@1 失败但 pass@k 成功”的样本上,即模型能力边缘区域,从而在避免冗余优化与奖励稀疏的同时,实现真实的能力外推。同时,随着模型能力增强,先前的分布外任务将逐渐进入可解任务范围,形成一种自然的、自适应的学习过程。

其次,在明确了后训练能够激励泛化的条件后,文章转向一个基础性问题:预训练的暴露程度如何影响后训练的泛化能力?也就是前面第二点,为探究这一问题,论文在固定 RL 数据方案和设置的前提下,改变预训练数据的分布,并考察其对后训练泛化的影响。结果我们也知道了,预训练需要一定限度的原语暴露才会激励情境泛化。带来的实际指导意义是:应优先确保基础领域知识、规则和技能的广泛覆盖(约 1% 的密度),而不必追求复杂数据样本。一旦这些基础原语建立,RL 就能有效地充当组合器,将它们结合起来解决复杂的分布外问题。让我们 recall 一下论文 2,这不就是“组合性”的表现吗!

第三,中期训练,作为桥梁,我们已经知道它就是补预训练的不足,实践指导是:中期训练负责植入先验,RL 负责扩大探索。在中期训练中,应精心构建位于模型“能力边缘”的数据集,稳定 RL 所需的原语。实践中,应根据模型部署目标动态调整计算资源分配:

  • 当目标是提升在相似任务上的可靠性时,应将大部分计算预算分配给中期训练,仅辅以轻量级 RL;
  • 当目标是探索和泛化到更复杂的任务时,中期训练只需分配适度的计算预算(足以建立必要先验即可),而应将主要计算资源投入到更强力度的 RL 探索中。

因为在“相似任务”上,问题不在于“不会”,而在于“不稳、易偏、易退化”,而中期训练最擅长的是“稳定能力”,RL 更擅长的是“推边界”。

什么叫“相似任务上的可靠性”?就是逻辑结构、原语模型已经见过了,但表达变了、组合略复杂、稳定性不足。表现为 pass@1 不高,但 pass@k 明显 > 0。此任务的重点不是能力缺失,而是分布对齐和稳定性。

而在“复杂任务”上,首先的问题就是“不会”,模型面临的任务组合更深、结构更新,此时更需要 RL 搜索新组合、发现新推理路径。表现为 pass@k 也很低或为 0。此时的重点是能力边界需要被“往外推”。

总的来说:

  • 要可靠性就多继续训练,少 RL。因为中期训练是监督训练,数据分布稳定可控,擅长对齐分布、固化原语、提升一致性。这个也适用于大多数日常任务——最好对齐,RL 少量抛光。
  • 要外推探索则少继续训练,多 RL。因为 RL 特点(相较而言)是非稳定、强放大效应,擅长探索新组合、提示低概率路径。不过可能产生偏置,破坏已有稳定能力。这个适合比较难的任务——RL 先保证会做。

最后,关于“过程奖励减轻 reward hack” 这点应该已经是共识了,同时还能提升准确率和泛化性。既然如此,实践建议自然是:将过程级信息纳入结果奖励中。其实简单来说就是不要直到最后才给模型反馈,或者不要只给最终结果一个反馈。

应该差不多了

我想,到这里事情应该说的差不多了。让我们先丢出结论:

“RL 不是不行,而是需要根据任务进行相应设计,其重点不只是训练什么,更是如何训练[2]。只有姿势对了,RL 才会给我们相应回报,否则确实是在抛光”。

来,我们再来梳理一下整个路径。

首先,在早期,我们知道 RL 就是对 Base 的激活和引导,不过前提是 Base 得强(还记得 LLaMA 就无法 aha,大家都用 Qwen)。而且,当时还发现,课程学习好像能进一步提升效果。但总体而言,当时还停留在“是什么”和“怎么做”的阶段,并不很清楚“为什么”。

然后,怀疑派的论文 1 利用 pass@k 系统研究确认了我们的早起认知,明确告诉我们:RL 就是在抛光,数据蒸馏才能真正突破 Base 边界。也难怪大家都在蒸馏……数据蒸馏其实等价于先给模型注入新的先验呀。与此同时,也有乐观派认为 RL 能提升推理能力。局势显然还没有彻底明朗。

很自然,论文 2 和论文 3 就想彻底弄清楚到底咋回事。他们都意识到,之所以会有看起来相互矛盾的结论,是因为变量控制没做好——实验的配置都不一样,结论可不是五花八门么,这跟瞎子摸象有啥区别。

于是,论文 2 搞了个受控数据集 DELTA,研究 RL 的可学习性和泛化能力。当然,主要是可学习性。他们发现,先用细粒度奖励让模型热身,推出全零区域,然后再 RLVR,模型就会从失败突然跃迁到精通,这一现象被称为——grokking 式相变。这说明 RL 是可以将 Base 模型能力外推的,不过这种有效性取决于模型的能力以及目标问题家族的难度。要想做出效果,还是需要一些精心设计的,不是说你照猫画虎,就真的成虎了。

论文 2 还对泛化能力也做了研究,其结论是:RL 能够泛化到同一问题族更困难及组合后的变体,但性能会随复杂度提升而下降,但变换性情形(发现非常规解法)仍然是极其有挑战性的。

论文 2 对泛化的研究结论清晰,但篇幅不大,论文 3 在论文 2 之后发表,他们从外推(深度)和情境(广度)两个方面全面系统地研究了 RL 的泛化能力,把重点放在不同的训练阶段的影响。为此,专门构建了一个完全可控的框架,用以隔离各训练阶段的贡献。

其结论是清晰和有说服力的,RL 只有在同时满足:“预训练阶段未被充分覆盖(给 RL 留有一定进步空间),且数据恰好位于模型能力边缘”时才能真正提升 Base 模型推理能力。也就是说无论是怀疑派还是乐观派其实你们都对,之所以结果看起来不同,是因为你们的配置条件不一样。

再进一步来说,要想 RL 提升能力,Base 必须有相应的原语,数量不重要,哪怕一点点都行,但不能没有。所以,中期训练作为预训练与后训练分布的桥梁,有时候就显得非常重要,尤其是预训练没有覆盖到任务原语的情况下。

论文 3 的这些泛化观点在论文 2 中都有影子,另外,他们还都过程奖励的重要性,只不过论文 2 用在热身阶段,而论文 3 则发现它能提升效果和泛化性。不过论文 2 在 Discussion 和 Future Study 环节着重强调了过程奖励,并将其衍生到更广泛的领域:“这一原则同样可以扩展到数学和科学领域,例如基于评分量表的评估、逐步检查器、定理证明器验证,以及基于仿真或约束的评估器。”

搞清楚状况,策略就变得简单。

  • 首先是模型需要有相应的先验,如果没有那就数据蒸馏或者继续(中期)训练。
  • 然后是训练数据,必须围绕模型能力边缘设计,不能太简单,也不能太复杂。而且,数据设计是个动态过程,随着训练的推进,模型能力增强,分布外任务将逐渐进入可解任务范围,此时数据也应该做出对应调整。
  • 最后是奖励设计,把过程信息加进去吧。

诚如论文 2 所言,“如何训练”与“训练什么”同样重要。这些策略都指向的是“如何训练”呀。其实对于上述策略,论文 2 在 Discussion 和 Future Study 环节也有类似的描述,原文如下:

  • 首先,在一个大型混合语料中,并非所有高难问题都存在自然的、课程式的渐进路径;简单地加入松散相关的问题族,并不能可靠地平滑学习过程,甚至可能毫无帮助。
  • 其次,一些具体的训练选择——例如基于稠密奖励的分阶段预热、经验回放,以及验证/反馈闭环——在提升困难层级问题的性能方面展现出巨大潜力。更宏观地看,能力强化(对既有先验的精炼)与能力发现(获取新策略)两种情形都可能发生,而最终落入哪一种机制,取决于具体设置。
  • 合适的 RL 基础设施、奖励设计、数据混合方式以及任务难度水平至关重要;这些因素共同作用,能够让我们从强化学习中挖掘出远超以往的性能,并得出在其他配置下看似难以企及的结论。

而几个月后,论文 3 基本明确了这些问题。我是真的觉得你们有必要坐下来一起好好聊聊;)

好了,梳理的差不多了,相信在这个过程中,我们都能明显感受到 RL 在 LLM 方向上一路从粗糙到日渐细腻,这种变化、这种研究的不断精细和深入,真的很让人感动啊。也特别感谢三篇关键论文做出的精彩贡献!

附录

我们把论文 2 的一个“呼吁”放在附录部分:呼吁关注“困难子集”。

真是因为知道了 RL 的这种调性,自然,在数学和编程领域的基准评测中常常报告的“平均结果”就有一些问题,因为它很容易掩盖掉少量真正困难的 case。而这些 case 呈现出截然不同的学习动力学特征——单个问题往往需要数百甚至上千个 step 才能出现类似 grokking 的相变。但在规模庞大且高度异质的题池中,任何一个困难样本被反复采样并成功解决的概率都会被稀释,从而削弱学习信号。

因此,呼吁是:“在未来的评测中显式地隔离并持续跟踪这一子集,避免真正新颖推理能力的进展被整体指标所掩盖。”

这是一篇论文呀,朋友们。

参考文献

[1] 2504 Yue et al. Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?: https://arxiv.org/abs/2504.13837

[2] 2509 Sun et al. RL Grokking Recipe: How Does RL Unlock and Transfer New Algorithms in LLMs?: https://arxiv.org/abs/2509.21016

[3] 2512 Zhang et al. On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models: https://arxiv.org/abs/2512.07783

[4] 2505 Liu et al. ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models: https://arxiv.org/abs/2505.24864

[5] 250302 R1相关:DPO数据选择与DPO等RL算法 | 长琴: https://yam.gift/2025/03/02/NLP/LLM-Training/2025-03-02-LLM-PostTrain-DPO-Data/

[6] 250410 R1相关:R1-Zero的进一步理解和探索 | 长琴: https://yam.gift/2025/04/10/NLP/LLM-Training/2025-04-10-Think-More-about-R1-Zero/

[7] 250315 DeepSeek R1后LLM新范式 | 长琴: https://yam.gift/2025/03/15/NLP/LLM-Training/2025-03-15-R1-New-Paradigm/

[8] 2251126 Announcing the NeurIPS 2025 Best Paper Awards – NeurIPS Blog: https://blog.neurips.cc/2025/11/26/announcing-the-neurips-2025-best-paper-awards/

[9] 210709 磷酸君Phosphates 回答“物理学的大厦已经落成,上面只有两朵乌云”是什么意思: https://www.zhihu.com/question/319790208/answer/1915331392

[10] 1998 Boden Creativity and artificial intelligence - ScienceDirect: https://www.sciencedirect.com/science/article/pii/S0004370298000551