本文介绍两篇对RL Scaling进一步探索的论文,都是关于数据方面的,结论有一定互补性。
LIMR
LIMR: Less is More for RL Scaling
来自GAIR的Paper,就在LIMO后几天发表,可以看出写的飞快。
简介
LIMR探讨的是RL的训练数据,而非RL算法。
已有工作缺乏训练数据Scale的研究,的确如此,现在更多还是在算法设计上。这就导致两个问题:
- 没有明确的数据规模基准,只能靠反复试验,导致效率低,结果还不一定好。
- 缺乏对样本数量如何影响模型性能的系统分析,导致难以分配资源。
于是就有下面这个基本问题:扩大 RL 训练数据是否真的是提高模型性能的关键,或者是否忽略了更基本的因素,比如样本质量和选择标准?什么真正决定了 RL 训练数据增强LLM推理能力的有效性?
本文挑战了一个假设:“扩展 RL 训练数据本质上可以提高性能”。证明了1389个样本效果要优于8523个(训练集大小)样本。要“选择”数据,而不是扩充数据。
LIMO和s1还是研究的SFT,RL这方面确实是空白,LIMR正好补上了这个空白。发现并不是数据越多效果越好,这个结论倒是和LIMO一样。
所以本文的结论就是:精确的样本选择,而不是数据规模,可能是解锁增强推理能力的关键。
另外,LIMO和s1是在Qwen32B上做的实验,但是类似的结论在7B上不行!LIMR在7B上效果更好。因此,RL 可能更有效地增强数据稀疏场景中的推理能力,尤其对小模型来说,可能比SFT更有效。
方法
首先,本文观察到这么一个现象:不同样本表现出不同的学习轨迹,RL中训练样本的价值不同,那些学习模式与模型整体性能轨迹互补的样本,往往在优化过程中更具价值。
接下来就是如何选择“有价值”的训练样本。本文提出自动定量方法LIM(Learning Impact Measurement)用于评估 RL 训练样本潜在价值。
使用模型的平均奖励曲线作为衡量样本有效性的参考:
表示样本i在epoch k的奖励,N是样本总数。
对每个样本,计算一个归一化的对齐分数:
si量化了样本的学习模式与模型的整体学习轨迹的吻合程度,分数越高吻合度越高。
实验
实验基本配置:
- LIMR:si阈值卡0.6,选出1389条。
- 随机1389条。
- LINEAR(线性进展分析方法):根据样本在训练周期中持续改进的一致性来评估样本。虽然这种方法能够捕捉到逐步进展的样本,但它往往忽略了那些在初期快速提升后趋于稳定的有价值样本。使用θ = 0.7的阈值,共筛选出1189个样本。
Reward:
- 答案正确:1分
- 答案不对格式正确:-0.5分
- 格式不对:-1分
配置:Qwen-Math-7B+PPO,rollout.n=8,temperature=1.2。
最终效果如下:

过程精度、回复长度、奖励如下所示:

回复长度只有LIMR呈现出明显的先降后升。
然后是和SFT的对比:

比LIMO好,不过这里也仅列出7B的模型,更小的模型上是不是依然有效还不得而知。
小结
LIMR证明了RL需要精挑细选的样本,而不是很多样本。我个人理解这个还是和激活有关,这些被挑选的数据分布正好能够更好地激活基座模型能力。这也是强化微调(RFT)的美妙之处。
ORZ
Open-Reasoner-Zero/Open-Reasoner-Zero: Official Repo for Open-Reasoner-Zero
这个名字有点意思;)
简介
ORZ主要Focus在Scaling上,具体来说是Base模型+RL的Scaling。另外发现:PPO+GAE(λ = 1, γ = 1)+基于规则的奖励函数(不需要任何 KL)足以Scale推理任务中的响应长度和性能。
在ORZ下,LLM经过训练可以在可验证的奖励下掌握各种推理技能,比如算术、逻辑、编程、常识推理等。
结果:在GPQA_DIAMOND任务上,Open-Reasoner-Zero-32B 略微超了 DeepSeek-R1-Zero-Qwen-32B,MATH500上差不多,AIME2024上差得有点多。
Scaling的结论:最显著的性能改进来自训练数据、模型大小和训练迭代(即计算)的Scaling,而不是算法设计的复杂性。
这个观点和LLM的Scaling一致,但我们看了LIMR知道数据可不一定。模型大小和训练迭代轮数我在自己的实验中也做了验证。
算法设计的复杂性应该是指不用设计格式奖励,直接看答案对不对。
RL Scaling
基本配置:
- 基座:Qwen2.5-Base 7B/32B。
- 数据:57K精心选择的问答对,包含STEM、Math和推理任务。
数据关注质量、数量和多样性:
- 收集公开数学数据。
- 合成推理任务数据。
- 排除难以用规则奖励的问题(如多选、证明)。
- 基于模型的过滤策略,通过启发式评估问题难度。具体就是使用 LLM 评估每个问题的通过率,去除通过率过高或为零的样本。
- 基于 N-gram 和Embedding相似度的过滤方法去重,保持数据多样性。
奖励函数:只检查答案对不对,对了1分,不对0分。结果发现Base模型生成正确格式的概率也很高。
Base模型生成格式正确的回复我在实验中也做了验证。
RL(典型的PPO)算法:GAE计算每个Token的advantage。计算公式为:
γ 是折扣因子,用来考虑未来回报的重要性。λ 是GAE的参数,用来平衡偏差与方差。较大的λ值趋向于更多地依赖蒙特卡罗估计(低偏差,高方差),而较小的λ值则更多依赖于TD方法(低方差,高偏差)。V是状态价值函数,一般来自critic模型。
GAE (Generalized Advantage Estimation) 是一种用于强化学习中的优势估计方法,它旨在减少优势估计中的方差,同时保持尽可能低的偏差。它结合了时间差分(TD)误差和蒙特卡罗(MC)方法,通过平衡偏差和方差,在策略优化过程中提供更精确的信号。
蒙特卡罗(Monte Carlo, MC)方法在强化学习中通常指的是基于完整轨迹(episode)计算回报的方式。这意味着,蒙特卡罗方法不会使用任何基于价值函数的估计,而是直接利用整个轨迹的真实奖励来计算每个状态的回报。
TD方法则仅依赖一步 TD 误差进行更新。
有如下发现:
- GAE 参数在 PPO 的推理任务中起着关键作用。λ=1.0、γ=1.0最理想。
- 一个简单的基于规则的奖励函数不仅足够,而且是最佳的,即使Base模型也能很快达到所需的格式,说明格式很简单,不需要复杂的奖励设计。
- 不依赖基于KL的正则化技术实现了稳定训练。
- Scaling数据量和多样性对ORZ至关重要。
关于GAE参数的讨论:
- 当 γ=1.0时,意味着未来所有的奖励都被同等对待,不会衰减。表示考虑整个未来回报,而不是更看重短期奖励。
- 当 λ=1.0时,GAE 退化为蒙特卡罗方法,即完全依赖未来真实奖励来估计优势值。这种方式虽然无偏,但可能有较大的方差。当 λ=0.0时,GAE 退化为时间差分(TD)方法,仅使用一步 TD 误差进行估计,虽然方差较小,但会有一定的偏差。
- 这种设置意味着:完全依赖最终回报计算优势,适用于环境较稳定、奖励延迟较长的任务,例如推理任务或策略规划任务。在短期奖励信息不可靠的情况下可能更稳定。
实验
配置:
- 每个Prompt生成64个回复。
- Tempreture、Top-P均为1。
- Policy采用严格的on-policy优化,即每次生成响应都更新一次参数。
- Critic对off-policy不敏感(可以利用历史经验进行更新,而不仅仅依赖于当前策略生成的数据),每次迭代执行 12 次优化。
结果
Acc和响应长度一路增加,尤其是32B模型,比R1-Zero少5.8倍的训练步骤达到相同长度,300步时长度激增。

质量分析
统计反思响应(带有类似 wait、recheck、retry、alternatively、however等反思词)数量,并计算正确反思(响应包含反思词且最后答案正确)响应的长度。
如下图所示,正确反思响应长度始终超过平均响应长度,说明包含反思模式的响应利用更多的“思考时间”来获得正确答案。

另外,在680步时能观察到一个同步加速现象,在其后的响应中也同时观察到了定性的更明显的反思模式。
消融
- GAE的λ参数:λ=1.0 在训练稳定性和最终表现方面表现最佳。
- KL:去除 KL Loss 和 KL Penalty 能得到最佳的训练稳定性和最终表现。
- Data Scale:数据量越大效果越好。
小结
ORZ的结论看起来虽然和LIMR不一样,但其实还是分布和激活问题,两者并无冲突。数据量大(Scaling)了,自然更有可能遇到能激活的样本。
比较有意思的是KL。我们知道,PPO是需要KL约束的,作为惩罚项加在损失函数上,而GRPO则直接把KL作为优化目标的一部分。不过它们的作用类似,都是用来控制新旧策略之间的差异,避免更新过大导致训练不稳定。
ORZ的发现是不是意味着LLM更加稳定些,PPO中KL只是约束项,影响并没有那么明显。事实上,GRPO好像也有类似的情况,即可以直接去掉KL。这里可能还需要更多实验探索。
总结
总的来说,这两篇论文都是R1-Zero的后续尝试,都是Base+RL的配置。只不过LIMR关注“选择”数据达到效果,而ORZ则通过Scaling达到效果。另外,ORZ简化了奖励函数设计,去除了KL惩罚,这些都相应地简化了训练流程。
本文已收录至 rl-llm-nlp —— 一份带观点的 post-R1 LLM × RL 编年史与论文索引。如果你对相关话题有想法,欢迎来 Issues 拍砖。