Training-Free RL:当“训练”不再更新参数,而是更新上下文

TL;DR:
随着 LLM 能力增强,强化学习正在从“更新模型参数”转向“优化上下文”。Training-Free RL 不再训练 policy,而是通过自评估、对比、反思和记忆机制,从 rollout 中提取“经验/洞察”,并以自然语言形式注入上下文,从而改变模型输出分布。本质上,这是一种以 LLM 为先验、以“经验文本”为 advantage 的新型 RL 范式。

RL 近期出现了大量新的学习范式,我们此前已经介绍过几篇关于 RM 建模的文章:

虽然是 RM 建模,但其实再放大了说也就是 RL 建模。而且,R1 之后,RL 大多都简化为 GRPO,其关键就在 Reward(或者说 Advantage)建模和设计上。从这个角度看,之前介绍的无验证 RL,它既是 Reward 建模范式,但更多的其实是一种新的 RL 范式——验证都不需要了,都不是验证器的问题。

本文介绍的是另一种范式——免训练 RL。是的,没错,随着 LLM 能力不断变强,保持 LLM 不动,对“上下文”进行调整也能很好地完成任务。还记得前几个月腾讯姚顺雨的 CL-bench Leaderboard[4] 吗——即使你把所有相关上下文都给了 LLM,它也不一定能用好。从某种意义上说,免训练 RL 的作用点也是“用好”上下文。

我们不妨先思考一下,LLM 固定住的情况下,如何进行“训练”。要训练,必须有反馈信号,从大的方面看,信号要么来自 LLM 内部,要么就来自外部。这点上看,其实和有训练的无验证 RL、可验证 RL 是类似的,只不过这次我们不更新 policy,而是更新“上下文”,或者说更新“数据”。

互补策略+洞察提炼

最简单的做法就是每次 LLM 输出后,再次利用 LLM 对结果进行评判,评判结果就是 “reward”。

近期的一个工作就是微软的 TRT:2602 Test-time Recursive Thinking: Self-Improvement without External Feedback[5],其针对系统面临的两大核心挑战:(1)高效生成多样且高质量的候选解,和(2)在缺乏真实标签时可靠地选择正确答案,提出迭代式自我改进框架。框架基于回溯策略、累积知识和自生成的验证信号进行生成。

给定一个 query,TRT 迭代执行如下步骤:

  • 生成:基于累积知识和探索策略生成多个回溯路径;
  • 选择:使用自判断对这些回溯路径进行排序;
  • 反思:通过对比最优解与备选方案,提炼出可复用的洞察。这些洞察被保留在上下文中,主动引导未来的探索,以避免重复失败。

具体算法如下图所示:

TRT 有两个核心机制:

  • 知识表示:知识列表 K 捕获特定领域的故障模式(如缺陷模式、边缘情况、逻辑谬误)。条目以负约束(“不要做什么”)的形式表述,用以限制已知的错误路径。模型在每一轮中最多可以裁剪一条过时的知识条目,以保持知识列表的紧凑性。
  • 策略设计:为了确保 k 个 Rollout 探索解空间的不同区域,每个 Rollout 都会接收到由模型自身生成的唯一策略提示。在每一轮中,模型分析累积的知识 K(花写K,这里用大写替代),并设计出 k 个互补的策略,以避免之前失败的方法,同时探索新的方向。

简单来说,整个流程就是:

  • 根据已有知识设计互补策略;
  • 根据知识+策略生成回复;
  • 选择最佳回复;
  • 从非最佳回复 vs 最佳回复抽取 insight,更新知识。

嗯,虽然思想很简单,但具体实现还是有点小细节的,尤其是只是列表和互补策略设计这两个核心机制。

语义优势+经验提取

TRT 的思路还是比较直观的,接下来的 2510 Training-Free Group Relative Policy Optimization[6] 就稍微有点复杂了,我将其称为文字版 GRPO。它利用的是每组 rollout 的相对语义(而非数值)优势,用少量真实数据迭代蒸馏高质量经验知识,作为先验在推理时注入提示词,指导模型行为。

具体流程如下图所示:

可以看出,这种方法的核心就是 LLM 本身足够强,因此我可以不调整模型参数,仅调整上下文来影响输出分布。这里的重点就是根据多条 rollout 的 reward 抽取高质量经验

我们来具体看一下过程细节:

  • rollout和奖励:多了经验作为条件进行生成。
  • 计算组内相对语义优势(仅对存在明确胜者和败者的组):LLM 对每个回复 o 提取摘要 s(输入是提示词、问题和回复),给定一组摘要和当前经验,LLM 输出相对成功或失败的原因(输入是提示词、问题、摘要和当前经验),随后提取出简洁的自然语言经验。自然语言经验 A 作为 GRPO 等价的 A,表示哪些动作能带来高奖励的关键经验。
  • 经验更新:使用当前批量中的所有语义优势值 Atext 来更新整个经验库:增、删、改、保持(无动作)。

注意:上面的所有 LLM 都是冻结的基础模型。冻结的基础模型 πθ 充当强先验,既确保输出连贯性,又提供内置稳定性,其作用类似于 GRPO 中防止策略过度偏离 πref 的 KL 散度约束。

另外,这里的 reward 并不重要,即便没有也是可以的,不过就只能依赖隐式的绝对多数投票、自我辨别和自我反思等方法(类似于我们在《Reward建模新范式:无验证RL——当模型只能相信自己,会发生什么? | 长琴[3]》介绍的),也是有效果的。

检索召回+模式存储

可以看到,这个工作虽然做法与 TRT 不同,但本质类似。其实还有更 naive 的做法,比如 2603 MemAPO[7] 把之前的成功模式和失败模式都存下来,每次 query 时检索相关模式作为上下文信息注入。具体做法是:维护一种双记忆机制,将成功的推理轨迹提炼成可重用的策略模板,同时将错误的生成组织成结构化的错误模式,从而捕获重复出现的失败模式。给定一个新的 query,框架会检索相关的策略和失败模式,以构建能够促进有效推理并避免已知错误的提示。

其核心流程如下图所示:

虽然这里介绍的方法都是不训模型的,但其实以类似方法收集数据训练模型也是可以的,无论是经验、洞察也好,反思也罢,都类似一种「元学习」,可以看作一种「思考模式」,当然也可以看成一种「数据」。这里的重点反而不是训练或不训练。

轻量验证+策略引导

我们把 LLM 作为内部信号,那自然有外部信号,啊,其实把刚刚所有方法用到 LLM 的地方用另一个 LLM 去做就是最直观、最简单的利用外部信号的方法,这对于大多数文本任务都是非常实用的。

但在某些场景下,还可以利用更小、更轻的模型给一些信息,比如 2603 Update-Free On-Policy Steering via Verifiers[8] 就是利用成功和失败的轨迹离线训练一个轻量级的验证器模型,预测当前状态下某个动作导致最终成功的概率。只不过这个场景是机器人精细操作。

小结

本文主要介绍了几种 Training-Free 的 RL 方法,其本质是从历史中提取到「额外信息」作为先验注入模型,通过影响上下文的方式,影响模型输出分布。也就是说,Context ≈ Fast weights。这种方法能生效的根本原因在于 LLM 已经足够强大,它不仅能“利用”信息,还能“评估”信息进而提取到有用「知识」。

Reference

[1] Reward Model建模 | 长琴: https://yam.gift/2025/06/09/NLP/LLM-Training/2025-06-09-RM-Modeling/
[2] Reward建模新范式:无验证器RL与Reference的妙用 | 长琴: https://yam.gift/2025/11/11/NLP/LLM-Training/2025-11-11-RM-New-Paradigm-Verifier-Free-RL/
[3] Reward建模新范式:无验证RL——当模型只能相信自己,会发生什么? | 长琴: https://yam.gift/2025/12/21/NLP/LLM-Training/2025-12-21-RM-New-Paradigm-Verify-Free-RL/
[4] CL-bench Leaderboard: https://www.clbench.com/
[5] 2602 Test-time Recursive Thinking: Self-Improvement without External Feedback: https://arxiv.org/abs/2602.03094
[6] 2510 Training-Free Group Relative Policy Optimization: https://arxiv.org/abs/2510.08191
[7] 2603 MemAPO: https://arxiv.org/abs/2603.21520
[8] 2603 Update-Free On-Policy Steering via Verifiers: https://arxiv.org/abs/2603.10282