Training-Free RL：当“训练”不再更新参数，而是更新上下文

TL;DR：
随着 LLM 能力增强，强化学习正在从“更新模型参数”转向“优化上下文”。Training-Free RL 不再训练 policy，而是通过自评估、对比、反思和记忆机制，从 rollout 中提取“经验/洞察”，并以自然语言形式注入上下文，从而改变模型输出分布。本质上，这是一种以 LLM 为先验、以“经验文本”为 advantage 的新型 RL 范式。

RL 近期出现了大量新的学习范式，我们此前已经介绍过几篇关于 RM 建模的文章：

虽然是 RM 建模，但其实再放大了说也就是 RL 建模。而且，R1 之后，RL 大多都简化为 GRPO，其关键就在 Reward（或者说 Advantage）建模和设计上。从这个角度看，之前介绍的无验证 RL，它既是 Reward 建模范式，但更多的其实是一种新的 RL 范式——验证都不需要了，都不是验证器的问题。

本文介绍的是另一种范式——免训练 RL。是的，没错，随着 LLM 能力不断变强，保持 LLM 不动，对“上下文”进行调整也能很好地完成任务。还记得前几个月腾讯姚顺雨的 CL-bench Leaderboard^[4] 吗——即使你把所有相关上下文都给了 LLM，它也不一定能用好。从某种意义上说，免训练 RL 的作用点也是“用好”上下文。

我们不妨先思考一下，LLM 固定住的情况下，如何进行“训练”。要训练，必须有反馈信号，从大的方面看，信号要么来自 LLM 内部，要么就来自外部。这点上看，其实和有训练的无验证 RL、可验证 RL 是类似的，只不过这次我们不更新 policy，而是更新“上下文”，或者说更新“数据”。

互补策略+洞察提炼

最简单的做法就是每次 LLM 输出后，再次利用 LLM 对结果进行评判，评判结果就是 “reward”。

近期的一个工作就是微软的 TRT：2602 Test-time Recursive Thinking: Self-Improvement without External Feedback^[5]，其针对系统面临的两大核心挑战：（1）高效生成多样且高质量的候选解，和（2）在缺乏真实标签时可靠地选择正确答案，提出迭代式自我改进框架。框架基于回溯策略、累积知识和自生成的验证信号进行生成。

给定一个 query，TRT 迭代执行如下步骤：

生成：基于累积知识和探索策略生成多个回溯路径；
选择：使用自判断对这些回溯路径进行排序；
反思：通过对比最优解与备选方案，提炼出可复用的洞察。这些洞察被保留在上下文中，主动引导未来的探索，以避免重复失败。

具体算法如下图所示：

TRT 有两个核心机制：

知识表示：知识列表 K 捕获特定领域的故障模式（如缺陷模式、边缘情况、逻辑谬误）。条目以负约束（“不要做什么”）的形式表述，用以限制已知的错误路径。模型在每一轮中最多可以裁剪一条过时的知识条目，以保持知识列表的紧凑性。
策略设计：为了确保 k 个 Rollout 探索解空间的不同区域，每个 Rollout 都会接收到由模型自身生成的唯一策略提示。在每一轮中，模型分析累积的知识 K（花写K，这里用大写替代），并设计出 k 个互补的策略，以避免之前失败的方法，同时探索新的方向。

简单来说，整个流程就是：

根据已有知识设计互补策略；
根据知识+策略生成回复；
选择最佳回复；
从非最佳回复 vs 最佳回复抽取 insight，更新知识。

嗯，虽然思想很简单，但具体实现还是有点小细节的，尤其是只是列表和互补策略设计这两个核心机制。

语义优势+经验提取

TRT 的思路还是比较直观的，接下来的 2510 Training-Free Group Relative Policy Optimization^[6] 就稍微有点复杂了，我将其称为文字版 GRPO。它利用的是每组 rollout 的相对语义（而非数值）优势，用少量真实数据迭代蒸馏高质量经验知识，作为先验在推理时注入提示词，指导模型行为。

具体流程如下图所示：

可以看出，这种方法的核心就是 LLM 本身足够强，因此我可以不调整模型参数，仅调整上下文来影响输出分布。这里的重点就是根据多条 rollout 的 reward 抽取高质量经验。

我们来具体看一下过程细节：

rollout和奖励：多了经验作为条件进行生成。
计算组内相对语义优势（仅对存在明确胜者和败者的组）：LLM 对每个回复 o 提取摘要 s（输入是提示词、问题和回复），给定一组摘要和当前经验，LLM 输出相对成功或失败的原因（输入是提示词、问题、摘要和当前经验），随后提取出简洁的自然语言经验。自然语言经验 A 作为 GRPO 等价的 A，表示哪些动作能带来高奖励的关键经验。
经验更新：使用当前批量中的所有语义优势值 Atext 来更新整个经验库：增、删、改、保持（无动作）。

注意：上面的所有 LLM 都是冻结的基础模型。冻结的基础模型 πθ 充当强先验，既确保输出连贯性，又提供内置稳定性，其作用类似于 GRPO 中防止策略过度偏离 πref 的 KL 散度约束。

另外，这里的 reward 并不重要，即便没有也是可以的，不过就只能依赖隐式的绝对多数投票、自我辨别和自我反思等方法（类似于我们在《Reward建模新范式：无验证RL——当模型只能相信自己，会发生什么？ | 长琴^[3]》介绍的），也是有效果的。

检索召回+模式存储

可以看到，这个工作虽然做法与 TRT 不同，但本质类似。其实还有更 naive 的做法，比如 2603 MemAPO^[7] 把之前的成功模式和失败模式都存下来，每次 query 时检索相关模式作为上下文信息注入。具体做法是：维护一种双记忆机制，将成功的推理轨迹提炼成可重用的策略模板，同时将错误的生成组织成结构化的错误模式，从而捕获重复出现的失败模式。给定一个新的 query，框架会检索相关的策略和失败模式，以构建能够促进有效推理并避免已知错误的提示。

其核心流程如下图所示：

虽然这里介绍的方法都是不训模型的，但其实以类似方法收集数据训练模型也是可以的，无论是经验、洞察也好，反思也罢，都类似一种「元学习」，可以看作一种「思考模式」，当然也可以看成一种「数据」。这里的重点反而不是训练或不训练。

轻量验证+策略引导

我们把 LLM 作为内部信号，那自然有外部信号，啊，其实把刚刚所有方法用到 LLM 的地方用另一个 LLM 去做就是最直观、最简单的利用外部信号的方法，这对于大多数文本任务都是非常实用的。

但在某些场景下，还可以利用更小、更轻的模型给一些信息，比如 2603 Update-Free On-Policy Steering via Verifiers^[8] 就是利用成功和失败的轨迹离线训练一个轻量级的验证器模型，预测当前状态下某个动作导致最终成功的概率。只不过这个场景是机器人精细操作。

小结

本文主要介绍了几种 Training-Free 的 RL 方法，其本质是从历史中提取到「额外信息」作为先验注入模型，通过影响上下文的方式，影响模型输出分布。也就是说，Context ≈ Fast weights。这种方法能生效的根本原因在于 LLM 已经足够强大，它不仅能“利用”信息，还能“评估”信息进而提取到有用「知识」。

Reference

[1] Reward Model建模 | 长琴: https://yam.gift/2025/06/09/NLP/LLM-Training/2025-06-09-RM-Modeling/
[2] Reward建模新范式：无验证器RL与Reference的妙用 | 长琴: https://yam.gift/2025/11/11/NLP/LLM-Training/2025-11-11-RM-New-Paradigm-Verifier-Free-RL/
[3] Reward建模新范式：无验证RL——当模型只能相信自己，会发生什么？ | 长琴: https://yam.gift/2025/12/21/NLP/LLM-Training/2025-12-21-RM-New-Paradigm-Verify-Free-RL/
[4] CL-bench Leaderboard: https://www.clbench.com/
[5] 2602 Test-time Recursive Thinking: Self-Improvement without External Feedback: https://arxiv.org/abs/2602.03094
[6] 2510 Training-Free Group Relative Policy Optimization: https://arxiv.org/abs/2510.08191
[7] 2603 MemAPO: https://arxiv.org/abs/2603.21520
[8] 2603 Update-Free On-Policy Steering via Verifiers: https://arxiv.org/abs/2603.10282