TL;DR:
随着 LLM 能力增强,强化学习正在从“更新模型参数”转向“优化上下文”。Training-Free RL 不再训练 policy,而是通过自评估、对比、反思和记忆机制,从 rollout 中提取“经验/洞察”,并以自然语言形式注入上下文,从而改变模型输出分布。本质上,这是一种以 LLM 为先验、以“经验文本”为 advantage 的新型 RL 范式。
RL 近期出现了大量新的学习范式,我们此前已经介绍过几篇关于 RM 建模的文章:
- Reward Model建模 | 长琴[1]
- Reward建模新范式:无验证器RL与Reference的妙用 | 长琴[2]
- Reward建模新范式:无验证RL——当模型只能相信自己,会发生什么? | 长琴[3]
虽然是 RM 建模,但其实再放大了说也就是 RL 建模。而且,R1 之后,RL 大多都简化为 GRPO,其关键就在 Reward(或者说 Advantage)建模和设计上。从这个角度看,之前介绍的无验证 RL,它既是 Reward 建模范式,但更多的其实是一种新的 RL 范式——验证都不需要了,都不是验证器的问题。
本文介绍的是另一种范式——免训练 RL。是的,没错,随着 LLM 能力不断变强,保持 LLM 不动,对“上下文”进行调整也能很好地完成任务。还记得前几个月腾讯姚顺雨的 CL-bench Leaderboard[4] 吗——即使你把所有相关上下文都给了 LLM,它也不一定能用好。从某种意义上说,免训练 RL 的作用点也是“用好”上下文。