TL;DR
新一代 RL 范式,本质是在“制造更高质量的训练数据”,而不是单纯优化参数。
| 方法 | 提升的信息类型 |
|---|---|
| ERL/OEL | 局部修正(reflection),通过“反思 → 经验 → 蒸馏”,把一次尝试变成可复用知识 |
| MR-Search | 跨 episode 经验,把“反思”提升为跨 episode 的持续积累(接近元学习) |
| Reconstruction | 隐式推理过程,不学结果反推“生成过程”(学习思维轨迹而非表面数据) |
| ACT | 偏好信号(implicit reward),用对比学习逼出“真正的自我反思”,而不是模仿式反思 |
| CRL | 长期可复用经验,让“策略”和“经验系统”协同进化,形成闭环学习系统 |
以上方法其实都在做一件事:Trajectory → Information Gain → Policy Improvement。核心是把低信息密度的轨迹转换为高信息密度监督信号。
上篇《Training-Free RL:当“训练”不再更新参数,而是更新上下文 | 长琴[1]》我们介绍了一些不更新参数的“训练”范式,目前还在实验中,但目测应该是有效果的——我个人老早就想自动化 prompt 的调整了,这一步着实不应该成为门槛,更不应该投入过多精力去 try-and-error,实在是太不自动化、太不可控了。
不过本文不讨论 Training-Free,而是介绍一些基于 “反思和经验” 的学习范式,固然是需要训练的,但更多的难道不算是一种数据构造方式?从这个角度看也挺有意思。