背景
说起 SFT,可能只要是这一行的,哪怕刚入门都能说道几句,但当我们仔细深入分析后就会发现它没那么简单。就好像你知道自然音阶,也能在钢琴上找到 do re mi fa suo la xi,但弹不好一首曲子。
说起 SFT,可能只要是这一行的,哪怕刚入门都能说道几句,但当我们仔细深入分析后就会发现它没那么简单。就好像你知道自然音阶,也能在钢琴上找到 do re mi fa suo la xi,但弹不好一首曲子。
今天介绍一篇 Agentic RL 相关的比较巧妙的论文:2605 GAGPO: Generalized Advantage Grouped Policy Optimization[1],如果用一句话简要概括,那就是:“用 GROUP 的方法计算 V”,效果不错,以至于当时看了第一反应是怀疑。不过仔细阅读全文后,发现确实很有意思,而且实验也比较全面。
它的出发点很简单——不要 Value 模型,怎么把后续结果有效地回传到每个中间步骤。本文提出的 GAGPO = Generalized Advantage Grouped Policy Optimization,它是一种无需 Critic 的 RL 算法,能够实现精确的、与步骤对齐的时序 credit assignment。
做法更加简单——从采样得到的 rollout 中构建一个非参数化的分组价值代理,然后通过 TD/GAE 把最终结果的监督信号沿时间维度传播到前面的每一步(注意是 Step,不是 Token)。

这里的关键就是第二步——用 GRPO GROUP 的方法计算 V,然后用 GAE 的方法计算每一步的 A(注意,每个 Step 的所有 Token 的 A 一样)。而这一步的关键是 Agentic 任务相对稳定的 State。
TL;DR
TRPO 解决了强化学习中“策略更新步长难以确定”的痛点。它通过数学证明,将复杂的策略改进过程转化为一个带约束的局部优化问题。
一直想仔细读一下 TRPO 的 paper[1],每次都拖延住,这次是真的不得不上了,趁热打铁,记录一下。顺便说一句,类似 TRPO 这种 paper 是我个人非常喜欢的一类文章,写的很好,非常推荐。
TRPO 这篇论文在现代强化学习中的地位不亚于 “Attention is all you need” 在 LLM 中的地位,后续大放异彩的 PPO、GRPO 其实都是在给 TRPO 的基础上“做减法”。
比如 PPO,TRPO 计算 Fisher 矩阵和共轭梯度实现极其复杂,PPO-Clip 直接用截断把新旧策略的比值强行限制在 之间。而 GRPO 更是把 TRPO 里的思想发挥到了极致,它依然保留了 KL 散度约束,但在去掉 Baseline 这步走的更远,直接通过分组得分来代替 Advantage 估算。
总的来说,只要符合以下三点的,基本都是 TRPO 这一脉的:
写在前面:我不是物理科班出身——本职是算法工程师。本文只是从一个工程师的好奇心出发,把一个家庭场景里随手冒出来的物理问题拿出来探讨一番。如果有不严谨的地方,欢迎指正。
前几天周末,女儿在床上玩红豆——家里那种煮粥用的小红豆,圆鼓鼓的椭球。
她两岁多,正是什么都想拿来玩的年纪,每次都让我抱着她去厨房的罐子里抓一点豆子玩儿。我也没办法,每次只能依着她,看着她把红豆放在有点褶皱的被子上滚来滚去,我问她:“小西瓜,你知不知道为什么豆子会滚来滚去,旁边的小方块不会这样滚来滚去呀?”
她自然是不理我的,不过我心里在想怎么回答这个问题,“因为它是圆的?”听起来好像有道理,其实是句废话——我仔细一想,这里面好像涉及到好几个物理问题,于是就趁此机会记录一下。
今天介绍一篇 Agentic RL 的小文章吧,来自 2602 Think Fast and Slow: Step-Level Cognitive Depth Adaptation for LLM Agents[1],我们在《LLM 的下一步:从“会答”到“会想”——Planning as Data 与思考范式重构 | 长琴[2]》中提过一嘴,不过当时关注的是它的认知结构(本文不再赘述)。这里重点看下它提出来的 COPO(认知感知策略优化)——用于通过置信度感知优势重加权来实现步骤级的权重分配。
TL;DR
本文系统梳理了让LLM"先规划再回答"的各类方法,从数据构造(结构化中间表示、层次抽象)、机制设计(注意力对齐、思维 token 注入)到认知启发(ACT-R分层、元思维进化)逐层深入,最后追问"规划的本质",指出显式token规划存在局限,潜在空间(latent)规划或许更接近真正的思考——非线性、可中断、全局感知。
当 reasoning 成为一种数据格式后,下一个很自然的想法就是 “如何 reasoning”,由此引出的做法可谓是五花八门。本文就尝试从这一角度进行梳理,探讨「如何思考(规划)」,或者等价于「如何构造思考数据」。毕竟,重点一直都是「搞数据」和「搞高质量数据」。
注意,思考和规划大多数时候是一个意思,但规划多了一点显式约束的意思,思考过程也隐含了规划信号。
TL;DR
在大模型微调的语境下,我们习惯了 LoRA 带来的“低秩”红利。但当参数量被压缩到极致,甚至低至 13 个参数时,模型还在学习什么?TinyLoRA 给了我们答案。另外,MiCA 的出现又给了我们一个清奇的视角:与其在拥挤的主导子空间里寻找增量,不如去那些被遗忘的“次要奇异方向”开垦荒原。本文将结合这两篇论文,聊聊如何通过挖掘特定的子空间,实现一种近乎“无损”且“实时”的插件化学习能力,这可能也是一种低成本、高独立性、可插拔的“实时学习”新范式。
TL;DR
新一代 RL 范式,本质是在“制造更高质量的训练数据”,而不是单纯优化参数。
| 方法 | 提升的信息类型 |
|---|---|
| ERL/OEL | 局部修正(reflection),通过“反思 → 经验 → 蒸馏”,把一次尝试变成可复用知识 |
| MR-Search | 跨 episode 经验,把“反思”提升为跨 episode 的持续积累(接近元学习) |
| Reconstruction | 隐式推理过程,不学结果反推“生成过程”(学习思维轨迹而非表面数据) |
| ACT | 偏好信号(implicit reward),用对比学习逼出“真正的自我反思”,而不是模仿式反思 |
| CRL | 长期可复用经验,让“策略”和“经验系统”协同进化,形成闭环学习系统 |
以上方法其实都在做一件事:Trajectory → Information Gain → Policy Improvement。核心是把低信息密度的轨迹转换为高信息密度监督信号。
上篇《Training-Free RL:当“训练”不再更新参数,而是更新上下文 | 长琴[1]》我们介绍了一些不更新参数的“训练”范式,目前还在实验中,但目测应该是有效果的——我个人老早就想自动化 prompt 的调整了,这一步着实不应该成为门槛,更不应该投入过多精力去 try-and-error,实在是太不自动化、太不可控了。
不过本文不讨论 Training-Free,而是介绍一些基于 “反思和经验” 的学习范式,固然是需要训练的,但更多的难道不算是一种数据构造方式?从这个角度看也挺有意思。
TL;DR:
随着 LLM 能力增强,强化学习正在从“更新模型参数”转向“优化上下文”。Training-Free RL 不再训练 policy,而是通过自评估、对比、反思和记忆机制,从 rollout 中提取“经验/洞察”,并以自然语言形式注入上下文,从而改变模型输出分布。本质上,这是一种以 LLM 为先验、以“经验文本”为 advantage 的新型 RL 范式。
RL 近期出现了大量新的学习范式,我们此前已经介绍过几篇关于 RM 建模的文章:
虽然是 RM 建模,但其实再放大了说也就是 RL 建模。而且,R1 之后,RL 大多都简化为 GRPO,其关键就在 Reward(或者说 Advantage)建模和设计上。从这个角度看,之前介绍的无验证 RL,它既是 Reward 建模范式,但更多的其实是一种新的 RL 范式——验证都不需要了,都不是验证器的问题。
本文介绍的是另一种范式——免训练 RL。是的,没错,随着 LLM 能力不断变强,保持 LLM 不动,对“上下文”进行调整也能很好地完成任务。还记得前几个月腾讯姚顺雨的 CL-bench Leaderboard[4] 吗——即使你把所有相关上下文都给了 LLM,它也不一定能用好。从某种意义上说,免训练 RL 的作用点也是“用好”上下文。
TL;DR