GAGPO:如果把GiGPO拉回PPO+GAE

今天介绍一篇 Agentic RL 相关的比较巧妙的论文:2605 GAGPO: Generalized Advantage Grouped Policy Optimization[1],如果用一句话简要概括,那就是:“用 GROUP 的方法计算 V”,效果不错,以至于当时看了第一反应是怀疑。不过仔细阅读全文后,发现确实很有意思,而且实验也比较全面。

它的出发点很简单——不要 Value 模型,怎么把后续结果有效地回传到每个中间步骤。本文提出的 GAGPO = Generalized Advantage Grouped Policy Optimization,它是一种无需 Critic 的 RL 算法,能够实现精确的、与步骤对齐的时序 credit assignment。

做法更加简单——从采样得到的 rollout 中构建一个非参数化的分组价值代理,然后通过 TD/GAE 把最终结果的监督信号沿时间维度传播到前面的每一步(注意是 Step,不是 Token)。

这里的关键就是第二步——用 GRPO GROUP 的方法计算 V,然后用 GAE 的方法计算每一步的 A(注意,每个 Step 的所有 Token 的 A 一样)。而这一步的关键是 Agentic 任务相对稳定的 State。

More

TRPO深度拆解:为什么做后训练应该读懂TRPO

TL;DR

TRPO 解决了强化学习中“策略更新步长难以确定”的痛点。它通过数学证明,将复杂的策略改进过程转化为一个带约束的局部优化问题。

  • 核心思想:利用 KL 散度在“概率分布空间”而非“参数数值空间”衡量更新距离。
  • 三大支柱MM 保证单调提升、信任区域(Trust Region)确保更新稳定、共轭梯度(CG)实现高维参数的高效求解。
  • 历史地位:它是 PPO 和 GRPO 的理论基石,定义了现代 RL 对齐算法的底层逻辑。

一直想仔细读一下 TRPO 的 paper[1],每次都拖延住,这次是真的不得不上了,趁热打铁,记录一下。顺便说一句,类似 TRPO 这种 paper 是我个人非常喜欢的一类文章,写的很好,非常推荐。

TRPO 这篇论文在现代强化学习中的地位不亚于 “Attention is all you need” 在 LLM 中的地位,后续大放异彩的 PPO、GRPO 其实都是在给 TRPO 的基础上“做减法”。

比如 PPO,TRPO 计算 Fisher 矩阵和共轭梯度实现极其复杂,PPO-Clip 直接用截断把新旧策略的比值强行限制在 [1ϵ,1+ϵ][1-\epsilon, 1+\epsilon] 之间。而 GRPO 更是把 TRPO 里的思想发挥到了极致,它依然保留了 KL 散度约束,但在去掉 Baseline 这步走的更远,直接通过分组得分来代替 Advantage 估算。

总的来说,只要符合以下三点的,基本都是 TRPO 这一脉的:

  • 重要性采样:用旧数据训练新模型,必须修正分布偏差,分子分母的比例永远是核心。
  • 信任区域 :步子不能太大,必须限制在一定范围内,否则策略直接崩溃。
  • 优势函数:不考虑绝对得分,只看当前动作是否比平均水平更好。

More

红豆为什么会滚——从两岁女儿的玩耍说起

写在前面:我不是物理科班出身——本职是算法工程师。本文只是从一个工程师的好奇心出发,把一个家庭场景里随手冒出来的物理问题拿出来探讨一番。如果有不严谨的地方,欢迎指正。

前几天周末,女儿在床上玩红豆——家里那种煮粥用的小红豆,圆鼓鼓的椭球。

她两岁多,正是什么都想拿来玩的年纪,每次都让我抱着她去厨房的罐子里抓一点豆子玩儿。我也没办法,每次只能依着她,看着她把红豆放在有点褶皱的被子上滚来滚去,我问她:“小西瓜,你知不知道为什么豆子会滚来滚去,旁边的小方块不会这样滚来滚去呀?”

她自然是不理我的,不过我心里在想怎么回答这个问题,“因为它是圆的?”听起来好像有道理,其实是句废话——我仔细一想,这里面好像涉及到好几个物理问题,于是就趁此机会记录一下。

More

COPO:基于认知模式的 Step-Level Agentic RL 优化

今天介绍一篇 Agentic RL 的小文章吧,来自 2602 Think Fast and Slow: Step-Level Cognitive Depth Adaptation for LLM Agents[1],我们在《LLM 的下一步:从“会答”到“会想”——Planning as Data 与思考范式重构 | 长琴[2]》中提过一嘴,不过当时关注的是它的认知结构(本文不再赘述)。这里重点看下它提出来的 COPO(认知感知策略优化)——用于通过置信度感知优势重加权来实现步骤级的权重分配。

More

LLM 的下一步:从“会答”到“会想”——Planning as Data 与思考范式重构

TL;DR

本文系统梳理了让LLM"先规划再回答"的各类方法,从数据构造(结构化中间表示、层次抽象)、机制设计(注意力对齐、思维 token 注入)到认知启发(ACT-R分层、元思维进化)逐层深入,最后追问"规划的本质",指出显式token规划存在局限,潜在空间(latent)规划或许更接近真正的思考——非线性、可中断、全局感知。


当 reasoning 成为一种数据格式后,下一个很自然的想法就是 “如何 reasoning”,由此引出的做法可谓是五花八门。本文就尝试从这一角度进行梳理,探讨「如何思考(规划)」,或者等价于「如何构造思考数据」。毕竟,重点一直都是「搞数据」和「搞高质量数据」。

注意,思考和规划大多数时候是一个意思,但规划多了一点显式约束的意思,思考过程也隐含了规划信号。

More

探寻实时学习新路径:挖掘极致高效的“子空间微调”

TL;DR

在大模型微调的语境下,我们习惯了 LoRA 带来的“低秩”红利。但当参数量被压缩到极致,甚至低至 13 个参数时,模型还在学习什么?TinyLoRA 给了我们答案。另外,MiCA 的出现又给了我们一个清奇的视角:与其在拥挤的主导子空间里寻找增量,不如去那些被遗忘的“次要奇异方向”开垦荒原。本文将结合这两篇论文,聊聊如何通过挖掘特定的子空间,实现一种近乎“无损”且“实时”的插件化学习能力,这可能也是一种低成本、高独立性、可插拔的“实时学习”新范式。

More

RL新范式:从经验到更高质量数据——我们不再训练模型,而是在制造数据

TL;DR

新一代 RL 范式,本质是在“制造更高质量的训练数据”,而不是单纯优化参数。

方法 提升的信息类型
ERL/OEL 局部修正(reflection),通过“反思 → 经验 → 蒸馏”,把一次尝试变成可复用知识
MR-Search 跨 episode 经验,把“反思”提升为跨 episode 的持续积累(接近元学习)
Reconstruction 隐式推理过程,不学结果反推“生成过程”(学习思维轨迹而非表面数据)
ACT 偏好信号(implicit reward),用对比学习逼出“真正的自我反思”,而不是模仿式反思
CRL 长期可复用经验,让“策略”和“经验系统”协同进化,形成闭环学习系统

以上方法其实都在做一件事:Trajectory → Information Gain → Policy Improvement。核心是把低信息密度的轨迹转换为高信息密度监督信号。


上篇《Training-Free RL:当“训练”不再更新参数,而是更新上下文 | 长琴[1]》我们介绍了一些不更新参数的“训练”范式,目前还在实验中,但目测应该是有效果的——我个人老早就想自动化 prompt 的调整了,这一步着实不应该成为门槛,更不应该投入过多精力去 try-and-error,实在是太不自动化、太不可控了。

不过本文不讨论 Training-Free,而是介绍一些基于 “反思和经验” 的学习范式,固然是需要训练的,但更多的难道不算是一种数据构造方式?从这个角度看也挺有意思。

More

Training-Free RL:当“训练”不再更新参数,而是更新上下文

TL;DR:
随着 LLM 能力增强,强化学习正在从“更新模型参数”转向“优化上下文”。Training-Free RL 不再训练 policy,而是通过自评估、对比、反思和记忆机制,从 rollout 中提取“经验/洞察”,并以自然语言形式注入上下文,从而改变模型输出分布。本质上,这是一种以 LLM 为先验、以“经验文本”为 advantage 的新型 RL 范式。

RL 近期出现了大量新的学习范式,我们此前已经介绍过几篇关于 RM 建模的文章:

虽然是 RM 建模,但其实再放大了说也就是 RL 建模。而且,R1 之后,RL 大多都简化为 GRPO,其关键就在 Reward(或者说 Advantage)建模和设计上。从这个角度看,之前介绍的无验证 RL,它既是 Reward 建模范式,但更多的其实是一种新的 RL 范式——验证都不需要了,都不是验证器的问题。

本文介绍的是另一种范式——免训练 RL。是的,没错,随着 LLM 能力不断变强,保持 LLM 不动,对“上下文”进行调整也能很好地完成任务。还记得前几个月腾讯姚顺雨的 CL-bench Leaderboard[4] 吗——即使你把所有相关上下文都给了 LLM,它也不一定能用好。从某种意义上说,免训练 RL 的作用点也是“用好”上下文。

More

从 OpenClaw 再谈 AI Coding:我们还剩下什么

TL;DR

  • OpenClaw 的爆火,本质上不是产品本身,而是 Agent 生态被突然点燃:个人级 AI 操作系统开始具象化,整个 AI 产业链(模型、平台、云、工具)随之受益。
  • 与此同时,AI Coding 正在重写软件开发范式——代码的重要性下降,系统设计、上下文管理和判断力成为新的核心能力。
  • 在这个时代,真正重要的不再是“会不会写代码”,而是:能否提出好问题、设计系统,并驾驭 AI 去实现它。

More

Roleplay AI 观察:从 C.AI 到 Talkie,产品、数据、模型与情感需求

TL;DR

  • RP(Roleplay) AI 的核心价值不是「扮演角色」,而是满足用户的情感寄托与沉浸体验
  • RP 的评估极其困难,本质是用户偏好问题而非正确性问题,因此线上 A/B 和用户行为信号依然是核心。
  • 高质量 RP 数据不仅是语句质量,更是叙事推进、角色一致性和情绪峰值设计
  • 未来的方向可能是 Worldplay:可演化的世界、多角色互动和长期关系。

More