我们在《TRPO深度拆解:为什么做后训练应该读懂TRPO | 长琴[1]》中详细挖了一下 TRPO,开头说到不得不上就是因为看到 FiberPO 了——非常 nice 的文章,又是个人非常喜欢的类型。FiberPO 比较长,本文是系列第一篇,主要介绍 vanishing theorem。
VLA Sim-Real 协同训练
一直对 EmbodiedAI 比较关注,大概是从 2103 A Survey of Embodied AI: From Simulators to Research Tasks[1] 开始,主要是一直对机器人感兴趣,看了《超能陆战队》后就总想自己也搞一个,再加上自己也是搞 AI 算法,关注到这个方向其实是比较自然的。后面陆续出来 RT-2: Vision-Language-Action Models[2]、SayCan: Grounding Language in Robotic Affordances[3]、2303 PaLM-E: An Embodied Multimodal Language Model[4] 等研究(都是 Google 的),不过再往后就基本没怎么关注了。工作忙起来了,事情也多起来了。
不过事情来到 2026 年就不一样了,记得我在 2025 年底跨年夜晚上发了一条朋友圈:“2025是RL、多模态、AI Coding年。2026继续,再补一个Embodied AI”,没几个月过去已经开始应验,现在半年过去简直要暴走。我自认为自己在这个方向还是比较浅薄的,所以准备补一补,多读几篇相关论文,本文就从《2602 Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models[5]》开始吧。
当我20天的账单超过4000美元
最近一阵用 AI 更加频繁了,工作模式、学习模式出现了非常明显的计算机化——大脑=CPU,不停切换时间片,并发处理多线任务。工作上 3-5 个是常态,另外还有 2-3 个学习相关的,还有 1-2 个是其他项目。多管齐下,半个多月就快 3900 美元了——有点顶不住了。
然后最近 AI 非常疯狂啊,表现出超巨大的虹吸效应——所有 AI 相关的领域都在疯狂吸金,其他方向要么加入 AI,要么瑟瑟发抖。感觉 AI 对整个社会的冲击大于历史上任何一次的技术冲击。这件事情本身就非常恐怖,放几年前没有人会相信。
今天这个文章预计会比较散,因为也没有啥具体主题,但最近就是非常想写一点这方面的感受,顺便分享一些自己的心得感受。
你可能没那么懂 SFT:SFT 与 RL 的爱恨纠葛
背景
说起 SFT,可能只要是这一行的,哪怕刚入门都能说道几句,但当我们仔细深入分析后就会发现它没那么简单。就好像你知道自然音阶,也能在钢琴上找到 do re mi fa suo la xi,但弹不好一首曲子。
GAGPO:如果把GiGPO拉回PPO+GAE
今天介绍一篇 Agentic RL 相关的比较巧妙的论文:2605 GAGPO: Generalized Advantage Grouped Policy Optimization[1],如果用一句话简要概括,那就是:“用 GROUP 的方法计算 V”,效果不错,以至于当时看了第一反应是怀疑。不过仔细阅读全文后,发现确实很有意思,而且实验也比较全面。
它的出发点很简单——不要 Value 模型,怎么把后续结果有效地回传到每个中间步骤。本文提出的 GAGPO = Generalized Advantage Grouped Policy Optimization,它是一种无需 Critic 的 RL 算法,能够实现精确的、与步骤对齐的时序 credit assignment。
做法更加简单——从采样得到的 rollout 中构建一个非参数化的分组价值代理,然后通过 TD/GAE 把最终结果的监督信号沿时间维度传播到前面的每一步(注意是 Step,不是 Token)。

这里的关键就是第二步——用 GRPO GROUP 的方法计算 V,然后用 GAE 的方法计算每一步的 A(注意,每个 Step 的所有 Token 的 A 一样)。而这一步的关键是 Agentic 任务相对稳定的 State。
TRPO深度拆解:为什么做后训练应该读懂TRPO
TL;DR
TRPO 解决了强化学习中“策略更新步长难以确定”的痛点。它通过数学证明,将复杂的策略改进过程转化为一个带约束的局部优化问题。
- 核心思想:利用 KL 散度在“概率分布空间”而非“参数数值空间”衡量更新距离。
- 三大支柱:MM 保证单调提升、信任区域(Trust Region)确保更新稳定、共轭梯度(CG)实现高维参数的高效求解。
- 历史地位:它是 PPO 和 GRPO 的理论基石,定义了现代 RL 对齐算法的底层逻辑。
一直想仔细读一下 TRPO 的 paper[1],每次都拖延住,这次是真的不得不上了,趁热打铁,记录一下。顺便说一句,类似 TRPO 这种 paper 是我个人非常喜欢的一类文章,写的很好,非常推荐。
TRPO 这篇论文在现代强化学习中的地位不亚于 “Attention is all you need” 在 LLM 中的地位,后续大放异彩的 PPO、GRPO 其实都是在给 TRPO 的基础上“做减法”。
比如 PPO,TRPO 计算 Fisher 矩阵和共轭梯度实现极其复杂,PPO-Clip 直接用截断把新旧策略的比值强行限制在 之间。而 GRPO 更是把 TRPO 里的思想发挥到了极致,它依然保留了 KL 散度约束,但在去掉 Baseline 这步走的更远,直接通过分组得分来代替 Advantage 估算。
总的来说,只要符合以下三点的,基本都是 TRPO 这一脉的:
- 重要性采样:用旧数据训练新模型,必须修正分布偏差,分子分母的比例永远是核心。
- 信任区域 :步子不能太大,必须限制在一定范围内,否则策略直接崩溃。
- 优势函数:不考虑绝对得分,只看当前动作是否比平均水平更好。
红豆为什么会滚——从两岁女儿的玩耍说起
写在前面:我不是物理科班出身——本职是算法工程师。本文只是从一个工程师的好奇心出发,把一个家庭场景里随手冒出来的物理问题拿出来探讨一番。如果有不严谨的地方,欢迎指正。
前几天周末,女儿在床上玩红豆——家里那种煮粥用的小红豆,圆鼓鼓的椭球。
她两岁多,正是什么都想拿来玩的年纪,每次都让我抱着她去厨房的罐子里抓一点豆子玩儿。我也没办法,每次只能依着她,看着她把红豆放在有点褶皱的被子上滚来滚去,我问她:“小西瓜,你知不知道为什么豆子会滚来滚去,旁边的小方块不会这样滚来滚去呀?”
她自然是不理我的,不过我心里在想怎么回答这个问题,“因为它是圆的?”听起来好像有道理,其实是句废话——我仔细一想,这里面好像涉及到好几个物理问题,于是就趁此机会记录一下。
COPO:基于认知模式的 Step-Level Agentic RL 优化
今天介绍一篇 Agentic RL 的小文章吧,来自 2602 Think Fast and Slow: Step-Level Cognitive Depth Adaptation for LLM Agents[1],我们在《LLM 的下一步:从“会答”到“会想”——Planning as Data 与思考范式重构 | 长琴[2]》中提过一嘴,不过当时关注的是它的认知结构(本文不再赘述)。这里重点看下它提出来的 COPO(认知感知策略优化)——用于通过置信度感知优势重加权来实现步骤级的权重分配。
LLM 的下一步:从“会答”到“会想”——Planning as Data 与思考范式重构
TL;DR
本文系统梳理了让LLM"先规划再回答"的各类方法,从数据构造(结构化中间表示、层次抽象)、机制设计(注意力对齐、思维 token 注入)到认知启发(ACT-R分层、元思维进化)逐层深入,最后追问"规划的本质",指出显式token规划存在局限,潜在空间(latent)规划或许更接近真正的思考——非线性、可中断、全局感知。
当 reasoning 成为一种数据格式后,下一个很自然的想法就是 “如何 reasoning”,由此引出的做法可谓是五花八门。本文就尝试从这一角度进行梳理,探讨「如何思考(规划)」,或者等价于「如何构造思考数据」。毕竟,重点一直都是「搞数据」和「搞高质量数据」。
注意,思考和规划大多数时候是一个意思,但规划多了一点显式约束的意思,思考过程也隐含了规划信号。
探寻实时学习新路径:挖掘极致高效的“子空间微调”
TL;DR
在大模型微调的语境下,我们习惯了 LoRA 带来的“低秩”红利。但当参数量被压缩到极致,甚至低至 13 个参数时,模型还在学习什么?TinyLoRA 给了我们答案。另外,MiCA 的出现又给了我们一个清奇的视角:与其在拥挤的主导子空间里寻找增量,不如去那些被遗忘的“次要奇异方向”开垦荒原。本文将结合这两篇论文,聊聊如何通过挖掘特定的子空间,实现一种近乎“无损”且“实时”的插件化学习能力,这可能也是一种低成本、高独立性、可插拔的“实时学习”新范式。