VLA Sim-Real 协同训练

一直对 EmbodiedAI 比较关注,大概是从 2103 A Survey of Embodied AI: From Simulators to Research Tasks[1] 开始,主要是一直对机器人感兴趣,看了《超能陆战队》后就总想自己也搞一个,再加上自己也是搞 AI 算法,关注到这个方向其实是比较自然的。后面陆续出来 RT-2: Vision-Language-Action Models[2]SayCan: Grounding Language in Robotic Affordances[3]2303 PaLM-E: An Embodied Multimodal Language Model[4] 等研究(都是 Google 的),不过再往后就基本没怎么关注了。工作忙起来了,事情也多起来了。

不过事情来到 2026 年就不一样了,记得我在 2025 年底跨年夜晚上发了一条朋友圈:“2025是RL、多模态、AI Coding年。2026继续,再补一个Embodied AI”,没几个月过去已经开始应验,现在半年过去简直要暴走。我自认为自己在这个方向还是比较浅薄的,所以准备补一补,多读几篇相关论文,本文就从《2602 Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models[5]》开始吧。

More

当我20天的账单超过4000美元

最近一阵用 AI 更加频繁了,工作模式、学习模式出现了非常明显的计算机化——大脑=CPU,不停切换时间片,并发处理多线任务。工作上 3-5 个是常态,另外还有 2-3 个学习相关的,还有 1-2 个是其他项目。多管齐下,半个多月就快 3900 美元了——有点顶不住了。

然后最近 AI 非常疯狂啊,表现出超巨大的虹吸效应——所有 AI 相关的领域都在疯狂吸金,其他方向要么加入 AI,要么瑟瑟发抖。感觉 AI 对整个社会的冲击大于历史上任何一次的技术冲击。这件事情本身就非常恐怖,放几年前没有人会相信。

今天这个文章预计会比较散,因为也没有啥具体主题,但最近就是非常想写一点这方面的感受,顺便分享一些自己的心得感受。

More

GAGPO:如果把GiGPO拉回PPO+GAE

今天介绍一篇 Agentic RL 相关的比较巧妙的论文:2605 GAGPO: Generalized Advantage Grouped Policy Optimization[1],如果用一句话简要概括,那就是:“用 GROUP 的方法计算 V”,效果不错,以至于当时看了第一反应是怀疑。不过仔细阅读全文后,发现确实很有意思,而且实验也比较全面。

它的出发点很简单——不要 Value 模型,怎么把后续结果有效地回传到每个中间步骤。本文提出的 GAGPO = Generalized Advantage Grouped Policy Optimization,它是一种无需 Critic 的 RL 算法,能够实现精确的、与步骤对齐的时序 credit assignment。

做法更加简单——从采样得到的 rollout 中构建一个非参数化的分组价值代理,然后通过 TD/GAE 把最终结果的监督信号沿时间维度传播到前面的每一步(注意是 Step,不是 Token)。

这里的关键就是第二步——用 GRPO GROUP 的方法计算 V,然后用 GAE 的方法计算每一步的 A(注意,每个 Step 的所有 Token 的 A 一样)。而这一步的关键是 Agentic 任务相对稳定的 State。

More

TRPO深度拆解:为什么做后训练应该读懂TRPO

TL;DR

TRPO 解决了强化学习中“策略更新步长难以确定”的痛点。它通过数学证明,将复杂的策略改进过程转化为一个带约束的局部优化问题。

  • 核心思想:利用 KL 散度在“概率分布空间”而非“参数数值空间”衡量更新距离。
  • 三大支柱MM 保证单调提升、信任区域(Trust Region)确保更新稳定、共轭梯度(CG)实现高维参数的高效求解。
  • 历史地位:它是 PPO 和 GRPO 的理论基石,定义了现代 RL 对齐算法的底层逻辑。

一直想仔细读一下 TRPO 的 paper[1],每次都拖延住,这次是真的不得不上了,趁热打铁,记录一下。顺便说一句,类似 TRPO 这种 paper 是我个人非常喜欢的一类文章,写的很好,非常推荐。

TRPO 这篇论文在现代强化学习中的地位不亚于 “Attention is all you need” 在 LLM 中的地位,后续大放异彩的 PPO、GRPO 其实都是在给 TRPO 的基础上“做减法”。

比如 PPO,TRPO 计算 Fisher 矩阵和共轭梯度实现极其复杂,PPO-Clip 直接用截断把新旧策略的比值强行限制在 [1ϵ,1+ϵ][1-\epsilon, 1+\epsilon] 之间。而 GRPO 更是把 TRPO 里的思想发挥到了极致,它依然保留了 KL 散度约束,但在去掉 Baseline 这步走的更远,直接通过分组得分来代替 Advantage 估算。

总的来说,只要符合以下三点的,基本都是 TRPO 这一脉的:

  • 重要性采样:用旧数据训练新模型,必须修正分布偏差,分子分母的比例永远是核心。
  • 信任区域 :步子不能太大,必须限制在一定范围内,否则策略直接崩溃。
  • 优势函数:不考虑绝对得分,只看当前动作是否比平均水平更好。

More

红豆为什么会滚——从两岁女儿的玩耍说起

写在前面:我不是物理科班出身——本职是算法工程师。本文只是从一个工程师的好奇心出发,把一个家庭场景里随手冒出来的物理问题拿出来探讨一番。如果有不严谨的地方,欢迎指正。

前几天周末,女儿在床上玩红豆——家里那种煮粥用的小红豆,圆鼓鼓的椭球。

她两岁多,正是什么都想拿来玩的年纪,每次都让我抱着她去厨房的罐子里抓一点豆子玩儿。我也没办法,每次只能依着她,看着她把红豆放在有点褶皱的被子上滚来滚去,我问她:“小西瓜,你知不知道为什么豆子会滚来滚去,旁边的小方块不会这样滚来滚去呀?”

她自然是不理我的,不过我心里在想怎么回答这个问题,“因为它是圆的?”听起来好像有道理,其实是句废话——我仔细一想,这里面好像涉及到好几个物理问题,于是就趁此机会记录一下。

More

COPO:基于认知模式的 Step-Level Agentic RL 优化

今天介绍一篇 Agentic RL 的小文章吧,来自 2602 Think Fast and Slow: Step-Level Cognitive Depth Adaptation for LLM Agents[1],我们在《LLM 的下一步:从“会答”到“会想”——Planning as Data 与思考范式重构 | 长琴[2]》中提过一嘴,不过当时关注的是它的认知结构(本文不再赘述)。这里重点看下它提出来的 COPO(认知感知策略优化)——用于通过置信度感知优势重加权来实现步骤级的权重分配。

More

LLM 的下一步:从“会答”到“会想”——Planning as Data 与思考范式重构

TL;DR

本文系统梳理了让LLM"先规划再回答"的各类方法,从数据构造(结构化中间表示、层次抽象)、机制设计(注意力对齐、思维 token 注入)到认知启发(ACT-R分层、元思维进化)逐层深入,最后追问"规划的本质",指出显式token规划存在局限,潜在空间(latent)规划或许更接近真正的思考——非线性、可中断、全局感知。


当 reasoning 成为一种数据格式后,下一个很自然的想法就是 “如何 reasoning”,由此引出的做法可谓是五花八门。本文就尝试从这一角度进行梳理,探讨「如何思考(规划)」,或者等价于「如何构造思考数据」。毕竟,重点一直都是「搞数据」和「搞高质量数据」。

注意,思考和规划大多数时候是一个意思,但规划多了一点显式约束的意思,思考过程也隐含了规划信号。

More

探寻实时学习新路径:挖掘极致高效的“子空间微调”

TL;DR

在大模型微调的语境下,我们习惯了 LoRA 带来的“低秩”红利。但当参数量被压缩到极致,甚至低至 13 个参数时,模型还在学习什么?TinyLoRA 给了我们答案。另外,MiCA 的出现又给了我们一个清奇的视角:与其在拥挤的主导子空间里寻找增量,不如去那些被遗忘的“次要奇异方向”开垦荒原。本文将结合这两篇论文,聊聊如何通过挖掘特定的子空间,实现一种近乎“无损”且“实时”的插件化学习能力,这可能也是一种低成本、高独立性、可插拔的“实时学习”新范式。

More

RL新范式:从经验到更高质量数据——我们不再训练模型,而是在制造数据

TL;DR

新一代 RL 范式,本质是在“制造更高质量的训练数据”,而不是单纯优化参数。

方法 提升的信息类型
ERL/OEL 局部修正(reflection),通过“反思 → 经验 → 蒸馏”,把一次尝试变成可复用知识
MR-Search 跨 episode 经验,把“反思”提升为跨 episode 的持续积累(接近元学习)
Reconstruction 隐式推理过程,不学结果反推“生成过程”(学习思维轨迹而非表面数据)
ACT 偏好信号(implicit reward),用对比学习逼出“真正的自我反思”,而不是模仿式反思
CRL 长期可复用经验,让“策略”和“经验系统”协同进化,形成闭环学习系统

以上方法其实都在做一件事:Trajectory → Information Gain → Policy Improvement。核心是把低信息密度的轨迹转换为高信息密度监督信号。


上篇《Training-Free RL:当“训练”不再更新参数,而是更新上下文 | 长琴[1]》我们介绍了一些不更新参数的“训练”范式,目前还在实验中,但目测应该是有效果的——我个人老早就想自动化 prompt 的调整了,这一步着实不应该成为门槛,更不应该投入过多精力去 try-and-error,实在是太不自动化、太不可控了。

不过本文不讨论 Training-Free,而是介绍一些基于 “反思和经验” 的学习范式,固然是需要训练的,但更多的难道不算是一种数据构造方式?从这个角度看也挺有意思。

More