一直对 EmbodiedAI 比较关注,大概是从 2103 A Survey of Embodied AI: From Simulators to Research Tasks[1] 开始,主要是一直对机器人感兴趣,看了《超能陆战队》后就总想自己也搞一个,再加上自己也是搞 AI 算法,关注到这个方向其实是比较自然的。后面陆续出来 RT-2: Vision-Language-Action Models[2]、SayCan: Grounding Language in Robotic Affordances[3]、2303 PaLM-E: An Embodied Multimodal Language Model[4] 等研究(都是 Google 的),不过再往后就基本没怎么关注了。工作忙起来了,事情也多起来了。
不过事情来到 2026 年就不一样了,记得我在 2025 年底跨年夜晚上发了一条朋友圈:“2025是RL、多模态、AI Coding年。2026继续,再补一个Embodied AI”,没几个月过去已经开始应验,现在半年过去简直要暴走。我自认为自己在这个方向还是比较浅薄的,所以准备补一补,多读几篇相关论文,本文就从《2602 Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models[5]》开始吧。
