2026

TRPO深度拆解：为什么做后训练应该读懂TRPO

COPO：基于认知模式的 Step-Level Agentic RL 优化

LLM 的下一步：从“会答”到“会想”——Planning as Data 与思考范式重构

探寻实时学习新路径：挖掘极致高效的“子空间微调”

RL新范式：从经验到更高质量数据——我们不再训练模型，而是在制造数据

Training-Free RL：当“训练”不再更新参数，而是更新上下文

从 OpenClaw 再谈 AI Coding：我们还剩下什么

Roleplay AI 观察：从 C.AI 到 Talkie，产品、数据、模型与情感需求

DLM 漫谈：并行不是重点，模式才是 —— 从 ARM 到 DLM 的 LLM 第二曲线

从 FlashAttention 到 Streaming Reduction：如何把“全局算子”改写成可分块计算

【聆听·微光】006：一位传统企业中层管理在AI转型升级中的“蜀道”

通向 AGI 的技术路径：多模态、强化学习与新架构的交汇点——结合近期研究者访谈的一些技术判断与个人思考

MoE RL 训练不稳定性再思考：训推不一致，还是采样噪声？

为了让AI干活儿，我竭尽所能——我的 Vibe Coding 认知升级之路

稳定压倒一切：MoE RL 训推不一致问题及解决策略

【聆听·微光】004：一位算法后端开发工程师的AI转型之路

LLM 强化的“炼金术”：主流开源模型的 RL 优化策略赏析

【聆听·微光】003：一位对工作迷茫的程序员的觉醒时刻

【聆听·微光】002：一位普通院校硕士研究生的毕业之际

从平面国到硅世界：当文明被困在自己的维度里

【聆听·微光】001：一位研究生在读的”reward hacker“关于学习的困惑

聆听·微光

以 AI Coding 之管窥探世界之变

站在 30-40 岁的档口