RL新范式:从经验到更高质量数据——我们不再训练模型,而是在制造数据

TL;DR

新一代 RL 范式,本质是在“制造更高质量的训练数据”,而不是单纯优化参数。

方法 提升的信息类型
ERL/OEL 局部修正(reflection),通过“反思 → 经验 → 蒸馏”,把一次尝试变成可复用知识
MR-Search 跨 episode 经验,把“反思”提升为跨 episode 的持续积累(接近元学习)
Reconstruction 隐式推理过程,不学结果反推“生成过程”(学习思维轨迹而非表面数据)
ACT 偏好信号(implicit reward),用对比学习逼出“真正的自我反思”,而不是模仿式反思
CRL 长期可复用经验,让“策略”和“经验系统”协同进化,形成闭环学习系统

以上方法其实都在做一件事:Trajectory → Information Gain → Policy Improvement。核心是把低信息密度的轨迹转换为高信息密度监督信号。


上篇《Training-Free RL:当“训练”不再更新参数,而是更新上下文 | 长琴[1]》我们介绍了一些不更新参数的“训练”范式,目前还在实验中,但目测应该是有效果的——我个人老早就想自动化 prompt 的调整了,这一步着实不应该成为门槛,更不应该投入过多精力去 try-and-error,实在是太不自动化、太不可控了。

不过本文不讨论 Training-Free,而是介绍一些基于 “反思和经验” 的学习范式,固然是需要训练的,但更多的难道不算是一种数据构造方式?从这个角度看也挺有意思。

More

Training-Free RL:当“训练”不再更新参数,而是更新上下文

TL;DR:
随着 LLM 能力增强,强化学习正在从“更新模型参数”转向“优化上下文”。Training-Free RL 不再训练 policy,而是通过自评估、对比、反思和记忆机制,从 rollout 中提取“经验/洞察”,并以自然语言形式注入上下文,从而改变模型输出分布。本质上,这是一种以 LLM 为先验、以“经验文本”为 advantage 的新型 RL 范式。

RL 近期出现了大量新的学习范式,我们此前已经介绍过几篇关于 RM 建模的文章:

虽然是 RM 建模,但其实再放大了说也就是 RL 建模。而且,R1 之后,RL 大多都简化为 GRPO,其关键就在 Reward(或者说 Advantage)建模和设计上。从这个角度看,之前介绍的无验证 RL,它既是 Reward 建模范式,但更多的其实是一种新的 RL 范式——验证都不需要了,都不是验证器的问题。

本文介绍的是另一种范式——免训练 RL。是的,没错,随着 LLM 能力不断变强,保持 LLM 不动,对“上下文”进行调整也能很好地完成任务。还记得前几个月腾讯姚顺雨的 CL-bench Leaderboard[4] 吗——即使你把所有相关上下文都给了 LLM,它也不一定能用好。从某种意义上说,免训练 RL 的作用点也是“用好”上下文。

More

从 OpenClaw 再谈 AI Coding:我们还剩下什么

TL;DR

  • OpenClaw 的爆火,本质上不是产品本身,而是 Agent 生态被突然点燃:个人级 AI 操作系统开始具象化,整个 AI 产业链(模型、平台、云、工具)随之受益。
  • 与此同时,AI Coding 正在重写软件开发范式——代码的重要性下降,系统设计、上下文管理和判断力成为新的核心能力。
  • 在这个时代,真正重要的不再是“会不会写代码”,而是:能否提出好问题、设计系统,并驾驭 AI 去实现它。

More

Roleplay AI 观察:从 C.AI 到 Talkie,产品、数据、模型与情感需求

TL;DR

  • RP(Roleplay) AI 的核心价值不是「扮演角色」,而是满足用户的情感寄托与沉浸体验
  • RP 的评估极其困难,本质是用户偏好问题而非正确性问题,因此线上 A/B 和用户行为信号依然是核心。
  • 高质量 RP 数据不仅是语句质量,更是叙事推进、角色一致性和情绪峰值设计
  • 未来的方向可能是 Worldplay:可演化的世界、多角色互动和长期关系。

More

DLM 漫谈:并行不是重点,模式才是 —— 从 ARM 到 DLM 的 LLM 第二曲线

TL;DR

本文深度梳理了离散扩散语言模型(MDLM)的发展脉络。从 SEMDLM 的理论奠基,到 LLaDA 实现 100B 参数的 Scaling 验证,再到 2026 年初关于 DLM 十大挑战的宏观思考。文章重点剖析了 DLM 与自回归模型(ARM)的差异,介绍了 “DLM 规划 + ARM 执行” 等多种前沿混合架构,并探讨了 RL 后训练中的“灵活性陷阱”。核心观点认为:DLM 的真正潜力不在于并行推理,而在于其非线性推理、全局编辑与迭代修正的认知模式。


本来正打算写(学)一写(学) DLM 的,都看了一阵子了,突然刷到这么一篇论文:2601 Top 10 Open Challenges Steering the Future of Diffusion Language Model and Its Variants[1],这是篇好论文呀。于是,就趁着这股东风,把一些观点一并梳理下。本文内容相对侧重观点介绍和梳理而非公式推导。另外,本文涉及的 DLM 并不是完整的,大部分时候仅指 MDLM,也就是 Masked Diffusion Language Models。

More

从 FlashAttention 到 Streaming Reduction:如何把“全局算子”改写成可分块计算

TL;DR

本文深度解析了 FlashAttention 核心机制——Online Softmax 的数学原理,并由此发散展开,揭示了高性能计算中的通用模式:Streaming Reduction

  • 只要算子具备“可结合的累积结构”与“平移/缩放不变性”(能拆分、可压缩和能修正、可补偿),就能通过动态维护“参考系”和“代数补偿”,将原本依赖全局数据的算子改造为流式、可分块的并行实现。
  • 统一了 Softmax、LayerNorm/RMSNorm 、Adam/RMSProp 优化器及分布式 AllReduce 的底层逻辑——它们本质上都是在维护一套 O(1) 复杂度的状态迁移。
  • 判断算子能否分块化:重写归约形式、检查结合律与坐标系补偿、构造 Merge 函数。

More

【聆听·微光】006:一位传统企业中层管理在AI转型升级中的“蜀道”

【来访者个人档案】

  • 身份: 工作多年的项目负责人。
  • 自述: 想把 AI 用在公司内部和项目上,但很难推进。

这次来访的和前面的大有不同,我们称其为 G 同学,G 同学已经在一家公司做到了领导层,负责软件开发相关项目,手下也有十几号人。G 同学通过 Datawhale 关注到我,读了《为了让AI干活儿,我竭尽所能——我的 Vibe Coding 认知升级之路》,那会儿正在想办法让团队用上 AI,提升效率。

G 同学的烦恼如果用一句话概括,那就是:“传统企业如何用好 AI 之落在中层管理者身上的职责和困惑”。这其中除了技术相关问题,还有大量沟通、管理、协调等非技术问题。好在我也做过管理,还是能聊一聊的。

More

通向 AGI 的技术路径:多模态、强化学习与新架构的交汇点——结合近期研究者访谈的一些技术判断与个人思考

注意注意,本文并非试图给出一条确定的 AGI 技术路线,也不是对某一种路线的辩护或预测,而是有意将多位一线研究者在不同语境下提及的方向进行整理。在此基础上,也夹杂了一些个人长期形成的判断和思考,供参考,而非结论。

TL;DR

  • 多位一线研究者的观点在三个方向上高度收敛多模态(尤其是视频)、强化学习、自进化系统,它们共同指向比纯 LLM 更高阶的智能形态。
  • Scaling 仍然重要,但对象在变化:从模型规模 → 推理过程 → 自学习环境(System 3),再加上 Token 效率、多尺度学习等,Scaling 正在更加精细和广泛。
  • 多模态不是“加模态”,而是“建世界”:视频和感知建模可能拥有比文本高一个数量级的 Scaling 上限,语言并非理解物理世界的必要条件。
  • 强化学习是自主进化的核心机制:预训练擅长吸收信息,RL 擅长通过试错优化策略,可能是持续学习、自我修正和边缘能力提升的关键。
  • Agent 不应只是工具封装:真正的 Agent 更像一个“可训练的智能系统”,本身就是产品,具备学习、记忆和进化能力。
  • 从更长期看,现有 Attention 和 NTP 可能不是终局,新架构、新目标函数、新范式雨后春笋。

More

MoE RL 训练不稳定性再思考:训推不一致,还是采样噪声?

来自快手的 KAT-Coder-V1 Pro 重磅升级,揭秘强化学习训练稳定性关键因素 - KwaiPilot[1],直接给出了让人惊讶的发现:

RL 训练不稳定的主导因素并不是训推不一致,而是采样噪声本身

他们发现,当显式抑制噪声强度后,即使存在明显的训推差异,训练依旧保持稳定,并能获得更快的收敛速度。

这可真是——玄之又玄啊。

More

为了让AI干活儿,我竭尽所能——我的 Vibe Coding 认知升级之路

AI Coding 已经疯了。

我也在一边根据本能在使用,同时也在学习一些新的技巧和方法。直到看到《认知重建:Speckit 用了三个月,我放弃了——走出工具很强但用不好的困境 - 知乎[1]》这篇文章,我觉得自己得系统梳理一下了。

这里就随便那么梳理一下吧,可能会比较乱。

More