Roleplay AI 观察：从 C.AI 到 Talkie，产品、数据、模型与情感需求

TL;DR

RP（Roleplay） AI 的核心价值不是「扮演角色」，而是满足用户的情感寄托与沉浸体验。
RP 的评估极其困难，本质是用户偏好问题而非正确性问题，因此线上 A/B 和用户行为信号依然是核心。
高质量 RP 数据不仅是语句质量，更是叙事推进、角色一致性和情绪峰值设计。
未来的方向可能是 Worldplay：可演化的世界、多角色互动和长期关系。

DLM 漫谈：并行不是重点，模式才是 —— 从 ARM 到 DLM 的 LLM 第二曲线

TL;DR

本文深度梳理了离散扩散语言模型（MDLM）的发展脉络。从 SEMDLM 的理论奠基，到 LLaDA 实现 100B 参数的 Scaling 验证，再到 2026 年初关于 DLM 十大挑战的宏观思考。文章重点剖析了 DLM 与自回归模型（ARM）的差异，介绍了 “DLM 规划 + ARM 执行” 等多种前沿混合架构，并探讨了 RL 后训练中的“灵活性陷阱”。核心观点认为：DLM 的真正潜力不在于并行推理，而在于其非线性推理、全局编辑与迭代修正的认知模式。

本来正打算写（学）一写（学） DLM 的，都看了一阵子了，突然刷到这么一篇论文：2601 Top 10 Open Challenges Steering the Future of Diffusion Language Model and Its Variants^[1]，这是篇好论文呀。于是，就趁着这股东风，把一些观点一并梳理下。本文内容相对侧重观点介绍和梳理而非公式推导。另外，本文涉及的 DLM 并不是完整的，大部分时候仅指 MDLM，也就是 Masked Diffusion Language Models。

从 FlashAttention 到 Streaming Reduction：如何把“全局算子”改写成可分块计算

TL;DR

本文深度解析了 FlashAttention 核心机制——Online Softmax 的数学原理，并由此发散展开，揭示了高性能计算中的通用模式：Streaming Reduction。

只要算子具备“可结合的累积结构”与“平移/缩放不变性”（能拆分、可压缩和能修正、可补偿），就能通过动态维护“参考系”和“代数补偿”，将原本依赖全局数据的算子改造为流式、可分块的并行实现。
统一了 Softmax、LayerNorm/RMSNorm 、Adam/RMSProp 优化器及分布式 AllReduce 的底层逻辑——它们本质上都是在维护一套 O(1) 复杂度的状态迁移。
判断算子能否分块化：重写归约形式、检查结合律与坐标系补偿、构造 Merge 函数。

【聆听·微光】006：一位传统企业中层管理在AI转型升级中的“蜀道”

【来访者个人档案】

身份：工作多年的项目负责人。
自述：想把 AI 用在公司内部和项目上，但很难推进。

这次来访的和前面的大有不同，我们称其为 G 同学，G 同学已经在一家公司做到了领导层，负责软件开发相关项目，手下也有十几号人。G 同学通过 Datawhale 关注到我，读了《为了让AI干活儿，我竭尽所能——我的 Vibe Coding 认知升级之路》，那会儿正在想办法让团队用上 AI，提升效率。

G 同学的烦恼如果用一句话概括，那就是：“传统企业如何用好 AI 之落在中层管理者身上的职责和困惑”。这其中除了技术相关问题，还有大量沟通、管理、协调等非技术问题。好在我也做过管理，还是能聊一聊的。

通向 AGI 的技术路径：多模态、强化学习与新架构的交汇点——结合近期研究者访谈的一些技术判断与个人思考

注意注意，本文并非试图给出一条确定的 AGI 技术路线，也不是对某一种路线的辩护或预测，而是有意将多位一线研究者在不同语境下提及的方向进行整理。在此基础上，也夹杂了一些个人长期形成的判断和思考，供参考，而非结论。

TL;DR

多位一线研究者的观点在三个方向上高度收敛：多模态（尤其是视频）、强化学习、自进化系统，它们共同指向比纯 LLM 更高阶的智能形态。
Scaling 仍然重要，但对象在变化：从模型规模 → 推理过程 → 自学习环境（System 3），再加上 Token 效率、多尺度学习等，Scaling 正在更加精细和广泛。
多模态不是“加模态”，而是“建世界”：视频和感知建模可能拥有比文本高一个数量级的 Scaling 上限，语言并非理解物理世界的必要条件。
强化学习是自主进化的核心机制：预训练擅长吸收信息，RL 擅长通过试错优化策略，可能是持续学习、自我修正和边缘能力提升的关键。
Agent 不应只是工具封装：真正的 Agent 更像一个“可训练的智能系统”，本身就是产品，具备学习、记忆和进化能力。
从更长期看，现有 Attention 和 NTP 可能不是终局，新架构、新目标函数、新范式雨后春笋。

MoE RL 训练不稳定性再思考：训推不一致，还是采样噪声？

来自快手的 KAT-Coder-V1 Pro 重磅升级，揭秘强化学习训练稳定性关键因素 - KwaiPilot^[1]，直接给出了让人惊讶的发现：

RL 训练不稳定的主导因素并不是训推不一致，而是采样噪声本身。

他们发现，当显式抑制噪声强度后，即使存在明显的训推差异，训练依旧保持稳定，并能获得更快的收敛速度。

这可真是——玄之又玄啊。

为了让AI干活儿，我竭尽所能——我的 Vibe Coding 认知升级之路

AI Coding 已经疯了。

我也在一边根据本能在使用，同时也在学习一些新的技巧和方法。直到看到《认知重建：Speckit 用了三个月，我放弃了——走出工具很强但用不好的困境 - 知乎^[1]》这篇文章，我觉得自己得系统梳理一下了。

这里就随便那么梳理一下吧，可能会比较乱。

稳定压倒一切：MoE RL 训推不一致问题及解决策略

TL;DR

核心矛盾：MoE 模型对输入极度敏感，训练引擎与推理引擎在算子实现、数值精度上的微小差异，会导致同一 Token 在两端选择不同的专家。
现象严重性：实验显示约 94% 的 Token 在一次前向传播中至少有一层路由决策不一致，直接导致策略梯度出现剧烈噪声，引发训练不稳定。
不同策略：算法鲁棒化的 GSPO/GMPO，数学偏差补偿的 TIS/IcePop，系统强行对齐的 R3/DeepSeek。

【聆听·微光】004：一位算法后端开发工程师的AI转型之路

【来访者个人档案】

身份：工作3年的算法专业的后端开发工程师。
自述：我对现在的工作不满意，我想全面拥抱 AI。

今天来访的是一位老粉丝了，我们后面用 S 同学来称呼。S 同学从2022年我写《ChatGPT 原理与应用开发》那会儿就关注了，根据这个开源项目找到我的博客并 RSS 订阅。后面看了我相当多的博客，对我算是比较熟悉的了。

S 同学想聊的依然是工作和学习（或者说成长），这好像真的是大家共同的主题了，只不过由于背景和条件不同，表现出来的状况和问题也不相同。

LLM 强化的“炼金术”：主流开源模型的 RL 优化策略赏析

TL;DR

EXAONE: 改进 GRPO，通过移除 Clip 保留探索性 Token，并利用非对称采样引导模型远离错误路径。
Kimi: 从 KKT 条件推导出 RL 目标函数，将长推理过程视为“隐式搜索”，并利用逐步升温长度惩罚解决“过度思考”问题。
MiMo: 采用反向 KL 散度进行多教师蒸馏（MOPD），实现“寻找众数”的精准能力迁移。
MiniMax: 针对 GRPO Clip 问题，采用带 Stop-gradient 的重要性采样与 Token Mask 机制，不丢弃探索梯度同时确保训练平稳。
Qwen: 将重要性权重回归序列级别，引入长度归一化解决 Token-level 高方差，同时增强了 MoE 路由的稳定性，并进一步演进为平滑剪裁的 SAPO。

结论： 行业正从简单的奖励最大化转向更精细的分布对齐、隐式规划引导和训练稳定性控制。

长琴

... →

Roleplay AI 观察：从 C.AI 到 Talkie，产品、数据、模型与情感需求

DLM 漫谈：并行不是重点，模式才是 —— 从 ARM 到 DLM 的 LLM 第二曲线

从 FlashAttention 到 Streaming Reduction：如何把“全局算子”改写成可分块计算

【聆听·微光】006：一位传统企业中层管理在AI转型升级中的“蜀道”

通向 AGI 的技术路径：多模态、强化学习与新架构的交汇点——结合近期研究者访谈的一些技术判断与个人思考

MoE RL 训练不稳定性再思考：训推不一致，还是采样噪声？

为了让AI干活儿，我竭尽所能——我的 Vibe Coding 认知升级之路

稳定压倒一切：MoE RL 训推不一致问题及解决策略

【聆听·微光】004：一位算法后端开发工程师的AI转型之路

LLM 强化的“炼金术”：主流开源模型的 RL 优化策略赏析