TL;DR
- RP(Roleplay) AI 的核心价值不是「扮演角色」,而是满足用户的情感寄托与沉浸体验。
- RP 的评估极其困难,本质是用户偏好问题而非正确性问题,因此线上 A/B 和用户行为信号依然是核心。
- 高质量 RP 数据不仅是语句质量,更是叙事推进、角色一致性和情绪峰值设计。
- 未来的方向可能是 Worldplay:可演化的世界、多角色互动和长期关系。
TL;DR
TL;DR
本文深度梳理了离散扩散语言模型(MDLM)的发展脉络。从 SEMDLM 的理论奠基,到 LLaDA 实现 100B 参数的 Scaling 验证,再到 2026 年初关于 DLM 十大挑战的宏观思考。文章重点剖析了 DLM 与自回归模型(ARM)的差异,介绍了 “DLM 规划 + ARM 执行” 等多种前沿混合架构,并探讨了 RL 后训练中的“灵活性陷阱”。核心观点认为:DLM 的真正潜力不在于并行推理,而在于其非线性推理、全局编辑与迭代修正的认知模式。
本来正打算写(学)一写(学) DLM 的,都看了一阵子了,突然刷到这么一篇论文:2601 Top 10 Open Challenges Steering the Future of Diffusion Language Model and Its Variants[1],这是篇好论文呀。于是,就趁着这股东风,把一些观点一并梳理下。本文内容相对侧重观点介绍和梳理而非公式推导。另外,本文涉及的 DLM 并不是完整的,大部分时候仅指 MDLM,也就是 Masked Diffusion Language Models。
TL;DR
本文深度解析了 FlashAttention 核心机制——Online Softmax 的数学原理,并由此发散展开,揭示了高性能计算中的通用模式:Streaming Reduction。
【来访者个人档案】
这次来访的和前面的大有不同,我们称其为 G 同学,G 同学已经在一家公司做到了领导层,负责软件开发相关项目,手下也有十几号人。G 同学通过 Datawhale 关注到我,读了《为了让AI干活儿,我竭尽所能——我的 Vibe Coding 认知升级之路》,那会儿正在想办法让团队用上 AI,提升效率。
G 同学的烦恼如果用一句话概括,那就是:“传统企业如何用好 AI 之落在中层管理者身上的职责和困惑”。这其中除了技术相关问题,还有大量沟通、管理、协调等非技术问题。好在我也做过管理,还是能聊一聊的。
注意注意,本文并非试图给出一条确定的 AGI 技术路线,也不是对某一种路线的辩护或预测,而是有意将多位一线研究者在不同语境下提及的方向进行整理。在此基础上,也夹杂了一些个人长期形成的判断和思考,供参考,而非结论。
TL;DR
来自快手的 KAT-Coder-V1 Pro 重磅升级,揭秘强化学习训练稳定性关键因素 - KwaiPilot[1],直接给出了让人惊讶的发现:
RL 训练不稳定的主导因素并不是训推不一致,而是采样噪声本身。
他们发现,当显式抑制噪声强度后,即使存在明显的训推差异,训练依旧保持稳定,并能获得更快的收敛速度。
这可真是——玄之又玄啊。
AI Coding 已经疯了。
我也在一边根据本能在使用,同时也在学习一些新的技巧和方法。直到看到《认知重建:Speckit 用了三个月,我放弃了——走出工具很强但用不好的困境 - 知乎[1]》这篇文章,我觉得自己得系统梳理一下了。
这里就随便那么梳理一下吧,可能会比较乱。
TL;DR
【来访者个人档案】
今天来访的是一位老粉丝了,我们后面用 S 同学来称呼。S 同学从2022年我写《ChatGPT 原理与应用开发》那会儿就关注了,根据这个开源项目找到我的博客并 RSS 订阅。后面看了我相当多的博客,对我算是比较熟悉的了。
S 同学想聊的依然是工作和学习(或者说成长),这好像真的是大家共同的主题了,只不过由于背景和条件不同,表现出来的状况和问题也不相同。
TL;DR
EXAONE: 改进 GRPO,通过移除 Clip 保留探索性 Token,并利用非对称采样引导模型远离错误路径。
Kimi: 从 KKT 条件推导出 RL 目标函数,将长推理过程视为“隐式搜索”,并利用逐步升温长度惩罚解决“过度思考”问题。
MiMo: 采用反向 KL 散度进行多教师蒸馏(MOPD),实现“寻找众数”的精准能力迁移。
MiniMax: 针对 GRPO Clip 问题,采用带 Stop-gradient 的重要性采样与 Token Mask 机制,不丢弃探索梯度同时确保训练平稳。
Qwen: 将重要性权重回归序列级别,引入长度归一化解决 Token-level 高方差,同时增强了 MoE 路由的稳定性,并进一步演进为平滑剪裁的 SAPO。
结论: 行业正从简单的奖励最大化转向更精细的分布对齐、隐式规划引导和训练稳定性控制。