博客阅读指南 | 笔记、实践与思考,一路同行

以下内容由 AI 生成。

我是长琴,这里是我的个人博客。初衷只是方便自己复盘知识点、梳理思考脉络,慢慢沉淀中。

这里的内容主要是一名深耕一线的 AI 从业者的日常:有技术的拆解、有认知的碰撞,也有生活的点滴,是技术博客,更是一个普通人持续成长的印记。

不追求更新速度,只求能认真把事情想清楚、写明白、做扎实,做有温度、有思考、有成长的记录。

若有某一句话、某一篇笔记,能恰巧帮到你,便是莫大的荣幸。

愿我们都能在技术与生活的路上,慢慢走,深深悟,久久行。

More

DLM 漫谈:并行不是重点,模式才是 —— 从 ARM 到 DLM 的 LLM 第二曲线

TL;DR

本文深度梳理了离散扩散语言模型(MDLM)的发展脉络。从 SEMDLM 的理论奠基,到 LLaDA 实现 100B 参数的 Scaling 验证,再到 2026 年初关于 DLM 十大挑战的宏观思考。文章重点剖析了 DLM 与自回归模型(ARM)的差异,介绍了 “DLM 规划 + ARM 执行” 等多种前沿混合架构,并探讨了 RL 后训练中的“灵活性陷阱”。核心观点认为:DLM 的真正潜力不在于并行推理,而在于其非线性推理、全局编辑与迭代修正的认知模式。


本来正打算写(学)一写(学) DLM 的,都看了一阵子了,突然刷到这么一篇论文:2601 Top 10 Open Challenges Steering the Future of Diffusion Language Model and Its Variants[1],这是篇好论文呀。于是,就趁着这股东风,把一些观点一并梳理下。本文内容相对侧重观点介绍和梳理而非公式推导。另外,本文涉及的 DLM 并不是完整的,大部分时候仅指 MDLM,也就是 Masked Diffusion Language Models。

More

从 FlashAttention 到 Streaming Reduction:如何把“全局算子”改写成可分块计算

TL;DR

本文深度解析了 FlashAttention 核心机制——Online Softmax 的数学原理,并由此发散展开,揭示了高性能计算中的通用模式:Streaming Reduction

  • 只要算子具备“可结合的累积结构”与“平移/缩放不变性”(能拆分、可压缩和能修正、可补偿),就能通过动态维护“参考系”和“代数补偿”,将原本依赖全局数据的算子改造为流式、可分块的并行实现。
  • 统一了 Softmax、LayerNorm/RMSNorm 、Adam/RMSProp 优化器及分布式 AllReduce 的底层逻辑——它们本质上都是在维护一套 O(1) 复杂度的状态迁移。
  • 判断算子能否分块化:重写归约形式、检查结合律与坐标系补偿、构造 Merge 函数。

More

【聆听·微光】006:一位传统企业中层管理在AI转型升级中的“蜀道”

【来访者个人档案】

  • 身份: 工作多年的项目负责人。
  • 自述: 想把 AI 用在公司内部和项目上,但很难推进。

这次来访的和前面的大有不同,我们称其为 G 同学,G 同学已经在一家公司做到了领导层,负责软件开发相关项目,手下也有十几号人。G 同学通过 Datawhale 关注到我,读了《为了让AI干活儿,我竭尽所能——我的 Vibe Coding 认知升级之路》,那会儿正在想办法让团队用上 AI,提升效率。

G 同学的烦恼如果用一句话概括,那就是:“传统企业如何用好 AI 之落在中层管理者身上的职责和困惑”。这其中除了技术相关问题,还有大量沟通、管理、协调等非技术问题。好在我也做过管理,还是能聊一聊的。

More

通向 AGI 的技术路径:多模态、强化学习与新架构的交汇点——结合近期研究者访谈的一些技术判断与个人思考

注意注意,本文并非试图给出一条确定的 AGI 技术路线,也不是对某一种路线的辩护或预测,而是有意将多位一线研究者在不同语境下提及的方向进行整理。在此基础上,也夹杂了一些个人长期形成的判断和思考,供参考,而非结论。

TL;DR

  • 多位一线研究者的观点在三个方向上高度收敛多模态(尤其是视频)、强化学习、自进化系统,它们共同指向比纯 LLM 更高阶的智能形态。
  • Scaling 仍然重要,但对象在变化:从模型规模 → 推理过程 → 自学习环境(System 3),再加上 Token 效率、多尺度学习等,Scaling 正在更加精细和广泛。
  • 多模态不是“加模态”,而是“建世界”:视频和感知建模可能拥有比文本高一个数量级的 Scaling 上限,语言并非理解物理世界的必要条件。
  • 强化学习是自主进化的核心机制:预训练擅长吸收信息,RL 擅长通过试错优化策略,可能是持续学习、自我修正和边缘能力提升的关键。
  • Agent 不应只是工具封装:真正的 Agent 更像一个“可训练的智能系统”,本身就是产品,具备学习、记忆和进化能力。
  • 从更长期看,现有 Attention 和 NTP 可能不是终局,新架构、新目标函数、新范式雨后春笋。

More

MoE RL 训练不稳定性再思考:训推不一致,还是采样噪声?

来自快手的 KAT-Coder-V1 Pro 重磅升级,揭秘强化学习训练稳定性关键因素 - KwaiPilot[1],直接给出了让人惊讶的发现:

RL 训练不稳定的主导因素并不是训推不一致,而是采样噪声本身

他们发现,当显式抑制噪声强度后,即使存在明显的训推差异,训练依旧保持稳定,并能获得更快的收敛速度。

这可真是——玄之又玄啊。

More

为了让AI干活儿,我竭尽所能——我的 Vibe Coding 认知升级之路

AI Coding 已经疯了。

我也在一边根据本能在使用,同时也在学习一些新的技巧和方法。直到看到《认知重建:Speckit 用了三个月,我放弃了——走出工具很强但用不好的困境 - 知乎[1]》这篇文章,我觉得自己得系统梳理一下了。

这里就随便那么梳理一下吧,可能会比较乱。

More

稳定压倒一切:MoE RL 训推不一致问题及解决策略

TL;DR

  • 核心矛盾:MoE 模型对输入极度敏感,训练引擎与推理引擎在算子实现、数值精度上的微小差异,会导致同一 Token 在两端选择不同的专家。
  • 现象严重性:实验显示约 94% 的 Token 在一次前向传播中至少有一层路由决策不一致,直接导致策略梯度出现剧烈噪声,引发训练不稳定。
  • 不同策略:算法鲁棒化的 GSPO/GMPO,数学偏差补偿的 TIS/IcePop,系统强行对齐的 R3/DeepSeek。

More

【聆听·微光】004:一位算法后端开发工程师的AI转型之路

【来访者个人档案】

  • 身份: 工作3年的算法专业的后端开发工程师。
  • 自述: 我对现在的工作不满意,我想全面拥抱 AI。

今天来访的是一位老粉丝了,我们后面用 S 同学来称呼。S 同学从2022年我写《ChatGPT 原理与应用开发》那会儿就关注了,根据这个开源项目找到我的博客并 RSS 订阅。后面看了我相当多的博客,对我算是比较熟悉的了。

S 同学想聊的依然是工作和学习(或者说成长),这好像真的是大家共同的主题了,只不过由于背景和条件不同,表现出来的状况和问题也不相同。

More

LLM 强化的“炼金术”:主流开源模型的 RL 优化策略赏析

TL;DR

  • EXAONE: 改进 GRPO,通过移除 Clip 保留探索性 Token,并利用非对称采样引导模型远离错误路径。

  • Kimi: 从 KKT 条件推导出 RL 目标函数,将长推理过程视为“隐式搜索”,并利用逐步升温长度惩罚解决“过度思考”问题。

  • MiMo: 采用反向 KL 散度进行多教师蒸馏(MOPD),实现“寻找众数”的精准能力迁移。

  • MiniMax: 针对 GRPO Clip 问题,采用带 Stop-gradient 的重要性采样与 Token Mask 机制,不丢弃探索梯度同时确保训练平稳。

  • Qwen: 将重要性权重回归序列级别,引入长度归一化解决 Token-level 高方差,同时增强了 MoE 路由的稳定性,并进一步演进为平滑剪裁的 SAPO。

结论: 行业正从简单的奖励最大化转向更精细的分布对齐、隐式规划引导和训练稳定性控制。

More