Qwen3-Next 采用了混合架构让人眼前一亮,其中重要的 Gated DeltaNet 模块设计优雅,最大限度地在工程效率和模型效果之间探索平衡,值得学习了解。
TL; DR
- DeltaNet:线性 attention 可以看作矩阵状态的累积记忆,DeltaNet 通过 delta rule 更加精确地更新 KV 关联,缓解传统线性 attention 记忆过载问题。
- Gated DeltaNet:引入 α 门控,实现选择性遗忘与灵活记忆管理,提高检索精度和稳定性。
Qwen3-Next 采用了混合架构让人眼前一亮,其中重要的 Gated DeltaNet 模块设计优雅,最大限度地在工程效率和模型效果之间探索平衡,值得学习了解。
TL; DR
R1 之后,GRPO 等强化学习框架的成功让我们相信“反馈”是提升推理力的关键。
然而,当任务无法被规则验证时,这一框架就不太好用了。
本文介绍一种“无验证器”新范式,让模型用 Reference 自我强化,重新定义奖励建模。
TL;DR
TL;DR
TL;DR
Reinforce++ 通过移除 critic 并在整个 batch 上全局归一化 advantage,解决了 GRPO 对特定 prompt 过拟合和奖励 hacking 的问题。同时也揭示了一个隐藏细节:GRPO 广泛使用的 k3 KL 惩罚项虽保证非负,却引入偏差和不对称梯度;而 Reinforce++ 改用无偏的 k2形式,提升了训练稳定性。
Qwen3-Next[1] 发布后,算是真正开启了 hybrid 序幕,原本还想着后面再慢慢补这块,现在看来是不行了,得提前了。好在东西也不多,我们就借着这次机会过一轮吧。
这是第一篇,我们简单点,从 Gated Attention 开始,来自 Paper:Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free[2],5 月份的一篇论文了,官方 GitHub[3] 关注的人不多,没想到这就成了 Qwen 新版本的标准配置了。
本文记录一次线上服务关于 FD 泄露的 Bug 排查经历。相关代码:hscspring/fd_leak: fd leak caused by monkey patch.[1]
引子:线上服务频频告警,一切迹象都指向了再常见不过的 FD 耗尽问题。然而,这次的排查之旅却像一场侦探游戏,线索若隐若现,真相几度反转。最终,我们揪出的元凶竟是一个“躲在暗处”的猴子补丁(Monkey Patch),而触发它作案的,则是一两行看似人畜无害的导入语句。
之前在 解锁模型潜能:Reward 数据如何塑造与激发 LLM 的推理策略 | Yam[1] 中,我们在介绍论文 Spurious Rewards 时提过:“关于GRPO 截断那部分推导和进一步分析也不错,有时间单独择文再议”。本文就来聊聊 GRPO 中的 clip。
上一篇 GRPO“第一背锅侠”Token Level X:DAPO/DrGRPO与GSPO/GMPO的殊途同归 | Yam[1] 中,我们重点分析了 GSPO 和 GMPO 这两个非常相似的与 token 级别有关的优化算法,它们瞄准的是重要性比率。本文要介绍的 GTPO 和 GTPO(哈哈,两个撞名了)则是瞄准了 token 粒度有关的的梯度和优势/奖励,而且两者都重点关注了“熵”的作用。值得注意的是,虽然瞄准的是梯度和优势/奖励,但与OPO[2] 和 AAPO[3]、BNPO[4] 不同,关注到 token 粒度。
8号一大早出门团建,赶路过程中看到群里X哥来了句“5感觉有点难评”,H哥来了句“感觉有点失望”。X哥接着补充“我感觉o系列有点打乱openai本来的节奏,我理解本来5应该预想是全模态模型”。是的,没错,今天凌晨GPT-5发布,反响不一,但总体来看好像并没有达到大家的预期。至于大家的预期是什么,那肯定不一而足,不过就发布的内容来看——一个正常的LLM、一个推理模型和一个动态router,这显然是不能让绝大部分人满意的。
注意!注意!注意!本文观点一家之言,如有不当之处,恳请读者批评指正!