Hybrid LLM 之 Gated Attention

Qwen3-Next^[1] 发布后，算是真正开启了 hybrid 序幕，原本还想着后面再慢慢补这块，现在看来是不行了，得提前了。好在东西也不多，我们就借着这次机会过一轮吧。

这是第一篇，我们简单点，从 Gated Attention 开始，来自 Paper：Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free^[2]，5 月份的一篇论文了，官方 GitHub^[3] 关注的人不多，没想到这就成了 Qwen 新版本的标准配置了。

记一次诡异的 FD 泄露：躲在暗处的猴子补丁

本文记录一次线上服务关于 FD 泄露的 Bug 排查经历。相关代码：hscspring/fd_leak: fd leak caused by monkey patch.^[1]

引子：线上服务频频告警，一切迹象都指向了再常见不过的 FD 耗尽问题。然而，这次的排查之旅却像一场侦探游戏，线索若隐若现，真相几度反转。最终，我们揪出的元凶竟是一个“躲在暗处”的猴子补丁（Monkey Patch），而触发它作案的，则是一两行看似人畜无害的导入语句。

GRPO“又一背锅侠”：Clip的各种拉扯

之前在解锁模型潜能：Reward 数据如何塑造与激发 LLM 的推理策略 | Yam^[1] 中，我们在介绍论文 Spurious Rewards 时提过：“关于GRPO 截断那部分推导和进一步分析也不错，有时间单独择文再议”。本文就来聊聊 GRPO 中的 clip。

GRPO“第一背锅侠”Token Level X2：GTPO双“T”傍地走

上一篇 GRPO“第一背锅侠”Token Level X：DAPO/DrGRPO与GSPO/GMPO的殊途同归 | Yam^[1] 中，我们重点分析了 GSPO 和 GMPO 这两个非常相似的与 token 级别有关的优化算法，它们瞄准的是重要性比率。本文要介绍的 GTPO 和 GTPO（哈哈，两个撞名了）则是瞄准了 token 粒度有关的的梯度和优势/奖励，而且两者都重点关注了“熵”的作用。值得注意的是，虽然瞄准的是梯度和优势/奖励，但与OPO^[2] 和 AAPO^[3]、BNPO^[4] 不同，关注到 token 粒度。

GRPO“第一背锅侠”Token Level X：DAPO/DrGRPO与GSPO/GMPO的殊途同归

关于GRPO的优化，我们已经介绍过多篇文章（可以看这里^[1]的小汇总）了。其中，比较有名的是DAPO^[2]和DrGRPO^[3]，而且，后者的两个发现（长度偏差和难度偏差）与前者的其中两个发现（Token级别损失和动态采样）是比较类似的，只是做法稍微不同。我们不妨看一下最终的损失函数。

DAPO的s.t.和DrGRPO的where处对应，当然我们特别想提的是大括号前面的部分——Token Level的计算逻辑。

群聊中的AGI拼图：GPT-5发布后关于全模态、推理、世界模型与实时学习的思考

8号一大早出门团建，赶路过程中看到群里X哥来了句“5感觉有点难评”，H哥来了句“感觉有点失望”。X哥接着补充“我感觉o系列有点打乱openai本来的节奏，我理解本来5应该预想是全模态模型”。是的，没错，今天凌晨GPT-5发布，反响不一，但总体来看好像并没有达到大家的预期。至于大家的预期是什么，那肯定不一而足，不过就发布的内容来看——一个正常的LLM、一个推理模型和一个动态router，这显然是不能让绝大部分人满意的。

注意！注意！注意！本文观点一家之言，如有不当之处，恳请读者批评指正！

关于gpt-oss那些值得关注的点

OpenAI终于开源了，无论如何，他们的一举一动总是会受人关注的。第一时间阅读了技术报告，乍一看好像没什么，而且好像有大量安全方面的内容。不过仔细阅读后，还是发现有一些不一样的细节。

Blog：Introducing gpt-oss | OpenAI^[1]
GitHub：openai/gpt-oss: gpt-oss-120b and gpt-oss-20b are two open-weight language models by OpenAI^[2]
技术报告：oai_gpt-oss_model_card.pdf^[3]
HuggingFace：gpt-oss - a openai Collection^[4]
Demo：gpt-oss^[5]

重识LLM法则：上下文工程与数据进化

周六下午出去日常“漫游”，地铁上看了数据标注公司Surge AI创始人Edwin Chen的访谈和Manus的上下文工程两篇文章，结合自己之前的一些思考，感觉很多东西又串联起来了，突然就想把它们写出来。晚上回来，从23点写到凌晨3点，终于搞定，是有此文。

GiGPO：双层级优势函数驱动的Agent强化学习新范式

好吧，准确来说，GiGPO^[1]（Group-in-Group Policy Optimization）还是GRPO，只不过它扩展到Agent范围。简单来说，就是把采样轨迹分成多个组，每个组当然对应关键步骤。稍微通用一点来看，其实是更加细粒度的GRPO。很自然地，有两个不同的级别：

episode-level：与GRPO没两样，最终结果作为奖励基准。
step-level：新加部分，也是GiGPO的创新点。引入一个锚定状态分组机制，它通过识别不同轨迹中重复出现的环境状态（锚定状态），回溯性地构建步骤级的组。来自同一状态的动作被归为一组，从而实现微观层面的相对优势估计。通过锚定状态，不同轨迹之间的step就变得可以互相比较，这点很重要。

解锁模型潜能：Reward 数据如何塑造与激发 LLM 的推理策略

上篇Reward Model建模 | Yam^[1]我们介绍了Reward相关的建模方案，本文继续介绍几篇Reward数据相关的论文。

Reward 数据的价值远不止于监督信号本身。本文剖析的三项研究揭示：Skywork-Reward-V2 优化了人机协同的标注效率；Spurious Rewards 的核心发现表明，RL 训练（如 GRPO）的核心作用常在于“激活”而非“教授”——虚假奖励亦能激发基座模型预训练习得的优势推理策略（如代码推理）；Anthropic ICM 则利用模型内部一致性实现无监督引导。这昭示着 Reward 建模的新方向：深刻理解基座模型的“潜能图谱”，并设计机制（协同标注、激活信号、一致性约束）将其高效释放，最终迈向规则驱动的“演绎式”智能。

长琴

... →