Qwen3-Next[1] 发布后,算是真正开启了 hybrid 序幕,原本还想着后面再慢慢补这块,现在看来是不行了,得提前了。好在东西也不多,我们就借着这次机会过一轮吧。
这是第一篇,我们简单点,从 Gated Attention 开始,来自 Paper:Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free[2],5 月份的一篇论文了,官方 GitHub[3] 关注的人不多,没想到这就成了 Qwen 新版本的标准配置了。
