DeepSeekV3.2后训练:稳定压倒一切

DeepSeek-V3.2 发布后,外界讨论大多集中在“新增了工具使用”、“是不是比某某更强”之类的话题。但如果你真正关心模型训练,会发现它最值得研究的地方根本不在模型能力,而是在 后训练(post-training)阶段的一系列稳定性工程。V3.2 不像 V3 带来结构性突破,更像是一次“工程师版本的 V3.2”:没什么光鲜亮丽的大新闻,但每一个小改动都在解决真实训练痛点。

TL;DR

DeepSeek-V3.2 的后训练重点不是“更强”,而是“更稳”。大量技巧围绕 GRPO 稳定性 展开。

  • 数据部分:多个领域专用专家 → 生成数据 → 蒸馏到统一模型。
  • GRPO 稳定性优化:
    • Advantage 去标准差:消除难度偏差,提高样本权重的公平性。
    • KL 的无偏修正:基于 K3 + 重要性采样,使 KL 梯度更稳定可靠。
    • 序列级 off-policy 掩码:屏蔽高偏差且优势为负的序列,显著提升稳定性。
    • MoE 路由保持:固定专家路由,避免 off-policy 和训推框架不同导致的路由漂移。
    • 采样保持:保持 π_oldπ_θ 的动作空间一致,避免采样截断可能带来的稳定性问题。
  • 工具使用部分提出更高效的思维轨迹管理方式:只有新用户消息进来才清空工具调用推理轨迹,工具调用历史则始终保留。

More

DeepSeekMath-V2自我验证:搞数据的风吹到了奖励模型

在开放性问题上,仅靠生成答案很容易出错。如何让模型不仅能写出证明,还能识别自身错误,从而形成闭环优化?答案是——自我验证。来看一下 DeepSeek 最新的论文:DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning[1],看自我验证如何让 LLM 生成与评估协同来提升数学定理证明能力。

TL; DR

  • 训练验证器:验证器不仅打分,还识别证明中的问题。
  • 引入元验证:通过二次评分机制防止验证器虚构问题,使验证分析更可靠。
  • 训练生成器:生成器在生成证明后进行自我分析,并根据验证器和元验证器的反馈优化输出。
  • 验证生成协同:生成器与验证器形成闭环,生成新的证明挑战验证器能力,同时扩大自动标注数据,提高整体系统可靠性。

核心启示是:奖励模型不仅要给分数,更要建模评估分析过程,让生成与验证形成协同闭环,显著提升开放性问题的推理能力。

More

两处容易踩的坑:LLM 消息数组与字典工具的隐藏副作用

在 LLM 应用开发里,我们经常需要处理多轮消息、对话历史等结构化内容。理论上,这些对象应该是简单、透明、可控的——但在 NumPy 和特定字典工具(如 addict.Dict)参与后,一些微妙的行为会悄悄改变数据结构,让输出变得诡异甚至完全不对。本篇记录我在实际开发(尤其是 verl 与 transformers)中遇到的两个“小问题”:一个来自 NumPy 的自动维度推断,另一个来自字典工具的默认属性行为。它们不是 bug,却可能让你花一阵子 debug。

TL;DR

  • NumPy 变长消息问题:当使用 np.array(..., dtype=object) 处理长度不一致的消息列表时,NumPy 可能返回不同维度的数组,导致后续处理出错。改用 np.fromiter 或预分配 object 数组并赋值,可确保输出结构统一。
  • 字典赋值工具干扰问题:使用 addict.Dict 等动态字典工具包装消息数据时,其默认行为会干扰 transformers 对消息结构的正确判断,导致模板生成错误。可换用 OmegaConf 或修改 addict 源码禁用自动建键功能以修复问题。

More

Hybrid LLM 之 Gated DeltaNet

Qwen3-Next 采用了混合架构让人眼前一亮,其中重要的 Gated DeltaNet 模块设计优雅,最大限度地在工程效率和模型效果之间探索平衡,值得学习了解。

TL; DR

  • DeltaNet:线性 attention 可以看作矩阵状态的累积记忆,DeltaNet 通过 delta rule 更加精确地更新 KV 关联,缓解传统线性 attention 记忆过载问题。
  • Gated DeltaNet:引入 α 门控,实现选择性遗忘与灵活记忆管理,提高检索精度和稳定性。

More

Reward建模新范式:无验证器RL与Reference的妙用

R1 之后,GRPO 等强化学习框架的成功让我们相信“反馈”是提升推理力的关键。
然而,当任务无法被规则验证时,这一框架就不太好用了。
本文介绍一种“无验证器”新范式,让模型用 Reference 自我强化,重新定义奖励建模。

TL;DR

  • 传统 RLHF 依赖验证器或 RM 打分,但很多开放任务无法简单验证。
  • NOVER: 基于 PPL 设计奖励,引入策略代理同步与效率奖励,稳定训练。
  • Reinforcing General Reasoning: 直接最大化参考答案概率,以“正确答案的似然”替代验证器。方差更低,与 RLOO、PPO 等技术兼容。
  • 逆向激励: 先生成答案,再生成自评得分,无需标准答案。适合创意、写作等难以客观评判的任务。
  • Reference 进一步妙用: 帮助模型思考“为什么这是答案”,可用于生成高质量数据。也可与逆向激励结合。

More

子非我,安知我不知鱼之乐——AI、人类与意识的边界

TL;DR

  • AGI已近在眼前:当前的大模型已在多个领域展现出专家能力,其发展因巨大的战略价值(如“知识霸权”)而不可阻挡。尽管Scaling Law遇到瓶颈,但通往AGI的路径依然多样且充满探索。
  • AI可能是“新物种”,而非“类人”:AI在高级认知上媲美甚至超过人类,但其底层驱动力很可能与人类截然不同。人类的核心目标是基因决定的“更好地活着”,而AI很可能没有这种源于脆弱生命的生存本能。
  • 人类的本能与情感是特质而非缺陷:人类的脆弱、情感和欲望,构成了我们鲜活的体验,是“人性”的宝贵部分。绝对理性、无欲无求的“神化”方向并不可取。
  • 意识与自我认知的谜题:意识的本质或许与“自我认知”密切相关,但 AI 是否需要或会产生这样的“自我”,仍是未知数。
  • 我们为何担忧AI:人类希望AI是“人工”智能,本质上是希望“奴役”一个强大的同类,这种控制欲与历史上对权力的追求一脉相承。但当这个“同类”的本质与我们完全不同,同时还比我们强大很多时,担忧便油然而生。

More

Reinforce++和它的KL Loss选择

TL;DR

Reinforce++ 通过移除 critic 并在整个 batch 上全局归一化 advantage,解决了 GRPO 对特定 prompt 过拟合和奖励 hacking 的问题。同时也揭示了一个隐藏细节:GRPO 广泛使用的 k3 KL 惩罚项虽保证非负,却引入偏差和不对称梯度;而 Reinforce++ 改用无偏的 k2形式,提升了训练稳定性。

More

Hybrid LLM 之 Gated Attention

Qwen3-Next[1] 发布后,算是真正开启了 hybrid 序幕,原本还想着后面再慢慢补这块,现在看来是不行了,得提前了。好在东西也不多,我们就借着这次机会过一轮吧。

这是第一篇,我们简单点,从 Gated Attention 开始,来自 Paper:Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free[2],5 月份的一篇论文了,官方 GitHub[3] 关注的人不多,没想到这就成了 Qwen 新版本的标准配置了。

More

记一次诡异的 FD 泄露:躲在暗处的猴子补丁

本文记录一次线上服务关于 FD 泄露的 Bug 排查经历。相关代码:hscspring/fd_leak: fd leak caused by monkey patch.[1]

引子:线上服务频频告警,一切迹象都指向了再常见不过的 FD 耗尽问题。然而,这次的排查之旅却像一场侦探游戏,线索若隐若现,真相几度反转。最终,我们揪出的元凶竟是一个“躲在暗处”的猴子补丁(Monkey Patch),而触发它作案的,则是一两行看似人畜无害的导入语句

More