DeepSeek-V3.2 发布后,外界讨论大多集中在“新增了工具使用”、“是不是比某某更强”之类的话题。但如果你真正关心模型训练,会发现它最值得研究的地方根本不在模型能力,而是在 后训练(post-training)阶段的一系列稳定性工程。V3.2 不像 V3 带来结构性突破,更像是一次“工程师版本的 V3.2”:没什么光鲜亮丽的大新闻,但每一个小改动都在解决真实训练痛点。
TL;DR
DeepSeek-V3.2 的后训练重点不是“更强”,而是“更稳”。大量技巧围绕 GRPO 稳定性 展开。
- 数据部分:多个领域专用专家 → 生成数据 → 蒸馏到统一模型。
- GRPO 稳定性优化:
- Advantage 去标准差:消除难度偏差,提高样本权重的公平性。
- KL 的无偏修正:基于 K3 + 重要性采样,使 KL 梯度更稳定可靠。
- 序列级 off-policy 掩码:屏蔽高偏差且优势为负的序列,显著提升稳定性。
- MoE 路由保持:固定专家路由,避免 off-policy 和训推框架不同导致的路由漂移。
- 采样保持:保持
π_old与π_θ的动作空间一致,避免采样截断可能带来的稳定性问题。
- 工具使用部分提出更高效的思维轨迹管理方式:只有新用户消息进来才清空工具调用推理轨迹,工具调用历史则始终保留。
