DeepSeekMath-V2自我验证：搞数据的风吹到了奖励模型

在开放性问题上，仅靠生成答案很容易出错。如何让模型不仅能写出证明，还能识别自身错误，从而形成闭环优化？答案是——自我验证。来看一下 DeepSeek 最新的论文：DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning^[1]，看自我验证如何让 LLM 生成与评估协同来提升数学定理证明能力。

TL; DR

训练验证器：验证器不仅打分，还识别证明中的问题。
引入元验证：通过二次评分机制防止验证器虚构问题，使验证分析更可靠。
训练生成器：生成器在生成证明后进行自我分析，并根据验证器和元验证器的反馈优化输出。
验证生成协同：生成器与验证器形成闭环，生成新的证明挑战验证器能力，同时扩大自动标注数据，提高整体系统可靠性。

核心启示是：奖励模型不仅要给分数，更要建模评估分析过程，让生成与验证形成协同闭环，显著提升开放性问题的推理能力。

两处容易踩的坑：LLM 消息数组与字典工具的隐藏副作用

在 LLM 应用开发里，我们经常需要处理多轮消息、对话历史等结构化内容。理论上，这些对象应该是简单、透明、可控的——但在 NumPy 和特定字典工具（如 addict.Dict）参与后，一些微妙的行为会悄悄改变数据结构，让输出变得诡异甚至完全不对。本篇记录我在实际开发（尤其是 verl 与 transformers）中遇到的两个“小问题”：一个来自 NumPy 的自动维度推断，另一个来自字典工具的默认属性行为。它们不是 bug，却可能让你花一阵子 debug。

TL;DR

NumPy 变长消息问题：当使用 np.array(..., dtype=object) 处理长度不一致的消息列表时，NumPy 可能返回不同维度的数组，导致后续处理出错。改用 np.fromiter 或预分配 object 数组并赋值，可确保输出结构统一。
字典赋值工具干扰问题：使用 addict.Dict 等动态字典工具包装消息数据时，其默认行为会干扰 transformers 对消息结构的正确判断，导致模板生成错误。可换用 OmegaConf 或修改 addict 源码禁用自动建键功能以修复问题。

Qwen3-Next 采用了混合架构让人眼前一亮，其中重要的 Gated DeltaNet 模块设计优雅，最大限度地在工程效率和模型效果之间探索平衡，值得学习了解。

TL; DR

DeltaNet：线性 attention 可以看作矩阵状态的累积记忆，DeltaNet 通过 delta rule 更加精确地更新 KV 关联，缓解传统线性 attention 记忆过载问题。
Gated DeltaNet：引入 α 门控，实现选择性遗忘与灵活记忆管理，提高检索精度和稳定性。

R1 之后，GRPO 等强化学习框架的成功让我们相信“反馈”是提升推理力的关键。
然而，当任务无法被规则验证时，这一框架就不太好用了。
本文介绍一种“无验证器”新范式，让模型用 Reference 自我强化，重新定义奖励建模。

TL;DR

传统 RLHF 依赖验证器或 RM 打分，但很多开放任务无法简单验证。
NOVER： 基于 PPL 设计奖励，引入策略代理同步与效率奖励，稳定训练。
Reinforcing General Reasoning： 直接最大化参考答案概率，以“正确答案的似然”替代验证器。方差更低，与 RLOO、PPO 等技术兼容。
逆向激励： 先生成答案，再生成自评得分，无需标准答案。适合创意、写作等难以客观评判的任务。
Reference 进一步妙用： 帮助模型思考“为什么这是答案”，可用于生成高质量数据。也可与逆向激励结合。

子非我，安知我不知鱼之乐——AI、人类与意识的边界

TL;DR

AGI已近在眼前：当前的大模型已在多个领域展现出专家能力，其发展因巨大的战略价值（如“知识霸权”）而不可阻挡。尽管Scaling Law遇到瓶颈，但通往AGI的路径依然多样且充满探索。
AI可能是“新物种”，而非“类人”：AI在高级认知上媲美甚至超过人类，但其底层驱动力很可能与人类截然不同。人类的核心目标是基因决定的“更好地活着”，而AI很可能没有这种源于脆弱生命的生存本能。
人类的本能与情感是特质而非缺陷：人类的脆弱、情感和欲望，构成了我们鲜活的体验，是“人性”的宝贵部分。绝对理性、无欲无求的“神化”方向并不可取。
意识与自我认知的谜题：意识的本质或许与“自我认知”密切相关，但 AI 是否需要或会产生这样的“自我”，仍是未知数。
我们为何担忧AI：人类希望AI是“人工”智能，本质上是希望“奴役”一个强大的同类，这种控制欲与历史上对权力的追求一脉相承。但当这个“同类”的本质与我们完全不同，同时还比我们强大很多时，担忧便油然而生。

Reinforce++和它的KL Loss选择

TL;DR

Reinforce++ 通过移除 critic 并在整个 batch 上全局归一化 advantage，解决了 GRPO 对特定 prompt 过拟合和奖励 hacking 的问题。同时也揭示了一个隐藏细节：GRPO 广泛使用的 k3 KL 惩罚项虽保证非负，却引入偏差和不对称梯度；而 Reinforce++ 改用无偏的 k2形式，提升了训练稳定性。

Hybrid LLM 之 Gated Attention

Qwen3-Next^[1] 发布后，算是真正开启了 hybrid 序幕，原本还想着后面再慢慢补这块，现在看来是不行了，得提前了。好在东西也不多，我们就借着这次机会过一轮吧。

这是第一篇，我们简单点，从 Gated Attention 开始，来自 Paper：Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free^[2]，5 月份的一篇论文了，官方 GitHub^[3] 关注的人不多，没想到这就成了 Qwen 新版本的标准配置了。

记一次诡异的 FD 泄露：躲在暗处的猴子补丁

本文记录一次线上服务关于 FD 泄露的 Bug 排查经历。相关代码：hscspring/fd_leak: fd leak caused by monkey patch.^[1]

引子：线上服务频频告警，一切迹象都指向了再常见不过的 FD 耗尽问题。然而，这次的排查之旅却像一场侦探游戏，线索若隐若现，真相几度反转。最终，我们揪出的元凶竟是一个“躲在暗处”的猴子补丁（Monkey Patch），而触发它作案的，则是一两行看似人畜无害的导入语句。

GRPO“又一背锅侠”：Clip的各种拉扯

之前在解锁模型潜能：Reward 数据如何塑造与激发 LLM 的推理策略 | Yam^[1] 中，我们在介绍论文 Spurious Rewards 时提过：“关于GRPO 截断那部分推导和进一步分析也不错，有时间单独择文再议”。本文就来聊聊 GRPO 中的 clip。

GRPO“第一背锅侠”Token Level X2：GTPO双“T”傍地走

上一篇 GRPO“第一背锅侠”Token Level X：DAPO/DrGRPO与GSPO/GMPO的殊途同归 | Yam^[1] 中，我们重点分析了 GSPO 和 GMPO 这两个非常相似的与 token 级别有关的优化算法，它们瞄准的是重要性比率。本文要介绍的 GTPO 和 GTPO（哈哈，两个撞名了）则是瞄准了 token 粒度有关的的梯度和优势/奖励，而且两者都重点关注了“熵”的作用。值得注意的是，虽然瞄准的是梯度和优势/奖励，但与OPO^[2] 和 AAPO^[3]、BNPO^[4] 不同，关注到 token 粒度。

长琴

知乎：长琴 | 公众号：技术与人

DeepSeekMath-V2自我验证：搞数据的风吹到了奖励模型

两处容易踩的坑：LLM 消息数组与字典工具的隐藏副作用

Hybrid LLM 之 Gated DeltaNet

Reward建模新范式：无验证器RL与Reference的妙用

子非我，安知我不知鱼之乐——AI、人类与意识的边界

Reinforce++和它的KL Loss选择

Hybrid LLM 之 Gated Attention

记一次诡异的 FD 泄露：躲在暗处的猴子补丁

GRPO“又一背锅侠”：Clip的各种拉扯

GRPO“第一背锅侠”Token Level X2：GTPO双“T”傍地走