GRPO“第一背锅侠”Token Level X:DAPO/DrGRPO与GSPO/GMPO的殊途同归

关于GRPO的优化,我们已经介绍过多篇文章(可以看这里[1]的小汇总)了。其中,比较有名的是DAPO[2]DrGRPO[3],而且,后者的两个发现(长度偏差和难度偏差)与前者的其中两个发现(Token级别损失和动态采样)是比较类似的,只是做法稍微不同。我们不妨看一下最终的损失函数。

DAPO的s.t.和DrGRPO的where处对应,当然我们特别想提的是大括号前面的部分——Token Level的计算逻辑。

More

群聊中的AGI拼图:GPT-5发布后关于全模态、推理、世界模型与实时学习的思考

8号一大早出门团建,赶路过程中看到群里X哥来了句“5感觉有点难评”,H哥来了句“感觉有点失望”。X哥接着补充“我感觉o系列有点打乱openai本来的节奏,我理解本来5应该预想是全模态模型”。是的,没错,今天凌晨GPT-5发布,反响不一,但总体来看好像并没有达到大家的预期。至于大家的预期是什么,那肯定不一而足,不过就发布的内容来看——一个正常的LLM、一个推理模型和一个动态router,这显然是不能让绝大部分人满意的。

注意!注意!注意!本文观点一家之言,如有不当之处,恳请读者批评指正!

More

关于gpt-oss那些值得关注的点

OpenAI终于开源了,无论如何,他们的一举一动总是会受人关注的。第一时间阅读了技术报告,乍一看好像没什么,而且好像有大量安全方面的内容。不过仔细阅读后,还是发现有一些不一样的细节。

More

GiGPO:双层级优势函数驱动的Agent强化学习新范式

好吧,准确来说,GiGPO[1](Group-in-Group Policy Optimization)还是GRPO,只不过它扩展到Agent范围。简单来说,就是把采样轨迹分成多个组,每个组当然对应关键步骤。稍微通用一点来看,其实是更加细粒度的GRPO。很自然地,有两个不同的级别:

  • episode-level:与GRPO没两样,最终结果作为奖励基准。
  • step-level:新加部分,也是GiGPO的创新点。引入一个锚定状态分组机制,它通过识别不同轨迹中重复出现的环境状态(锚定状态),回溯性地构建步骤级的组。来自同一状态的动作被归为一组,从而实现微观层面的相对优势估计。通过锚定状态,不同轨迹之间的step就变得可以互相比较,这点很重要。

More

解锁模型潜能:Reward 数据如何塑造与激发 LLM 的推理策略

上篇Reward Model建模 | Yam[1]我们介绍了Reward相关的建模方案,本文继续介绍几篇Reward数据相关的论文。

Reward 数据的价值远不止于监督信号本身。本文剖析的三项研究揭示:Skywork-Reward-V2 优化了人机协同的标注效率;Spurious Rewards 的核心发现表明,RL 训练(如 GRPO)的核心作用常在于“激活”而非“教授”——虚假奖励亦能激发基座模型预训练习得的优势推理策略(如代码推理);Anthropic ICM 则利用模型内部一致性实现无监督引导。这昭示着 Reward 建模的新方向:深刻理解基座模型的“潜能图谱”,并设计机制(协同标注、激活信号、一致性约束)将其高效释放,最终迈向规则驱动的“演绎式”智能。

More

指令跟随近期工作梳理(2025年上半年)

Table of Contents generated with DocToc

由于工作需要和个人兴趣,最近看了一些指令跟随(Instruction Following)相关的文章,特整理如下。其实自从LLM表现出强大的能力后,指令跟随自然而然就是一个非常重要的方向了。

关于指令跟随,最重要(也最简单)的策略就是调整提示词了,由此甚至诞生了Prompt Engineer这个行当。不过这个笔者早就提过了(比如这里:ChatGPT 影响冲击:职业、行业与产业 | Yam[1]),一定会过时,倒不是说提示词工程会过时,而是说它应该会变成一种通用技能,就像Office办公软件一样,现在没有人会把Office作为自己的技能写到简历上了吧。

关于提示词工程,笔者应该是国内比较早写过文章的(23年1月发表的:ChatGPT Prompt工程:设计、实践与思考 | Yam[2]),后面就再没写过了,实在是觉得这东西没多少好说的,就是trial-and-error,或者trial-and-improve。提示词其实本质上是沟通能力,你描述得清楚效果就好。而且,随着模型不断变强,提示词的作用相对弱化(但你还是要把话说清楚,这是基本)。以上观点至今未变。

但是指令跟随却很重要,因为我们最终是要用LLM去完成某项任务的,虽说指令大部分情况下都需要写的比较清楚(比如”按Json格式输出“),但也有一些隐藏的指令(比如”应特别注意用户提到XX产品信息“),或者比较复杂的指令(比如实际生产环境,三五千字的系统提示词太常见了)。本文就来简单梳理一下近期相关研究(只记录了笔者觉得比较有新意的地方)。

More

GRPO优化在继续——CISPO和熵

来自MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention[1]中的一个发现。其实R1-Zero后,关于GRPO的优化和研究已经有相当不少的文章了,光笔者自己都梳理过不少,如下。

没想到还能继续出新。

More