DrGRPO来自Understanding R1-Zero-Like Training: A Critical Perspective,是oat-zero同一个团队的最新成果。没错,这虽然是一篇综合分析Base和RL的文章,但我们这里重点关注其中的RL部分,尤其是针对GRPO两个偏差的优化。它的发布时间就在DAPO发布一周后。
DAPO:为GRPO的锦上加四点花
GitHub:BytedTsinghua-SIA/DAPO: An Open-source RL System from ByteDance Seed and Tsinghua AIR
Paper:DAPO: An Open-Source LLM Reinforcement Learning System at Scale
DAPO
DAPO,一个对GRPO全方位优化的Policy优化算法,有必要单独记录一下。损失如下:
其中:
看着和GRPO有点像。为了便于对比,把GRPO损失一并贴出来:
其中:
r和A同上。oi表示输出的第i个Token。
DAPO去掉了KL,观点是,模型分布可能与初始模型有很大差异,因此不需要这种限制。这点和我本人之前的认知不太一样,我认为Base是相对稳定的,分布差异应该不大。所以自然就有个疑惑:去掉KL到底是因为RL后续训练偏离Base较大导致限制没作用,还是偏离Base较小所以没作用?后来X哥提醒了一句:“这个应该不是偏离过大,而是针对Base到LongCoT本来变化大”,从这个角度看KL确实没太多意义。
奖励函数还是简单的规则:正确1分,否则-1分。
DeepSeek R1后应用、职业与行业影响——2025年梳理
突然就想写点应用、开发相关的东西,一方面是不断有企业和朋友问我他们可以用DeepSeek做什么,怎么用;另一方面是这个方向的职业、行业也在不知不觉中慢慢改变。干脆顺便一起梳理一下,记录在案。
DeepSeek R1后LLM新范式
本文通过10篇R1相关的研究,介绍R1后LLM的新范式。其核心就是如何进一步增强LLM的能力。
基本框架
首先是整体的框架,如下所示。
- Base+SFT
- R1冷启动
- LIMO (817 Data Selection)
- s1 (1000)
- Base+RL
- GRPO: R1-Zero
- GRPO: oat-zero (Base can Aha、RL enhance)
- PPO: LIMR (Data Selection)
- PPO: orz (Scaling quality, diversity)
- DPO: Online-DPO-R1 (Different RL Algo)
- DPO: LIMD (Data Selection)
- SFT+RL
- R1蒸馏
- DeepScaleR (Length Scaling)
- Self-rewarding correction (LLM can reward itself, explicit Aha)、L1(LCPO)
我将其分成3个部分,前两个部分是Base模型的基础上使用SFT或RL提升效果,最后是SFT结合RL进一步提升效果。每个部分的第一个都是R1论文中的内容,上面没有R1本身,是因为R1本身是一个比较综合的过程。
值得说明的是,关于R1相关的研究肯定不止这些,列出这些一方面是因为我自己精力有限,只仔细阅读了这些;另一方面是逐步整理的过程中感觉到框架基本趋于完善。因此,本文也算是一个阶段性整理的输出。
本文内容相对比较通俗,如果对相关内容感兴趣,可以移步到对应的解读文章。
OMNI论文速览(2025)
OMNI相关论文。
R1相关:DPO数据选择与DPO等RL算法
本文介绍两篇与DPO以及其他RL算法相关的。R1-Zero在表现出潜力后,GRPO自不必多说,得到大家关注。PPO、Reinforce++等也被用来尝试实验,结果也很亮眼。既然如此,其他RL算法可以吗,尤其是前LLM时代流行的DPO。于是就有了本文的两篇研究。
预训练:NTP和Scaling Law
LLM、强化、蒸馏讨论
2025年2月26日下午,Datawhale Paper群突然开启了一番关于AI相关的讨论,涉及成员主要包括:X、Y、D、S、M、A和C。我觉得内容相当有意思,因此记录在案备查。
其中对我个人印象比较深的几个观点:
- X提出的新的大模型训练范式:预训练,long-cot, sft(long2short)。可以理解为先用大规模语料预训练学习知识,然后用少量SFT或RL(可以一起用)提升long-cot,然后再做SFT使其根据情况自动选择long或short。
- 关于如何让模型自动选择思考长度(或不思考)的讨论,X认为主要靠强化,只是奖励这块需要涉及,就是是否需要思考,问题的难易,需要有个奖励来控制、设计。集成和自适应prm都是挺好的点,其实现在的重心就是什么样的奖励和怎么自动奖励。
- 关于蒸馏分布的讨论。蒸馏之前做的不多,没想过这么细,不过如何桥接教师和学生的讨论确实有启发。
对讨论结果分别使用DeepSeek和DeepSeek-R1进行了整理,前者相对比较忠于讨论内容,后者则更加抽象有高度一些,各有优势。
R1相关:RL数据选择与Scaling
本文介绍两篇对RL Scaling进一步探索的论文,都是关于数据方面的,结论有一定互补性。
R1相关:少量高质量数据SFT激活LLM推理能力
本文介绍两篇最新的用少量高质量数据SFT激活LLM推理能力的研究,分别是LIMO和s1。众所周知,一般说到SFT,尤其是参数比较大的模型,都是需要大量数据的;再加上推理任务本身又比较复杂,所需的数据可能更多。但这两篇文章的结论有点颠覆认知。这里的核心是:LLM本身需要具备如此能力,才有可能通过少量高质量数据SFT激活,否则可能难以见效。随着R1的出现,后训练算是彻底发生改变了。