DeepSeek R1后LLM新范式

本文通过10篇R1相关的研究，介绍R1后LLM的新范式。其核心就是如何进一步增强LLM的能力。

基本框架

首先是整体的框架，如下所示。

Base+SFT
- R1冷启动
- LIMO (817 Data Selection)
- s1 (1000)
Base+RL
- GRPO: R1-Zero
- GRPO: oat-zero (Base can Aha、RL enhance）
- PPO: LIMR (Data Selection)
- PPO: orz (Scaling quality, diversity)
- DPO: Online-DPO-R1 (Different RL Algo)
- DPO: LIMD (Data Selection)
SFT+RL
- R1蒸馏
- DeepScaleR (Length Scaling)
- Self-rewarding correction (LLM can reward itself, explicit Aha)、L1（LCPO）

我将其分成3个部分，前两个部分是Base模型的基础上使用SFT或RL提升效果，最后是SFT结合RL进一步提升效果。每个部分的第一个都是R1论文中的内容，上面没有R1本身，是因为R1本身是一个比较综合的过程。

值得说明的是，关于R1相关的研究肯定不止这些，列出这些一方面是因为我自己精力有限，只仔细阅读了这些；另一方面是逐步整理的过程中感觉到框架基本趋于完善。因此，本文也算是一个阶段性整理的输出。

本文内容相对比较通俗，如果对相关内容感兴趣，可以移步到对应的解读文章。

R1论文

R1我们主要分成三块介绍：R1-Zero、R1和蒸馏，也正好对应论文中的三个部分。

R1-Zero

首先是R1-Zero。它本身过程比较简单，就是在Pretrain的基础上接RL算法，Pretrain论文用的是DeepSeek-V3-Base，RL则是GRPO。GRPO是DeepSeek在DeepSeek-Math引入的研究成果，它去掉了PPO的Critic模型，而是采用一组输出的统计指标（Z分数）计算Advantage，比PPO更加简单（当然，计算量可能更大，毕竟需要多个输出）。

第二个要说的是纯规则的奖励。我们知道RL一般需要一个Reward模型，常见的比如ORM、PRM等都是基于深度学习建模的，R1-Zero算是第一个把纯规则的奖励引入LLM。这想想其实还挺神奇，给定一个输入，然后一个简单的规则（R1-Zero是格式和最终答案正确），模型就会自动探索路径，直到找到最终答案。

第三个是Aha Moment，它是说模型在推理过程中会对已经生成的内容进行自我反思和验证。具体表现就是会输出类似re-check、verify、summary、suppose等词，然后当然答案得对。与这种能力相关的一个词是推理时缩放（Test-Time Scaling），又是另一个比较有意思的主题。

最后就是两个比较明显的问题：语言混合和可读性相对较差。我觉得这两个问题其实不算太大的问题，只要最后的答案正确，中间过程其实对人类是否友好并不重要。其实人工智能（AI）这个词多少也有点“拟人化”的，如果AI真的有意识，他未必愿意叫这个名字doge。这中间其实涉及到AI史中著名的IA与AI之争，我之前写过类似文章，感兴趣的读者可以一读。

不管怎么说，R1-Zero都是非常了不起的发现，它为我们打开了新的大门——RL可以与LLM如此亲密合作，这点我本人是非常振奋的。其实我在17、18年那会就像把纯规则的强化学习用在NLP上，当时做了很多尝试都没有成功。说个实际的例子，那会儿搞NLP的多少可能还会看一点语言学相关的知识（比如大家基本都知道齐夫定律），搞计算语言学也是一个方向。我们当时想做的方向是让生成的文本更加简洁（或者具备某种风格），就想把“最省力法则”（人在这个表达的时候，会尽量省力，用尽可能的简单、节省心智的词汇）作为一条规则用进去。为什么呢？就是当时观察到人类的语言都有“简化”的趋势（可阅读平克的语言本能）。但是没成功，其实还有很多类似的规则，当时除了RL方法，也用GAN做，不过并没有做出什么突破的成果。

R1

接下来是这篇论文的核心：R1。他其实是个综合过程，先搞数据，然后用这些数据SFT和对齐。简单概括如下：

搞数据：Pretrain+Cold-Start（SFT）+RL（提升推理能力）生成数据。
后训练：用生成数据和SFT监督数据微调Base（SFT）+RL（对齐）。

R1我觉得是LLM得到了再次进化，他变得更加像人。原来我们可能觉得LLM已经很聪明了，就是他能够理解你说的话、你的指令，你说的很多上下文他都能够理解，然后做出相应的回复。现在的话，他可能更进一步了，就是理解的更加好，那这个好体现在哪里，我们可以理解体现在这个“思考”的过程。

很多人现在知道这里涉及到卡尼曼《思考·快与慢》中的慢思考，即系统2思考。这本书认为大脑有快慢两种运作方式，常用的无意识的系统1依赖情感、经验和记忆快速做出判断；而有意识的系统2则通过分析来解决问题，它深思熟虑、比较慢，不容易出错。前者是人类数千万年来进化的本能，比如以前人类遇到危险了，第一反应是大家赶紧跑，而不是站在那里先思考判断一番，当然，肯定有这样的人类，只不过他们的基因没有传下来，所以人类有从众效应是很正常的。其实认知心理学领域处理《思考·快与慢》，还有很多有意思的书，比如《怪诞行为学》系列、《自私的基因》、《清醒思考的艺术》、《判断与决策心理学》、《对伪心理学说不》等等。那会儿看了很多类似的书，不过很多都还没整理出来。当时的老板也算是国内本领域比较有名的大牛了，感兴趣的读者可以搜索心智工具箱公众号进行关注。

说回R1，他的第一阶段和R1-Zero有两个区别：

冷启动：在RL前用少量数据SFT可以进一步提升性能。
奖励：引入“语言一致性”奖励。毕竟这回生成的数据是要拿来训练后面模型的。

第二个阶段其实和之前LLM的后训练比较类似，也是两个步骤：SFT和强化对齐。这一阶段用了600k的Reasoning数据（数学、代码、逻辑等）和200k的通用数据，数据都是经过第一阶段输出的答案，就是带思考过程的回复。当然，对于很简单的问题，会跳过思考过程，直接回复。

SFT就是用这800k数据进行训练，后面的对齐也是，只不过对齐时Reward信号是综合的：对于Reasoning数据，还是和R1-Zero一样，用纯规则；对通用数据则和之前的LLM一样，用偏好模型。原因是很明显的：人类的偏好是不那么容易规则化的，很多时候只是个“偏好”，没有“对错”。比如拿OpenAI提出的有帮助、真实性和无害性来说，其实很多Case都处在边界位置，即便有非常清晰的规范，也很难做到标注人员100%对齐，感兴趣的读者可以阅读ChatGPT 标注指南：任务、数据与规范。其实从通俗的角度来看也是可以理解的，小孩子看电视总喜欢把某个人归为好人还是坏人，但成年人就知道大家无非立场不同。站在更高角度，所谓人类觉得有害的（无论是文本内容还是物种），对其他物种未必，对地球、宇宙就更加不是了。

蒸馏

这部分内容论文说的比较少，看起来不复杂，就是利用前面得到的800k数据直接在一个小模型（比如7B、32B等，Base和Instruct均可）上进行SFT。这一类的蒸馏也叫数据蒸馏，准确来说其实就是SFT，算不上“蒸馏”。一般蒸馏包括黑盒和白盒蒸馏，涉及教师和学生模型。对于前者，教师模型是黑盒，我们只能给它输入然后得到输出；对于后者，我们可以拿到模型参数，以及每次生成的过程数据和最后输出的概率分布。关于这部分内容，感兴趣的读者不妨关注LLM Deploy的第二章内容。

蒸馏要保证效果，最难的是对齐分布，《LLM、强化、蒸馏讨论 | Yam》一文中对此问题进行了讨论，一些观点包括：

让学生模型复述教师模型输出，缓解遗忘问题。就是尽量落在在学生模型的分布上，缓解静态分布采样可能造成的性能损失。
使用中间桥接模型加速蒸馏过程。即用一个比学生模型更大的但同系列模型进行转述，然后让学生模型对齐这个分布。
蒸馏过程本质就是分布对齐问题，前两种方法可能不太优雅，有更简单的蒸馏方法，比如DeepSeek的数据蒸馏。

看完R1论文，一个很重要的感受就是：好像还是要搞数据。没错，数据和算法都格外重要，数据可能更加重要。这很容易就让我们想起算法领域那句经典的：“数据决定上限，算法逼近上限”。

整体视角

相信看了这一系列相关研究后，大家对R1及其带来的改变已经有了相当的common sense，也能够对标题《R1后LLM新范式》有更深的理解，这部分我们就从整体视角整理一下上面的内容。

数据筛选

预训练后，无论SFT还是RL，数据筛选都相当重要，它核心体现在：“少量精挑细选的数据+Any微调算法”都可以实现很好的效果。高质量的数据=成本+效果双修！

数据筛选	关键信息
LIMO	问题的质量。包括问题解决方法的多样性、挑战模型能力的适当难度级别以及所涵盖知识领域的广度等因素。答案的质量。包括教学价值（比如由易到难，逐步推导）、逻辑一致性和方法论严谨性等方面。
LIMR	LIM（Learning Impact Measurement）评估训练样本潜在价值。需要奖励模型，卡阈值（比如0.6）。
LIMD	双间隔引导（dual-margin guided）方法，同时考虑外部奖励间隔和DPO内部隐式奖励间隔。间隔越大质量越高，适用于DPO。

LIMO的数据筛选方法比较详细，把数据拆成问题和答案两部分也更加合理，具有一定的通用性；LIMR用奖励模型评估样本价值，更加便捷。这两种方法未必不能结合使用。不过LIMD则是专门针对DPO的数据筛选方法，所有用到DPO的地方都可以用该方法重新筛选数据。

说到这里，我们再来讨论一下“高质量数据”。无论是LLM预训练还是后训练都需要高质量数据，其实在其他模态上也一样，那什么是高质量数据？有没有具体的标准？记得之前说高质量数据，一般指的是类似图书、维基百科这种相对规范、多人审核过的内容；R1出来后，高质量数据似乎变成了“带详细思考过程”的数据，因为有了一步一步的思考过程，使得无论是Reasoning数据还是通用数据，效果看起来都比之前更好；而现在似乎又有了新的趋势——带自我奖励确认机制的数据，是更高质量的数据吗？不妨回到“质量”本身，LIMO的标准可能可以给我们一些启发：问题主要关注方法的多样性、难度的挑战性和覆盖的广泛性；回答则关注教学价值、逻辑一致性和方法严谨性。具体点来说，对于问题，要尽可能的选择多个领域方向、具有一定难度（甚至是不同难度等级逐步学习）、回答方式多种多样的（采样才有意义，如果只有一个固定答案，多个采样就没意义了）；对于回答，由于方法是多种多样的，因此一步一步思考推导的过程就非常重要（主要是考虑到给人看），当然严谨性和逻辑性是底线。如果能同时再兼顾上规范、准确，那绝对可以称得上高质量了。

最后，我们再讨论一下关于“少量高质量数据SFT/RL后能让Base模型效果提升”。前面也提到了，我觉得这个就不一定推翻了原有SFT的假设，因为这里的SFT起的作用就是“激活”，而非“学习”。但是对于RL能够激活并提升Base模型的推理能力，我觉得比较有意思，想想它的本质就是非常简单的规则+TTS（Test Time Scaling，说的就是rollout）。所以，这里核心可能在Base模型和TTS上，TTS让Base模型把“比较好的那条路径”给展示了出来；而SFT则是展示出来一条“相对还可以的固定路径”（因为激活的数据是确定的）。所以，SFT数据质量不同，激活的Base模型的推理能力就不同，但RL似乎总能达到不错的效果。这个结论虽然不一定对，但推理和思考过程我个人感觉非常有意思，希望能给读者带来一定启发。

RL算法

刚刚探讨了RL的作用方式，以该角度看，好像无论什么RL算法，貌似都应该结果差不多，事实的确如此！GRPO、PPO、Reinforce++都能够实现类似的效果，跑出来的Reward、ResponseLength、Accuracy曲线都非常相似。当然DPO略逊一筹，猜想可能是它正好介于SFT和其他RL之间，它展示出来的是一条“相_比较_还可以的固定路径”。

算法	关键信息
GRPO	去除critic，但计算增加。KL作为损失。用奖励的Z分数作为Advantage。
PPO	通过clip限制策略更新幅度，稳定，KL作为约束。常用GAE计算Advantage。
DPO	简单，无需奖励模型，相对需要更多数据。

简单总结一下几种常用RL，如果综合效果和复杂度来看，GRPO是不错的选择。而GRPO之所以有效果，我们也知道其核心在于Base模型。从这个角度看，“KL似乎并没有太多作用”也就能理解了：因为Base模型比较稳定，RL用的数据又不多，就很难“训坏”模型，那KL的作用自然就不显了。所以我们可以说，RL其实也只是在“激活”能力，只是说它比SFT的激活更好一些。

正因为如此，我们才会发现：32B的模型比7B的好、7B的又比3B的好，Qwen2.5比Qwen2和Qwen1.5好，无论Base还是Instruct模型都可以等现象。这些结论在之前的研究中有体现，我本人也进行了实验验证。其实核心就在于Base模型，给一个3B模型，用什么RL算法恐怕都比不过7B版本。转了一圈，一切又回到了原点（不能用起点，应该是新的起点），只不过沿途串起了几个Dot。

最后，再讨论一下奖励函数的设计。它重不重要呢？从整体流程来看，相当重要，毕竟它是一种“规则”，是RL优化的方向。但具体规则呢？这里可能需要从两个角度看。

如果只考虑结果（ORM），看起来似乎怎么设计都差不多。类似前面介绍的相关研究，都只考虑最终答案和格式是否正确，有的甚至连格式都不要。我自己尝试过稍微复杂的设计，比如kk-logic数据集，只要答对一个身份，就给0.5分，答错一个则扣0.5分。结果和全部答对得分答错不得分的设计结果差不多。

kk-logic数据集是多人（2-8）逻辑推理问题，两个k分别表示knights和knaves。

题目（2人）示例：一个非常特殊的岛屿上只居住着骑士和流氓。骑士总是说真话，而流氓总是撒谎。你遇到了两个居民：佐伊和奥利弗。佐伊说：“奥利弗不是骑士。”奥利弗说：“当且仅当佐伊是流氓时，奥利弗才是骑士。”那么谁是骑士，谁是流氓？

这道题的答案是：佐伊 (Zoey) 是一个流氓，而奥利弗 (Oliver) 是一个骑士。

2人的比较简单，8人的有点恐怖。

如果考虑过程（PRM），那中间的奖励可能会影响整体性能。代表性的比如PRIME使用了隐式PRM（被训练为ORM，但被用作PRM），以及rStar-Math在关键节点对中间结果进行验证。它们都极大地提升了性能，PRIME的PRM是模型而不是规则，但rStar-Math的验证却是可以看作规则（执行Python代码验证关键步骤结果）。我觉得这个结论应该是通用的。

不管怎么说，针对不同任务设计或思考奖励函数是个值得进一步探索的话题，RL才刚刚开始，春天来了。

新的范式

我们最后来梳理一下R1后LLM的一些新范式。其实，站在开发的角度看，范式并没有太大变化，依然是我们之前在HuggingLLM中提过的：一点提示词、RAG、少量必要时微调。提示词的作用正在变弱，但是考虑到成本和性能，实际中不可能每个地方都用最强大的模型，因此提示词还是要测试的。必要时的微调会越来越少，大部分情况应该并不需要微调，反而是如何给模型提供更“相关”的上下文更加重要。不过我们这里主要探讨的是算法方向的范式。

在展开梳理之前，我们不妨先罗列一些从已有研究中得出的Common Sense，当然不一定100%正确，但有助于我们梳理范式。

Common Sense：

反思能力来自Base模型，模型越大能力越强。
Base模型中的Reasoning数据非常关键，直接决定推理能力。
SFT和RL都能激活Base模型中的反思能力，但精挑细选的样本（即使数量少）效果和效率更好。
RL时可以使用多种算法，可以不需要KL。虽然推理能力源于Base，但RL能进一步增强能力。
相比SFT，RL对小一点的大模型可能更有效。
SFT+RL可以实现更好的LongCoT，由易到难能进一步提升效果。
RL配合TTS（Test Time Scaling），SLM（Small Language Model）会有更多新的潜力。

总的来说，R1带来“创新”正在大范围席卷整个领域，而且正在不断深化，比如控制思考长度、自我奖励等。基于以上内容，我整理了以下几种范式。

范式	关键步骤
R1	Pretrain + SFT（冷启动）+ RL（R1-Zero）=> Data => Instruct SFT + RL Align
R1-D	Pretrain + Hybrid Data + Hybrid SFT + Hybrid Align
R1-R	Data + Distillation(SFT) + RL Scaling
R1-2	Pretrain + LongCoT + Long2short SFT

R1的范式是核心，后面的范式都是基于R1范式的变种（简化、组合）。关于R1，前面专门介绍过，这里不再赘述。

R1-D（Data）：这个其实就是R1的后半部分：获取到带思考过程的数据后SFT和对齐。因为R1前半部分其实是在搞数据，那有了数据后直接从这个数据开始就是很自然的事情。现在已经有很多这样的开源数据了。
R1-R（Reinforcement）：这个主要走的是轻量化的蒸馏路线，然后通过RL进一步提升性能。这里的Data默认是带思考的数据，但是否包含Reasoning就看具体目的了。当然，Data不带思考也没什么问题，“思考”本质上也是输出的一部分。这个范式可能也是目前比较实用的范式，核心是借助RL进一步提升效果。
R1-2：这个范式主要解决根据上下文自动决定思考长度的问题。LongCoT就是激活Pretrain的推理能力，等价于R1-Zero，然后要解决的是模型如何根据不同的上下文自动调整思考长度。对于复杂问题或用户要求详细展开的情况，可以一步一步展开的细致点；对于简单问题或用户明确不需要思考的情况，可以不用思考直接回复。

需要说明的是，上面这样分类是为了梳理方便，实际使用时往往是多种范式融合，比如R1-2中的LongCoT就可以用R1-R代替。具体使用时应根据资源和目标灵活调整。

总结

本文首先介绍了R1论文相关内容，接下来通过10篇相关论文梳理了R1对整个行业的启发，我们看到这个趋势还在继续。最后，我们从整体视角总结整合了前面的内容，期望能给读者带来更多思考。

诚如我在《DeepSeek R1深度技术解析及其影响 | Yam》中所言，R1对整个行业的贡献巨大，其作用不亚于ChatGPT的发布。其范式影响了所有LLM，提升了LLM的整体能力，使LLM进入深度思考时代。此前，本以为LLM已经快到尽头了，没想到突然就上了一个新的台阶。我相信在R1开启的新时代影响下，LLM还会继续发展、AI还会继续进步。

长琴

知乎：长琴 | 公众号：技术与人

DeepSeek R1后LLM新范式

基本框架

R1论文

R1-Zero

R1

蒸馏

相关研究

Base+SFT

Base+RL

SFT+RL

整体视角

数据筛选

RL算法

新的范式

总结