解锁模型潜能：Reward 数据如何塑造与激发 LLM 的推理策略

上篇Reward Model建模 | Yam^[1]我们介绍了Reward相关的建模方案，本文继续介绍几篇Reward数据相关的论文。

Reward 数据的价值远不止于监督信号本身。本文剖析的三项研究揭示：Skywork-Reward-V2 优化了人机协同的标注效率；Spurious Rewards 的核心发现表明，RL 训练（如 GRPO）的核心作用常在于“激活”而非“教授”——虚假奖励亦能激发基座模型预训练习得的优势推理策略（如代码推理）；Anthropic ICM 则利用模型内部一致性实现无监督引导。这昭示着 Reward 建模的新方向：深刻理解基座模型的“潜能图谱”，并设计机制（协同标注、激活信号、一致性约束）将其高效释放，最终迈向规则驱动的“演绎式”智能。

激活诱导LLM指令跟随

偶尔看到这篇文章：如何不通过提示词或微调来引导大模型的输出 - 知乎^[1]，感觉很有意思，于是根据文章提供的代码做了一些实验，同时，也查阅了相关Paper，补充了一些实验和论文阅读，一并记录在此。

本文写于6月26号晚，当天25年上半年软考成绩公布。

下午看到有公众号发消息说成绩出来了，怀着有点紧张的心情打开网站查分——居然过了！属实有点没想到，本来还以为这次比较难通过的。正好写一下自己的一些经验。

指令跟随近期工作梳理（2025年上半年）

Table of Contents generated with DocToc

Benchmark
分解验证
- 小结
模型诱导
- 小结
偏好优化
- 小结
上下文信息
- 小结
总结
References

由于工作需要和个人兴趣，最近看了一些指令跟随（Instruction Following）相关的文章，特整理如下。其实自从LLM表现出强大的能力后，指令跟随自然而然就是一个非常重要的方向了。

关于指令跟随，最重要（也最简单）的策略就是调整提示词了，由此甚至诞生了Prompt Engineer这个行当。不过这个笔者早就提过了（比如这里：ChatGPT 影响冲击：职业、行业与产业 | Yam^[1]），一定会过时，倒不是说提示词工程会过时，而是说它应该会变成一种通用技能，就像Office办公软件一样，现在没有人会把Office作为自己的技能写到简历上了吧。

关于提示词工程，笔者应该是国内比较早写过文章的（23年1月发表的：ChatGPT Prompt工程：设计、实践与思考 | Yam^[2]），后面就再没写过了，实在是觉得这东西没多少好说的，就是trial-and-error，或者trial-and-improve。提示词其实本质上是沟通能力，你描述得清楚效果就好。而且，随着模型不断变强，提示词的作用相对弱化（但你还是要把话说清楚，这是基本）。以上观点至今未变。

但是指令跟随却很重要，因为我们最终是要用LLM去完成某项任务的，虽说指令大部分情况下都需要写的比较清楚（比如”按Json格式输出“），但也有一些隐藏的指令（比如”应特别注意用户提到XX产品信息“），或者比较复杂的指令（比如实际生产环境，三五千字的系统提示词太常见了）。本文就来简单梳理一下近期相关研究（只记录了笔者觉得比较有新意的地方）。

GRPO优化在继续——CISPO和熵

来自MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention^[1]中的一个发现。其实R1-Zero后，关于GRPO的优化和研究已经有相当不少的文章了，光笔者自己都梳理过不少，如下。

没想到还能继续出新。

Reward Model建模

本文介绍几篇关于Reward的文章，Reward经历了RLHF的scalar，到LLM-as-Judge，以及DeepSeek-R1的Rule，很自然地逐渐转移到通用领域——如何针对非推理（无标准答案）Query，给出模型响应的Reward。只要解决好这个问题，R1-Zero的方法就可以很自然地扩展到通用领域。而这也可以和之前在DeepSeek R1深度技术解析及其影响 | Yam^[1]中提到的强化学习执念很好地融合在一起。

从Voila看语音端到端发展

本文借着Voila^[1]顺便聊一下音频端到端（OMNI）的进展，以及个人的一些理解。这玩意儿就是从2024年5月份GPT4o发布后开始逐渐火热起来，尤其是2024年下半年，看看^[2]短短的几个月出了多少codec的文章。当时我们也做了一些尝试，没取得什么大的成果，不过倒是验证了蛮多想法。

R1后范式最佳实践：Seed-Thinking和Qwen3

本文介绍两个R1后新范式最佳实践的模型（系列）：Seed-Thinking-v1.5和Qwen3，感受一下R1后新范式的实践情况。

Yarz-Logic：R1-Zero相关实验报告

过完年上班后开始关注R1，然后就开始尝试做一些实验，2月底到3月中旬陆陆续续做了不少实验，一直没时间整理，终于抽出点空来简单整理一下，做个记录。

首先，项目是基于Logic-RL^[1]，之所以选择这个项目有几个主要原因：

当时这个复现感觉相对比较规范，飞书文档上记录了一些过程和评测结果（当时其实已经有不少复现了，但很多都没有评测，这种一概略过了）。
实在不想看数学的英文，一个是数学本来也不太好，另一个是很多公式在代码里就没法看，不好看Case。这个是逻辑题目，以自然语言文本为主。
这个项目基于verl^[2]和TinyZero^[3]，仅做了很少的改动，而verl和TinyZero我之前都了解过，相对比较熟悉。这样上手就比较方便。

所以，R1-Zero相关的实验就都基于这个项目了。因为我的关注点和原项目不同，我更加想验证一些自己的想法（原项目未涉及），所以就另外起了个名字：Yarz-Logic，Yarz就是Yet Another R1-Zero。

VAPO：基于价值方法的新突破

刚出了 DAPO：为GRPO的锦上加四点花 | Yam^[1]，字节Seed团队马上就送来新的 VAPO^[2]，同样的清晰、高质量。

VAPO，全称 Value-based Augmented Proximal Policy Optimization，没错了，这是基于价值的方法。本文指出了困扰基于价值方法的三个关键挑战：价值模型偏差、序列长度异质性以及奖励信号的稀疏性，并分别对其进行优化，最终在 AIME 2024 上比 DAPO 提升10个点，并且更加稳定，需要的训练步数更少。

Yam

Feeling, Coding, Thinking