本文写于6月26号晚,当天25年上半年软考成绩公布。
下午看到有公众号发消息说成绩出来了,怀着有点紧张的心情打开网站查分——居然过了!属实有点没想到,本来还以为这次比较难通过的。正好写一下自己的一些经验。
本文写于6月26号晚,当天25年上半年软考成绩公布。
下午看到有公众号发消息说成绩出来了,怀着有点紧张的心情打开网站查分——居然过了!属实有点没想到,本来还以为这次比较难通过的。正好写一下自己的一些经验。
Table of Contents generated with DocToc
由于工作需要和个人兴趣,最近看了一些指令跟随(Instruction Following)相关的文章,特整理如下。其实自从LLM表现出强大的能力后,指令跟随自然而然就是一个非常重要的方向了。
关于指令跟随,最重要(也最简单)的策略就是调整提示词了,由此甚至诞生了Prompt Engineer这个行当。不过这个笔者早就提过了(比如这里:ChatGPT 影响冲击:职业、行业与产业 | Yam[1]),一定会过时,倒不是说提示词工程会过时,而是说它应该会变成一种通用技能,就像Office办公软件一样,现在没有人会把Office作为自己的技能写到简历上了吧。
关于提示词工程,笔者应该是国内比较早写过文章的(23年1月发表的:ChatGPT Prompt工程:设计、实践与思考 | Yam[2]),后面就再没写过了,实在是觉得这东西没多少好说的,就是trial-and-error,或者trial-and-improve。提示词其实本质上是沟通能力,你描述得清楚效果就好。而且,随着模型不断变强,提示词的作用相对弱化(但你还是要把话说清楚,这是基本)。以上观点至今未变。
但是指令跟随却很重要,因为我们最终是要用LLM去完成某项任务的,虽说指令大部分情况下都需要写的比较清楚(比如”按Json格式输出“),但也有一些隐藏的指令(比如”应特别注意用户提到XX产品信息“),或者比较复杂的指令(比如实际生产环境,三五千字的系统提示词太常见了)。本文就来简单梳理一下近期相关研究(只记录了笔者觉得比较有新意的地方)。
来自MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention[1]中的一个发现。其实R1-Zero后,关于GRPO的优化和研究已经有相当不少的文章了,光笔者自己都梳理过不少,如下。
没想到还能继续出新。
本文介绍几篇关于Reward的文章,Reward经历了RLHF的scalar,到LLM-as-Judge,以及DeepSeek-R1的Rule,很自然地逐渐转移到通用领域——如何针对非推理(无标准答案)Query,给出模型响应的Reward。只要解决好这个问题,R1-Zero的方法就可以很自然地扩展到通用领域。而这也可以和之前在DeepSeek R1深度技术解析及其影响 | Yam[1]中提到的强化学习执念很好地融合在一起。
本文介绍两个R1后新范式最佳实践的模型(系列):Seed-Thinking-v1.5和Qwen3,感受一下R1后新范式的实践情况。
过完年上班后开始关注R1,然后就开始尝试做一些实验,2月底到3月中旬陆陆续续做了不少实验,一直没时间整理,终于抽出点空来简单整理一下,做个记录。
首先,项目是基于Logic-RL[1],之所以选择这个项目有几个主要原因:
所以,R1-Zero相关的实验就都基于这个项目了。因为我的关注点和原项目不同,我更加想验证一些自己的想法(原项目未涉及),所以就另外起了个名字:Yarz-Logic,Yarz就是Yet Another R1-Zero。
刚出了 DAPO:为GRPO的锦上加四点花 | Yam[1],字节Seed团队马上就送来新的 VAPO[2],同样的清晰、高质量。
VAPO,全称 Value-based Augmented Proximal Policy Optimization,没错了,这是基于价值的方法。本文指出了困扰基于价值方法的三个关键挑战:价值模型偏差、序列长度异质性以及奖励信号的稀疏性,并分别对其进行优化,最终在 AIME 2024 上比 DAPO 提升10个点,并且更加稳定,需要的训练步数更少。
本文通过对近期几篇R1-Zero相关工作进行梳理,同时结合部分已有的工作,从整体上对R1-Zero及其范式进行更深层次的理解和探索。主要观点整理如下:
总之,Base模型是核心,Base不行先继续训练或LongCoT。RL是激活手段,需结合数据难度与模型能力动态适配。工程上分阶段、重数据质量与课程设计,避免过度依赖微调。
DrGRPO来自Understanding R1-Zero-Like Training: A Critical Perspective,是oat-zero同一个团队的最新成果。没错,这虽然是一篇综合分析Base和RL的文章,但我们这里重点关注其中的RL部分,尤其是针对GRPO两个偏差的优化。它的发布时间就在DAPO发布一周后。