指令跟随近期工作梳理(2025年上半年)

Table of Contents generated with DocToc

由于工作需要和个人兴趣,最近看了一些指令跟随(Instruction Following)相关的文章,特整理如下。其实自从LLM表现出强大的能力后,指令跟随自然而然就是一个非常重要的方向了。

关于指令跟随,最重要(也最简单)的策略就是调整提示词了,由此甚至诞生了Prompt Engineer这个行当。不过这个笔者早就提过了(比如这里:ChatGPT 影响冲击:职业、行业与产业 | Yam[1]),一定会过时,倒不是说提示词工程会过时,而是说它应该会变成一种通用技能,就像Office办公软件一样,现在没有人会把Office作为自己的技能写到简历上了吧。

关于提示词工程,笔者应该是国内比较早写过文章的(23年1月发表的:ChatGPT Prompt工程:设计、实践与思考 | Yam[2]),后面就再没写过了,实在是觉得这东西没多少好说的,就是trial-and-error,或者trial-and-improve。提示词其实本质上是沟通能力,你描述得清楚效果就好。而且,随着模型不断变强,提示词的作用相对弱化(但你还是要把话说清楚,这是基本)。以上观点至今未变。

但是指令跟随却很重要,因为我们最终是要用LLM去完成某项任务的,虽说指令大部分情况下都需要写的比较清楚(比如”按Json格式输出“),但也有一些隐藏的指令(比如”应特别注意用户提到XX产品信息“),或者比较复杂的指令(比如实际生产环境,三五千字的系统提示词太常见了)。本文就来简单梳理一下近期相关研究(只记录了笔者觉得比较有新意的地方)。

Benchmark

毫无意外的重中之重——有用——尤其根据场景拆分。

多轮场景

2504 Ask, Fail, Repeat:Meeseeks, an Iterative Feedback Benchmark for LLMs’ Multi-turn Instruction-Following Ability[3]

多轮指令跟随Benchmark,因为单轮往往难以遵循复杂指令中的每个要求(真实场景)。使用规则增强LLM评估,3个维度38个标签。

2502 StructFlowBench:A Structured Flow Benchmark for Multi-turn Instruction Following[4]

多轮场景指令跟随。

  • 双向约束(轮间和轮内)。
  • 六类结构流分类法,包括六个基本的轮间关系:跟进、细化、召回、总结、扩展、无关。

真实场景

2505 AGENTIF:Benchmarking Instruction Following of Large Language Models in Agentic Scenarios[5]

真实Agent场景的指令跟随Benchmark。

  • 约束类型:
    • 格式:语法、排版、符号规范、分步格式等。
    • 语义:深度、完整性、风格或语气。
    • 工具:按规范调用工具。
  • 约束呈现类型:
    • 基础型:普通文本显式描述的约束。
    • 条件型:仅在特定条件下触发的约束。
    • 示例型:FewShot传递。

2505 A Multi-Dimensional Constraint Framework for Evaluating and Improving Instruction Following in Large Language Models[6]

新的Benchmark,关注真实场景和细粒度评估。提出多维约束框架,涵盖三种约束模式、四类约束类别以及四个难度等级。

  • 三种模式:上下文Few-shot约束、列举、融合(约束融合进指令)
  • 四种类别:内容、格式、语言、长度
  • 四个等级:<等级>类(1~2种)×<等级>个,如等级I表示1种类别1-2个约束

2502 SOTOPIA-Ω:Dynamic Strategy Injection Learning and Social Instruction Following Evaluation for Social Agents[7]

社交场景指令遵循:社交Agent在以目标为导向的任务中遵循指令的能力。

为了解决Agent在对话中出现的长期僵局(尬住了)问题,提出一个用于生成高质量社交对话语料库的动态策略注入框架。采用结构化的多步骤推理方式,帮助Agent识别在目标冲突情境下的潜在双赢策略。同时保留Agent自身的原有策略或引入简单的策略引导,以避免过度推理。另外,引入了“步骤评分”作为一种自监督奖励机制,确保在对话生成过程中能够实现策略的动态选择与调整。

两个回合级评价指标:

  • Sdiv (多样性),用于惩罚过于相似的动作,鼓励行为的多样性;
  • Srel (相关性),用于衡量动作与任务目标的相关性,确保对话内容紧扣目标。

2503 WildIFEval:Instruction Following in the Wild[8]

1.2万条真实用户多样化多重约束条件指令数据集。共8类:

  • 包含 / 避免(Include / Avoid):指定必须在响应中加入或排除的元素或概念,直接引导输出内容。
  • 编辑(Editing):侧重对已有文本的修改,说明原始内容应如何被更改或保留。
  • 确保质量(Ensure Quality):对响应的质量提出要求,例如连贯性、准确性或整体清晰度。
  • 长度(Length):对输出设置定量限制,例如字数或字符数限制,以确保内容的简洁性或深度。
  • 格式与结构(Format and Structure):规定响应的组织形式和呈现方式,包括是否使用项目符号、表格或特定的排版要求。
  • 重点 / 强调(Focus / Emphasis):强调在响应中应优先考虑的特定主题、关键词或元素。
  • 人物设定与角色(Persona and Role):指示 AI 扮演特定角色、视角或专业身份,从而影响输出的叙述语气。
  • 风格与语调(Style and Tone):规定整体的表达方式,包括正式程度、语言风格以及情感色彩,用以塑造回应的语气与氛围。

2503 IFIR:A Comprehensive Benchmark for Evaluating Instruction-Following in Expert Domain Information Retrieval[9]

专家领域指令跟随:金融、法律、医疗、科学。

任务能力

2505 LIFEBench:Evaluating Length Instruction Following in Large Language Models[10]

长度指令跟随Benchmark。

  • 长指令遵循不佳。不知道自己输出多少Token,推理模型通过校准长度能缓解。
  • 当前LLM无法生成应该的长度。
  • 输入特征对长度指令遵循的准确性有重要影响。

2506 Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability[11]

组合泛化能力Benchmark。

2506 MaXIFE:Multilingual and Cross-lingual Instruction Following Evaluation[12]

多语言指令跟随Benchmark。11类指标:关键词、长度、格式、重复、标记、引用、表情、风格、语气、内容、语言切换。

2503 XIFBench:Evaluating Large Language Models on Multilingual Instruction Following[13]

基于约束的多语言指令跟随Benchmark。涵盖五大类——内容、风格、情境、格式和数值,共21个维度。这些维度经过精心挑选,以确保类别内部的一致性和跨语言的适用性,同时排除了依赖特定语言的约束。

可结合MaXIFE。

2505 ARC:Argument Representation and Coverage Analysis for Zero-Shot Long Document Summarization with Instruction Following LLMs[14]

LLM能否在摘要任务中保留“论点角色”——在法律等高风险领域的文档摘要中尤为关键。
用“论点表示覆盖率”衡量LLM生成的摘要在多大程度上捕捉到了关键论点。

  • 论点集覆盖率:关键论点
  • 独立角色覆盖率:将每个论点角色视为独立的基本单位
  • 亚原子级覆盖率:深入考察每个论点角色内部更细粒度的事实单元。

总的来说,是一个摘要任务评测框架。两个分析:

  • 源文档中论点的位置如何影响其被纳入摘要的可能性?LLM倾向于过度关注输入上下文的开头或结尾内容,这影响了那些在文本中分布较稀疏的论点的覆盖率;
  • 某些论点角色是否被不成比例地偏好?模型更偏好生成“结论”类论点,而对“问题”和“理由”等其他论点角色的覆盖明显不足。

2505 Evaluating the Instruction-following Abilities of Language Models using Knowledge Tasks[15]

基于知识类Benchmark同时评估指令跟随+任务。两种指令:

  • 以正确回答知识任务为前提的条件性指令;
  • 利用多项选择题中候选选项的空间设计指令。

代码相关

2503 CodeIF-Bench:Evaluating Instruction-Following Capabilities of Large Language Models in Interactive Code Generation[16]

多轮交互代码生成指令跟随。具体包含9个符合实际软件开发需求的可验证指令。

2502 CodeIF:Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation[17]

代码场景Benchmark。4个评价指标:

  • Completely Satisfaction Rate (CSR)
  • Soft Satisfaction Rate (SSR)
  • Rigorous Satisfaction Rate (RSR)
  • Consistent Continuity Satisfaction Rate (CCSR)

小结

首先需要声明的是,上面的分类并非那么绝对,很多Paper其实是覆盖多个方向的,比如《多轮场景》的第一篇其实也是源自真实场景单轮无法满足所有要求的背景。

Benchmark相对容易理解一些,无论是做基准测试,还是构造数据集,一般只需瞄准一个场景或无相关数据和研究的方向。而且,我们看到大多数Benchmark确实和场景有关系的,比如《多轮场景》第一篇是美团的,多语言的MaXIFE是OPPO的。另外,也容易发现,相关metric的设计也是和场景任务紧密关联的。

个人觉得这部分内容最大的意义是为我们提供不同场景下如何设计相应的metric的示范。毕竟,做任何项目都是评测先行,不然后面怎么汇报工作,怎么向领导交代你的贡献;)

分解验证

2506 Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models[18]

针对复杂(多约束)指令遵循的挑战,利用推理时扩展。首先对复杂指令进行分解,利用RL+可验证的规则奖励信号训练遵循能力。

2506 VerIF:Verification Engineering for Reinforcement Learning in Instruction Following[19]

指令跟随+强化学习,规则+模型验证。侧重指令中的约束:

  • 强约束,规则。
  • 软约束,借助reasoning模型语义评判。

2505 RECAST:Strengthening LLMs’ Complex Instruction Following with Constraint-Verifiable Data[20]

规则+模型验证指令约束的数据集。可结合VerIF。

2505 DecIF:Improving Instruction-Following through Meta-Decomposition[21]

在指令生成过程中,引导LLM迭代生成各种类型的可验证元信息,再将这些元信息与相应约束相结合,形成结构良好且语义丰富的指令。

两步构建数据:Instruction合成 + Response构建。

2505 Enhancing Complex Instruction Following for Large Language Models with Mixture-of-Contexts Fine-tuning[22]

将顺序结构的指令转换为包含子上下文的多个并行指令。

提出MISO(Multi-Input Single-Output,多输入单输出)引入混合上下文(mixture-of-contexts)范式,考虑整体指令-输出对齐和各个子上下文的影响。

两阶段建模:

  • 第一阶段:每个输入部分序列独立处理;
  • 第二阶段:输出部分使用 MISO 的因果注意力机制进行处理,该机制同时关注所有输入部分序列和输出部分。

MISO 的主要改动包括位置编码的分配和输出部分的注意力计算。

2504 ReTool:Reinforcement Learning for Strategic Tool Use in LLMs[23]

长程推理+工具集成。模型学习何时调用工具(代码解释器),其实就是让模型生成代码进行(执行)验证。

2502 MuSC:Improving Complex Instruction Following with Multi-granularity Self-Contrastive Training[24]

针对复杂指令遵循,提出多粒度自对比训练框架。

  • 粗粒度:基于指令的分解和重组,构建约束条件感知的偏好数据。
  • 细粒度:通过动态Token监督(基于Token置信度获取监督信号),实行基于Token感知的偏好优化。通过关注偏离约束条件的Token,有效识别并修正模型未能满足指令要求的Token,从而生成更加符合上下文的回应。

小结

这一part的研究核心是把复杂指令分解成细粒度约束,然后再验证。这个思路在R1之后就一发不可收拾了,因为很多大部分的约束其实是可以用规则验证的,GRPO实在是太适合了。目测这个方向会成为主流。

模型诱导

2506 Instruction Following by Boosting Attention of Large Language Models[25]

提出通过指令注意力提升 (INSTABOOST,一种潜在空间引导方法),在生成过程中改变模型的注意力来增强指令提示的强度。

即增加指令相关Token(不含query)的权重。

2505 When Thinking Fails:The Pitfalls of Reasoning for Instruction-Following in LLMs[26]

CoT降低指令跟随能力:

  • 过度关注高层次内容而忽视简单约束;
  • 引入冗余或出于好意的内容,反而无意中违反了约束条件。

提出constraint attention(基于模型在指令中的注意力分数,衡量其对约束性Token的关注程度),量化模型在生成过程中的关注焦点,并展示CoT经常会将注意力从与指令相关的Token上转移开。

为了缓解这种情况,引入并评估了四种策略:

  • 上下文学习(in-context learning):错误示例few-shot;
  • 自我反思(self-reflection):引导模型评估并调整其推理过程及候选答案;
  • 自我选择性推理(self-selective reasoning):允许模型自主判断在何时进行推理是有益的;
  • 分类器选择性推理(classifier-selective reasoning):通过训练好的分类器(sample级)判断何时需要进行推理。

2505 Don’t Reinvent the Wheel: Efficient Instruction-Following Text Embedding based on Guided Space Transformation[27]

指令Embedding后突出显示重要特征。提出GSTransform,通过少量带有指令中心标签注释的文本数据引导,实时调整预先计算的Embedding以与用户指令对齐。

  • 基于指令的标签构建:根据用户指令构建标签分类体系,以便根据特定指令语义对文本表示进行分类。
  • 标签引导的嵌入变换:利用上述由指令驱动的标签对原始Embedding空间进行调整,使其与用户指定的信息保持一致。

总的来说,先生成指令related标签,然后用标签调整Embedding。

2504 Unveiling Instruction-Specific Neurons & Experts:An Analytical Framework for LLM’s Instruction-Following Capabilities[28]

通过隔离和分析与指令相关的稀疏组件,系统考察微调如何重构 LLM 的计算过程。微调带来的指令跟随能力是否源于某些稀疏组件的作用?

主要研究了两类稀疏组件的激活模式:指令特定神经元(FFN激活的神经元)和指令特定专家,对应LLaMA和MoE架构。

步骤包括:

  • 定位负责指令处理与执行的稀疏组件;
  • 评估组件分布通用性与独特性;
  • 对比微调前后,指令特定神经元与专家的变化差异。

针对稀疏组件的有针对性调整可以显著提升模型的指令跟随能力。

2504 Improving Instruct Models for Free:A Study on Partial Adaptation[29]

通过部分适配降低指令微调的强度。

Wb + λ(Wi - Wb)

  • λ=0, base model
  • λ=1, instruct model

λ<1几乎总能获得最佳效果。不严格算指令跟随。

2410 Steering Language Models With Activation Engineering[30]

在推理时修改激活,以控制(或引导)模型输出。

具体来说,就是激活添加 (ActAdd) 技术,该技术通过对比提示对(例如“爱”与“恨”)的中间激活来计算引导向量。通过在前向传播过程中策略性地添加(注入)引导向量,让模型输出某种偏好的输出。

有个八卦,一作v4还在DeepMind,v5就成独立研究者了;)

这是个人比较喜欢的一篇Paper,非常轻量有意思的方案。

2504 Improving Instruction-Following in Language Models through Activation Steering[31]

和上一篇非常类似,不过此前的研究一般侧重情感、风格和安全等高级概念,本文则专注于通过自然语言指令定义的较低级别的硬约束,从而允许对模型的输出进行更精细的控制。

具体包括:格式、长度、指定词。

小结

这一part在上一part火之前应该算是主流吧,各种针对模型的勾引,研究哪个地方调整一下,注入点东西改变模型行为。其实个人觉得这一部分是比较好玩儿的,因为它尝试在理解LLM内部机理,不把LLM当黑盒子。

偏好优化

2411 IOPO:Empowering LLMs with Complex Instruction Following via Input-Output Preference Optimization[32]

同时关注输入输出。

两个输入(x1, x2)和两个对应的输出(y1, y2),对应g1={<x1, y1>, <x2, y2>}要优于g2={<x1, y2>, <x2, y1>}

2505 Reverse Preference Optimization for Complex Instruction Following[33]

针对复杂(多约束)指令遵循的挑战,提出RPO(反向偏好优化)。因为偏好选择不可能完美(选择的肯定也有一些指令没有被满足),于是就把不满足的那部分约束翻转,让它看起来完美遵循指令。

小结

这一部分都属于直接偏好优化方向,比较少,但是角度清奇,思路新颖,是比较有意思的方案。其实,也可以看成是数据层面的优化,只不过和Benchmark中不同的是,这里走的是“反向思维”的路线,值得借鉴。

上下文信息

2505 Towards Better Instruction Following Retrieval Models[34]

针对召回优化的指令跟随,即召回时增加指令信息。

2410 SPRIG:Improving Large Language Model Performance by System Prompt Optimization[35]

系统提示词优化:经过优化的通用系统提示词在表现上可与针对每个具体任务单独优化的任务提示词相媲美。将系统级和任务级优化相结合能够带来进一步的性能提升,展示了二者的互补性。

2503 Exploiting Instruction-Following Retrievers for Malicious Information Retrieval[36]

评估召回系统的有害性,50%以上的系统会召回有害内容。

2506 Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective[37]

挑战了传统观念的FewShot上下文学习需要精心设计指令和示例,本文证明将随机示例修剪成看似不连贯的“胡言乱语”可以显著提升各种任务的性能。

小结

上下文有关的诱导,和指令跟随有一定关系,主要是针对提示词或指令的优化,也就是针对传给模型那一堆内容的优化。这块内容可能实践中会更侧重一些。

总结

本文通过15+7+7+2+4=35篇论文梳理了指令跟随近期研究成果,除了两篇是2024年的,其余都是2025年的新文章或是在2025年更新过版本的文章,而且相当大一部分是近三个月的。可以看到,Benchmark还是比较主流的,R1-Zero后,基于GRPO+规则的研究也开始慢慢增加了,这个方向应该会随着RL进一步火热。模型诱导方向应该是研究机构比较喜欢的方向,也比较有意思。偏好优化和上下文这两部分相对实践一些,有一定参考价值。

虽说这次是批量阅读,但其中几篇其实之前就读过,记录在LLM指令跟随论文速览 | Yam[38],这里记得的是平时刷论文时看到的比较有意思的文章(笔者每天刷Paper,看到有意思的就顺便记录一下)。

最后,重点说明下,由于个人能力和精力所限,以上内容并不全面,顶多算以管窥豹;分类也是根据自己的理解进行粗略的划分,不一定准确。请读者保持质疑精神,希望本文能给大家带来新的思考和收获。

References

[1] ChatGPT 影响冲击:职业、行业与产业 | Yam: https://yam.gift/2023/02/21/NLP/2023-02-21-ChatGPT-Impact/
[2] ChatGPT Prompt工程:设计、实践与思考 | Yam: https://yam.gift/2023/01/25/NLP/2023-01-25-ChatGPT-Prompt-Engineering/
[3] Ask, Fail, Repeat:Meeseeks, an Iterative Feedback Benchmark for LLMs’ Multi-turn Instruction-Following Ability: https://arxiv.org/abs/2504.21625
[4] StructFlowBench:A Structured Flow Benchmark for Multi-turn Instruction Following: https://arxiv.org/abs/2502.14494
[5] AGENTIF:Benchmarking Instruction Following of Large Language Models in Agentic Scenarios: https://arxiv.org/abs/2505.16944
[6] A Multi-Dimensional Constraint Framework for Evaluating and Improving Instruction Following in Large Language Models: https://arxiv.org/abs/2505.07591
[7] SOTOPIA-Ω:Dynamic Strategy Injection Learning and Social Instruction Following Evaluation for Social Agents: https://arxiv.org/abs/2502.15538
[8] WildIFEval:Instruction Following in the Wild: https://arxiv.org/abs/2503.06573
[9] IFIR:A Comprehensive Benchmark for Evaluating Instruction-Following in Expert Domain Information Retrieval: https://arxiv.org/abs/2503.04644
[10] LIFEBench:Evaluating Length Instruction Following in Large Language Models: https://arxiv.org/abs/2505.16234
[11] Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability: https://arxiv.org/abs/2506.15629
[12] MaXIFE:Multilingual and Cross-lingual Instruction Following Evaluation: https://arxiv.org/abs/2506.01776
[13] XIFBench:Evaluating Large Language Models on Multilingual Instruction Following: https://arxiv.org/abs/2503.07539
[14] ARC:Argument Representation and Coverage Analysis for Zero-Shot Long Document Summarization with Instruction Following LLMs: https://arxiv.org/abs/2505.23654
[15] Evaluating the Instruction-following Abilities of Language Models using Knowledge Tasks: https://arxiv.org/abs/2410.12972v1
[16] CodeIF-Bench:Evaluating Instruction-Following Capabilities of Large Language Models in Interactive Code Generation: https://arxiv.org/abs/2503.22688
[17] CodeIF:Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation: https://arxiv.org/abs/2502.19166
[18] Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models: https://arxiv.org/abs/2506.01413
[19] VerIF:Verification Engineering for Reinforcement Learning in Instruction Following: https://arxiv.org/abs/2506.09942
[20] RECAST:Strengthening LLMs’ Complex Instruction Following with Constraint-Verifiable Data: https://arxiv.org/abs/2505.19030
[21] DecIF:Improving Instruction-Following through Meta-Decomposition: https://arxiv.org/abs/2505.13990
[22] Enhancing Complex Instruction Following for Large Language Models with Mixture-of-Contexts Fine-tuning: https://arxiv.org/abs/2505.11922
[23] ReTool:Reinforcement Learning for Strategic Tool Use in LLMs: https://arxiv.org/abs/2504.11536
[24] MuSC:Improving Complex Instruction Following with Multi-granularity Self-Contrastive Training: https://arxiv.org/abs/2502.11541
[25] Instruction Following by Boosting Attention of Large Language Models: https://arxiv.org/abs/2506.13734
[26] When Thinking Fails:The Pitfalls of Reasoning for Instruction-Following in LLMs: https://arxiv.org/abs/2505.11423
[27] Don’t Reinvent the Wheel: Efficient Instruction-Following Text Embedding based on Guided Space Transformation: https://arxiv.org/abs/2505.24754
[28] Unveiling Instruction-Specific Neurons & Experts:An Analytical Framework for LLM’s Instruction-Following Capabilities: https://arxiv.org/abs/2505.21191
[29] Improving Instruct Models for Free:A Study on Partial Adaptation: https://arxiv.org/abs/2504.11626
[30] Steering Language Models With Activation Engineering: https://arxiv.org/abs/2308.10248
[31] Improving Instruction-Following in Language Models through Activation Steering: https://arxiv.org/abs/2410.12877
[32] IOPO:Empowering LLMs with Complex Instruction Following via Input-Output Preference Optimization: https://arxiv.org/abs/2411.06208
[33] Reverse Preference Optimization for Complex Instruction Following: https://arxiv.org/abs/2505.22172
[34] Towards Better Instruction Following Retrieval Models: https://arxiv.org/abs/2505.21439
[35] SPRIG:Improving Large Language Model Performance by System Prompt Optimization: https://arxiv.org/abs/2410.14826
[36] Exploiting Instruction-Following Retrievers for Malicious Information Retrieval: https://arxiv.org/abs/2503.08644
[37] Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective: https://arxiv.org/abs/2506.17930
[38] LLM指令跟随论文速览 | Yam: https://yam.gift/2024/12/31/Paper/LLM/2024-12-31-Instruction-Following-Papers/