LLM指令跟随相关论文。
202504 Partial Adaptation Bloomberg
用WB + λA(A=WI-WB)的方法测试Base/Instruct模型能力。λ=0是Base,λ=1是Instruct。
测试了各种大小、家族的模型,结论如下:
- 最好的ICL性能总是由较少经过指令微调的模型实现的。
- ICL性能的提升是以牺牲部分指令跟随能力为代价的。
- 在指令跟随能力略微下降的情况下,ICL性能可以得到提升。
202411 Instruction Tuning Allen
Stronger Models are NOT Stronger Teachers for Instruction Tuning
更大更强的模型合成训练数据并不一定对小模型有用(大模型悖论:更大和更强的模型不一定是较小模型的更强教师),现有指标无法精确预测响应生成器的有效性,因为它们忽略了教师与正在微调的基本模型之间的兼容性。基于此,本文开发了一种新的指标,称为兼容性调整奖励 (CAR) 来衡量响应生成器(教师模型)的有效性。
问题1:哪些模型生成Instruction的响应(合成数据)最有效?
- 同一族的大模型(如405B)相比小一点的模型并不总是增强小模型的指令跟随能力。
- 开源模型效果比GPT-4好。
问题2:如何为某个base模型确定最有效的响应生成器?
- 对齐数据选择的现有指标(质量、难度、响应长度)未能考虑被微调模型与响应生成模型之间的兼容性。
- 本文将寻找最有效响应生成器的任务制定为风险回报问题。通过计算兼容性调整奖励 (CAR) 来解决这个问题,其中兼容性是风险因素。通过要微调的base模型的平均响应损失来量化的,较高的平均损失表示较低的兼容性,因此风险较高。
注意,本文的base模型是1.5B-4B的模型,响应生成器是1.5B-405B的各类开源模型。
评估base模型微调效果的两个指标:
- win rate(WR):GPT更偏好的比率。
- length-controlled with rate(LC):考虑响应长度减少WR的影响。
主要发现:
- 大模型悖论:大不一定能提升base的指令跟随能力。
- 同族互助:同一族模型的生成响应有更好的效果。
- 开源 > 闭源:可能就是不兼容导致的结果。
- 大的
tempreture和top_p有更好的效果。 - 拒绝采样能轻微提升效果。
衡量(响应生成器的有效性与微调base模型的指令跟踪能力之间的相关性)指标:
- Reward:Reward Model
- Difficulty:PPL和IFD(Instruction Following Difficulty)
- Length:响应长度
- CAR:兼容性调整奖励(和Reward对比)
r是平均Reward,L是响应Di的平均Loss:
为什么不能只考虑兼容性,因为如果模型为每个问题生成简单、低质量的响应,这种情况下兼容性很高,但整体质量更低。
202411 IOPO Ali
IOPO: Empowering LLMs with Complex Instruction Following via Input-Output Preference Optimization
IPIO = Input-Output Perference Optimization,同时考虑输出和输入。

现有的研究都是针对评估指令跟随的。本文:
- 提出TRACE基准,提升LLM跟踪复杂细粒度约束指令的能力。
- IPIO方法:同时关注输入X。
TRACE:
- 构建步骤:
- 分类约束(内容、情景、风格、格式、示例5类、26个维度)。
- 约束扩充:单一到多种约束。
- 结构化指令:任务描述、约束、输入。
- 质量控制:确保指令有效,比如解决描述和约束之间的冗余。
- 回复生成和评估:用LLM评估响应遵循指令约束的程度,完美10分的座位SFT数据集。
- 评估准则:用GPT-4o,评估每个约束的得分,只有当复杂指令中的所有约束都完全遵循时,响应才被认为是正确的。
IPIO:
两个输入(x1, x2)和两个对应的输出(y1, y2),对应g1={<x1, y1>, <x2, y2>}要优于g2={<x1, y2>, <x2, y1>}。
Loss就是DPO的扩展:
202410 指令跟随 IBM
Evaluating the Instruction-following Abilities of Language Models using Knowledge Tasks
评估指令跟随能力。Instruction策略值得借鉴。结果显示模型越大能力越强。
202410 系统消息优化 UMich
SPRIG: Improving Large Language Model Performance by System Prompt Optimization
单个优化的系统提示与针对每个单独任务优化的任务提示表现相当。将系统和任务级优化结合起来会带来进一步的改进(互补效应)。优化的系统提示可以有效地跨模型族、参数大小和语言进行泛化。
系统提示由组件(完整语义最小单位)构成,然后通过添加、重述、交换、删除尝试不同组合。
哪种类型的系统提示最有用?
- CoT全过程主导地位。
- Role-Based(你是一个XX)在后期比较重要。
- “好”相关的组件(你是一个聪明的助手,很多默认的系统提示)被选择的机会低于随机。
- 不存在一个普遍的顺序,组合更重要。
任务和系统提示优化器是否正在学习相同的策略?
- 系统和任务提示优化都可以提高性能。
- 系统提示和任务提示优化之间有很大互补潜力。
哪种任务收益最大?
- 数学和推理任务最能从系统提示优化中受益。
- 基于知识的任务从提示优化中受益最少。
- 任务提示在提高社交理解方面更有效。
- 系统提示对语言理解任务更有效。