Generalizing Verifiable Instruction Following¶

会议: NeurIPS 2025 arXiv: 2507.02833 代码: 有领域: 强化学习 关键词: 指令遵循, 可验证约束, RLVR, GRPO, 泛化能力

一句话总结¶

引入IFBench基准评估精确指令遵循的泛化能力，证明当前SOTA模型严重过拟合于IFEval的25种约束模板，并提出IF-RLVR训练方法（基于GRPO + 可验证奖励）显著提升域内外指令遵循性能。

研究背景与动机¶

精确遵循指令（Precise Instruction Following, IF）是LLM与人类有效交互的关键能力。用户经常在指令中包含输出约束，如"只用是或否回答"、"提到'abracadabra'至少3次"等。IFEval是最流行的评估基准，包含25种可验证约束模板，但该基准已趋于饱和——许多2B参数的模型都能达到80%以上。

核心发现：大多数模型严重过拟合于IFEval的25种约束，无法泛化到未见过的输出约束。这是因为主流训练方法（如Nemotron-4的技术报告所述）直接从IFEval分类法生成合成指令遵循数据。本文通过创建IFBench来揭示这一过拟合现象：在IFBench上，GPT-4.1和Claude 3.7 Sonnet等领先模型得分低于50%。

方法详解¶

整体框架¶

本文的工作包含三个相互关联的贡献：

IFBench（评估）：58种新的、多样化的、具有挑战性的可验证约束，覆盖counting、ratio、words、sentence、format、custom、copy 7个类别
IFTrain（训练约束）：29种新的手工标注训练约束及其验证函数
IF-RLVR（训练方法）：使用GRPO + 可验证奖励进行RL训练

关键设计¶

IFBench基准构建¶

约束来源：从LM用户反馈收集 + 手工编写覆盖核心IF技能
筛选标准：每个约束必须配有Python验证函数，确保可复现评估
测试Prompt构建：将实例化的约束添加到WildChat中未公开的Prompt上，防止train-test泄露
评估设置：300条Prompt，每条1-2个约束
Single-turn：指令 + 约束一次性给出
Multi-turn：先回答指令，第二轮要求改写以满足约束

关键约束示例：维持2:1的陈述句与疑问句比例、只使用唯一单词、复制输入的特定部分等

IF-RLVR训练流程¶

数据构造： - 从Tülu-3-SFT随机采样Prompt - 为每个Prompt附加1到 $n$ 个约束（$n \in \{1,2,3,4,5,6\}$） - 使用IFTrain和扩展变量范围的IFEval约束 - 维护约束冲突字典防止矛盾约束组合 - 生成约60k-100k个训练Prompt

训练： - 使用GRPO（Group Region Policy Optimization）进行outcome supervision - 每个输出根据约束是否满足进行评分

损失函数 / 训练策略¶

多约束奖励函数： $$\text{Instance Reward} = \sum_{i=1}^{n} \text{verifiable\_reward}_i \cdot \text{reward\_multiplier}_i \cdot \text{reward\_weight}_i$$

其中reward multiplier和weight一般设为1，可用于上调/下调特定奖励。

训练超参数：max_token_length=2048, temperature=1, lr=5e-7, 16 samples/prompt, 8 H100 GPUs, local mini-batch=32, 约2000步训练（约1天）。Base模型使用推理chat template：max_token_length=10240, beta=0。

实验关键数据¶

主实验¶

SOTA模型在IFEval vs IFBench的巨大差距：

模型	IFEval (%)	IFBench (%)
o3	~95	~55
Claude 4 Sonnet	~90	<50
Qwen3-32B	~90	<50
GPT-4.1	~88	<50

IF-RLVR训练效果：

模型	IFEval 训前→训后	IFBench 训前→训后
Tülu-3-8B-DPO	82.4 → 92.2	28.9 → 44.6
Qwen2.5-7B (base)	N/A → 87.8	N/A → 53.7
Llama3.1-8B (base)	N/A → 88.2	N/A → 54.1
OLMo2-instruct	61.7 → 74.5	16.7 → 44.6

消融实验¶

多约束训练效果（Qwen2.5策略）：

每Prompt约束数	IFBench	IFEval
1	48.9	71.2
2	53.1	79.9
3	59.5	77.8
5	55.8	79.9
6	54.1	85.8

训练约束数量影响：增加IFTrain（域外）和IFEval（域内）约束的组合训练效果最好。仅用29个域外约束已能提升IFBench，加上全部25个IFEval约束获得最高IFEval分数。

变量范围泛化：使用更宽变量范围训练（包含且扩展测试范围）的效果 ≥ 使用相同范围训练 > 使用不相交范围训练。

GRPO vs DPO对比（同数据同策略）：

训练方法	IFEval	IFBench
DPO after DPO	79.67	29.3
GRPO after DPO	89.65	30.6

Base vs Instruct模型IF-RLVR训练：Base模型 + 推理chat template在IFBench泛化更好（54.1 vs 44.6），说明RLVR+推理有利于IF泛化。

关键发现¶

严重过拟合现象：SOTA模型在IFEval达90%+但IFBench不到50%
约束多样性是关键：增加训练约束种类和每Prompt约束数显著提升泛化
GRPO >> DPO：相同数据下GRPO始终优于DPO，因为RLVR可为任意难度Prompt获得准确信号
约束 vs 任务的权衡：IF-RLVR训练后模型倾向优先满足约束而牺牲回答质量（LLM-as-judge评分从7.0降至6.4）
Base模型RLVR可行：无需SFT/DPO预训练，Base模型直接RLVR即可获得强IF能力

亮点与洞察¶

揭示泛化幻觉：IFEval饱和不代表IF能力强，仅代表对25种约束的记忆
IFBench挑战长尾约束：涵盖counting、ratio、copy等模型真正薄弱的技能
RLVR的独特优势：相比DPO需要chosen/rejected对（生成困难），RLVR只需验证函数即可对任意难度Prompt生成训练信号
指令层级发现：不同模型对约束和任务的优先级排序不同——Qwen2.5倾向约束优先，Tülu-3倾向任务优先
多轮训练：混合单轮+多轮数据训练效果最佳

局限性 / 可改进方向¶

仅关注可验证约束，许多真实用户约束难以自动验证
部分约束可能显得不自然或刻意
IF-RLVR训练会轻微损害其他下游任务（如AlpacaEval）
约束与任务冲突时的平衡策略需进一步探索——建议加入偏好奖励模型信号
未探索如何将IF-RLVR与数学/编码等其他RLVR任务联合训练

评分¶

创新性: ★★★★☆ — IFBench填补重要空白，IF-RLVR训练方法系统全面
实验充分性: ★★★★★ — 消融极其详尽：约束数、变量范围、训练方法、多轮设置等
实用价值: ★★★★★ — IFBench + IFTrain + IF-RLVR代码全部开源，可直接复用
写作质量: ★★★★☆ — 内容丰富但信息密度极高，部分实验需要仔细对照