跳转至

Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability

会议: ACL 2025
arXiv: 2506.15629
代码: 无
领域: LLM/NLP
关键词: 组合泛化, 指令遵循, 生成式常识推理, CommonGen, benchmark

一句话总结

提出 Ordered CommonGen 基准,通过要求 LLM 按指定顺序生成包含所有概念的句子,同时评估组合泛化与指令遵循能力,在 36 个 LLM 上发现即使最强模型也仅能达到约 75% 的有序覆盖率。

研究背景与动机

  1. 生成式常识推理 (GCR) 任务(如 CommonGen)要求模型生成包含所有给定概念的自然句子,但传统评估不考虑概念出现顺序
  2. LLM 在指令微调后具备了一定的指令遵循能力,但在严格遵循约束性指令(如按特定顺序使用概念)时仍表现不足
  3. 在创意文本生成场景(如时间顺序叙事、动作规划、歌词创作)中,概念顺序的改变会显著影响输出的含义和风格
  4. 根据生成语法理论,人类可以按照任意指定顺序组合概念生成合法句子,这种能力是 LLM 尚未完全具备的
  5. 现有 GCR 评估仅关注概念覆盖率,无法反映模型是否真正遵循了用户指令中的顺序约束
  6. 需要一个能同时评估组合泛化与指令遵循两种能力的基准来揭示 LLM 的真实能力边界

方法详解

整体框架

提出 Ordered CommonGen 框架:在 CommonGen 基础上引入概念顺序约束,要求 LLM 生成的句子不仅包含所有概念,还必须按输入中给定的顺序排列这些概念。通过对概念集进行全排列 + 多模板评估,系统性地考察 LLM 的组合泛化与指令遵循能力。

模块一:数据集构建

  • 从 CommonGen-lite 中提取 192 个种子概念集(每组 4 个概念)
  • 对每组生成所有 4! = 24 种排列,共 192 × 24 = 4,608 个概念集
  • 从 FLAN 中选取 CommonGen 的 6 个指令模板作为基础模板
  • 在模板中插入 "in the specified order" 短语,生成 Ordered CommonGen 模板
  • 最终获得 6 × 4,608 = 27,648 个评测实例

模块二:多维度评估指标体系

  • 概念覆盖率:Coverage w/o order(忽略顺序)、Coverage w/ order(考虑顺序)、Ordered Rate(有序覆盖百分比)
  • 句子级相似度:Pairwise-BLEU(表面 n-gram 重叠)和 Pairwise-BLEURT(语义相似度),越低表示多样性越好
  • 语料级多样性:Distinct-2(唯一 2-gram 比例)和 Diverse Rate(唯一句子比例)
  • 困惑度:用 GPT2-XL 计算,衡量生成句子的自然性

模块三:大规模模型评测

  • 评测 36 个指令微调 LLM,涵盖 Llama3、Qwen2/2.5、Gemma2、Phi3、Mistral/Mixtral、OLMo2、Tülu3、GPT-3.5/4o、Gemini 等
  • 开源模型使用贪心解码 + 4-bit 量化,闭源模型温度设为 0
  • 对比使用/不使用 "in the specified order" 短语的两种模板,验证指令理解能力

训练/推理细节

本文为纯评估工作,不涉及模型训练。所有评测在 zero-shot 设置下进行,突出模型归纳推理能力的差异。6 个模板的结果取平均以降低模板选择偏差。

实验

表1:36 个 LLM 的主要评测结果

模型 Coverage w/o↑ Coverage w/↑ Ordered Rate↑ Diverse Rate↑
Llama3.1-405B 98.91 74.44 (+55.41) 75.26 (+55.46) 98.28
Llama3.3-70B 97.25 66.79 (+47.34) 68.68 (+48.22) 94.70
GPT-4o 96.70 53.34 (+30.25) 55.16 (+30.49) 86.51
Qwen2-0.5B 53.78 30.84 57.34 96.60
Mixtral-8x7B 77.36 19.67 25.43 98.82

表2:不同词性 (POS) 模式的性能分析

POS 模式 Coverage w/o↑ Ordered Rate↑ Diverse Rate↑
NNNN(纯名词) 91.13 44.88 91.97
VVVV(纯动词) 37.38 63.84 98.17
VNVN 84.83 54.50 89.58

关键发现

  1. LLM 理解指令意图:在提示中加入 "in the specified order" 后,大多数模型的 w/ order 覆盖率显著提升(如 Llama3.1-405B 提升 +55.41),说明模型能理解并尝试遵循顺序约束
  2. 但精确遵循仍有限:即使最强的 Llama3.1-405B 也仅约 75% 的 Ordered Rate,超过 20% 的输出未遵循指定顺序
  3. 顺序偏好导致重复输出:部分模型(如 Gemma2-2B)面对同一概念集的不同排列会产生完全相同的句子,反映训练数据中频繁模式的偏置
  4. 动词组合更难但顺序遵循更好:VVVV 模式覆盖率仅 37%,但 Ordered Rate 和 Diverse Rate 最高,说明模型在成功生成时更倾向遵循指令
  5. 语法多样性提升但语义多样性不足:pBLEU 显著改善而 pBLEURT 改善有限,表明模型优先实现句法组合性而非语义组合性

亮点

  • 巧妙地将指令遵循能力与组合泛化能力统一到一个评测框架中,设计简洁但揭示深层问题
  • 全排列 + 多模板的评测设计严谨,避免了单一模板偏差,27,648 个实例保证了统计可靠性
  • 提出 Ordered Rate 和 Diverse Rate 两个新评估指标,精确捕捉顺序遵循和输出多样性
  • 36 个模型的大规模实验涵盖主流开闭源 LLM,结论具有广泛参考价值
  • 从语言学(生成语法、使用本位理论)角度解释实验现象,分析有深度

局限

  • 概念集固定为 4 个词,未探索更长或更复杂的概念组合场景
  • 仅在 zero-shot 下评测,未考察 few-shot 示例是否能改善顺序遵循
  • 评测基于英语,组合泛化能力在其他语言中的表现未知
  • 纯评估工作,未提出改善 LLM 指令遵循和组合泛化能力的训练方法
  • Diverse Rate 等指标无法区分 "有意义的多样性" 与 "无关的变化"

相关工作

  • 生成式常识推理:CommonGen (Lin et al., 2020)、CommonGen-lite;关注概念覆盖的约束文本生成
  • 指令遵循评估:FLAN (Wei et al., 2022)、IFEval;衡量 LLM 对显式约束的遵循能力
  • 组合泛化:Lake & Baroni (2018) 提出的系统性组合泛化定义;SCAN、COGS 等形式化基准
  • 语言学理论:Chomsky 生成语法、Jackendoff 语义组合性理论、Bybee 使用本位理论

评分

  • 新颖性: ⭐⭐⭐⭐ — 将指令遵循与组合泛化统一评测的视角新颖
  • 技术深度: ⭐⭐⭐ — 方法本身简洁(全排列+短语插入),技术贡献偏评测
  • 实验充分度: ⭐⭐⭐⭐⭐ — 36 个模型、6 模板、多维度指标,分析非常充分
  • 实用价值: ⭐⭐⭐⭐ — 揭示了 LLM 的组合泛化瓶颈,对约束生成和指令微调研究有直接指导意义