Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability¶
会议: ACL 2025
arXiv: 2506.15629
代码: 无
领域: LLM/NLP
关键词: 组合泛化, 指令遵循, 生成式常识推理, CommonGen, benchmark
一句话总结¶
提出 Ordered CommonGen 基准,通过要求 LLM 按指定顺序生成包含所有概念的句子,同时评估组合泛化与指令遵循能力,在 36 个 LLM 上发现即使最强模型也仅能达到约 75% 的有序覆盖率。
研究背景与动机¶
- 生成式常识推理 (GCR) 任务(如 CommonGen)要求模型生成包含所有给定概念的自然句子,但传统评估不考虑概念出现顺序
- LLM 在指令微调后具备了一定的指令遵循能力,但在严格遵循约束性指令(如按特定顺序使用概念)时仍表现不足
- 在创意文本生成场景(如时间顺序叙事、动作规划、歌词创作)中,概念顺序的改变会显著影响输出的含义和风格
- 根据生成语法理论,人类可以按照任意指定顺序组合概念生成合法句子,这种能力是 LLM 尚未完全具备的
- 现有 GCR 评估仅关注概念覆盖率,无法反映模型是否真正遵循了用户指令中的顺序约束
- 需要一个能同时评估组合泛化与指令遵循两种能力的基准来揭示 LLM 的真实能力边界
方法详解¶
整体框架¶
提出 Ordered CommonGen 框架:在 CommonGen 基础上引入概念顺序约束,要求 LLM 生成的句子不仅包含所有概念,还必须按输入中给定的顺序排列这些概念。通过对概念集进行全排列 + 多模板评估,系统性地考察 LLM 的组合泛化与指令遵循能力。
模块一:数据集构建¶
- 从 CommonGen-lite 中提取 192 个种子概念集(每组 4 个概念)
- 对每组生成所有 4! = 24 种排列,共 192 × 24 = 4,608 个概念集
- 从 FLAN 中选取 CommonGen 的 6 个指令模板作为基础模板
- 在模板中插入 "in the specified order" 短语,生成 Ordered CommonGen 模板
- 最终获得 6 × 4,608 = 27,648 个评测实例
模块二:多维度评估指标体系¶
- 概念覆盖率:Coverage w/o order(忽略顺序)、Coverage w/ order(考虑顺序)、Ordered Rate(有序覆盖百分比)
- 句子级相似度:Pairwise-BLEU(表面 n-gram 重叠)和 Pairwise-BLEURT(语义相似度),越低表示多样性越好
- 语料级多样性:Distinct-2(唯一 2-gram 比例)和 Diverse Rate(唯一句子比例)
- 困惑度:用 GPT2-XL 计算,衡量生成句子的自然性
模块三:大规模模型评测¶
- 评测 36 个指令微调 LLM,涵盖 Llama3、Qwen2/2.5、Gemma2、Phi3、Mistral/Mixtral、OLMo2、Tülu3、GPT-3.5/4o、Gemini 等
- 开源模型使用贪心解码 + 4-bit 量化,闭源模型温度设为 0
- 对比使用/不使用 "in the specified order" 短语的两种模板,验证指令理解能力
训练/推理细节¶
本文为纯评估工作,不涉及模型训练。所有评测在 zero-shot 设置下进行,突出模型归纳推理能力的差异。6 个模板的结果取平均以降低模板选择偏差。
实验¶
表1:36 个 LLM 的主要评测结果¶
| 模型 | Coverage w/o↑ | Coverage w/↑ | Ordered Rate↑ | Diverse Rate↑ |
|---|---|---|---|---|
| Llama3.1-405B | 98.91 | 74.44 (+55.41) | 75.26 (+55.46) | 98.28 |
| Llama3.3-70B | 97.25 | 66.79 (+47.34) | 68.68 (+48.22) | 94.70 |
| GPT-4o | 96.70 | 53.34 (+30.25) | 55.16 (+30.49) | 86.51 |
| Qwen2-0.5B | 53.78 | 30.84 | 57.34 | 96.60 |
| Mixtral-8x7B | 77.36 | 19.67 | 25.43 | 98.82 |
表2:不同词性 (POS) 模式的性能分析¶
| POS 模式 | Coverage w/o↑ | Ordered Rate↑ | Diverse Rate↑ |
|---|---|---|---|
| NNNN(纯名词) | 91.13 | 44.88 | 91.97 |
| VVVV(纯动词) | 37.38 | 63.84 | 98.17 |
| VNVN | 84.83 | 54.50 | 89.58 |
关键发现¶
- LLM 理解指令意图:在提示中加入 "in the specified order" 后,大多数模型的 w/ order 覆盖率显著提升(如 Llama3.1-405B 提升 +55.41),说明模型能理解并尝试遵循顺序约束
- 但精确遵循仍有限:即使最强的 Llama3.1-405B 也仅约 75% 的 Ordered Rate,超过 20% 的输出未遵循指定顺序
- 顺序偏好导致重复输出:部分模型(如 Gemma2-2B)面对同一概念集的不同排列会产生完全相同的句子,反映训练数据中频繁模式的偏置
- 动词组合更难但顺序遵循更好:VVVV 模式覆盖率仅 37%,但 Ordered Rate 和 Diverse Rate 最高,说明模型在成功生成时更倾向遵循指令
- 语法多样性提升但语义多样性不足:pBLEU 显著改善而 pBLEURT 改善有限,表明模型优先实现句法组合性而非语义组合性
亮点¶
- 巧妙地将指令遵循能力与组合泛化能力统一到一个评测框架中,设计简洁但揭示深层问题
- 全排列 + 多模板的评测设计严谨,避免了单一模板偏差,27,648 个实例保证了统计可靠性
- 提出 Ordered Rate 和 Diverse Rate 两个新评估指标,精确捕捉顺序遵循和输出多样性
- 36 个模型的大规模实验涵盖主流开闭源 LLM,结论具有广泛参考价值
- 从语言学(生成语法、使用本位理论)角度解释实验现象,分析有深度
局限¶
- 概念集固定为 4 个词,未探索更长或更复杂的概念组合场景
- 仅在 zero-shot 下评测,未考察 few-shot 示例是否能改善顺序遵循
- 评测基于英语,组合泛化能力在其他语言中的表现未知
- 纯评估工作,未提出改善 LLM 指令遵循和组合泛化能力的训练方法
- Diverse Rate 等指标无法区分 "有意义的多样性" 与 "无关的变化"
相关工作¶
- 生成式常识推理:CommonGen (Lin et al., 2020)、CommonGen-lite;关注概念覆盖的约束文本生成
- 指令遵循评估:FLAN (Wei et al., 2022)、IFEval;衡量 LLM 对显式约束的遵循能力
- 组合泛化:Lake & Baroni (2018) 提出的系统性组合泛化定义;SCAN、COGS 等形式化基准
- 语言学理论:Chomsky 生成语法、Jackendoff 语义组合性理论、Bybee 使用本位理论
评分¶
- 新颖性: ⭐⭐⭐⭐ — 将指令遵循与组合泛化统一评测的视角新颖
- 技术深度: ⭐⭐⭐ — 方法本身简洁(全排列+短语插入),技术贡献偏评测
- 实验充分度: ⭐⭐⭐⭐⭐ — 36 个模型、6 模板、多维度指标,分析非常充分
- 实用价值: ⭐⭐⭐⭐ — 揭示了 LLM 的组合泛化瓶颈,对约束生成和指令微调研究有直接指导意义