Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability¶

会议: ACL 2025
arXiv: 2506.15629
代码: 无
领域: LLM/NLP
关键词: 组合泛化, 指令遵循, 生成式常识推理, CommonGen, benchmark

一句话总结¶

提出 Ordered CommonGen 基准，通过要求 LLM 按指定顺序生成包含所有概念的句子，同时评估组合泛化与指令遵循能力，在 36 个 LLM 上发现即使最强模型也仅能达到约 75% 的有序覆盖率。

提出 Ordered CommonGen 框架：在 CommonGen 基础上引入概念顺序约束，要求 LLM 生成的句子不仅包含所有概念，还必须按输入中给定的顺序排列这些概念。通过对概念集进行全排列 + 多模板评估，系统性地考察 LLM 的组合泛化与指令遵循能力。

概念覆盖率：Coverage w/o order（忽略顺序）、Coverage w/ order（考虑顺序）、Ordered Rate（有序覆盖百分比）
句子级相似度：Pairwise-BLEU（表面 n-gram 重叠）和 Pairwise-BLEURT（语义相似度），越低表示多样性越好
语料级多样性：Distinct-2（唯一 2-gram 比例）和 Diverse Rate（唯一句子比例）
困惑度：用 GPT2-XL 计算，衡量生成句子的自然性

评测 36 个指令微调 LLM，涵盖 Llama3、Qwen2/2.5、Gemma2、Phi3、Mistral/Mixtral、OLMo2、Tülu3、GPT-3.5/4o、Gemini 等
开源模型使用贪心解码 + 4-bit 量化，闭源模型温度设为 0
对比使用/不使用 "in the specified order" 短语的两种模板，验证指令理解能力

本文为纯评估工作，不涉及模型训练。所有评测在 zero-shot 设置下进行，突出模型归纳推理能力的差异。6 个模板的结果取平均以降低模板选择偏差。

模型	Coverage w/o↑	Coverage w/↑	Ordered Rate↑	Diverse Rate↑
Llama3.1-405B	98.91	74.44 (+55.41)	75.26 (+55.46)	98.28
Llama3.3-70B	97.25	66.79 (+47.34)	68.68 (+48.22)	94.70
GPT-4o	96.70	53.34 (+30.25)	55.16 (+30.49)	86.51
Qwen2-0.5B	53.78	30.84	57.34	96.60
Mixtral-8x7B	77.36	19.67	25.43	98.82

POS 模式	Coverage w/o↑	Ordered Rate↑	Diverse Rate↑
NNNN（纯名词）	91.13	44.88	91.97
VVVV（纯动词）	37.38	63.84	98.17
VNVN	84.83	54.50	89.58

LLM 理解指令意图：在提示中加入 "in the specified order" 后，大多数模型的 w/ order 覆盖率显著提升（如 Llama3.1-405B 提升 +55.41），说明模型能理解并尝试遵循顺序约束
但精确遵循仍有限：即使最强的 Llama3.1-405B 也仅约 75% 的 Ordered Rate，超过 20% 的输出未遵循指定顺序
顺序偏好导致重复输出：部分模型（如 Gemma2-2B）面对同一概念集的不同排列会产生完全相同的句子，反映训练数据中频繁模式的偏置
动词组合更难但顺序遵循更好：VVVV 模式覆盖率仅 37%，但 Ordered Rate 和 Diverse Rate 最高，说明模型在成功生成时更倾向遵循指令
语法多样性提升但语义多样性不足：pBLEU 显著改善而 pBLEURT 改善有限，表明模型优先实现句法组合性而非语义组合性