ConInstruct: Evaluating Large Language Models on Conflict Detection and Resolution in Instructions¶

会议: AAAI 2026
arXiv: 2511.14342
代码: GitHub
领域: LLM指令遵循评估
关键词: 指令冲突检测, 冲突解决, 约束满足, 指令遵循, 评测基准

一句话总结¶

提出 ConInstruct 基准，评估 LLM 在指令包含冲突约束时的检测和解决能力，发现多数专有模型能较好检测冲突但很少主动告知用户，其中 DeepSeek-R1 和 Claude-4.5-Sonnet 在冲突检测上表现最佳（F1 分别达 91.5% 和 87.3%）。

研究背景与动机¶

领域现状：指令遵循是 LLM 的核心能力之一，现有研究主要评估模型对一致性指令的服从程度（如 IFEval 的可验证指令、InfoBench 的模型评估），或评估指令层级遵守（系统指令优先于用户指令）。
现有痛点：现有工作都假设指令内的所有约束是一致且不冲突的。但实际中，用户在编写复杂长指令时经常无意引入冲突约束——例如同时要求"包含某短语"和"输出不超过 50 词"但该短语已经很长。这种场景下 LLM 的行为尚未被系统研究。
核心矛盾：当指令包含无法同时满足的约束时，理想行为是主动通知用户冲突存在并请求澄清，但模型是否真的会这样做？即使能检测到冲突，是否会在回复中体现？
本文要解决什么？ 系统评估 LLM 的冲突检测能力和冲突解决行为，填补指令遵循研究在冲突场景下的空白。
切入角度：构建包含 6 种约束类型和 9 种冲突类型的基准数据集，区分"能否检测冲突"和"检测到后如何处理"两个独立问题。
核心idea一句话：LLM 普遍能检测指令中的冲突但很少主动告知用户——即使是最好的 Claude-4.5-Sonnet 也只在 45% 的情况下显式告知。

方法详解¶

整体框架¶

ConInstruct 的构建分三步：（1）准备 100 条涵盖 6 个任务和 35 个领域的种子指令；（2）用 GPT-4o 向每条指令注入 6 种类型的约束（内容、关键词、短语、长度、格式、风格）；（3）为每条扩展指令生成 7-9 种冲突对，每个冲突对包含一个原有约束和一个新构造的矛盾约束。两轮人工质控确保冲突的明确性。

关键设计¶

6 种约束类型 × 9 种冲突类型：约束类型包括内容（Content）、关键词（Keyword）、短语（Phrase）、长度（Length）、格式（Format）、风格（Style）。冲突分为 6 种同类型冲突（CC, KK, PP, LL, FF, SS）和 3 种跨类型冲突（KP 关键词-短语、PC 短语-内容、PS 短语-风格）。这种分类使得分析可以精确到每种冲突类型的检测能力。
冲突检测实验设计：将新约束追加到扩展指令末尾，与无冲突指令混合形成实验子集。每个子集包含 100 条无冲突指令和相应数量的含 1 个冲突的指令，构成二分类任务。用 F1 评估检测能力。还可控制冲突数量（1-9 个），分析多冲突下的检测行为变化。
冲突解决行为分析：将 LLM 面对冲突指令时的回复分为三类——（1）直接生成响应且不提及冲突；（2）请求用户澄清（RequestC）；（3）自行解决冲突后响应（ResolveC）。后两类属于"显式告知冲突"的理想行为。统计各模型在不同冲突数量下的行为分布。
质量控制：两名标注者审查并修正 GPT-4o 生成的扩展指令和冲突对，确保约束合理、冲突明确无歧义。第三名标注者做最终审核。所有标注者独立于研究团队。

损失函数 / 训练策略¶

纯评测工作，不涉及训练。所有模型使用零样本设置直接评估。

实验关键数据¶

主实验¶

单冲突检测 F1（%）：

模型	CC	KK	PP	LL	FF	SS	KP	PC	PS	平均
GPT-4o	91.9	91.3	88.7	88.1	79.8	89.8	75.1	83.7	76.1	84.9
Claude-4.5-Sonnet	88.5	88.5	88.5	86.0	86.5	88.5	88.5	86.8	83.6	87.3
Claude-3.5-Sonnet	95.7	93.1	93.1	90.5	90.5	93.1	60.3	89.8	73.6	86.6
DeepSeek-R1	93.1	94.1	93.6	93.1	88.1	94.1	93.1	89.1	85.3	91.5
Llama-3.1-8B	70.9	68.3	68.3	63.3	65.6	66.7	62.7	68.9	58.8	65.9

DeepSeek-R1 以 91.5% 平均 F1 位居第一，是唯一能与专有模型匹敌的开源模型。

消融实验¶

冲突解决行为分析（GPT-4o，按冲突数量）：

冲突数	直接生成（不告知冲突）	请求澄清	自主解决
1-2	97.5%	~2%	<1%
3-4	~90%	~8%	~2%
7-9	~70%	~25%	~5%

Claude-4.5-Sonnet 冲突解决行为最佳：

冲突数	直接生成	请求澄清	自主解决
1-2	~55%	~36%	~9%
7-9	~20%	~65%	~15%

关键发现¶

同类冲突（intra）通常比跨类冲突（inter）更容易检测：intra 平均 F1 普遍高于 inter
格式冲突（FF）和短语-风格冲突（PS）是最难检测的类型
冲突数量增加反而使检测变容易——多个冲突提供了更多信号
开源模型中只有 DeepSeek-R1 能达到专有模型水平，小模型（Llama-1B/3B）表现很差
即使是最好的模型，面对少量冲突时也倾向于默默生成而非告知用户

亮点与洞察¶

填补了指令遵循评估中"冲突场景"的重要空白
"能检测但不告知"的发现意义重大——说明当前 LLM 的安全对齐未充分考虑冲突场景
6×9 的约束-冲突类型矩阵设计精细，支持细粒度能力分析
Claude 的"请求澄清"行为（36%）远超其他模型，体现了更好的用户交互设计

局限性 / 可改进方向¶

冲突约束追加在指令末尾，位置固定可能使检测偏简单；更自然的冲突嵌入方式有待探索
100 条种子指令规模较小，可能限制结论的泛化性
未评估冲突解决的质量——当模型自主解决冲突时，解决方案是否合理？
仅覆盖 6 种约束类型，实际指令中的冲突形式更加多样（如语义冲突、逻辑冲突）
未探索如何通过训练让模型改善冲突告知行为

评分¶

新颖性: ⭐⭐⭐⭐ 指令冲突检测与解决是全新的评估维度，问题定义清晰
实验充分度: ⭐⭐⭐⭐ 涵盖多种专有和开源模型，冲突类型分析细致，但缺少对冲突解决质量的评估
写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰、图表直观、问题动机引人入胜
价值: ⭐⭐⭐⭐ 指出了当前 LLM 指令遵循中的重要盲区，对模型安全性和用户体验改进有启发