跳转至

ConInstruct: Evaluating Large Language Models on Conflict Detection and Resolution in Instructions

会议: AAAI 2026
arXiv: 2511.14342
代码: GitHub
领域: LLM指令遵循评估
关键词: 指令冲突检测, 冲突解决, 约束满足, 指令遵循, 评测基准

一句话总结

提出 ConInstruct 基准,评估 LLM 在指令包含冲突约束时的检测和解决能力,发现多数专有模型能较好检测冲突但很少主动告知用户,其中 DeepSeek-R1 和 Claude-4.5-Sonnet 在冲突检测上表现最佳(F1 分别达 91.5% 和 87.3%)。

研究背景与动机

  1. 领域现状:指令遵循是 LLM 的核心能力之一,现有研究主要评估模型对一致性指令的服从程度(如 IFEval 的可验证指令、InfoBench 的模型评估),或评估指令层级遵守(系统指令优先于用户指令)。
  2. 现有痛点:现有工作都假设指令内的所有约束是一致且不冲突的。但实际中,用户在编写复杂长指令时经常无意引入冲突约束——例如同时要求"包含某短语"和"输出不超过 50 词"但该短语已经很长。这种场景下 LLM 的行为尚未被系统研究。
  3. 核心矛盾:当指令包含无法同时满足的约束时,理想行为是主动通知用户冲突存在并请求澄清,但模型是否真的会这样做?即使能检测到冲突,是否会在回复中体现?
  4. 本文要解决什么? 系统评估 LLM 的冲突检测能力和冲突解决行为,填补指令遵循研究在冲突场景下的空白。
  5. 切入角度:构建包含 6 种约束类型和 9 种冲突类型的基准数据集,区分"能否检测冲突"和"检测到后如何处理"两个独立问题。
  6. 核心idea一句话:LLM 普遍能检测指令中的冲突但很少主动告知用户——即使是最好的 Claude-4.5-Sonnet 也只在 45% 的情况下显式告知。

方法详解

整体框架

ConInstruct 的构建分三步:(1)准备 100 条涵盖 6 个任务和 35 个领域的种子指令;(2)用 GPT-4o 向每条指令注入 6 种类型的约束(内容、关键词、短语、长度、格式、风格);(3)为每条扩展指令生成 7-9 种冲突对,每个冲突对包含一个原有约束和一个新构造的矛盾约束。两轮人工质控确保冲突的明确性。

关键设计

  1. 6 种约束类型 × 9 种冲突类型:约束类型包括内容(Content)、关键词(Keyword)、短语(Phrase)、长度(Length)、格式(Format)、风格(Style)。冲突分为 6 种同类型冲突(CC, KK, PP, LL, FF, SS)和 3 种跨类型冲突(KP 关键词-短语、PC 短语-内容、PS 短语-风格)。这种分类使得分析可以精确到每种冲突类型的检测能力。

  2. 冲突检测实验设计:将新约束追加到扩展指令末尾,与无冲突指令混合形成实验子集。每个子集包含 100 条无冲突指令和相应数量的含 1 个冲突的指令,构成二分类任务。用 F1 评估检测能力。还可控制冲突数量(1-9 个),分析多冲突下的检测行为变化。

  3. 冲突解决行为分析:将 LLM 面对冲突指令时的回复分为三类——(1)直接生成响应且不提及冲突;(2)请求用户澄清(RequestC);(3)自行解决冲突后响应(ResolveC)。后两类属于"显式告知冲突"的理想行为。统计各模型在不同冲突数量下的行为分布。

  4. 质量控制:两名标注者审查并修正 GPT-4o 生成的扩展指令和冲突对,确保约束合理、冲突明确无歧义。第三名标注者做最终审核。所有标注者独立于研究团队。

损失函数 / 训练策略

纯评测工作,不涉及训练。所有模型使用零样本设置直接评估。

实验关键数据

主实验

单冲突检测 F1(%):

模型 CC KK PP LL FF SS KP PC PS 平均
GPT-4o 91.9 91.3 88.7 88.1 79.8 89.8 75.1 83.7 76.1 84.9
Claude-4.5-Sonnet 88.5 88.5 88.5 86.0 86.5 88.5 88.5 86.8 83.6 87.3
Claude-3.5-Sonnet 95.7 93.1 93.1 90.5 90.5 93.1 60.3 89.8 73.6 86.6
DeepSeek-R1 93.1 94.1 93.6 93.1 88.1 94.1 93.1 89.1 85.3 91.5
Llama-3.1-8B 70.9 68.3 68.3 63.3 65.6 66.7 62.7 68.9 58.8 65.9

DeepSeek-R1 以 91.5% 平均 F1 位居第一,是唯一能与专有模型匹敌的开源模型。

消融实验

冲突解决行为分析(GPT-4o,按冲突数量):

冲突数 直接生成(不告知冲突) 请求澄清 自主解决
1-2 97.5% ~2% <1%
3-4 ~90% ~8% ~2%
7-9 ~70% ~25% ~5%

Claude-4.5-Sonnet 冲突解决行为最佳:

冲突数 直接生成 请求澄清 自主解决
1-2 ~55% ~36% ~9%
7-9 ~20% ~65% ~15%

关键发现

  • 同类冲突(intra)通常比跨类冲突(inter)更容易检测:intra 平均 F1 普遍高于 inter
  • 格式冲突(FF)和短语-风格冲突(PS)是最难检测的类型
  • 冲突数量增加反而使检测变容易——多个冲突提供了更多信号
  • 开源模型中只有 DeepSeek-R1 能达到专有模型水平,小模型(Llama-1B/3B)表现很差
  • 即使是最好的模型,面对少量冲突时也倾向于默默生成而非告知用户

亮点与洞察

  • 填补了指令遵循评估中"冲突场景"的重要空白
  • "能检测但不告知"的发现意义重大——说明当前 LLM 的安全对齐未充分考虑冲突场景
  • 6×9 的约束-冲突类型矩阵设计精细,支持细粒度能力分析
  • Claude 的"请求澄清"行为(36%)远超其他模型,体现了更好的用户交互设计

局限性 / 可改进方向

  • 冲突约束追加在指令末尾,位置固定可能使检测偏简单;更自然的冲突嵌入方式有待探索
  • 100 条种子指令规模较小,可能限制结论的泛化性
  • 未评估冲突解决的质量——当模型自主解决冲突时,解决方案是否合理?
  • 仅覆盖 6 种约束类型,实际指令中的冲突形式更加多样(如语义冲突、逻辑冲突)
  • 未探索如何通过训练让模型改善冲突告知行为

相关工作与启发

  • vs IFEval: IFEval 评估无冲突指令的遵循率,ConInstruct 关注有冲突时的行为,二者互补
  • vs FollowBench: FollowBench 用多层级约束评估遵循能力但假设约束不冲突,ConInstruct 打破这一假设
  • vs 指令层级研究: 指令层级关注系统指令 vs 用户指令的优先级冲突,ConInstruct 关注同一指令内的约束冲突,维度不同

评分

  • 新颖性: ⭐⭐⭐⭐ 指令冲突检测与解决是全新的评估维度,问题定义清晰
  • 实验充分度: ⭐⭐⭐⭐ 涵盖多种专有和开源模型,冲突类型分析细致,但缺少对冲突解决质量的评估
  • 写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰、图表直观、问题动机引人入胜
  • 价值: ⭐⭐⭐⭐ 指出了当前 LLM 指令遵循中的重要盲区,对模型安全性和用户体验改进有启发