跳转至

GuideBench: Benchmarking Domain-Oriented Guideline Following for LLM Agents

会议: ACL 2025
arXiv: 2505.11368
代码: https://github.com/Dlxxx/GuideBench
领域: LLM Agent
关键词: Guideline Following, Benchmark, Domain-Oriented Agent, Instruction Following, Rule Compliance

一句话总结

提出 GuideBench 基准测试,系统评估 LLM 在领域导向指南遵循方面的能力,覆盖 7 个任务类别共 1272 个实例,从规则遵循、规则更新鲁棒性和人类偏好对齐三个维度评估 18 个 LLM,发现当前模型在复杂领域规则遵循上仍有较大提升空间。

研究背景与动机

LLM 越来越多地被部署为自主 Agent,在运维、审计、流程优化等领域执行任务。现有的指令遵循(instruction following)基准测试主要聚焦于通用领域,依赖 LLM 内建的常识知识来评估模型能力。然而,领域导向的 Agent 面临的核心挑战与此截然不同:

  1. 领域规则(Domain Rules):指南包含大量基于领域知识的规则,可能涉及组合、条件或嵌套关系,且可能与 LLM 的常识知识相冲突。例如,在电商场景下,两个产品是否"相同"可能由特定的商业规则定义,而非常识判断。
  2. 频繁更新(Frequent Updates):领域指南会随着标准和法规的变化不断更新,LLM Agent 必须能适应这些变化。

如图 1 所示,同一个判断产品是否相同的任务,在指南规则 #1 → #2 的更新后,正确答案可能完全不同。当前缺乏针对这种场景的综合基准测试,阻碍了 LLM Agent 在领域部署中的有效评估和改进。

方法详解

整体框架

GuideBench 的构建和评估包含以下核心部分:

  • 7 个任务类别:audit algorithm(审计算法)、price matching(价格匹配)、text relevance(文本相关性)、math(数学)、agent chatting(对话 Agent)、summarization(摘要)、hallucination detection(幻觉检测)
  • 1272 个任务实例:通过自动合成 + 人工精修生成
  • 三个评估维度:(i) 规则遵循、(ii) 规则更新鲁棒性、(iii) 人类偏好对齐
  • 两种任务格式:多选题(agent chatting、summarization、hallucination detection)和问答题(audit algorithm、price matching、text relevance、math)

关键设计

数据构建流程

GuideBench 的数据构建分四个阶段:

1. Data Collection(数据收集): - 确定 7 个对运营应用最有价值且研究不足的类别 - 从实际用例中手动提取 seed instructions - 派生领域特定指令和基本指南

2. Guideline Rule Generation(指南规则生成): - 基于系统 prompt 提取关键元素,包括任务目标、输入输出规范和规则构建要求 - 每条规则由条件部分(触发条件)和操作部分(执行动作)组成 - 对规则进行分类和多样化,使用 GPT-4o 去重 + 人工审查 - 最终得到 537 条指南规则

3. Guideline Construction(指南组装): - Random Selection:在同一领域内随机选择 \(k\) 条规则 - Diversity-based Selection:优先选择不同类型的规则确保多样性 - Semantic-based Selection:利用 LLM 根据整体指令选择语义连贯的规则 - 使用 LLM 修改规则以模拟指南更新场景

4. Multi-Response Generation(多回复生成): - 将生成的指南作为 prompt 的一部分,让 LLM 生成上下文 - 组装问题并生成多选项答案

数据质量控制

  • LLM 过滤:在规则生成阶段消除重复和低质量规则
  • 人类标注:由 AI 和计算机科学背景的领域专家执行全面审查,校正最优选项和参考答案

任务设计思路

每个任务包含四个组件: - Instruction:总体任务目标 - Guidelines:一组领域特定规则 - Context:相关文本段落 - Multiple Options(可选):LLM 生成的多样化回应

损失函数 / 训练策略

GuideBench 是评估基准,不涉及模型训练。评估采用准确率作为核心指标,对多选题评估正确选项的选择准确率,对问答题评估生成答案与参考答案的一致性。

实验关键数据

主实验

18 个 LLM 的评估结果(Overall Accuracy %)

模型 总体 Audit Price Text Math Agent Summ. Halluc.
Deepseek-R1 87.26 93.04 80.32 84.90 65.38 98.89 89.66 96.61
GPT-4o 86.48 96.52 84.84 81.25 13.46 100 82.76 94.92
Deepseek-V3 83.96 97.39 91.18 53.65 5.77 98.89 77.59 94.92
o1 79.17 73.48 76.24 79.69 48.08 92.78 81.03 92.37
GPT-4o* 80.90 94.78 74.66 80.21 7.69 95.56 68.97 94.07
Gemini2.5-pro-exp 80.90 90.00 75.79 85.94 44.23 80.00 87.93 93.22
Yi-1.5-6B 56.05 50.43 66.29 43.75 7.69 66.11 20.69 72.03
Mistral-7B 69.58 86.52 66.06 77.60 1.92 58.33 58.62 88.98
Gemma-3-4b-it 61.71 58.70 56.11 75.00 0 76.67 72.41

关键观察: - Math 任务最具挑战性:几乎所有模型在 Math 上的得分极低,GPT-4o 仅 13.46%,Deepseek-V3 更是只有 5.77%,只有 Deepseek-R1 达到 65.38%。 - Agent Chatting 相对容易:GPT-4o 在此任务上达到 100%。 - 小模型表现显著劣于大模型:Yi-1.5-6B 总体仅 56.05%。

关键发现

  1. 指南的关键作用:没有指南时模型只能依赖常识,可能导致与领域规则冲突的判断。实验证明移除指南后性能显著下降,说明外部领域知识对正确决策至关重要。

  2. Chain-of-Thought 的收益:CoT 在复杂任务(如 math、audit algorithm)上带来显著提升,但在简单任务上收益有限。这说明对于需要多步推理的领域规则,显式思维链是必要的。

  3. 规则更新的鲁棒性:规则修改后,模型需要适应新规则而非依赖旧有认知。实验表明当前 LLM 在处理规则更新时普遍存在困难,尤其是当新规则与常识冲突时。

  4. 错误分析

  5. 规则冲突错误:模型倾向于遵循内部常识而非外部规则
  6. 规则遗漏错误:在大量规则中忽略了某些关键规则
  7. 推理链断裂:在条件嵌套规则上容易出错

亮点与洞察

  1. 切中实际部署痛点:领域 Agent 最大的问题不是能不能理解指令,而是能不能严格按照不断更新的业务规则行事。GuideBench 精准抓住了这一问题。
  2. 系统化的评估体系:三维度评估(遵循、鲁棒性、偏好对齐)+ 两种任务格式(多选、问答)构成了全面的评估矩阵。
  3. 自动化数据构建流水线:从规则生成到质量验证的全流程自动化 pipeline,具有良好的可扩展性,可方便地增加新的任务领域。
  4. 深刻的启示:Math 任务上的极低得分暴露了 LLM 在严格逻辑推理方面的根本不足——即使是最强的推理模型 Deepseek-R1 也只有 65.38%。

局限性

  1. 领域覆盖有限:虽然涵盖 7 个类别,但现实中的领域远多于此,如医疗、法律、金融等专业性更强的领域未覆盖。
  2. 规则复杂度有限:537 条规则虽已不少,但实际业务系统中的规则可能多达数千条,且存在更复杂的依赖关系。
  3. 评估依赖 LLM:部分质量控制和评估环节依赖 GPT-4o,可能引入与被评估模型相关的偏差。
  4. 静态评估:未考虑 Agent 在多轮交互中逐步理解和应用规则的动态过程。

相关工作与启发

  • 指令遵循基准:IFEval (Zhou et al., 2023a)、ComplexBench (Wen et al., 2024)、RuleBench (Sun et al., 2024) 聚焦通用指令遵循,本文将其扩展到领域特定规则。
  • LLM Agent:多项 Agent 研究探索了 LLM 在工程、自然科学和社会科学中的应用,但对规则遵循的系统评估缺失。
  • 反事实推理:Xu et al. (2024b)、Xie et al. (2024) 探讨了 LLM 处理与常识冲突信息的能力,与本文领域规则冲突的问题相关。
  • 启发:对于 LLM Agent 的部署,仅提升通用指令遵循能力是不够的,必须发展专门的领域规则适配能力,这可能需要新的训练范式(如 rule-conditioned instruction tuning)。

评分

维度 分数 (1-5)
创新性 3.5
技术深度 3.5
实验充分性 4.5
实用价值 4.5
写作质量 4
总体评分 4.0