GuideBench: Benchmarking Domain-Oriented Guideline Following for LLM Agents¶
会议: ACL 2025
arXiv: 2505.11368
代码: https://github.com/Dlxxx/GuideBench
领域: LLM Agent
关键词: Guideline Following, Benchmark, Domain-Oriented Agent, Instruction Following, Rule Compliance
一句话总结¶
提出 GuideBench 基准测试,系统评估 LLM 在领域导向指南遵循方面的能力,覆盖 7 个任务类别共 1272 个实例,从规则遵循、规则更新鲁棒性和人类偏好对齐三个维度评估 18 个 LLM,发现当前模型在复杂领域规则遵循上仍有较大提升空间。
研究背景与动机¶
LLM 越来越多地被部署为自主 Agent,在运维、审计、流程优化等领域执行任务。现有的指令遵循(instruction following)基准测试主要聚焦于通用领域,依赖 LLM 内建的常识知识来评估模型能力。然而,领域导向的 Agent 面临的核心挑战与此截然不同:
- 领域规则(Domain Rules):指南包含大量基于领域知识的规则,可能涉及组合、条件或嵌套关系,且可能与 LLM 的常识知识相冲突。例如,在电商场景下,两个产品是否"相同"可能由特定的商业规则定义,而非常识判断。
- 频繁更新(Frequent Updates):领域指南会随着标准和法规的变化不断更新,LLM Agent 必须能适应这些变化。
如图 1 所示,同一个判断产品是否相同的任务,在指南规则 #1 → #2 的更新后,正确答案可能完全不同。当前缺乏针对这种场景的综合基准测试,阻碍了 LLM Agent 在领域部署中的有效评估和改进。
方法详解¶
整体框架¶
GuideBench 的构建和评估包含以下核心部分:
- 7 个任务类别:audit algorithm(审计算法)、price matching(价格匹配)、text relevance(文本相关性)、math(数学)、agent chatting(对话 Agent)、summarization(摘要)、hallucination detection(幻觉检测)
- 1272 个任务实例:通过自动合成 + 人工精修生成
- 三个评估维度:(i) 规则遵循、(ii) 规则更新鲁棒性、(iii) 人类偏好对齐
- 两种任务格式:多选题(agent chatting、summarization、hallucination detection)和问答题(audit algorithm、price matching、text relevance、math)
关键设计¶
数据构建流程¶
GuideBench 的数据构建分四个阶段:
1. Data Collection(数据收集): - 确定 7 个对运营应用最有价值且研究不足的类别 - 从实际用例中手动提取 seed instructions - 派生领域特定指令和基本指南
2. Guideline Rule Generation(指南规则生成): - 基于系统 prompt 提取关键元素,包括任务目标、输入输出规范和规则构建要求 - 每条规则由条件部分(触发条件)和操作部分(执行动作)组成 - 对规则进行分类和多样化,使用 GPT-4o 去重 + 人工审查 - 最终得到 537 条指南规则
3. Guideline Construction(指南组装): - Random Selection:在同一领域内随机选择 \(k\) 条规则 - Diversity-based Selection:优先选择不同类型的规则确保多样性 - Semantic-based Selection:利用 LLM 根据整体指令选择语义连贯的规则 - 使用 LLM 修改规则以模拟指南更新场景
4. Multi-Response Generation(多回复生成): - 将生成的指南作为 prompt 的一部分,让 LLM 生成上下文 - 组装问题并生成多选项答案
数据质量控制¶
- LLM 过滤:在规则生成阶段消除重复和低质量规则
- 人类标注:由 AI 和计算机科学背景的领域专家执行全面审查,校正最优选项和参考答案
任务设计思路¶
每个任务包含四个组件: - Instruction:总体任务目标 - Guidelines:一组领域特定规则 - Context:相关文本段落 - Multiple Options(可选):LLM 生成的多样化回应
损失函数 / 训练策略¶
GuideBench 是评估基准,不涉及模型训练。评估采用准确率作为核心指标,对多选题评估正确选项的选择准确率,对问答题评估生成答案与参考答案的一致性。
实验关键数据¶
主实验¶
18 个 LLM 的评估结果(Overall Accuracy %):
| 模型 | 总体 | Audit | Price | Text | Math | Agent | Summ. | Halluc. |
|---|---|---|---|---|---|---|---|---|
| Deepseek-R1 | 87.26 | 93.04 | 80.32 | 84.90 | 65.38 | 98.89 | 89.66 | 96.61 |
| GPT-4o | 86.48 | 96.52 | 84.84 | 81.25 | 13.46 | 100 | 82.76 | 94.92 |
| Deepseek-V3 | 83.96 | 97.39 | 91.18 | 53.65 | 5.77 | 98.89 | 77.59 | 94.92 |
| o1 | 79.17 | 73.48 | 76.24 | 79.69 | 48.08 | 92.78 | 81.03 | 92.37 |
| GPT-4o* | 80.90 | 94.78 | 74.66 | 80.21 | 7.69 | 95.56 | 68.97 | 94.07 |
| Gemini2.5-pro-exp | 80.90 | 90.00 | 75.79 | 85.94 | 44.23 | 80.00 | 87.93 | 93.22 |
| Yi-1.5-6B | 56.05 | 50.43 | 66.29 | 43.75 | 7.69 | 66.11 | 20.69 | 72.03 |
| Mistral-7B | 69.58 | 86.52 | 66.06 | 77.60 | 1.92 | 58.33 | 58.62 | 88.98 |
| Gemma-3-4b-it | 61.71 | 58.70 | 56.11 | 75.00 | 0 | 76.67 | 72.41 | — |
关键观察: - Math 任务最具挑战性:几乎所有模型在 Math 上的得分极低,GPT-4o 仅 13.46%,Deepseek-V3 更是只有 5.77%,只有 Deepseek-R1 达到 65.38%。 - Agent Chatting 相对容易:GPT-4o 在此任务上达到 100%。 - 小模型表现显著劣于大模型:Yi-1.5-6B 总体仅 56.05%。
关键发现¶
-
指南的关键作用:没有指南时模型只能依赖常识,可能导致与领域规则冲突的判断。实验证明移除指南后性能显著下降,说明外部领域知识对正确决策至关重要。
-
Chain-of-Thought 的收益:CoT 在复杂任务(如 math、audit algorithm)上带来显著提升,但在简单任务上收益有限。这说明对于需要多步推理的领域规则,显式思维链是必要的。
-
规则更新的鲁棒性:规则修改后,模型需要适应新规则而非依赖旧有认知。实验表明当前 LLM 在处理规则更新时普遍存在困难,尤其是当新规则与常识冲突时。
-
错误分析:
- 规则冲突错误:模型倾向于遵循内部常识而非外部规则
- 规则遗漏错误:在大量规则中忽略了某些关键规则
- 推理链断裂:在条件嵌套规则上容易出错
亮点与洞察¶
- 切中实际部署痛点:领域 Agent 最大的问题不是能不能理解指令,而是能不能严格按照不断更新的业务规则行事。GuideBench 精准抓住了这一问题。
- 系统化的评估体系:三维度评估(遵循、鲁棒性、偏好对齐)+ 两种任务格式(多选、问答)构成了全面的评估矩阵。
- 自动化数据构建流水线:从规则生成到质量验证的全流程自动化 pipeline,具有良好的可扩展性,可方便地增加新的任务领域。
- 深刻的启示:Math 任务上的极低得分暴露了 LLM 在严格逻辑推理方面的根本不足——即使是最强的推理模型 Deepseek-R1 也只有 65.38%。
局限性¶
- 领域覆盖有限:虽然涵盖 7 个类别,但现实中的领域远多于此,如医疗、法律、金融等专业性更强的领域未覆盖。
- 规则复杂度有限:537 条规则虽已不少,但实际业务系统中的规则可能多达数千条,且存在更复杂的依赖关系。
- 评估依赖 LLM:部分质量控制和评估环节依赖 GPT-4o,可能引入与被评估模型相关的偏差。
- 静态评估:未考虑 Agent 在多轮交互中逐步理解和应用规则的动态过程。
相关工作与启发¶
- 指令遵循基准:IFEval (Zhou et al., 2023a)、ComplexBench (Wen et al., 2024)、RuleBench (Sun et al., 2024) 聚焦通用指令遵循,本文将其扩展到领域特定规则。
- LLM Agent:多项 Agent 研究探索了 LLM 在工程、自然科学和社会科学中的应用,但对规则遵循的系统评估缺失。
- 反事实推理:Xu et al. (2024b)、Xie et al. (2024) 探讨了 LLM 处理与常识冲突信息的能力,与本文领域规则冲突的问题相关。
- 启发:对于 LLM Agent 的部署,仅提升通用指令遵循能力是不够的,必须发展专门的领域规则适配能力,这可能需要新的训练范式(如 rule-conditioned instruction tuning)。
评分¶
| 维度 | 分数 (1-5) |
|---|---|
| 创新性 | 3.5 |
| 技术深度 | 3.5 |
| 实验充分性 | 4.5 |
| 实用价值 | 4.5 |
| 写作质量 | 4 |
| 总体评分 | 4.0 |