Beyond Facts: Evaluating Intent Hallucination in Large Language Models¶
会议: ACL 2025
arXiv: 2506.06539
领域: LLM NLP
关键词: 意图幻觉, FaithQA, Constraint Score, 遗漏, 误解
一句话总结¶
本文提出"意图幻觉"(Intent Hallucination)概念——LLM 在处理复杂多条件查询时遗漏或误解部分意图约束导致的偏离用户意图的生成,构建 FaithQA 基准(20,068 题)和 Constraint Score 评估指标,实验表明意图幻觉在 SOTA 模型中普遍存在且随查询复杂度增加而加剧。
研究背景与动机¶
- 现有幻觉研究主要聚焦于事实性幻觉(factual hallucination),即生成内容与真实世界事实不符
- 实际使用中,用户常向 LLM 提出包含多个条件的复杂查询,LLM 往往只满足部分条件而忽略其余
- 这种"意图幻觉"在事实上可能完全正确,但仍未满足用户真实意图——现有检测方法(FActScore、SelfCheckGPT)无法捕捉
- 缺乏专门评估意图幻觉的基准和指标:现有工具要么仅做事实核查,要么将查询视为整体做粗粒度评估
方法详解¶
整体框架¶
- 定义意图约束(Intent Constraint)作为基本评估单元——将查询分解为一系列短陈述,每个代表一个必须满足的要求
- 定义意图幻觉的两种表现:遗漏(Omission,忽略查询的某些部分)和误解(Misinterpretation,回应未被提及的查询部分)
- 构建 FaithQA 基准,覆盖两种场景和多种任务格式
- 提出 Constraint Score 指标进行细粒度评估
关键设计¶
意图约束映射函数 C(q): - 将查询 q 映射为三层约束集: - C_m(q):强制约束(location、time、subject、action) - C_i(q):重要约束(qualifiers、quantity) - C_o(q):可选约束(排除条件、领域特定要求等) - 三步提取:初步评估 → 语义角色识别(SRL) → 约束集提取
Constraint Score 计算: - 对每个约束 c 和回复 y,用 LLM 参数化的二元满足函数 S_ϕ(c,y) ∈ {0,1} 判断是否满足 - 加权总分 = Σ(α_g × 各类约束满足数) / Σ(α_g × 各类约束总数) × 10 - 分数 ≥ 9 表示强对齐,7-8 表示部分满足,≤ 7 表示严重意图幻觉
FaithQA 基准(20,068 题): - 遗漏任务(仅查询): - Fact QA(3,000 题):列举满足所有约束的主题,涵盖科技/文化/历史 - Creative Writing(2,000 题):按约束写故事/诗歌 - 难度分级:Easy(≤4 约束)vs Hard(>4 约束) - 误解任务(RAG 设置): - Response Evaluation(3,210 题):评估回复对齐度,随机移除一项输入 - Content Analysis(11,858 题):分析文章关系/摘要,随机移除一篇文章 - 理想行为:检测缺失内容并拒绝回答
实验关键数据¶
主实验¶
FaithQA 主要结果(Perfect = 无幻觉率, CS = Constraint Score):
| 模型 | Fact QA Perfect/CS | Story Perfect/CS | Poem Perfect/CS | Response Eval Perfect/CS |
|---|---|---|---|---|
| GPT-4o | 0.49 / 8.62 | 0.38 / 7.99 | 0.40 / 8.29 | 0.09 / 5.73 |
| Claude-3.5 | 0.37 / 6.73 | 0.34 / 7.64 | 0.60 / 9.02 | 0.29 / 5.92 |
| LLaMA3-70B | 0.57 / 8.93 | 0.29 / 7.55 | 0.51 / 8.64 | 0.07 / 4.78 |
| LLaMA3-8B | 0.46 / 8.52 | 0.25 / 7.21 | 0.27 / 7.71 | 0.11 / 5.58 |
| Mistral-7B | 0.20 / 7.15 | 0.08 / 5.92 | 0.07 / 5.49 | 0.23 / 4.46 |
Fact QA 事实可验证幻觉率(部分结果):
| 模型/难度 | Culture-Easy Fact | Culture-Hard Fact | Tech-Easy Fact | Tech-Hard Fact |
|---|---|---|---|---|
| GPT-4o | 54.9% | 36.1% | 63.5% | 56.6% |
| LLaMA3-8B | 83.8% | 89.5% | 90.9% | 97.6% |
关键发现¶
- 意图幻觉普遍存在:最强的 GPT-4o 在 Fact QA 上 Perfect 率仅 49%,即超一半回复存在意图幻觉
- 约束数量显著影响:从 Easy 到 Hard,所有模型的 Perfect 率一致下降
- 事实准确不等于意图对齐:LLaMA3-8B 的幻觉回复中高达 97.6% 是事实正确的——传统事实核查完全失效
- 误解比遗漏更难:RAG 场景下 Perfect 率骤降(如 GPT-4o Response Eval 仅 0.09)
- LLM 知道自己在遗漏:定性分析发现模型会先承认可能不完全满足查询,然后仍给出不完整答案
- LLM 偏好知名主题:即使不满足约束,模型也倾向选择训练数据中常见的知名实体
- Constraint Score vs 人工评估:MSE 0.50(vs Baseline 4.72),66.3% 分数在一倍标准差内
- 主体和动作最易被违反:相比位置、时间等细节,LLM 更容易遗漏/误解核心语义元素
亮点与洞察¶
- "意图幻觉"概念填补了幻觉研究的重要空白——事实正确但意图不对齐的生成同样是严重问题
- FaithQA 的设计巧妙:遗漏任务通过约束数量控制难度,误解任务通过移除 RAG 输入测试理解
- Constraint Score 的三层加权(mandatory/important/optional)设计合理,比 LLM-as-judger 更贴近人类判断
- "LLM 知道自己在遗漏"的发现意味深长——说明 instruction tuning 可能鼓励了"有回答比拒绝好"的倾向
局限性¶
- Constraint Score 依赖 GPT-4o 作为评估模型,存在循环依赖和成本问题
- FaithQA 测试集仅随机采样 150 题/类别(出于成本考虑),统计效力有限
- 遗漏和误解的边界不总是清晰——某些情况下两者同时存在
- 未提出缓解意图幻觉的方法,仅聚焦检测和评估
- Creative Writing 评估主观性较强,约束满足的判断可能存在分歧
相关工作¶
- 事实性幻觉:FActScore(Min et al. 2023)、SelfCheckGPT(Manakul et al. 2023)——仅做事实核查
- 幻觉基准:HaluEval(Li et al. 2023)、FELM、RAGTruth——聚焦事实幻觉
- 指令跟随:InfoBench(Qin et al. 2024)——通过查询分解评估指令遵循但非专门面向幻觉
- RAG 忠实度:FaithEval(Ming et al. 2025)——关注上下文对齐而非查询对齐
评分¶
- 新颖性:⭐⭐⭐⭐⭐(意图幻觉概念原创,形式化定义完整)
- 实用性:⭐⭐⭐⭐(Constraint Score 可直接用于评估,FaithQA 开放使用)
- 实验充分度:⭐⭐⭐⭐(7 个 SOTA 模型、多任务多难度、人工评估验证)
- 写作质量:⭐⭐⭐⭐(定义清晰,示例丰富,但数学符号略重)