跳转至

ESG-Bench: Benchmarking Long-Context ESG Reports for Hallucination Mitigation

会议: AAAI 2026
arXiv: 2603.13154
代码: 有
领域: LLM推理 / 幻觉缓解
关键词: ESG报告, 长上下文, 幻觉检测, CoT微调, 合规性

一句话总结

构建 ESG-Bench——270 个人工标注 QA 对来自 94 份真实 ESG 报告(2020-2024),提出三阶段幻觉缓解:SFT(有基础答案+「不提供」弃权标签)→ CoT Prompting(2/4步提示模板)→ CoT 微调(人工推理链),其中 4 步 CoT 微调的 Llama-3 达到 92.52% 有答案准确率 + 99.37% 无答案准确率(平衡 96%),且迁移到 HaluEval/BioASQ 也有提升。

研究背景与动机

  1. 领域现状:ESG(环境/社会/治理)报告在欧盟等地区已成为法律要求,但单份报告可达数百页,包含复杂叙述、表格和图形。LLM 被用于自动分析 ESG 报告。

  2. 现有痛点

  3. LLM 在长上下文 ESG 报告上容易产生幻觉——编造不存在的环境指标或治理声明
  4. 高风险合规场景中幻觉特别危险——错误的 ESG 数据可能导致投资决策错误和法律责任
  5. 缺乏专门的 ESG 领域长上下文 QA 基准

  6. 核心矛盾:ESG 报告分析需要从数百页中精确提取事实并正确弃权("报告未提及"),但 LLM 倾向于「编造」而非「说不知道」。

  7. 本文要解决什么? 构建 ESG 领域的长上下文 QA 基准 + 开发有效的幻觉缓解方法。

  8. 切入角度:三阶段渐进方法——从基础 SFT → CoT 提示 → CoT 微调,逐步教会模型在 ESG 场景中"回答正确"且"不知道时说不知道"。

  9. 核心 idea 一句话:4 步 CoT(提取话题→搜索报告→判断可答性→作答)+ 基础性监督 = ESG 长上下文幻觉缓解。

方法详解

整体框架

ESG-Bench 构建:94 份真实 ESG 报告 → GPT-4o 生成问题 → 人工标注答案和幻觉标签(46.7% 正确/34.8% 不完整/15.6% 幻觉/3.0% 未找到)→ 3 阶段缓解方法评估。

关键设计

  1. SFT 基线:
  2. 做什么:在有基础答案 + "Not provided" 弃权标签上微调
  3. 效果:WA 80.99% / WoA 99.0% / F1 73.68%

  4. CoT Prompting(2步/4步):

  5. 做什么:用结构化推理模板引导 LLM
  6. 2 步:"这个问题能从报告中回答吗?→ 如果能就回答"
  7. 4 步:"提取话题 → 在报告中搜索相关段 → 判断可答性 → 基于证据作答"
  8. 设计动机:4 步比 2 步更好——中间步骤(搜索+判断可答性)强制模型先验证再回答

  9. CoT 微调:

  10. 做什么:用人工标注的推理链做微调
  11. 核心思路:不只微调答案,还微调推理过程——让模型学会 4 步推理模式
  12. 效果:4 步 CoT 微调 Llama-3 达到 WA 92.52% + WoA 99.37%

损失函数 / 训练策略

  • Llama-3.2-3B / Gemma-2-2B / Mistral-7B
  • 按报告划分 train/test(无泄漏)

实验关键数据

主实验(ESG-Bench 测试集)

方法 WA Acc↑ WoA Acc↑ Balanced↑ F1↑
Llama-3 基线 67.61 83.54 76.00 65.23
+ SFT 80.99 99.00 90.67 73.68
+ CoT-2步 88.73 97.47 93.33 76.35
+ CoT-4步 92.52 99.37 96.00 78.62

消融:跨域迁移

方法 HaluEval Acc BioASQ
Mistral 基线 90.30% 基线
Mistral CoT-4 95.91% 提升

关键发现

  • 4 步 CoT 最优:92%+ WA AND 99%+ WoA——既答对又正确弃权
  • 可答性判断是关键步骤:2步(直接判断)不如 4步(先搜索再判断)
  • 跨域迁移有效:ESG 上训练的 CoT 能力迁移到 HaluEval (+5.6pp)
  • ESG 报告中 15.6% 是幻觉:模型倾向对"不确定"的问题编造答案

亮点与洞察

  • "先搜索再判断可答性再作答"的 4 步结构对任何长上下文 QA 都适用
  • WA 和 WoA 的双高才是合规场景的真正需求——只答对不够,还要会说"不知道"
  • ESG 是 LLM 幻觉缓解的高价值应用场景(法律要求的准确性)

局限性 / 可改进方向

  • 仅 270 QA 对——数据集小
  • 仅测试 3-7B 模型——大模型效果未知
  • 多模态(表格/图形)分析有限
  • GPT-4o 生成问题引入选择偏差

相关工作与启发

  • vs HaluEval:通用幻觉基准。ESG-Bench 面向特定高风险领域
  • vs LongBench:长上下文基准但不含弃权能力评估
  • 4 步 CoT 方法可推广到法律/医疗文档分析

评分

  • 新颖性: ⭐⭐⭐⭐ 首个 ESG 领域长上下文幻觉缓解基准,填补了金融 NLP 的重要空白
  • 实验充分度: ⭐⭐⭐⭐ 3 个模型、3 阶段方法、跨域迁移验证,但数据集规模偏小
  • 写作质量: ⭐⭐⭐⭐ 方法递进清晰,从基线到分块再到 CoT 的进阶设计合理
  • 价值: ⭐⭐⭐⭐ 对合规性 AI 和长上下文幻觉缓解有实用价值,4 步 CoT 可推广到法律/医疗文档分析

补充说明

  • ESG 报告分析是金融 NLP 的重要应用方向,该基准填补了长上下文合规性评估的空白,对金融 AI 应用有参考价值