ESG-Bench: Benchmarking Long-Context ESG Reports for Hallucination Mitigation¶
会议: AAAI 2026
arXiv: 2603.13154
代码: 有
领域: LLM推理 / 幻觉缓解
关键词: ESG报告, 长上下文, 幻觉检测, CoT微调, 合规性
一句话总结¶
构建 ESG-Bench——270 个人工标注 QA 对来自 94 份真实 ESG 报告(2020-2024),提出三阶段幻觉缓解:SFT(有基础答案+「不提供」弃权标签)→ CoT Prompting(2/4步提示模板)→ CoT 微调(人工推理链),其中 4 步 CoT 微调的 Llama-3 达到 92.52% 有答案准确率 + 99.37% 无答案准确率(平衡 96%),且迁移到 HaluEval/BioASQ 也有提升。
研究背景与动机¶
-
领域现状:ESG(环境/社会/治理)报告在欧盟等地区已成为法律要求,但单份报告可达数百页,包含复杂叙述、表格和图形。LLM 被用于自动分析 ESG 报告。
-
现有痛点:
- LLM 在长上下文 ESG 报告上容易产生幻觉——编造不存在的环境指标或治理声明
- 高风险合规场景中幻觉特别危险——错误的 ESG 数据可能导致投资决策错误和法律责任
-
缺乏专门的 ESG 领域长上下文 QA 基准
-
核心矛盾:ESG 报告分析需要从数百页中精确提取事实并正确弃权("报告未提及"),但 LLM 倾向于「编造」而非「说不知道」。
-
本文要解决什么? 构建 ESG 领域的长上下文 QA 基准 + 开发有效的幻觉缓解方法。
-
切入角度:三阶段渐进方法——从基础 SFT → CoT 提示 → CoT 微调,逐步教会模型在 ESG 场景中"回答正确"且"不知道时说不知道"。
-
核心 idea 一句话:4 步 CoT(提取话题→搜索报告→判断可答性→作答)+ 基础性监督 = ESG 长上下文幻觉缓解。
方法详解¶
整体框架¶
ESG-Bench 构建:94 份真实 ESG 报告 → GPT-4o 生成问题 → 人工标注答案和幻觉标签(46.7% 正确/34.8% 不完整/15.6% 幻觉/3.0% 未找到)→ 3 阶段缓解方法评估。
关键设计¶
- SFT 基线:
- 做什么:在有基础答案 + "Not provided" 弃权标签上微调
-
效果:WA 80.99% / WoA 99.0% / F1 73.68%
-
CoT Prompting(2步/4步):
- 做什么:用结构化推理模板引导 LLM
- 2 步:"这个问题能从报告中回答吗?→ 如果能就回答"
- 4 步:"提取话题 → 在报告中搜索相关段 → 判断可答性 → 基于证据作答"
-
设计动机:4 步比 2 步更好——中间步骤(搜索+判断可答性)强制模型先验证再回答
-
CoT 微调:
- 做什么:用人工标注的推理链做微调
- 核心思路:不只微调答案,还微调推理过程——让模型学会 4 步推理模式
- 效果:4 步 CoT 微调 Llama-3 达到 WA 92.52% + WoA 99.37%
损失函数 / 训练策略¶
- Llama-3.2-3B / Gemma-2-2B / Mistral-7B
- 按报告划分 train/test(无泄漏)
实验关键数据¶
主实验(ESG-Bench 测试集)¶
| 方法 | WA Acc↑ | WoA Acc↑ | Balanced↑ | F1↑ |
|---|---|---|---|---|
| Llama-3 基线 | 67.61 | 83.54 | 76.00 | 65.23 |
| + SFT | 80.99 | 99.00 | 90.67 | 73.68 |
| + CoT-2步 | 88.73 | 97.47 | 93.33 | 76.35 |
| + CoT-4步 | 92.52 | 99.37 | 96.00 | 78.62 |
消融:跨域迁移¶
| 方法 | HaluEval Acc | BioASQ |
|---|---|---|
| Mistral 基线 | 90.30% | 基线 |
| Mistral CoT-4 | 95.91% | 提升 |
关键发现¶
- 4 步 CoT 最优:92%+ WA AND 99%+ WoA——既答对又正确弃权
- 可答性判断是关键步骤:2步(直接判断)不如 4步(先搜索再判断)
- 跨域迁移有效:ESG 上训练的 CoT 能力迁移到 HaluEval (+5.6pp)
- ESG 报告中 15.6% 是幻觉:模型倾向对"不确定"的问题编造答案
亮点与洞察¶
- "先搜索再判断可答性再作答"的 4 步结构对任何长上下文 QA 都适用
- WA 和 WoA 的双高才是合规场景的真正需求——只答对不够,还要会说"不知道"
- ESG 是 LLM 幻觉缓解的高价值应用场景(法律要求的准确性)
局限性 / 可改进方向¶
- 仅 270 QA 对——数据集小
- 仅测试 3-7B 模型——大模型效果未知
- 多模态(表格/图形)分析有限
- GPT-4o 生成问题引入选择偏差
相关工作与启发¶
- vs HaluEval:通用幻觉基准。ESG-Bench 面向特定高风险领域
- vs LongBench:长上下文基准但不含弃权能力评估
- 4 步 CoT 方法可推广到法律/医疗文档分析
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个 ESG 领域长上下文幻觉缓解基准,填补了金融 NLP 的重要空白
- 实验充分度: ⭐⭐⭐⭐ 3 个模型、3 阶段方法、跨域迁移验证,但数据集规模偏小
- 写作质量: ⭐⭐⭐⭐ 方法递进清晰,从基线到分块再到 CoT 的进阶设计合理
- 价值: ⭐⭐⭐⭐ 对合规性 AI 和长上下文幻觉缓解有实用价值,4 步 CoT 可推广到法律/医疗文档分析
补充说明¶
- ESG 报告分析是金融 NLP 的重要应用方向,该基准填补了长上下文合规性评估的空白,对金融 AI 应用有参考价值