ESG-Bench: Benchmarking Long-Context ESG Reports for Hallucination Mitigation¶

会议: AAAI 2026
arXiv: 2603.13154
代码: 有
领域: LLM推理 / 幻觉缓解
关键词: ESG报告, 长上下文, 幻觉检测, CoT微调, 合规性

一句话总结¶

构建 ESG-Bench——270 个人工标注 QA 对来自 94 份真实 ESG 报告（2020-2024），提出三阶段幻觉缓解：SFT（有基础答案+「不提供」弃权标签）→ CoT Prompting（2/4步提示模板）→ CoT 微调（人工推理链），其中 4 步 CoT 微调的 Llama-3 达到 92.52% 有答案准确率 + 99.37% 无答案准确率（平衡 96%），且迁移到 HaluEval/BioASQ 也有提升。

研究背景与动机¶

领域现状：ESG（环境/社会/治理）报告在欧盟等地区已成为法律要求，但单份报告可达数百页，包含复杂叙述、表格和图形。LLM 被用于自动分析 ESG 报告。
现有痛点：
LLM 在长上下文 ESG 报告上容易产生幻觉——编造不存在的环境指标或治理声明
高风险合规场景中幻觉特别危险——错误的 ESG 数据可能导致投资决策错误和法律责任
缺乏专门的 ESG 领域长上下文 QA 基准
核心矛盾：ESG 报告分析需要从数百页中精确提取事实并正确弃权（"报告未提及"），但 LLM 倾向于「编造」而非「说不知道」。
本文要解决什么？ 构建 ESG 领域的长上下文 QA 基准 + 开发有效的幻觉缓解方法。
切入角度：三阶段渐进方法——从基础 SFT → CoT 提示 → CoT 微调，逐步教会模型在 ESG 场景中"回答正确"且"不知道时说不知道"。
核心 idea 一句话：4 步 CoT（提取话题→搜索报告→判断可答性→作答）+ 基础性监督 = ESG 长上下文幻觉缓解。

方法详解¶

整体框架¶

ESG-Bench 构建：94 份真实 ESG 报告 → GPT-4o 生成问题 → 人工标注答案和幻觉标签（46.7% 正确/34.8% 不完整/15.6% 幻觉/3.0% 未找到）→ 3 阶段缓解方法评估。

关键设计¶

SFT 基线:
做什么：在有基础答案 + "Not provided" 弃权标签上微调
效果：WA 80.99% / WoA 99.0% / F1 73.68%
CoT Prompting（2步/4步）:
做什么：用结构化推理模板引导 LLM
2 步："这个问题能从报告中回答吗？→ 如果能就回答"
4 步："提取话题 → 在报告中搜索相关段 → 判断可答性 → 基于证据作答"
设计动机：4 步比 2 步更好——中间步骤（搜索+判断可答性）强制模型先验证再回答
CoT 微调:
做什么：用人工标注的推理链做微调
核心思路：不只微调答案，还微调推理过程——让模型学会 4 步推理模式
效果：4 步 CoT 微调 Llama-3 达到 WA 92.52% + WoA 99.37%

损失函数 / 训练策略¶

Llama-3.2-3B / Gemma-2-2B / Mistral-7B
按报告划分 train/test（无泄漏）

实验关键数据¶

主实验（ESG-Bench 测试集）¶

方法	WA Acc↑	WoA Acc↑	Balanced↑	F1↑
Llama-3 基线	67.61	83.54	76.00	65.23
+ SFT	80.99	99.00	90.67	73.68
+ CoT-2步	88.73	97.47	93.33	76.35
+ CoT-4步	92.52	99.37	96.00	78.62

消融：跨域迁移¶

方法	HaluEval Acc	BioASQ
Mistral 基线	90.30%	基线
Mistral CoT-4	95.91%	提升

关键发现¶

4 步 CoT 最优：92%+ WA AND 99%+ WoA——既答对又正确弃权
可答性判断是关键步骤：2步（直接判断）不如 4步（先搜索再判断）
跨域迁移有效：ESG 上训练的 CoT 能力迁移到 HaluEval (+5.6pp)
ESG 报告中 15.6% 是幻觉：模型倾向对"不确定"的问题编造答案

亮点与洞察¶

"先搜索再判断可答性再作答"的 4 步结构对任何长上下文 QA 都适用
WA 和 WoA 的双高才是合规场景的真正需求——只答对不够，还要会说"不知道"
ESG 是 LLM 幻觉缓解的高价值应用场景（法律要求的准确性）

局限性 / 可改进方向¶

仅 270 QA 对——数据集小
仅测试 3-7B 模型——大模型效果未知
多模态（表格/图形）分析有限
GPT-4o 生成问题引入选择偏差

评分¶

新颖性: ⭐⭐⭐⭐ 首个 ESG 领域长上下文幻觉缓解基准，填补了金融 NLP 的重要空白
实验充分度: ⭐⭐⭐⭐ 3 个模型、3 阶段方法、跨域迁移验证，但数据集规模偏小
写作质量: ⭐⭐⭐⭐ 方法递进清晰，从基线到分块再到 CoT 的进阶设计合理
价值: ⭐⭐⭐⭐ 对合规性 AI 和长上下文幻觉缓解有实用价值，4 步 CoT 可推广到法律/医疗文档分析

补充说明¶

ESG 报告分析是金融 NLP 的重要应用方向，该基准填补了长上下文合规性评估的空白，对金融 AI 应用有参考价值