跳转至

CoCoLex: Confidence-guided Copy-based Decoding for Grounded Legal Text Generation

会议: ACL 2025
arXiv: 2508.05534
代码: 无 (JPMorgan AI Research)
领域: 文本生成
关键词: 法律文本生成, 忠实性, 复制机制, 解码策略, RAG

一句话总结

提出 CoCoLex,一种无需训练的解码策略,通过置信度引导的动态插值将模型词表分布与上下文复制分布结合,鼓励从检索上下文中直接复制 token,在五个法律文本生成基准上显著提升生成文本对源文档的忠实性。

研究背景与动机

  1. 领域现状:法律领域对 LLM 的需求巨大(合同起草、法律研究、合规检查),但对准确性要求极高。RAG 提供了外部知识但不保证模型会有效利用上下文。现有上下文感知解码策略(如 CAD)放大上下文影响但不显式强制忠实。
  2. 现有痛点:(a) 法律文本需要精确引用法条、判例和术语——任何改写都可能改变法律含义;(b) 现有 RAG 解码方法侧重正确性但很少评估是否忠实于上下文原文;(c) 法律从业者对 AI 工具的信任度低,因为幻觉风险在法律领域代价最高(不准确建议可能导致法律责任)。
  3. 核心矛盾:法律文本的"模板化"和"逐字引用"特性要求高复制率,但标准自回归解码倾向于改写而非复制。LLM 被训练为"改写者"而非"引用者"。
  4. 本文要解决什么? 在不增加训练成本的情况下,让 LLM 在法律文本生成中更多地直接复制上下文中的关键表述。
  5. 切入角度:类似指针生成网络(Pointer Generator Networks)的思想,但无需训练——直接在解码时动态插值模型词表分布和上下文复制分布。
  6. 核心idea一句话:用模型自身的置信度动态控制"复制上下文"与"自由生成"的比例。

方法详解

整体框架

在标准 RAG 解码的基础上,每步生成时:(1) 计算标准词表分布 \(P_{model}\);(2) 基于注意力权重构造上下文复制分布 \(P_{copy}\);(3) 用置信度分数动态插值两个分布得到最终分布。

关键设计

  1. 上下文复制分布:
  2. 做什么:构造一个鼓励从上下文复制 token 的分布
  3. 核心思路:利用 LLM 注意力层中对上下文 token 的注意力权重作为复制概率
  4. 设计动机:注意力权重天然反映了模型对上下文各 token 的"关注度"

  5. 置信度引导插值:

  6. 做什么:动态平衡复制与生成
  7. 核心思路:\(P_{final} = (1-\lambda) P_{model} + \lambda P_{copy}\)\(\lambda\) 由模型当前步的置信度(entropy/max-prob)决定——低置信度时更多复制,高置信度时更多自由生成
  8. 设计动机:模型不确定时倾向于从上下文"找答案"更安全

  9. CoCoLex+ 扩展:

  10. 做什么:将复制范围从 top-K 检索块扩展到整个文档
  11. 设计动机:法律任务中相关信息可能分散在文档各处

损失函数 / 训练策略

  • 无需训练——纯解码策略
  • 可与其他方法(如 CAD、DoLa)叠加使用

实验关键数据

主实验(五个法律基准,Llama-3-8B)

方法 正确性 忠实性 说明
Standard RAG 基线 基线 无特殊解码
CAD +正确性 略提升 放大上下文但不强制复制
CoCoLex +正确性 显著提升 尤其在长文本生成上优势大
CoCoLex+ 最佳 最佳 全文档复制进一步提升

关键发现

  • CoCoLex 在长文本生成任务上优势最大——长文本中复制精确表述的需求更强
  • 可与 CAD、DoLa 等方法互补叠加——改进是正交的
  • CoCoLex+ 通过扩展复制范围进一步提升
  • 无推理开销增加——与标准解码速度相当

亮点与洞察

  • 法律文本的"复制优先"直觉很准确——法律领域确实需要精确引用而非改写,逐字引用法条是法律写作的刚性要求。
  • 无需训练的解码策略对实际部署价值很大——可直接应用于任何 RAG 系统,不需要修改模型参数或收集额外训练数据。
  • 置信度引导的动态插值比固定比例更优——不同 token 需要的复制/生成比例不同(实体名应复制,连接词可自由生成)。
  • CoCoLex+ 的全文档复制范围是实用的扩展——法律文档中的相关信息常分散在不同段落,仅限于 top-K 检索块会遗漏关键引用。
  • 该方法的核心思想(用注意力权重构造复制分布)可迁移到其他需要高忠实性的领域(如医疗报告、学术写作)。

局限性 / 可改进方向

  • 过度复制可能导致不连贯——极端情况下生成变成拼贴而非连贯文本,需要设计最大复制率限制
  • 仅在法律领域验证,通用性未知——其他需要忠实性的领域效果可能不同
  • 注意力权重作为复制信号可能不够准确——不同层的注意力模式差异大,最优层选择未充分探讨
  • 未考虑多文档上下文冲突——当多个源文档信息冲突时,复制策略可能放大错误
  • 与 CoT prompting 等推理增强方法的结合未探索

相关工作与启发

  • vs Pointer Generator Networks (See et al. 2017): 概念类似但 PGN 需要训练复制门控,CoCoLex 无需训练直接操作 logits,可即插即用
  • vs CAD (Context-Aware Decoding): CAD 通过对比有/无上下文的分布来放大上下文影响,但不显式复制;CoCoLex 显式鼓励从上下文复制 token
  • vs kNN-LM (Khandelwal et al. 2019): kNN-LM 从预训练语料的外部存储中检索;CoCoLex 从当前输入上下文复制,无需外部存储
  • vs DoLa: DoLa 对比早晚层来提升忠实性;CoCoLex 通过复制机制保证忠实,两者可叠加使用
  • 该方法的核心思想(用注意力权重构造复制分布+置信度控制插值)可迁移到其他需要高忠实性的领域(如医疗报告生成、学术论文引用)

评分

  • 新颖性: ⭐⭐⭐ 将已有思想(pointer net + kNN-LM)适配到法律 RAG,创新适中
  • 实验充分度: ⭐⭐⭐⭐ 五个基准+两个模型+可组合性验证
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,法律背景介绍充分
  • 价值: ⭐⭐⭐⭐ 对法律 AI 有实际应用价值

技术细节补充

  • CoCoLex核心数学形式:P_final = (1-lambda)P_model + lambdaP_copy
  • lambda由模型当前步置信度(max probability或entropy)动态决定
  • 注意力权重构造复制分布:使用最后一层attention权重作为复制概率
  • 实验在Llama-3-8B-Instruct和Mistral-7B-Instruct两个LLM上验证
  • 五个法律基准涵盖合同分析、法律QA、法规解读、判例分析、合规检查
  • CoCoLex+扩展复制范围到全文档,通过扩展注意力窗口实现
  • 与CAD和DoLa叠加实验表明改进正交,复制机制和分布调整互不干扰
  • 法律文本中约40-60%的token可直接从源文档复制,为高复制率提供经验依据

技术细节补充

  • CoCoLex核心数学形式:P_final = (1-lambda)P_model + lambdaP_copy
  • lambda由模型当前步置信度(max probability或entropy)动态决定
  • 注意力权重构造复制分布:使用最后一层attention权重作为复制概率
  • 实验在Llama-3-8B-Instruct和Mistral-7B-Instruct两个LLM上验证
  • 五个法律基准涵盖合同分析、法律QA、法规解读、判例分析、合规检查
  • CoCoLex+扩展复制范围到全文档,通过扩展注意力窗口实现
  • 与CAD和DoLa叠加实验表明改进正交,复制机制和分布调整互不干扰
  • 法律文本中约40-60%的token可直接从源文档复制,为高复制率提供经验依据