跳转至

📚 AI Paper Notes

CoCoLex: Confidence-guided Copy-based Decoding for Grounded Legal Text Generation

CoCoLex: Confidence-guided Copy-based Decoding for Grounded Legal Text Generation¶

会议: ACL 2025
arXiv: 2508.05534
代码: 无 (JPMorgan AI Research)
领域: 文本生成
关键词: 法律文本生成, 忠实性, 复制机制, 解码策略, RAG

一句话总结¶

提出 CoCoLex，一种无需训练的解码策略，通过置信度引导的动态插值将模型词表分布与上下文复制分布结合，鼓励从检索上下文中直接复制 token，在五个法律文本生成基准上显著提升生成文本对源文档的忠实性。

研究背景与动机¶

领域现状：法律领域对 LLM 的需求巨大（合同起草、法律研究、合规检查），但对准确性要求极高。RAG 提供了外部知识但不保证模型会有效利用上下文。现有上下文感知解码策略（如 CAD）放大上下文影响但不显式强制忠实。
现有痛点：(a) 法律文本需要精确引用法条、判例和术语——任何改写都可能改变法律含义；(b) 现有 RAG 解码方法侧重正确性但很少评估是否忠实于上下文原文；(c) 法律从业者对 AI 工具的信任度低，因为幻觉风险在法律领域代价最高（不准确建议可能导致法律责任）。
核心矛盾：法律文本的"模板化"和"逐字引用"特性要求高复制率，但标准自回归解码倾向于改写而非复制。LLM 被训练为"改写者"而非"引用者"。
本文要解决什么？ 在不增加训练成本的情况下，让 LLM 在法律文本生成中更多地直接复制上下文中的关键表述。
切入角度：类似指针生成网络（Pointer Generator Networks）的思想，但无需训练——直接在解码时动态插值模型词表分布和上下文复制分布。
核心idea一句话：用模型自身的置信度动态控制"复制上下文"与"自由生成"的比例。

方法详解¶

整体框架¶

在标准 RAG 解码的基础上，每步生成时：(1) 计算标准词表分布 \(P_{model}\)；(2) 基于注意力权重构造上下文复制分布 \(P_{copy}\)；(3) 用置信度分数动态插值两个分布得到最终分布。

关键设计¶

上下文复制分布:
做什么：构造一个鼓励从上下文复制 token 的分布
核心思路：利用 LLM 注意力层中对上下文 token 的注意力权重作为复制概率
设计动机：注意力权重天然反映了模型对上下文各 token 的"关注度"
置信度引导插值:
做什么：动态平衡复制与生成
核心思路：\(P_{final} = (1-\lambda) P_{model} + \lambda P_{copy}\)，\(\lambda\) 由模型当前步的置信度（entropy/max-prob）决定——低置信度时更多复制，高置信度时更多自由生成
设计动机：模型不确定时倾向于从上下文"找答案"更安全
CoCoLex+ 扩展:
做什么：将复制范围从 top-K 检索块扩展到整个文档
设计动机：法律任务中相关信息可能分散在文档各处

损失函数 / 训练策略¶

无需训练——纯解码策略
可与其他方法（如 CAD、DoLa）叠加使用

实验关键数据¶

主实验（五个法律基准，Llama-3-8B）¶

方法	正确性	忠实性	说明
Standard RAG	基线	基线	无特殊解码
CAD	+正确性	略提升	放大上下文但不强制复制
CoCoLex	+正确性	显著提升	尤其在长文本生成上优势大
CoCoLex+	最佳	最佳	全文档复制进一步提升

关键发现¶

CoCoLex 在长文本生成任务上优势最大——长文本中复制精确表述的需求更强
可与 CAD、DoLa 等方法互补叠加——改进是正交的
CoCoLex+ 通过扩展复制范围进一步提升
无推理开销增加——与标准解码速度相当

亮点与洞察¶

法律文本的"复制优先"直觉很准确——法律领域确实需要精确引用而非改写，逐字引用法条是法律写作的刚性要求。
无需训练的解码策略对实际部署价值很大——可直接应用于任何 RAG 系统，不需要修改模型参数或收集额外训练数据。
置信度引导的动态插值比固定比例更优——不同 token 需要的复制/生成比例不同（实体名应复制，连接词可自由生成）。
CoCoLex+ 的全文档复制范围是实用的扩展——法律文档中的相关信息常分散在不同段落，仅限于 top-K 检索块会遗漏关键引用。
该方法的核心思想（用注意力权重构造复制分布）可迁移到其他需要高忠实性的领域（如医疗报告、学术写作）。

局限性 / 可改进方向¶

过度复制可能导致不连贯——极端情况下生成变成拼贴而非连贯文本，需要设计最大复制率限制
仅在法律领域验证，通用性未知——其他需要忠实性的领域效果可能不同
注意力权重作为复制信号可能不够准确——不同层的注意力模式差异大，最优层选择未充分探讨
未考虑多文档上下文冲突——当多个源文档信息冲突时，复制策略可能放大错误
与 CoT prompting 等推理增强方法的结合未探索

相关工作与启发¶

vs Pointer Generator Networks (See et al. 2017): 概念类似但 PGN 需要训练复制门控，CoCoLex 无需训练直接操作 logits，可即插即用
vs CAD (Context-Aware Decoding): CAD 通过对比有/无上下文的分布来放大上下文影响，但不显式复制；CoCoLex 显式鼓励从上下文复制 token
vs kNN-LM (Khandelwal et al. 2019): kNN-LM 从预训练语料的外部存储中检索；CoCoLex 从当前输入上下文复制，无需外部存储
vs DoLa: DoLa 对比早晚层来提升忠实性；CoCoLex 通过复制机制保证忠实，两者可叠加使用
该方法的核心思想（用注意力权重构造复制分布+置信度控制插值）可迁移到其他需要高忠实性的领域（如医疗报告生成、学术论文引用）

评分¶

新颖性: ⭐⭐⭐ 将已有思想（pointer net + kNN-LM）适配到法律 RAG，创新适中
实验充分度: ⭐⭐⭐⭐ 五个基准+两个模型+可组合性验证
写作质量: ⭐⭐⭐⭐ 动机清晰，法律背景介绍充分
价值: ⭐⭐⭐⭐ 对法律 AI 有实际应用价值

技术细节补充¶

CoCoLex核心数学形式:P_final = (1-lambda)P_model + lambdaP_copy
lambda由模型当前步置信度(max probability或entropy)动态决定
注意力权重构造复制分布:使用最后一层attention权重作为复制概率
实验在Llama-3-8B-Instruct和Mistral-7B-Instruct两个LLM上验证
五个法律基准涵盖合同分析、法律QA、法规解读、判例分析、合规检查
CoCoLex+扩展复制范围到全文档,通过扩展注意力窗口实现
与CAD和DoLa叠加实验表明改进正交,复制机制和分布调整互不干扰
法律文本中约40-60%的token可直接从源文档复制,为高复制率提供经验依据

技术细节补充¶

CoCoLex核心数学形式:P_final = (1-lambda)P_model + lambdaP_copy
lambda由模型当前步置信度(max probability或entropy)动态决定
注意力权重构造复制分布:使用最后一层attention权重作为复制概率
实验在Llama-3-8B-Instruct和Mistral-7B-Instruct两个LLM上验证
五个法律基准涵盖合同分析、法律QA、法规解读、判例分析、合规检查
CoCoLex+扩展复制范围到全文档,通过扩展注意力窗口实现
与CAD和DoLa叠加实验表明改进正交,复制机制和分布调整互不干扰
法律文本中约40-60%的token可直接从源文档复制,为高复制率提供经验依据