CoCoLex: Confidence-guided Copy-based Decoding for Grounded Legal Text Generation¶
会议: ACL 2025
arXiv: 2508.05534
代码: 无 (JPMorgan AI Research)
领域: 文本生成
关键词: 法律文本生成, 忠实性, 复制机制, 解码策略, RAG
一句话总结¶
提出 CoCoLex,一种无需训练的解码策略,通过置信度引导的动态插值将模型词表分布与上下文复制分布结合,鼓励从检索上下文中直接复制 token,在五个法律文本生成基准上显著提升生成文本对源文档的忠实性。
研究背景与动机¶
- 领域现状:法律领域对 LLM 的需求巨大(合同起草、法律研究、合规检查),但对准确性要求极高。RAG 提供了外部知识但不保证模型会有效利用上下文。现有上下文感知解码策略(如 CAD)放大上下文影响但不显式强制忠实。
- 现有痛点:(a) 法律文本需要精确引用法条、判例和术语——任何改写都可能改变法律含义;(b) 现有 RAG 解码方法侧重正确性但很少评估是否忠实于上下文原文;(c) 法律从业者对 AI 工具的信任度低,因为幻觉风险在法律领域代价最高(不准确建议可能导致法律责任)。
- 核心矛盾:法律文本的"模板化"和"逐字引用"特性要求高复制率,但标准自回归解码倾向于改写而非复制。LLM 被训练为"改写者"而非"引用者"。
- 本文要解决什么? 在不增加训练成本的情况下,让 LLM 在法律文本生成中更多地直接复制上下文中的关键表述。
- 切入角度:类似指针生成网络(Pointer Generator Networks)的思想,但无需训练——直接在解码时动态插值模型词表分布和上下文复制分布。
- 核心idea一句话:用模型自身的置信度动态控制"复制上下文"与"自由生成"的比例。
方法详解¶
整体框架¶
在标准 RAG 解码的基础上,每步生成时:(1) 计算标准词表分布 \(P_{model}\);(2) 基于注意力权重构造上下文复制分布 \(P_{copy}\);(3) 用置信度分数动态插值两个分布得到最终分布。
关键设计¶
- 上下文复制分布:
- 做什么:构造一个鼓励从上下文复制 token 的分布
- 核心思路:利用 LLM 注意力层中对上下文 token 的注意力权重作为复制概率
-
设计动机:注意力权重天然反映了模型对上下文各 token 的"关注度"
-
置信度引导插值:
- 做什么:动态平衡复制与生成
- 核心思路:\(P_{final} = (1-\lambda) P_{model} + \lambda P_{copy}\),\(\lambda\) 由模型当前步的置信度(entropy/max-prob)决定——低置信度时更多复制,高置信度时更多自由生成
-
设计动机:模型不确定时倾向于从上下文"找答案"更安全
-
CoCoLex+ 扩展:
- 做什么:将复制范围从 top-K 检索块扩展到整个文档
- 设计动机:法律任务中相关信息可能分散在文档各处
损失函数 / 训练策略¶
- 无需训练——纯解码策略
- 可与其他方法(如 CAD、DoLa)叠加使用
实验关键数据¶
主实验(五个法律基准,Llama-3-8B)¶
| 方法 | 正确性 | 忠实性 | 说明 |
|---|---|---|---|
| Standard RAG | 基线 | 基线 | 无特殊解码 |
| CAD | +正确性 | 略提升 | 放大上下文但不强制复制 |
| CoCoLex | +正确性 | 显著提升 | 尤其在长文本生成上优势大 |
| CoCoLex+ | 最佳 | 最佳 | 全文档复制进一步提升 |
关键发现¶
- CoCoLex 在长文本生成任务上优势最大——长文本中复制精确表述的需求更强
- 可与 CAD、DoLa 等方法互补叠加——改进是正交的
- CoCoLex+ 通过扩展复制范围进一步提升
- 无推理开销增加——与标准解码速度相当
亮点与洞察¶
- 法律文本的"复制优先"直觉很准确——法律领域确实需要精确引用而非改写,逐字引用法条是法律写作的刚性要求。
- 无需训练的解码策略对实际部署价值很大——可直接应用于任何 RAG 系统,不需要修改模型参数或收集额外训练数据。
- 置信度引导的动态插值比固定比例更优——不同 token 需要的复制/生成比例不同(实体名应复制,连接词可自由生成)。
- CoCoLex+ 的全文档复制范围是实用的扩展——法律文档中的相关信息常分散在不同段落,仅限于 top-K 检索块会遗漏关键引用。
- 该方法的核心思想(用注意力权重构造复制分布)可迁移到其他需要高忠实性的领域(如医疗报告、学术写作)。
局限性 / 可改进方向¶
- 过度复制可能导致不连贯——极端情况下生成变成拼贴而非连贯文本,需要设计最大复制率限制
- 仅在法律领域验证,通用性未知——其他需要忠实性的领域效果可能不同
- 注意力权重作为复制信号可能不够准确——不同层的注意力模式差异大,最优层选择未充分探讨
- 未考虑多文档上下文冲突——当多个源文档信息冲突时,复制策略可能放大错误
- 与 CoT prompting 等推理增强方法的结合未探索
相关工作与启发¶
- vs Pointer Generator Networks (See et al. 2017): 概念类似但 PGN 需要训练复制门控,CoCoLex 无需训练直接操作 logits,可即插即用
- vs CAD (Context-Aware Decoding): CAD 通过对比有/无上下文的分布来放大上下文影响,但不显式复制;CoCoLex 显式鼓励从上下文复制 token
- vs kNN-LM (Khandelwal et al. 2019): kNN-LM 从预训练语料的外部存储中检索;CoCoLex 从当前输入上下文复制,无需外部存储
- vs DoLa: DoLa 对比早晚层来提升忠实性;CoCoLex 通过复制机制保证忠实,两者可叠加使用
- 该方法的核心思想(用注意力权重构造复制分布+置信度控制插值)可迁移到其他需要高忠实性的领域(如医疗报告生成、学术论文引用)
评分¶
- 新颖性: ⭐⭐⭐ 将已有思想(pointer net + kNN-LM)适配到法律 RAG,创新适中
- 实验充分度: ⭐⭐⭐⭐ 五个基准+两个模型+可组合性验证
- 写作质量: ⭐⭐⭐⭐ 动机清晰,法律背景介绍充分
- 价值: ⭐⭐⭐⭐ 对法律 AI 有实际应用价值
技术细节补充¶
- CoCoLex核心数学形式:P_final = (1-lambda)P_model + lambdaP_copy
- lambda由模型当前步置信度(max probability或entropy)动态决定
- 注意力权重构造复制分布:使用最后一层attention权重作为复制概率
- 实验在Llama-3-8B-Instruct和Mistral-7B-Instruct两个LLM上验证
- 五个法律基准涵盖合同分析、法律QA、法规解读、判例分析、合规检查
- CoCoLex+扩展复制范围到全文档,通过扩展注意力窗口实现
- 与CAD和DoLa叠加实验表明改进正交,复制机制和分布调整互不干扰
- 法律文本中约40-60%的token可直接从源文档复制,为高复制率提供经验依据
技术细节补充¶
- CoCoLex核心数学形式:P_final = (1-lambda)P_model + lambdaP_copy
- lambda由模型当前步置信度(max probability或entropy)动态决定
- 注意力权重构造复制分布:使用最后一层attention权重作为复制概率
- 实验在Llama-3-8B-Instruct和Mistral-7B-Instruct两个LLM上验证
- 五个法律基准涵盖合同分析、法律QA、法规解读、判例分析、合规检查
- CoCoLex+扩展复制范围到全文档,通过扩展注意力窗口实现
- 与CAD和DoLa叠加实验表明改进正交,复制机制和分布调整互不干扰
- 法律文本中约40-60%的token可直接从源文档复制,为高复制率提供经验依据