Automating Legal Interpretation with LLMs: Retrieval, Generation, and Evaluation¶

会议: ACL 2025
arXiv: 2501.01743
代码: https://github.com/lkc233/ATRIE
领域: 文本生成
关键词: 法律解释, RAG, 法律NLP, 概念解释, 自动评估

一句话总结¶

提出 ATRIE 框架模拟法学教义研究流程——自动从判例法中检索概念相关信息、解释法律概念、并通过下游任务（法律概念蕴涵LCE）自动评估解释质量，生成的解释在全面性和可读性上与专家相当。

领域现状：法律解释是法律系统的核心任务——法律条文通常模糊且具开放性（如"住所"的定义）。法学教义研究需要专家阅读大量判例来总结概念的具体适用。
现有痛点：(a) 耗时——法律专家需浏览无数文本和案例；(b) 不及时——新案例持续涌现但人工更新滞后；(c) 不完整且主观——受限于人类阅读能力和选择偏见。
核心矛盾：之前的 LLM 法律解释研究仍依赖专家标注有价值的案例句子或评估质量——没有真正消除对专家的依赖。
本文要解决什么？ 构建完全自动化的法律概念解释流水线——从检索到生成到评估全程无需专家。
切入角度：用 RAG 从判例库自动检索相关信息替代人工标注，用下游任务表现作为解释质量的代理评估指标。
核心idea一句话：模拟法学研究的检索-解释-评估三步流程全面自动化。

ATRIE 包含两个组件：(1) 法律概念解释器——用 RAG 从大规模判例数据库检索概念相关信息，再用 LLM 生成解释；(2) 法律概念解释评估器——定义"法律概念蕴涵"（LCE）下游任务，用 LLM 在该任务上的性能变化作为解释质量的代理指标。

法律概念解释器（Interpreter）:
做什么：从判例法中自动检索概念信息并生成解释
核心思路：(a) 用 BM25+Dense 混合检索从判例库中找到与目标概念相关的案例段落；(b) 用 LLM 从检索到的段落中提取概念相关的有价值信息；(c) 将提取的信息作为上下文，提示 LLM 生成法律概念解释
设计动机：模拟法律专家的教义研究流程——先大量阅读案例，再提炼总结
法律概念蕴涵（LCE）评估器:
做什么：自动评估生成的法律解释的质量
核心思路：定义 LCE 任务——给定法律条文+概念解释+具体场景，判断该场景是否满足法律条文的适用条件。如果好的解释能帮助 LLM 更准确地做 LCE 判断，则该解释质量高
设计动机：直接评估解释的质量需要法律专家，但通过下游任务性能间接评估可全自动化
多维度人工评估:
做什么：与专家解释进行全面对比
评估维度：准确性、全面性、可读性
结果：全面性和可读性与专家相当或更优，准确性略有差距

方法	全面性(↑)	可读性(↑)	准确性(↑)	LCE性能(↑)
专家解释	基线	基线	最高	基线
直接提示 LLM	低	中	低	低于基线
ATRIE (RAG)	高于专家	高于专家	略低于专家	接近基线