跳转至

AIMSCheck: Leveraging LLMs for AI-Assisted Review of Modern Slavery Statements Across Jurisdictions

会议: ACL 2025
arXiv: 2506.01671
代码: 公开
领域: NLP 理解
关键词: 现代奴隶制, 合规审查, 跨司法管辖, LLM, 文本分类

一句话总结

提出 AIMSCheck——使用 LLM 辅助审查企业现代奴隶制声明是否合规的端到端框架,构建英国和加拿大的新标注数据集(AIMS.uk/AIMS.ca),三层分解合规评估增强可解释性,在澳大利亚数据上训练的模型能有效跨司法管辖泛化到英国和加拿大。

研究背景与动机

  1. 领域现状:多国出台了现代奴隶制法案要求企业披露其打击奴隶制的努力。但验证这些声明是否真正合规仍然是挑战——声明语言复杂多样且数量庞大。
  2. 现有痛点:(a) 人工审查成本高且不可扩展;(b) 标注数据稀缺(现有标注仅覆盖澳大利亚);(c) 不同国家的法律框架不同——一个国家训练的模型能否用于其他国家未知。
  3. 核心矛盾:合规审查需要法律+语言双重专业知识,NLP 工具需要处理高度专业化的法律文本。
  4. 本文要解决什么? 构建跨司法管辖的合规审查框架和基准数据集。
  5. 切入角度:与领域专家合作标注新数据,设计三层分解的合规评估(文档级→段落级→条款级),增强可解释性。
  6. 核心idea一句话:三层合规分解 + 跨司法管辖泛化 = 可扩展的现代奴隶制审查。

方法详解

整体框架

三层分解:(1) 文档级——判断声明是否整体合规;(2) 段落级——识别哪些段落包含合规相关内容;(3) 条款级——判断具体法律条款在声明中是否被满足。

关键设计

  1. 三层合规评估:
  2. L1 文档级:整体合规/不合规的二分类
  3. L2 段落级:多标签分类——每个段落对应哪些合规主题
  4. L3 条款级:逐条法律条款的满足情况
  5. 设计动机:分层增强了可解释性——不仅知道"是否合规"还知道"为什么不合规"

  6. 跨司法管辖泛化:

  7. 在澳大利亚数据上训练,在英国和加拿大数据上测试
  8. 发现泛化效果良好——不同国家的奴隶制声明有共性结构

  9. AIMS.uk 和 AIMS.ca 新数据集:

  10. 与法律领域专家合作标注
  11. 为跨司法管辖评估提供基准

损失函数 / 训练策略

  • 使用 LLM 微调(分类任务)
  • 多标签分类损失

实验关键数据

主实验

训练数据 测试数据 L1 准确率 L2 F1 说明
澳大利亚 澳大利亚 域内
澳大利亚 英国 良好 良好 跨域泛化
澳大利亚 加拿大 良好 良好 跨域泛化

关键发现

  • 跨司法管辖泛化效果出乎意料地好——不同国家的声明有共性语言模式
  • 三层分解使审查过程可解释——审查者可以知道具体是哪些条款被遗漏
  • LLM 辅助审查大幅提高效率——可处理数千份声明

亮点与洞察

  • 法律 AI 的实际应用价值——直接服务于社会公益(打击现代奴隶制)。
  • 跨司法管辖泛化是重要的实际需求——法律 AI 工具需要跨国适用。
  • 三层分解的可解释性设计对高风险法律场景至关重要。
  • AIMS.uk/AIMS.ca 数据集为社区提供了有价值的资源。
  • 该框架可扩展到其他合规审查任务(如 ESG 报告、隐私政策审查)。

局限性 / 可改进方向

  • 合规标准随法律修订而变——模型需要持续更新
  • 仅覆盖英语国家——非英语国家适用性未验证
  • 标注数据规模有限

相关工作与启发

  • vs ATRIE(法律解释): ATRIE 解释法律概念,AIMSCheck 审查合规——不同法律 AI 任务
  • vs CoCoLex(法律忠实性): CoCoLex 关注生成忠实性,AIMSCheck 关注审查准确性

评分

  • 新颖性: ⭐⭐⭐⭐ 跨司法管辖合规审查+三层可解释分解
  • 实验充分度: ⭐⭐⭐⭐ 三国数据+三层评估+跨域泛化
  • 写作质量: ⭐⭐⭐⭐ 问题社会意义清晰
  • 价值: ⭐⭐⭐⭐⭐ 直接服务社会公益的法律AI应用