AgentODRL: A Large Language Model-based Multi-agent System for ODRL Generation¶
会议: AAAI 2026
arXiv: 2512.00602v1
代码: https://github.com/RUC-MAS/AgentODRL
领域: 多智能体系统 / 自然语言处理 / 数据权限管理
关键词: ODRL生成, 多智能体系统, LLM, 数据权限策略, Orchestrator-Workers
一句话总结¶
提出AgentODRL,一个基于Orchestrator-Workers架构的LLM多智能体系统,通过任务分解、语法验证循环和LoRA驱动的语义反思机制,将自然语言数据权限规则高质量地转换为ODRL格式。
背景与动机¶
ODRL(Open Digital Rights Language)是W3C标准,用于数据空间中数据资产的使用策略描述。但ODRL策略的编写要求作者熟悉RDF图数据模型、序列化格式以及ODRL自身的复杂概念体系,对非技术背景的领域专家构成很高门槛。现有方法(如基于本体的指导、SCR自校正规则)依赖单一LLM端到端生成,在面对包含并行结构(多个独立策略)或递归结构(跨条款引用依赖)的复杂规则时,单模型无法同时处理法律文本解析、语义分割和严格语法生成等多种认知任务,性能显著下降。此外,高质量"NL-to-ODRL"平行语料极度稀缺,进一步限制了模型能力。
核心问题¶
如何将复杂的自然语言数据权限规则(包含并行和递归逻辑结构)准确、自动地转换为结构严谨的ODRL策略?核心挑战在于:(1) 单模型架构无法同时高效处理多种认知子任务;(2) 缺乏高质量训练数据;(3) 生成结果需同时满足语法正确性和语义忠实度的双重要求。
方法详解¶
整体框架¶
AgentODRL采用Orchestrator-Workers模式。中央Orchestrator Agent接收自然语言用例,分析其复杂度类别(简单/并行/递归),动态调度专用Worker Agent组装最优处理路径。处理完成后通过语法和语义两个维度的后处理策略确保输出质量。
关键设计¶
-
用例复杂度分类: 将输入规则根据内部结构关系分为三类——简单用例(单一自包含策略)、并行结构用例(多个相对独立的策略)、递归结构用例(存在跨条款引用依赖)。每类对应不同的处理路径。
-
三个Worker Agent:
- Rewriter Agent: 处理递归结构,执行"结构保持内联"——识别并解析显式引用(如条款编号)和隐式引用(如"尽管…"),将被引用条款内容内联到引用条款中,消除语义依赖,同时保持原始条款的结构分离。
- Splitter Agent: 处理并行结构,基于核心语义变化(资产变化、角色关系变化、策略目的变化)而非表面语法进行规则分割,并通过启发式方法为每个单元分配ODRL类型(Agreement/Offer/Set)。
-
Generator Agent: 核心执行单元,将结构化规则文本转换为ODRL策略,集成了两个质量保障策略。
-
双重质量保障策略:
- 语法验证循环(Validator-Based Strategy): 采用基于PYSHACL库的"生成-验证-修正"闭环。生成的ODRL策略经SHACL约束规则验证,若失败则将详细错误报告反馈给Generator LLM进行反思修订,循环直至通过验证或达到最大尝试次数。
- LoRA语义反思机制: 用LoRA微调轻量LLM(Qwen3-4B-Instruct)作为语义提取专家,从原始规则中提取关键语义元素(角色、资产、动作等)生成"语义检查点清单"。主Generator必须对照该清单验证其ODRL输出,确保每个语义点被准确编码。
训练策略¶
LoRA微调参数:r=16, alpha=32,使用2380个合成样本,单张NVIDIA 4090 GPU训练3个epoch。验证损失(0.0668)显著低于训练损失(0.129),泛化良好。
实验关键数据¶
实验1:生成策略评估(770个用例,GPT-4.1系列)
| 模型 | 用例类型 | 指标 | OGS | SCR-Enhanced | AOFP(本文) | 提升(vs SCR) |
|---|---|---|---|---|---|---|
| GPT-4.1 | 全部 | Grammar | 82.07 | 93.08 | 99.89 | +7.32% |
| GPT-4.1 | 全部 | Semantic | 89.59 | 92.00 | 97.93 | +6.45% |
| GPT-4.1 | 递归 | Semantic | 76.18 | 78.97 | 96.40 | +22.07% |
| GPT-4.1-nano | 全部 | Grammar | 79.77 | 88.40 | 92.01 | +4.08% |
| GPT-4.1-nano | 全部 | Semantic | 50.51 | 56.23 | 72.35 | +28.67% |
| GPT-4.1-nano | 递归 | Semantic | 34.87 | 40.40 | 61.53 | +52.30% |
平均提升:Grammar +5.39%, Semantic +14.52%(相比SCR-Enhanced)。
实验2:Orchestrator-Workers工作流评估(GPT-4.1-nano)
| 工作流 | Grammar | Semantic | Tokens |
|---|---|---|---|
| 仅Generator | 92.01 | 72.35 | 33.9M |
| Splitter→Generator | 93.62 | 84.02 | 47.9M |
| Rewriter→Splitter→Generator | 93.27 | 88.07 | 49.5M |
| Orchestrator-Workers(自动) | 92.56 | 80.22 | 46.2M |
消融实验要点¶
- Splitter Agent在所有类别用例上都带来显著提升,尤其并行结构(Semantic: 69.44→84.88)
- Rewriter Agent在递归结构上不可或缺(Semantic: 61.53→82.00)
- Orchestrator自动路由以略低于理论上限的性能(80.22 vs 88.07),换取了更经济的token消耗
- 语法验证循环使所有模型的Grammar Score提升至近乎完美(>99),有效消除LLM的语法幻觉
- 弱模型和复杂用例需要更多反思轮次(GPT-4.1-nano递归用例平均7.32轮)
亮点¶
- 首次将多智能体架构应用于ODRL生成任务,将单一端到端问题拆解为多个认知子任务
- "生成-验证-修正"闭环设计优雅,利用SHACL提供结构化错误反馈
- LoRA微调轻量模型作为语义检查器的思路新颖——用小模型约束大模型的语义准确性
- 策略对弱模型的提升效果尤其显著(GPT-4.1-nano语义分数提升76.46%),说明框架设计具有普适性
- 构建了领域内首个770用例的基准数据集
局限性 / 可改进方向¶
- Orchestrator的自动路由表现低于手动选择最优路径的理论上限(80.22 vs 88.07),分类准确性有改进空间
- 仅在GPT-4.1系列上验证,未测试开源LLM(如LLaMA、Mistral),普适性存疑
- 数据集由70个种子用例通过LLM增广到770个,多样性可能受限
- 语义评估依赖LLM Jury,本身存在评估偏差风险
- 未探讨更复杂的ODRL结构(如多层嵌套递归、条件逻辑组合)
- LoRA模型固定在Qwen3-4B上,未探索不同规模验证模型的影响
与相关工作的对比¶
- vs OGS(Ontology-Guided Strategy): OGS用ODRL本体引导单一LLM生成,但遇到复杂结构时性能急剧下降。AgentODRL通过任务分解和专用Agent避免了单模型认知过载。
- vs SCR-Enhanced (Mustafa et al., 2025): SCR在OGS基础上用预定义规则后处理修正错误,但仍是单模型范式。AgentODRL的AOFP在所有模型和复杂度水平上持续超越SCR,尤其在语义维度上(平均+14.52%)。
- vs MetaGPT等通用MAS: 通用多智能体框架缺乏ODRL领域的专用模块设计(如SHACL验证、LoRA语义检查),AgentODRL针对ODRL任务特性做了深度定制。
启发与关联¶
- "小模型约束大模型"范式:用LoRA微调的小型专家模型作为语义检查器,约束大模型生成质量——这个思路可以推广到其他需要领域专业知识验证的生成任务中(如代码生成、医学报告生成)。
- 与AI安全idea的关联:ideas目录中有一篇关于"最小可追责约束集用于LLM多智能体协作安全"的idea,AgentODRL的Orchestrator-Workers架构恰好是该idea可以应用的场景——如何为AgentODRL的各个Agent设计最小化的安全约束?
- "生成-验证-修正"闭环的通用性:SHACL验证提供结构化错误反馈的设计可以迁移到其他有形式化规范的生成任务(如SQL生成用数据库schema验证、API调用生成用OpenAPI spec验证)。
- Orchestrator路由的改进空间:当前Orchestrator分类准确性不足是主要瓶颈。可以考虑引入few-shot示例、不确定性估计或分类器微调来提升路由质量。
评分¶
- 新颖性: ⭐⭐⭐⭐ (多智能体+ODRL是新组合,但Orchestrator-Workers模式本身不算新)
- 实验充分度: ⭐⭐⭐⭐ (两个实验设计合理,消融较完整,但仅限GPT-4.1系列)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,用例分类和方法描述详细,但某些细节较冗长)
- 价值: ⭐⭐⭐ (领域较窄,ODRL应用场景有限,但方法论可迁移)