跳转至

ToC: Tree-of-Claims Search with Multi-Agent Language Models

会议: AAAI 2026
arXiv: 2511.16972
代码: ysy2003/ToC
领域: LLM推理
关键词: 专利权利要求优化, 蒙特卡洛树搜索, 多智能体协作, 不确定性感知, 结构化编辑

一句话总结

提出 Tree-of-Claims (ToC) 框架,将专利权利要求编辑建模为结构化搜索问题,通过 MCTS 与 EditorAgent/ExaminerAgent 多智能体协作,在新颖性、范围保持和语义一致性之间联合优化,比零/少样本 LLM 基线平均提升约 8% 综合分。


研究背景与动机

  1. 任务重要性:专利权利要求(patent claims)的起草和修订直接决定知识产权的法律范围、技术广度和商业价值,是一项高风险且需要高精度的法律-技术任务。

  2. 人工流程瓶颈:传统做法依赖资深专利律师反复手动修改,过程耗时、成本高、且不同人之间一致性差,难以规模化。

  3. 现有 LLM 方案的局限:GPT-4 等模型虽能生成流畅文本,但以单轮/少样本方式工作,缺乏迭代式结构化推理能力,且输出不可控——容易在不加防护的情况下扩大或缩小权利范围。

  4. 可控性缺失:已有的多智能体系统(如 AutoPatent、EvoPat)虽引入了协作机制,但编辑操作不透明、不确定性大,实际中专利从业者无法逐步验证每一处修改。

  5. 搜索方法的潜力:MCTS 在 Tree-of-Thoughts 等工作中已展现出在复杂推理任务中探索多路径的价值,但直接用于法律文本面临连贯性、合规性和范围保持的独特挑战。

  6. 核心洞察:作者观察到真实专利修改工作流本质上包含两个角色——"提出合法编辑"和"评估编辑的新颖性与审查标准",这恰好可以映射为 Editor-Examiner 双智能体协作,并用 MCTS 系统管理巨大的编辑空间。


方法详解

整体框架

ToC 将专利权利要求优化建模为序贯决策问题:给定初始权利要求 \(C_0\) 和先行技术文档集 \(P\),通过一系列原子编辑操作 \(a_t = (o_t, e_t, r_t, c_t)\)(操作类型、目标元素、推理链、置信度)生成修订后的权利要求 \(C_T\),目标是最大化累积奖励 \(\mathcal{A}^* = \arg\max_{\mathcal{A}} \mathbb{E}[\sum_{t=0}^{T-1} R(s_t, a_t)]\)。搜索过程基于 MCTS 的四阶段(选择→扩展→模拟→回传),配合不确定性门控和渐进加宽策略。

关键设计 1:十种原子编辑操作

  • 做什么:定义了 AddNovelFeature、ReplaceSynonym、ReframeViaFigure、DropElement、MergeElements、SplitElement、AddLimitation、ModifyRelationship、ChangeOrder、AddDependency 共 10 种原子操作,并建立操作间的优先级关系(如 AddNovelFeature 须在 ReplaceSynonym 之前)。
  • 核心思路:将自由文本编辑离散化为可组合的原子操作,使搜索树的每个分支对应一个明确且可解释的修改动作。
  • 设计动机:确保每一步编辑都是可追溯、可审计的,满足法律领域对透明性的强要求;同时限制动作空间防止搜索树爆炸。

关键设计 2:ExaminerAgent(审查智能体)

  • 做什么:对权利要求的每个元素逐一对照先行技术进行披露分析,输出严格 JSON 格式的结构化评估——包括状态(Disclosed/NotDisclosed/PartiallyDisclosed)、证据引文、置信度 \(c_i \in [0,1]\) 和认知不确定性 \(\sigma_i\)
  • 核心思路:模拟真实专利审查员的链式推理过程,对每个技术特征做同义/功能/结构等价性检查。
  • 设计动机:为 EditorAgent 提供精确的"哪些元素已被披露"信息,使编辑有的放矢;同时通过不确定性标记自动识别需要人工介入的边界情况。

关键设计 3:EditorAgent(编辑智能体)

  • 做什么:根据 ExaminerAgent 反馈,针对已披露元素从 10 种操作中选择最优编辑,生成修改后文本及理由。
  • 核心思路:偏好最小化修改(minimal change)来击败被引证的证据,同时维持法律语言风格和技术可行性。
  • 设计动机:避免大刀阔斧的改写导致范围不必要的扩大或缩小,保证每步编辑都是有针对性的精准调整。

关键设计 4:不确定性感知的 MCTS 搜索

  • 做什么:在选择阶段对每个节点估计认知方差 \(\sigma_{\text{epi}}(n)\),超过阈值 \(\sigma^{\text{epi}}_{\max} = 0.2\) 的路径被剪枝或标记人工审查;将总方差分解为认知项和偶然项 \(\sigma^{\text{total}} = \sigma^{\text{epi}} + \sigma^{\text{ale}}\),仅认知项进入不确定性惩罚。
  • 核心思路:UCT 选择公式 \(\text{UCT}(n) = Q(n)/N(n) + c\sqrt{\ln N(p)/N(n)}\) 加上 \(\sigma\)-gating 实现"知道自己不知道"的自我审查。
  • 设计动机:隔离模型自身的认知不确定性与数据噪声,避免在高风险区域做投机性编辑,同时保留偶然性较高但本质合理的修改路径。

关键设计 5:渐进加宽(Progressive Widening)

  • 做什么:扩展阶段仅生成前 \(K(n) = \lceil \alpha N(n)^{\delta} \rceil\) 个高价值子节点,\((α,δ) = (2.0, 0.5)\)
  • 核心思路:早期广泛探索、后期精细利用,自适应控制分支因子。
  • 设计动机:在保证语义有效性的同时防止搜索树指数膨胀,兼顾搜索效率与质量。

关键设计 6:多目标奖励函数

  • 做什么:线性加权五个子目标 \(R(C_t) = w_1 R_{\text{cov}} - w_2 R_{\text{scope}} + w_3 R_{\text{novelty}} + w_4 R_{\text{cons}} - w_5 R_{\text{uncert}}\),权重 \((1.0, 0.5, 1.5, 0.8, 0.3)\)
  • 核心思路:覆盖率奖励将"已披露"转为"未披露";范围惩罚防止不必要缩窄;新颖性仅计算审查员认定为创新的变更;一致性综合法律可读性和技术连贯性;不确定性用认知方差抑制投机编辑。
  • 设计动机:反映专利修改中多个互相竞争目标的实际权衡,新颖性权重最高(1.5)体现其核心地位。

实验关键数据

数据集与设置

  • 数据源:USPTO Office Actions 数据集,无线通信专利,含 1,145 个专利(106 通过 / 1,039 被拒)、28,261 条权利要求8,418 条先行技术引用
  • 评估集:500 样本 hold-out,3 次种子重复取均值±标准差。
  • 模型:闭源(OpenAI O1、GPT-4o、Claude-3.5 Sonnet)+ 开源(Qwen2.5-VL-32B/72B),每个模型同时担任 Examiner 和 Editor 角色。

表 1:核心奖励指标对比(N=500,±SD over 3 seeds)

模型 配置 \(R_{\text{cov}}\) \(R_{\text{scope}}\) \(R_{\text{novelty}}\) \(R_{\text{cons}}\) Overall
GPT-4o +ToC 0.582 0.389 0.732 0.956 0.701
GPT-4o few-shot 0.555 0.405 0.698 0.951 0.678
GPT-4o zero-shot 0.520 0.417 0.659 0.947 0.647
OpenAI O1 +ToC 0.560 0.374 0.712 0.942 0.680
OpenAI O1 few-shot 0.525 0.388 0.685 0.937 0.658
Claude-3.5 +ToC 0.548 0.370 0.703 0.945 0.675
Qwen2.5-72B +ToC 0.534 0.361 0.682 0.930 0.658
Qwen2.5-32B +ToC 0.507 0.351 0.665 0.924 0.639

表 2:辅助生成质量指标

模型 配置 JSON合规率 PPL↓ ROUGE-L BLEU
GPT-4o +ToC 0.996 8.72 0.624 0.554
GPT-4o few-shot 0.995 8.85 0.610 0.537
OpenAI O1 +ToC 0.994 9.10 0.602 0.540
Claude-3.5 +ToC 0.995 8.98 0.611 0.530
Qwen2.5-72B +ToC 0.993 9.52 0.596 0.525
Qwen2.5-32B +ToC 0.992 9.80 0.582 0.510

关键发现

  1. ToC 一致性提升:在所有 5 个模型上 ToC 均显著优于 zero-shot 和 few-shot 基线,平均综合分提升约 8%,最高达 9%(GPT-4o zero-shot→ToC:0.647→0.701)。
  2. GPT-4o 全面领先:在覆盖率、新颖性、一致性和困惑度上均是最优,Overall 达 0.701。
  3. 开源模型跨规模迁移:Qwen2.5-VL-72B 的 ToC 版本接近 GPT-4o 基线水平(0.658 vs 0.678),且 32B→72B 提升明显,说明 ToC 框架具有良好的模型无关性。
  4. 消融实验:去掉不确定性门控、渐进加宽、多智能体协作中的任何一个模块都会导致性能下降,其中不确定性控制和智能体交互对新颖性和覆盖率影响最大。
  5. 超参不敏感:准确率在 \(\alpha \in [0.2, 0.8]\), \(T_{\max} \in [5, 20]\) 的网格上保持 0.72–0.81,峰值在 \(\alpha=0.6\), \(T_{\max}=15\)
  6. 搜索收敛快:前 6 次迭代就实现了约 70% 的最终收益,10 轮后基本收敛。
  7. 专家偏好:5 位资深专利专家在约 2/3 的评估中偏好 ToC 生成的修订版本。

亮点与洞察

  • 精妙的问题建模:将自由文本编辑离散化为 10 种原子操作、建立优先级约束,使 MCTS 搜索变得可行且可解释——这一建模思路可迁移到合同修改、医疗方案优化等结构化文本编辑场景。
  • 不确定性分解:将总方差分解为认知+偶然两项,仅用认知不确定性做门控,避免了先行技术措辞差异带来的虚假惩罚,这是实用性很强的工程设计。
  • 透明可审计的修改链:与传统端到端生成不同,ToC 产出一条完整的编辑历史,每一步都有操作类型、理由和置信度,完全满足法律领域的可追溯要求。
  • 多目标奖励的权重设计:新颖性权重(1.5)远高于范围惩罚(0.5)和不确定性(0.3),反映了"专利审查中先争取新颖性、再调整范围"的实际策略。

局限性 / 可改进方向

  1. 数据集单一:仅在无线通信领域的 USPTO 数据上验证,尚不清楚在生物医药、化学等高度专业化领域的泛化能力。
  2. 计算成本:MCTS 最大 800 轮迭代 + 3600 秒搜索时间 + 每步需调用两个 LLM agent,API 开销和延迟对实际部署是挑战。
  3. 手动奖励权重:五个子目标的权重是在开发集上经验调优的,未探索自动权重学习或帕累托优化。
  4. 错误分析暴露:系统控制失败(12.2%)和无支撑新颖性声明(9.9%)是两大主要错误类型,说明不确定性校准和验证机制仍有改进空间。
  5. 多模态利用有限:虽然数据集包含图像,ReframeViaFigure 操作的实际效果未见深入分析。
  6. 人工介入机制\(\sigma\)-gating 触发人工审查后的具体交互流程未充分说明。

相关工作与启发

  • Tree-of-Thoughts (Yao et al., 2023):ToC 可视为 ToT 在法律领域的专业化扩展,引入了领域约束和多智能体评估。
  • MetaGPT / AutoGen:通用多智能体框架,ToC 通过将角色严格绑定到领域(审查员+编辑)来获得更强的任务针对性。
  • ClaimBrush (Kawano et al.):引入审查员反馈但仅做单轮修改,ToC 的 MCTS 搜索提供了多轮迭代优化能力。
  • 启发:ToC 的"原子操作 + 搜索树 + 双角色评估"框架模式具有广泛适用性,可直接迁移到合同条款优化、临床指南修订、科学写作打磨等需要精细控制的结构化文本编辑任务。

评分

  • 新颖性: ⭐⭐⭐⭐ 将专利编辑建模为 MCTS 搜索+多智能体协作,不确定性分解机制有创意
  • 实验充分度: ⭐⭐⭐⭐ 5个模型×3配置、消融、敏感性分析、专家评估全面覆盖
  • 写作质量: ⭐⭐⭐⭐ 框架描述清晰,prompt 模板完全公开
  • 价值: ⭐⭐⭐⭐ 框架模式可迁移到更广泛的结构化文本编辑场景,但领域较窄限制了直接影响力