ToC: Tree-of-Claims Search with Multi-Agent Language Models¶
会议: AAAI 2026
arXiv: 2511.16972
代码: ysy2003/ToC
领域: LLM推理
关键词: 专利权利要求优化, 蒙特卡洛树搜索, 多智能体协作, 不确定性感知, 结构化编辑
一句话总结¶
提出 Tree-of-Claims (ToC) 框架,将专利权利要求编辑建模为结构化搜索问题,通过 MCTS 与 EditorAgent/ExaminerAgent 多智能体协作,在新颖性、范围保持和语义一致性之间联合优化,比零/少样本 LLM 基线平均提升约 8% 综合分。
研究背景与动机¶
-
任务重要性:专利权利要求(patent claims)的起草和修订直接决定知识产权的法律范围、技术广度和商业价值,是一项高风险且需要高精度的法律-技术任务。
-
人工流程瓶颈:传统做法依赖资深专利律师反复手动修改,过程耗时、成本高、且不同人之间一致性差,难以规模化。
-
现有 LLM 方案的局限:GPT-4 等模型虽能生成流畅文本,但以单轮/少样本方式工作,缺乏迭代式结构化推理能力,且输出不可控——容易在不加防护的情况下扩大或缩小权利范围。
-
可控性缺失:已有的多智能体系统(如 AutoPatent、EvoPat)虽引入了协作机制,但编辑操作不透明、不确定性大,实际中专利从业者无法逐步验证每一处修改。
-
搜索方法的潜力:MCTS 在 Tree-of-Thoughts 等工作中已展现出在复杂推理任务中探索多路径的价值,但直接用于法律文本面临连贯性、合规性和范围保持的独特挑战。
-
核心洞察:作者观察到真实专利修改工作流本质上包含两个角色——"提出合法编辑"和"评估编辑的新颖性与审查标准",这恰好可以映射为 Editor-Examiner 双智能体协作,并用 MCTS 系统管理巨大的编辑空间。
方法详解¶
整体框架¶
ToC 将专利权利要求优化建模为序贯决策问题:给定初始权利要求 \(C_0\) 和先行技术文档集 \(P\),通过一系列原子编辑操作 \(a_t = (o_t, e_t, r_t, c_t)\)(操作类型、目标元素、推理链、置信度)生成修订后的权利要求 \(C_T\),目标是最大化累积奖励 \(\mathcal{A}^* = \arg\max_{\mathcal{A}} \mathbb{E}[\sum_{t=0}^{T-1} R(s_t, a_t)]\)。搜索过程基于 MCTS 的四阶段(选择→扩展→模拟→回传),配合不确定性门控和渐进加宽策略。
关键设计 1:十种原子编辑操作¶
- 做什么:定义了 AddNovelFeature、ReplaceSynonym、ReframeViaFigure、DropElement、MergeElements、SplitElement、AddLimitation、ModifyRelationship、ChangeOrder、AddDependency 共 10 种原子操作,并建立操作间的优先级关系(如 AddNovelFeature 须在 ReplaceSynonym 之前)。
- 核心思路:将自由文本编辑离散化为可组合的原子操作,使搜索树的每个分支对应一个明确且可解释的修改动作。
- 设计动机:确保每一步编辑都是可追溯、可审计的,满足法律领域对透明性的强要求;同时限制动作空间防止搜索树爆炸。
关键设计 2:ExaminerAgent(审查智能体)¶
- 做什么:对权利要求的每个元素逐一对照先行技术进行披露分析,输出严格 JSON 格式的结构化评估——包括状态(Disclosed/NotDisclosed/PartiallyDisclosed)、证据引文、置信度 \(c_i \in [0,1]\) 和认知不确定性 \(\sigma_i\)。
- 核心思路:模拟真实专利审查员的链式推理过程,对每个技术特征做同义/功能/结构等价性检查。
- 设计动机:为 EditorAgent 提供精确的"哪些元素已被披露"信息,使编辑有的放矢;同时通过不确定性标记自动识别需要人工介入的边界情况。
关键设计 3:EditorAgent(编辑智能体)¶
- 做什么:根据 ExaminerAgent 反馈,针对已披露元素从 10 种操作中选择最优编辑,生成修改后文本及理由。
- 核心思路:偏好最小化修改(minimal change)来击败被引证的证据,同时维持法律语言风格和技术可行性。
- 设计动机:避免大刀阔斧的改写导致范围不必要的扩大或缩小,保证每步编辑都是有针对性的精准调整。
关键设计 4:不确定性感知的 MCTS 搜索¶
- 做什么:在选择阶段对每个节点估计认知方差 \(\sigma_{\text{epi}}(n)\),超过阈值 \(\sigma^{\text{epi}}_{\max} = 0.2\) 的路径被剪枝或标记人工审查;将总方差分解为认知项和偶然项 \(\sigma^{\text{total}} = \sigma^{\text{epi}} + \sigma^{\text{ale}}\),仅认知项进入不确定性惩罚。
- 核心思路:UCT 选择公式 \(\text{UCT}(n) = Q(n)/N(n) + c\sqrt{\ln N(p)/N(n)}\) 加上 \(\sigma\)-gating 实现"知道自己不知道"的自我审查。
- 设计动机:隔离模型自身的认知不确定性与数据噪声,避免在高风险区域做投机性编辑,同时保留偶然性较高但本质合理的修改路径。
关键设计 5:渐进加宽(Progressive Widening)¶
- 做什么:扩展阶段仅生成前 \(K(n) = \lceil \alpha N(n)^{\delta} \rceil\) 个高价值子节点,\((α,δ) = (2.0, 0.5)\)。
- 核心思路:早期广泛探索、后期精细利用,自适应控制分支因子。
- 设计动机:在保证语义有效性的同时防止搜索树指数膨胀,兼顾搜索效率与质量。
关键设计 6:多目标奖励函数¶
- 做什么:线性加权五个子目标 \(R(C_t) = w_1 R_{\text{cov}} - w_2 R_{\text{scope}} + w_3 R_{\text{novelty}} + w_4 R_{\text{cons}} - w_5 R_{\text{uncert}}\),权重 \((1.0, 0.5, 1.5, 0.8, 0.3)\)。
- 核心思路:覆盖率奖励将"已披露"转为"未披露";范围惩罚防止不必要缩窄;新颖性仅计算审查员认定为创新的变更;一致性综合法律可读性和技术连贯性;不确定性用认知方差抑制投机编辑。
- 设计动机:反映专利修改中多个互相竞争目标的实际权衡,新颖性权重最高(1.5)体现其核心地位。
实验关键数据¶
数据集与设置¶
- 数据源:USPTO Office Actions 数据集,无线通信专利,含 1,145 个专利(106 通过 / 1,039 被拒)、28,261 条权利要求、8,418 条先行技术引用。
- 评估集:500 样本 hold-out,3 次种子重复取均值±标准差。
- 模型:闭源(OpenAI O1、GPT-4o、Claude-3.5 Sonnet)+ 开源(Qwen2.5-VL-32B/72B),每个模型同时担任 Examiner 和 Editor 角色。
表 1:核心奖励指标对比(N=500,±SD over 3 seeds)¶
| 模型 | 配置 | \(R_{\text{cov}}\) | \(R_{\text{scope}}\) | \(R_{\text{novelty}}\) | \(R_{\text{cons}}\) | Overall |
|---|---|---|---|---|---|---|
| GPT-4o | +ToC | 0.582 | 0.389 | 0.732 | 0.956 | 0.701 |
| GPT-4o | few-shot | 0.555 | 0.405 | 0.698 | 0.951 | 0.678 |
| GPT-4o | zero-shot | 0.520 | 0.417 | 0.659 | 0.947 | 0.647 |
| OpenAI O1 | +ToC | 0.560 | 0.374 | 0.712 | 0.942 | 0.680 |
| OpenAI O1 | few-shot | 0.525 | 0.388 | 0.685 | 0.937 | 0.658 |
| Claude-3.5 | +ToC | 0.548 | 0.370 | 0.703 | 0.945 | 0.675 |
| Qwen2.5-72B | +ToC | 0.534 | 0.361 | 0.682 | 0.930 | 0.658 |
| Qwen2.5-32B | +ToC | 0.507 | 0.351 | 0.665 | 0.924 | 0.639 |
表 2:辅助生成质量指标¶
| 模型 | 配置 | JSON合规率 | PPL↓ | ROUGE-L | BLEU |
|---|---|---|---|---|---|
| GPT-4o | +ToC | 0.996 | 8.72 | 0.624 | 0.554 |
| GPT-4o | few-shot | 0.995 | 8.85 | 0.610 | 0.537 |
| OpenAI O1 | +ToC | 0.994 | 9.10 | 0.602 | 0.540 |
| Claude-3.5 | +ToC | 0.995 | 8.98 | 0.611 | 0.530 |
| Qwen2.5-72B | +ToC | 0.993 | 9.52 | 0.596 | 0.525 |
| Qwen2.5-32B | +ToC | 0.992 | 9.80 | 0.582 | 0.510 |
关键发现¶
- ToC 一致性提升:在所有 5 个模型上 ToC 均显著优于 zero-shot 和 few-shot 基线,平均综合分提升约 8%,最高达 9%(GPT-4o zero-shot→ToC:0.647→0.701)。
- GPT-4o 全面领先:在覆盖率、新颖性、一致性和困惑度上均是最优,Overall 达 0.701。
- 开源模型跨规模迁移:Qwen2.5-VL-72B 的 ToC 版本接近 GPT-4o 基线水平(0.658 vs 0.678),且 32B→72B 提升明显,说明 ToC 框架具有良好的模型无关性。
- 消融实验:去掉不确定性门控、渐进加宽、多智能体协作中的任何一个模块都会导致性能下降,其中不确定性控制和智能体交互对新颖性和覆盖率影响最大。
- 超参不敏感:准确率在 \(\alpha \in [0.2, 0.8]\), \(T_{\max} \in [5, 20]\) 的网格上保持 0.72–0.81,峰值在 \(\alpha=0.6\), \(T_{\max}=15\)。
- 搜索收敛快:前 6 次迭代就实现了约 70% 的最终收益,10 轮后基本收敛。
- 专家偏好:5 位资深专利专家在约 2/3 的评估中偏好 ToC 生成的修订版本。
亮点与洞察¶
- 精妙的问题建模:将自由文本编辑离散化为 10 种原子操作、建立优先级约束,使 MCTS 搜索变得可行且可解释——这一建模思路可迁移到合同修改、医疗方案优化等结构化文本编辑场景。
- 不确定性分解:将总方差分解为认知+偶然两项,仅用认知不确定性做门控,避免了先行技术措辞差异带来的虚假惩罚,这是实用性很强的工程设计。
- 透明可审计的修改链:与传统端到端生成不同,ToC 产出一条完整的编辑历史,每一步都有操作类型、理由和置信度,完全满足法律领域的可追溯要求。
- 多目标奖励的权重设计:新颖性权重(1.5)远高于范围惩罚(0.5)和不确定性(0.3),反映了"专利审查中先争取新颖性、再调整范围"的实际策略。
局限性 / 可改进方向¶
- 数据集单一:仅在无线通信领域的 USPTO 数据上验证,尚不清楚在生物医药、化学等高度专业化领域的泛化能力。
- 计算成本:MCTS 最大 800 轮迭代 + 3600 秒搜索时间 + 每步需调用两个 LLM agent,API 开销和延迟对实际部署是挑战。
- 手动奖励权重:五个子目标的权重是在开发集上经验调优的,未探索自动权重学习或帕累托优化。
- 错误分析暴露:系统控制失败(12.2%)和无支撑新颖性声明(9.9%)是两大主要错误类型,说明不确定性校准和验证机制仍有改进空间。
- 多模态利用有限:虽然数据集包含图像,ReframeViaFigure 操作的实际效果未见深入分析。
- 人工介入机制:\(\sigma\)-gating 触发人工审查后的具体交互流程未充分说明。
相关工作与启发¶
- Tree-of-Thoughts (Yao et al., 2023):ToC 可视为 ToT 在法律领域的专业化扩展,引入了领域约束和多智能体评估。
- MetaGPT / AutoGen:通用多智能体框架,ToC 通过将角色严格绑定到领域(审查员+编辑)来获得更强的任务针对性。
- ClaimBrush (Kawano et al.):引入审查员反馈但仅做单轮修改,ToC 的 MCTS 搜索提供了多轮迭代优化能力。
- 启发:ToC 的"原子操作 + 搜索树 + 双角色评估"框架模式具有广泛适用性,可直接迁移到合同条款优化、临床指南修订、科学写作打磨等需要精细控制的结构化文本编辑任务。
评分¶
- 新颖性: ⭐⭐⭐⭐ 将专利编辑建模为 MCTS 搜索+多智能体协作,不确定性分解机制有创意
- 实验充分度: ⭐⭐⭐⭐ 5个模型×3配置、消融、敏感性分析、专家评估全面覆盖
- 写作质量: ⭐⭐⭐⭐ 框架描述清晰,prompt 模板完全公开
- 价值: ⭐⭐⭐⭐ 框架模式可迁移到更广泛的结构化文本编辑场景,但领域较窄限制了直接影响力