ToC: Tree-of-Claims Search with Multi-Agent Language Models¶

会议: AAAI 2026
arXiv: 2511.16972
代码: ysy2003/ToC
领域: LLM推理
关键词: 专利权利要求优化, 蒙特卡洛树搜索, 多智能体协作, 不确定性感知, 结构化编辑

一句话总结¶

提出 Tree-of-Claims (ToC) 框架，将专利权利要求编辑建模为结构化搜索问题，通过 MCTS 与 EditorAgent/ExaminerAgent 多智能体协作，在新颖性、范围保持和语义一致性之间联合优化，比零/少样本 LLM 基线平均提升约 8% 综合分。

研究背景与动机¶

任务重要性：专利权利要求(patent claims)的起草和修订直接决定知识产权的法律范围、技术广度和商业价值，是一项高风险且需要高精度的法律-技术任务。
人工流程瓶颈：传统做法依赖资深专利律师反复手动修改，过程耗时、成本高、且不同人之间一致性差，难以规模化。
现有 LLM 方案的局限：GPT-4 等模型虽能生成流畅文本，但以单轮/少样本方式工作，缺乏迭代式结构化推理能力，且输出不可控——容易在不加防护的情况下扩大或缩小权利范围。
可控性缺失：已有的多智能体系统（如 AutoPatent、EvoPat）虽引入了协作机制，但编辑操作不透明、不确定性大，实际中专利从业者无法逐步验证每一处修改。
搜索方法的潜力：MCTS 在 Tree-of-Thoughts 等工作中已展现出在复杂推理任务中探索多路径的价值，但直接用于法律文本面临连贯性、合规性和范围保持的独特挑战。
核心洞察：作者观察到真实专利修改工作流本质上包含两个角色——"提出合法编辑"和"评估编辑的新颖性与审查标准"，这恰好可以映射为 Editor-Examiner 双智能体协作，并用 MCTS 系统管理巨大的编辑空间。

方法详解¶

整体框架¶

ToC 将专利权利要求优化建模为序贯决策问题：给定初始权利要求 \(C_0\) 和先行技术文档集 \(P\)，通过一系列原子编辑操作 \(a_t = (o_t, e_t, r_t, c_t)\)（操作类型、目标元素、推理链、置信度）生成修订后的权利要求 \(C_T\)，目标是最大化累积奖励 \(\mathcal{A}^* = \arg\max_{\mathcal{A}} \mathbb{E}[\sum_{t=0}^{T-1} R(s_t, a_t)]\)。搜索过程基于 MCTS 的四阶段（选择→扩展→模拟→回传），配合不确定性门控和渐进加宽策略。

关键设计 1：十种原子编辑操作¶

做什么：定义了 AddNovelFeature、ReplaceSynonym、ReframeViaFigure、DropElement、MergeElements、SplitElement、AddLimitation、ModifyRelationship、ChangeOrder、AddDependency 共 10 种原子操作，并建立操作间的优先级关系（如 AddNovelFeature 须在 ReplaceSynonym 之前）。
核心思路：将自由文本编辑离散化为可组合的原子操作，使搜索树的每个分支对应一个明确且可解释的修改动作。
设计动机：确保每一步编辑都是可追溯、可审计的，满足法律领域对透明性的强要求；同时限制动作空间防止搜索树爆炸。

关键设计 2：ExaminerAgent（审查智能体）¶

做什么：对权利要求的每个元素逐一对照先行技术进行披露分析，输出严格 JSON 格式的结构化评估——包括状态（Disclosed/NotDisclosed/PartiallyDisclosed）、证据引文、置信度 \(c_i \in [0,1]\) 和认知不确定性 \(\sigma_i\)。
核心思路：模拟真实专利审查员的链式推理过程，对每个技术特征做同义/功能/结构等价性检查。
设计动机：为 EditorAgent 提供精确的"哪些元素已被披露"信息，使编辑有的放矢；同时通过不确定性标记自动识别需要人工介入的边界情况。

关键设计 3：EditorAgent（编辑智能体）¶

做什么：根据 ExaminerAgent 反馈，针对已披露元素从 10 种操作中选择最优编辑，生成修改后文本及理由。
核心思路：偏好最小化修改（minimal change）来击败被引证的证据，同时维持法律语言风格和技术可行性。
设计动机：避免大刀阔斧的改写导致范围不必要的扩大或缩小，保证每步编辑都是有针对性的精准调整。

关键设计 4：不确定性感知的 MCTS 搜索¶

做什么：在选择阶段对每个节点估计认知方差 \(\sigma_{\text{epi}}(n)\)，超过阈值 \(\sigma^{\text{epi}}_{\max} = 0.2\) 的路径被剪枝或标记人工审查；将总方差分解为认知项和偶然项 \(\sigma^{\text{total}} = \sigma^{\text{epi}} + \sigma^{\text{ale}}\)，仅认知项进入不确定性惩罚。
核心思路：UCT 选择公式 \(\text{UCT}(n) = Q(n)/N(n) + c\sqrt{\ln N(p)/N(n)}\) 加上 \(\sigma\)-gating 实现"知道自己不知道"的自我审查。
设计动机：隔离模型自身的认知不确定性与数据噪声，避免在高风险区域做投机性编辑，同时保留偶然性较高但本质合理的修改路径。

关键设计 5：渐进加宽（Progressive Widening）¶

做什么：扩展阶段仅生成前 \(K(n) = \lceil \alpha N(n)^{\delta} \rceil\) 个高价值子节点，\((α,δ) = (2.0, 0.5)\)。
核心思路：早期广泛探索、后期精细利用，自适应控制分支因子。
设计动机：在保证语义有效性的同时防止搜索树指数膨胀，兼顾搜索效率与质量。

关键设计 6：多目标奖励函数¶

做什么：线性加权五个子目标 \(R(C_t) = w_1 R_{\text{cov}} - w_2 R_{\text{scope}} + w_3 R_{\text{novelty}} + w_4 R_{\text{cons}} - w_5 R_{\text{uncert}}\)，权重 \((1.0, 0.5, 1.5, 0.8, 0.3)\)。
核心思路：覆盖率奖励将"已披露"转为"未披露"；范围惩罚防止不必要缩窄；新颖性仅计算审查员认定为创新的变更；一致性综合法律可读性和技术连贯性；不确定性用认知方差抑制投机编辑。
设计动机：反映专利修改中多个互相竞争目标的实际权衡，新颖性权重最高(1.5)体现其核心地位。

实验关键数据¶

数据集与设置¶

数据源：USPTO Office Actions 数据集，无线通信专利，含 1,145 个专利（106 通过 / 1,039 被拒）、28,261 条权利要求、8,418 条先行技术引用。
评估集：500 样本 hold-out，3 次种子重复取均值±标准差。
模型：闭源（OpenAI O1、GPT-4o、Claude-3.5 Sonnet）+ 开源（Qwen2.5-VL-32B/72B），每个模型同时担任 Examiner 和 Editor 角色。

表 1：核心奖励指标对比（N=500，±SD over 3 seeds）¶

模型	配置	\(R_{\text{cov}}\)	\(R_{\text{scope}}\)	\(R_{\text{novelty}}\)	\(R_{\text{cons}}\)	Overall
GPT-4o	+ToC	0.582	0.389	0.732	0.956	0.701
GPT-4o	few-shot	0.555	0.405	0.698	0.951	0.678
GPT-4o	zero-shot	0.520	0.417	0.659	0.947	0.647
OpenAI O1	+ToC	0.560	0.374	0.712	0.942	0.680
OpenAI O1	few-shot	0.525	0.388	0.685	0.937	0.658
Claude-3.5	+ToC	0.548	0.370	0.703	0.945	0.675
Qwen2.5-72B	+ToC	0.534	0.361	0.682	0.930	0.658
Qwen2.5-32B	+ToC	0.507	0.351	0.665	0.924	0.639

表 2：辅助生成质量指标¶

模型	配置	JSON合规率	PPL↓	ROUGE-L	BLEU
GPT-4o	+ToC	0.996	8.72	0.624	0.554
GPT-4o	few-shot	0.995	8.85	0.610	0.537
OpenAI O1	+ToC	0.994	9.10	0.602	0.540
Claude-3.5	+ToC	0.995	8.98	0.611	0.530
Qwen2.5-72B	+ToC	0.993	9.52	0.596	0.525
Qwen2.5-32B	+ToC	0.992	9.80	0.582	0.510

关键发现¶

ToC 一致性提升：在所有 5 个模型上 ToC 均显著优于 zero-shot 和 few-shot 基线，平均综合分提升约 8%，最高达 9%（GPT-4o zero-shot→ToC：0.647→0.701）。
GPT-4o 全面领先：在覆盖率、新颖性、一致性和困惑度上均是最优，Overall 达 0.701。
开源模型跨规模迁移：Qwen2.5-VL-72B 的 ToC 版本接近 GPT-4o 基线水平（0.658 vs 0.678），且 32B→72B 提升明显，说明 ToC 框架具有良好的模型无关性。
消融实验：去掉不确定性门控、渐进加宽、多智能体协作中的任何一个模块都会导致性能下降，其中不确定性控制和智能体交互对新颖性和覆盖率影响最大。
超参不敏感：准确率在 \(\alpha \in [0.2, 0.8]\), \(T_{\max} \in [5, 20]\) 的网格上保持 0.72–0.81，峰值在 \(\alpha=0.6\), \(T_{\max}=15\)。
搜索收敛快：前 6 次迭代就实现了约 70% 的最终收益，10 轮后基本收敛。
专家偏好：5 位资深专利专家在约 2/3 的评估中偏好 ToC 生成的修订版本。

亮点与洞察¶

精妙的问题建模：将自由文本编辑离散化为 10 种原子操作、建立优先级约束，使 MCTS 搜索变得可行且可解释——这一建模思路可迁移到合同修改、医疗方案优化等结构化文本编辑场景。
不确定性分解：将总方差分解为认知+偶然两项，仅用认知不确定性做门控，避免了先行技术措辞差异带来的虚假惩罚，这是实用性很强的工程设计。
透明可审计的修改链：与传统端到端生成不同，ToC 产出一条完整的编辑历史，每一步都有操作类型、理由和置信度，完全满足法律领域的可追溯要求。
多目标奖励的权重设计：新颖性权重(1.5)远高于范围惩罚(0.5)和不确定性(0.3)，反映了"专利审查中先争取新颖性、再调整范围"的实际策略。

局限性 / 可改进方向¶

数据集单一：仅在无线通信领域的 USPTO 数据上验证，尚不清楚在生物医药、化学等高度专业化领域的泛化能力。
计算成本：MCTS 最大 800 轮迭代 + 3600 秒搜索时间 + 每步需调用两个 LLM agent，API 开销和延迟对实际部署是挑战。
手动奖励权重：五个子目标的权重是在开发集上经验调优的，未探索自动权重学习或帕累托优化。
错误分析暴露：系统控制失败(12.2%)和无支撑新颖性声明(9.9%)是两大主要错误类型，说明不确定性校准和验证机制仍有改进空间。
多模态利用有限：虽然数据集包含图像，ReframeViaFigure 操作的实际效果未见深入分析。
人工介入机制：\(\sigma\)-gating 触发人工审查后的具体交互流程未充分说明。

评分¶

新颖性: ⭐⭐⭐⭐ 将专利编辑建模为 MCTS 搜索+多智能体协作，不确定性分解机制有创意
实验充分度: ⭐⭐⭐⭐ 5个模型×3配置、消融、敏感性分析、专家评估全面覆盖
写作质量: ⭐⭐⭐⭐ 框架描述清晰，prompt 模板完全公开
价值: ⭐⭐⭐⭐ 框架模式可迁移到更广泛的结构化文本编辑场景，但领域较窄限制了直接影响力