EA-Agent: A Structured Multi-Step Reasoning Agent for Entity Alignment¶

会议: ACL 2026
arXiv: 2604.11686
代码: GitHub
领域: LLM Agent
关键词: 实体对齐, 知识图谱, 多步推理, 工具规划, 奖励引导优化

一句话总结¶

提出 EA-Agent，将实体对齐（EA）分解为结构化多步推理过程，通过工具池（三元组选择器+对齐工具+反思器）的规划和执行实现可解释的对齐决策，配合奖励引导的离线策略优化持续改进规划能力，在 DBP15K 上 Hits@1 提升高达 3.17%，同时减少冗余三元组带来的效率问题。

研究背景与动机¶

领域现状：实体对齐是知识融合的基础技术，旨在识别不同知识图谱中指向同一实体的节点。传统方法基于知识表示学习（如 TransE、GCN-Align），但在噪声或稀疏监督场景下性能有限。近期 LLM 方法（如 ChatEA、LLMEA）利用语义理解提升了性能。

现有痛点：(1) 现有 LLM-based EA 方法将 LLM 当作黑盒决策者，缺乏可解释性——难以判断哪些信息对对齐决策是关键的；(2) 直接输入大量属性和关系三元组导致 prompt 过长、推理成本高；(3) 许多三元组是冗余甚至有噪声的，反而干扰判断。

核心矛盾：需要利用 LLM 的强大语义理解能力，但同时要解决黑盒不可解释和大规模三元组的效率问题。

本文目标：设计一个推理驱动的 Agent 框架，通过多步工具规划和执行实现可解释、可控、高效的实体对齐。

切入角度：将 EA 视为多步决策问题——先选择信息性最强的三元组，再做对齐决策，最后在不确定时进行反思验证。

核心 idea：工具池（属性/关系三元组选择器+对齐工具+反思器）+ 路径规划 + 奖励引导的离线策略优化。

方法详解¶

整体框架¶

三阶段：(1) 路径规划：Agent 根据源实体的结构特征和候选相似度评分，自主规划工具调用路径；(2) 工具调用：按规划顺序执行三元组选择、对齐决策、反思验证；(3) Agent 优化：奖励函数评估路径质量 → 离线策略更新 → 迭代改进。

关键设计¶

属性/关系三元组选择器:
- 功能：在 LLM 推理前过滤冗余三元组，保留最具判别力的信息
- 核心思路：属性选择器使用基于熵的准则 \(H(a) = -\sum p(v)\log p(v)\)——候选实体间属性值分布越均匀（低熵），区分力越强。关系选择器用逆频率加权 \(I(r) = \log(N/(\text{freq}(r)+1))\)——稀有关系更具判别力。同时保留预定义的重要属性
- 设计动机：不加选择地输入所有三元组既浪费 token 又引入噪声。选择器像信息瓶颈一样只保留关键信号
奖励引导的路径优化:
- 功能：持续改进 Agent 的工具规划策略
- 核心思路：奖励函数 \(\gamma = \gamma_\mu + c \cdot \gamma_{\text{ref}} + \gamma_e\)，包含三个组分：(1) 对齐正确性 \(\gamma_\mu\)（核心）；(2) 反思合理性 \(\gamma_{\text{ref}}\)（奖励成功纠正、惩罚错误修改、轻罚冗余反思）；(3) 路径效率 \(\gamma_e = e^{-\beta \cdot l}\)（惩罚过长路径）。通过离线 SFT 在奖励引导下重写路径来优化策略
- 设计动机：单轮规划可能产生冗余或低效路径。闭环的"规划→执行→评估→更新"迭代保证策略持续改进
反思器（条件性启用）:
- 功能：在不确定的对齐结果上进行验证和纠正
- 核心思路：基于 LLM 的模块，仅在候选相似度显示模糊性时激活。基于先前上下文重新评估候选并提供修正后的预测
- 设计动机：并非所有对齐都需要反思——简单情况直接决策更高效，只在不确定时才启动额外验证

实验关键数据¶

主实验（DBP15K）¶

方法	FR-EN Hits@1	JA-EN Hits@1	ZH-EN Hits@1
GCN-Align	~40	~40	~40
TEA	~90	~90	~85
ChatEA	~92	~91	~88
EA-Agent	~95	~94	~91

消融实验¶

配置	说明
无三元组选择	Token 消耗大幅增加，性能略降
无反思器	不确定案例的错误率增加
无路径优化	规划策略不稳定，冗余工具调用多
完整 EA-Agent	最优性能+最高效率

关键发现¶

EA-Agent 在所有数据集上达到 SOTA，Hits@1 最高提升 3.17%，MRR 持续提升
三元组选择器显著降低 token 消耗同时保持甚至提升性能——证明大量三元组确实是冗余的
路径优化显著提升规划质量：迭代 3 轮后路径效率和对齐准确率都稳步提升
反思器的条件性启用是最优策略：总是启用不如按需启用
可解释性：每个对齐决策都可以追溯到具体的工具调用路径和关键三元组

亮点与洞察¶

将 EA 建模为多步工具规划问题打开了 Agent 范式在知识图谱任务中的应用空间
奖励函数的三组分设计非常实用：平衡了正确性、反思合理性和效率，避免了单一目标的优化偏颇
三元组选择器利用信息论准则（熵和逆频率）是简单但有效的方案，可以直接迁移到其他 KG 任务

局限与展望¶

依赖 TEA 生成初始候选列表，候选质量限制了上界
路径优化需要多轮迭代，训练成本较高
仅在跨语言 EA 上验证，同语言或跨领域 EA 待探索
工具池是手工设计的，能否自动发现新工具？
反思器的判断可能引入新的幻觉

评分¶

新颖性: ⭐⭐⭐⭐ 将 Agent 范式引入 EA 是新的，但各组件（工具规划、LoRA 微调）不新
实验充分度: ⭐⭐⭐⭐⭐ 3 数据集+10 基线+消融+效率分析+可解释性案例
写作质量: ⭐⭐⭐⭐ RQ 驱动，形式化清晰
价值: ⭐⭐⭐⭐ 对 KG 领域的 LLM 应用有方法论启发