A Multi-Agent LLM Framework for Multi-Domain Low-Resource In-Context NER via Knowledge Retrieval, Disambiguation and Reflective Analysis¶

会议: AAAI 2026
arXiv: 2511.19083
代码: https://github.com/MWXGOD/KDR-Agent (有)
领域: LLM / NLP / 信息抽取
关键词: 命名实体识别, 多智能体LLM, 上下文学习, 低资源NER, 知识检索

一句话总结¶

提出 KDR-Agent 多智能体框架，通过知识检索（Wikipedia）、歧义消解和反思式自我纠错三个专业智能体协同工作，在仅使用少量静态标注示例的条件下，在5个领域10个NER数据集上显著超越现有零样本和少样本ICL NER方法。

背景与动机¶

NER是信息抽取的基础任务，传统方法依赖大量标注数据微调，跨域泛化能力差。近年LLM的上下文学习（ICL）提供了一种无需参数更新的NER范式，但现有ICL NER方法存在三个核心痛点：

依赖动态检索标注样本：少样本ICL NER需要从大量标注语料中检索相似示例，但低资源场景下标注数据稀缺，检索效果差且引入延迟
域知识不足导致泛化差：零样本ICL NER依赖LLM内部知识理解实体类型含义，面对生物医学、社交媒体等新兴领域，LLM缺乏足够的领域背景知识
缺乏外部知识注入和歧义消解：现有方法聚焦于示例选择，忽视了对领域特定术语的外部知识补充和对歧义实体（如"Apple"是公司还是水果）的消解

核心问题¶

如何在多领域低资源条件下，让LLM仅凭极少标注示例就能进行准确的NER？关键挑战在于：（1）减少对大规模标注语料的依赖；（2）弥补LLM在专业领域知识的不足；（3）处理实体歧义。这个问题的重要性在于现实场景中大多数领域的NER标注成本高昂，急需低资源解决方案。

方法详解¶

整体框架¶

KDR-Agent 分两个阶段运行：

Stage 1: Knowledge In-context Construction — 构建知识增强的prompt。输入一段待识别文本，通过中央规划器调度知识检索和歧义消解智能体，将实体类型定义、对比示例、外部知识和消歧线索融合为完整的prompt，交给LLM生成初始NER预测。

Stage 2: Reflection & Correction — 反思纠错。反思智能体对初始预测进行结构化错误分析（span错误、类型错误、幻觉实体、遗漏实体），生成诊断报告，指导LLM进行第二轮修正输出最终预测。

关键设计¶

自然语言类型定义 + 实体级正负对比示例：不依赖大量标注进行动态检索，而是为每种实体类型撰写简洁的自然语言定义（说明包含/排除标准），并构造少量静态对比示例。每个正确的"实体-类型"对都配有一个人造负例，负例来自4种常见错误类型：边界偏移（如"Barack"→"Barack Obama"）、类型错误、幻觉实体、遗漏实体。这种设计让模型从正负对比中学会边界和类型区分，仅需5-10个示例即可。
中央LLM规划器 (Central Planner)：扫描输入文本，执行两步推理。第一步识别需要外部知识的领域术语并生成Wikipedia查询；第二步标记可能歧义的实体提及（如"Amazon"可能是组织或地点）。输出查询集合 Q 和歧义提及集合 P_ambig，分别转发给对应智能体。
知识检索智能体 (Knowledge Retrieval Agent)：接收规划器的查询集合，通过MediaWiki API从Wikipedia检索每个概念的摘要段落，返回简洁、带来源的知识片段。检索失败则留空。这些知识为领域特定实体提供事实基础。
歧义消解智能体 (Disambiguation Agent)：对规划器标记的歧义提及，结合输入文本的上下文语境，生成自然语言解释来明确每个歧义实体在当前上下文中的语义角色。例如解释"Apple在本句中指的是科技公司而非水果"。
反思分析智能体 (Reflective Analysis Agent)：针对初始预测，按4类错误标准（span偏移、类型错误、幻觉检测、遗漏检测）进行结构化自评，输出包含错误标签、证据和修改建议的诊断报告，引导LLM在第二轮中修正预测。

损失函数 / 训练策略¶

本方法无需训练或微调，完全基于prompt工程和多智能体协作。核心设计是prompt的组合策略：最终prompt由6个部分拼接——任务指令、类型定义、对比示例、检索知识、消歧解释、输入文本。反思纠正阶段则组合初始预测、反思报告和纠正指令进行第二轮推理。

实验关键数据¶

数据集	领域	KDR-Agent (GPT-4o)	最佳baseline (GPT-4o)	提升
BC5CDR	生物医学	82.47	77.61 (CodeIE)	+4.86
NCBI	生物医学	79.41	71.97 (CodeIE)	+7.44
MIT Movie	对话	76.16	70.67 (CodeIE)	+5.49
MIT Restaurant	对话	69.98	56.93 (CodeIE)	+13.05
CoNLL-2003	新闻	83.34	83.01 (CodeIE)	+0.33
OntoNotes 5.0	新闻	71.85	65.67 (CodeIE)	+6.18
Twitter Broad	社交媒体	74.90	69.69 (CodeIE)	+5.21
Twitter NER-7	社交媒体	60.87	52.20 (CodeIE)	+8.67
WikiANN	开放域	74.37	63.76 (CodeIE)	+10.61
WNUT-17	开放域	80.78	69.91 (CodeIE)	+10.87

在Qwen-2.5-72B和DeepSeek-V3上也保持一致优势。跨三个backbone平均F1提升约7-8个点。

消融实验要点¶

反思纠错模块贡献最大：移除后在NCBI/OntoNotes/Twitter NER-7上分别掉3.5/1.7/3.1个点
知识检索+消歧联合移除影响显著：掉5.3/1.9/5.8个点，在生物医学和社交媒体领域影响最大
消歧智能体单独移除对社交媒体影响最大（-5.1），因为非正式文本歧义更多
负对比样本移除造成温和但一致的性能下降，验证了正负对比设计的有效性
模型规模实验：从Qwen-72B到7B/3B/1.5B性能逐步下降，复杂领域（生物医学、社交媒体）对模型规模更敏感
错误分析：反思模块在幻觉检测上最有效（spurious rate: NCBI 16.44→5.57%, Twitter 24.27→12.57%），遗漏率也大幅降低

亮点¶

实体级正负对比示例设计非常巧妙：不同于传统的句子级示例检索，直接在同一实例内构造"正确标注 vs 常见错误"的对比，让模型学会区分边界和类型，大幅减少对标注数据的需求
多智能体分工明确合理：规划器负责判断何时需要外部知识和消歧，而非每个实体都检索，避免了不必要的API调用
反思模块的4类错误分类体系实用且可迁移：span错误、类型错误、幻觉和遗漏，这套诊断框架可以应用到其他信息抽取任务
在MIT Restaurant上提升了惊人的+13个点，证明在实体类型多且边界模糊的场景下优势尤为明显

局限性 / 可改进方向¶

推理成本高：每条文本需要多轮LLM调用（规划+检索+消歧+初始推理+反思+纠正），至少4-6次API调用，延迟和成本是实际部署的主要障碍
仅使用Wikipedia作为知识源：对于高度专业化的领域（如最新药物名称、小众技术术语），Wikipedia覆盖可能不足，未来可扩展到PubMed、专业知识图谱等
静态示例构造依赖人工设计：虽然只需少量示例，但对比负例的构造策略仍需领域专家参与，自动化程度有限
反思仅做一轮：论文未探索多轮迭代反思的效果，可能进一步提升性能
未涉及嵌套NER和不连续NER：所有实验数据集都是flat NER，方法在嵌套实体场景下的表现未知
WikiANN和WNUT采样评估：WikiANN只抽了5000样本，可能未完全反映真实性能

与相关工作的对比¶

对比方法	核心区别	KDR-Agent优势	KDR-Agent劣势
CMAS (零样本multi-agent)	CMAS通过多智能体协作自动标注无标签数据构建示例池	KDR-Agent引入外部知识检索和消歧，不依赖自动标注质量	KDR-Agent需要少量人工标注示例（5-10个）
GPT-NER (少样本检索)	GPT-NER基于语义相似度从大量标注中检索示例	KDR-Agent仅需静态少量示例，无需大标注池和检索步骤	KDR-Agent的多智能体调用成本更高
CodeIE (代码式prompt)	CodeIE用代码格式结构化输入输出	KDR-Agent融合知识增强和反思纠错，F1平均高7+个点	CodeIE推理更简洁，单次调用即可

启发与关联¶

多智能体反思-纠错范式具有通用性：检索→推理→反思→纠正的pipeline可以迁移到关系抽取、事件抽取等其他IE任务
正负对比示例思路可借鉴到VLM的few-shot学习中：在视觉理解任务中也可以构造"正确标注 vs 常见误判"的对比prompt
工具调用的规划器设计（先判断是否需要外部知识再决定调用）是一种高效的agent架构模式，比"每次都检索"更节省资源

评分¶

新颖性: ⭐⭐⭐⭐ 多智能体+正负对比示例+知识检索的组合有新意，但各个组件单独来看并不新
实验充分度: ⭐⭐⭐⭐⭐ 5个领域10个数据集、3个LLM backbone、消融、规模分析、错误分析，非常全面
写作质量: ⭐⭐⭐⭐ 结构清晰，问题-解决方案的对应关系讲得很好
价值: ⭐⭐⭐⭐ 低资源NER的实用方案，但推理成本限制了实际应用