跳转至

A Reasoning Paradigm for Named Entity Recognition

会议: AAAI 2026
arXiv: 2511.11978
代码: https://github.com/HuiResearch/ReasoningIE (有)
领域: LLM / NLP / 信息抽取
关键词: NER, Chain-of-Thought, 推理范式, GRPO强化学习, 零样本泛化

一句话总结

提出 ReasoningNER,将命名实体识别从"隐式模式匹配"转变为"显式推理"范式,通过三阶段流程(CoT数据构建→CoT微调→GRPO强化增强)让模型先推理再抽取实体,在零样本设定下F1超GPT-4达12.3个百分点,8B模型在CrossNER上达72.4平均F1。

背景与动机

NER传统上有两种范式:判别式(BERT序列标注)和生成式(LLM指令微调)。判别式依赖标注数据,跨域泛化差;生成式虽然借助LLM的广泛知识提升了泛化性,但本质上仍是"语义模式匹配"——模型学到的是从指令到标签的直接映射,缺乏显式可验证的推理过程。作者将这种现象称为"认知捷径"(cognitive shortcutting),即模型走了从输入到输出的最短路径,跳过了分析步骤。这导致在零样本和低资源场景中,面对未见过的实体类型时性能急剧退化。

CoT推理已在数学和常识推理中证明有效,但在信息抽取领域的应用还处于早期。已有工作如PromptNER、ERA-CoT只在推理时用提示引导,未将推理链的生成纳入模型训练的核心环节。这是本文的切入点:用系统化的框架训练模型"想清楚再抽取"。

核心问题

现有NER模型(无论判别式还是生成式)都依赖隐式的模式匹配,缺乏显式推理机制,导致在零样本、跨域、低资源场景下泛化能力脆弱。如何让NER模型具备显式的、可验证的推理能力,从而更鲁棒地识别未见过的实体类型?

方法详解

ReasoningNER将NER重新定义为一个推理任务:给定输入文本和实体类型定义,模型需要先生成推理链(CoT),再输出实体列表。整个框架分三个阶段。

整体框架

  • 输入:文本 \(X\) + 实体类型定义 \(\mathcal{S}\)
  • 输出:推理链 \(\mathcal{C}\) + 实体集合 \(E\)(即 \(Y = (\mathcal{C}, E)\)
  • 三阶段:CoT Generation (CG) → CoT Tuning (CT) → Reasoning Enhancement (RE)

关键设计

  1. CoT数据构建(CG阶段):基于Pile-NER语料,用DeepSeek-R1生成带推理链的NER标注,经过三步质控:(a) 重标注——用专门prompt让LLM生成实体+推理路径;(b) 验证——结构完整性检查,推理链必须显式对应每个实体;(c) 一致性——用Qwen3-32B评估推理链的逻辑连贯性和事实准确性,打分0-10,阈值9分以上才保留。最终得到45,787个高质量样本 \(\mathcal{D}_{cot}\)

  2. CoT微调(CT阶段):标准SFT,在NER-CoT数据上训练模型先输出推理链再输出实体列表。目标是最小化负对数似然损失:\(\mathcal{L}_{SFT}(\theta) = -\mathbb{E}[\sum_t \log \pi_\theta(y_t | X, \mathcal{S}, y_{<t})]\)。这一步让模型建立"分析→抽取"的行为模式,而非直接跳到答案。

  3. 推理增强(RE阶段):用GRPO算法进一步优化推理能力。从InstructUIE的20个NER数据集中分层采样4,703个样本,对每个query采样16个候选输出,用复合奖励函数评估:

  4. F1奖励 \(R_{F1}\):预测实体与真值的span级micro F1,线性缩放到[0,1]
  5. 格式奖励 \(R_{schema}\):输出是否符合预定义格式和实体类型约束(0或1)
  6. 总奖励 \(R(o_i) = \lambda_{F1} R_{F1} + \lambda_{schema} R_{schema}\),其中 \(\lambda_{F1}=10\), \(\lambda_{schema}=1\)

用组内相对优势计算 \(A_i = R(o_i) - \bar{R}\),通过PPO-clip目标更新策略,同时用KL散度约束不偏离参考模型太远。

损失函数 / 训练策略

  • CT阶段:标准NLL loss,5个epoch,lr=2e-5,cosine scheduler,batch 256,seq len 8192
  • RE阶段:GRPO目标函数,\(\epsilon=0.2\), \(\beta=0.04\), 1个epoch,batch 384,16个候选输出/query,最大输出4096 tokens
  • 基座模型:Qwen3-8B-Base
  • 训练设备:8×A800(CT)/ 6+2×A800(RE)
  • 效率优化:bfloat16混合精度, gradient checkpointing, FlashAttention-2, Liger-kernel

实验关键数据

跨域零样本(CrossNER + MIT,表1核心数据)

模型 训练量 Movie Rest. AI Litera. Music Politics Science Avg
GPT-4 - 60.4 59.7 50.0 55.2 69.2 63.4 63.2 60.1
B²NER 7B 70K 67.6 53.3 59.0 63.7 68.6 67.8 72.0 64.6
Qwen3 8B - 70.1 57.4 61.2 58.0 71.0 71.9 68.6 65.4
DeepSeek-R1 32B - 70.4 57.5 60.4 52.3 70.4 71.1 65.9 64.0
ReasoningNER 1.7B 50K 70.2 52.4 63.6 59.1 71.6 68.6 69.9 65.1
ReasoningNER 8B 50K 76.3 56.8 71.0 69.4 78.7 78.8 75.8 72.4
ReasoningNER 8B+RE 50K 79.3 67.7 72.2 77.1 84.0 79.8 81.4 77.3

零样本20数据集评估

  • ReasoningNER 8B (仅CT) 在20个NER数据集上平均F1=56.8,超GLiNER-L 9个点,超UniNER 11.1个点

有监督评估(20数据集)

  • ReasoningNER达到平均F1=85.2,在20个数据集中11个取得最佳,超B²NER 1.3个百分点

低资源(CoNLL03)

  • 1%数据: F1=87.1(超UIE-base 4.3点,超KnowCoder 7.9点)
  • 5%数据: F1=91.0; 10%数据: F1=92.9

跨语言(MultiConer22, 11种语言)

  • 仅用英文训练,9种未见语言平均F1=48.1,超KnowCoder-X 8.6个百分点

消融实验要点

配置 Avg F1
Qwen3-1.7B-Base(基线) 31.9
+ SFT on Pile-NER 40.3 (+8.4)
+ SFT on NER-CoT (无CoT) 60.6 (+20.3)
+ SFT on NER-CoT (有CoT) 63.0 (+2.4)
+ RE (GRPO) 65.1 (+2.1)
  • NER-CoT数据质量贡献最大(+20.3),说明用DeepSeek-R1重标注+严格质控后的数据远优于原始Pile-NER
  • CoT推理带来+2.4的额外增益,证明显式推理有加成
  • GRPO再加+2.1,三个组件递进叠加
  • 多种backbone实验证明方法通用:Qwen3/InternLM2/Llama3.1/Llama2均有效

亮点

  • 范式创新清晰:将NER从"模式匹配"升级为"推理",动机自然、方案完整
  • 数据构建流程严谨:三步质控(结构验证+语义一致性评分),保证推理链质量
  • "认知捷径"概念有启发性:指出指令微调本质上在鼓励模型走捷径,跳过分析直达结论
  • 小模型大效果:1.7B模型即可超越GPT-4(65.1 vs 60.1),8B模型超DeepSeek-R1 32B(72.4 vs 64.0)
  • 跨语言零样本迁移:仅用英文数据训练,跨语言泛化能力大幅超越用双语数据训练的模型,说明推理能力具有语言无关性
  • GRPO在NER任务中的成功应用:双奖励函数(F1+schema一致性)设计合理

局限性 / 可改进方向

  • 推理链冗长:模型倾向于生成过度详尽的推理过程,即使对简单句子也输出大量分析步骤,显著增加推理延迟和token消耗,影响实际部署
  • 仅限NER任务:未扩展到关系抽取、事件抽取等更复杂的IE任务,通用性待验证
  • NER-CoT数据依赖强模型:构建流程需要DeepSeek-R1和Qwen3-32B,成本不低
  • 消融中CoT的增益相对有限(+2.4),数据质量本身的贡献远大于推理形式的贡献,这让人怀疑推理范式的独立价值
  • 未讨论推理链的可控性:如何在保持性能的同时压缩推理链长度是未来关键方向

与相关工作的对比

  • vs PromptNER / ERA-CoT:这些工作仅在推理时用prompt引导推理,未将CoT纳入训练。ReasoningNER将推理链监督融入SFT+RL全流程,更系统化
  • vs B²NER:B²NER通过跨数据集统一entity taxonomy提升泛化,属于数据/表示层面的改进;ReasoningNER从推理范式角度切入,用CoT+GRPO让模型"想清楚",两者互补
  • vs KnowCoder:KnowCoder用代码格式编码实体类型定义,训练数据量巨大(459万);ReasoningNER用5万高质量推理数据即超越,数据效率显著更高
  • vs DeepSeek-R1 / Qwen3(通用推理模型):通用推理能力不等于任务特化推理能力,ReasoningNER通过NER-specific的CoT训练+GRPO,将通用推理"对齐"到NER任务

启发与关联

  • 推理范式的可迁移性:这种"先推理后输出"的框架理论上可以迁移到其他结构化预测任务(关系抽取、事件抽取、slot filling等),核心是设计任务特定的CoT模板和奖励函数
  • 数据质量 > 推理形式:消融实验中,NER-CoT数据本身的贡献(+20.3)远超CoT推理形式的贡献(+2.4),这启示我们:高质量的重标注数据可能比花哨的推理形式更重要
  • GRPO在NLP任务中的应用模式:双奖励函数(任务准确性+格式规范性)是一个通用的设计模式,可迁移到其他需要结构化输出的NLP任务
  • "认知捷径"视角值得借鉴:这个分析框架可以用来审视其他NLP任务中LLM的表现退化问题

评分

  • 新颖性: ⭐⭐⭐⭐ 推理范式用于NER的系统化框架是新的,但CoT+RL的技术路线已不算新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 7个跨域+20个零样本+低资源+跨语言+多backbone消融,非常全面
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,动机阐述到位,"认知捷径"概念有吸引力
  • 价值: ⭐⭐⭐⭐ 在零样本NER领域建立了新SOTA,方法有迁移潜力,但推理链冗长问题限制实用性