A Reasoning Paradigm for Named Entity Recognition¶

会议: AAAI 2026
arXiv: 2511.11978
代码: https://github.com/HuiResearch/ReasoningIE (有)
领域: LLM / NLP / 信息抽取
关键词: NER, Chain-of-Thought, 推理范式, GRPO强化学习, 零样本泛化

一句话总结¶

提出 ReasoningNER，将命名实体识别从"隐式模式匹配"转变为"显式推理"范式，通过三阶段流程（CoT数据构建→CoT微调→GRPO强化增强）让模型先推理再抽取实体，在零样本设定下F1超GPT-4达12.3个百分点，8B模型在CrossNER上达72.4平均F1。

背景与动机¶

NER传统上有两种范式：判别式（BERT序列标注）和生成式（LLM指令微调）。判别式依赖标注数据，跨域泛化差；生成式虽然借助LLM的广泛知识提升了泛化性，但本质上仍是"语义模式匹配"——模型学到的是从指令到标签的直接映射，缺乏显式可验证的推理过程。作者将这种现象称为"认知捷径"（cognitive shortcutting），即模型走了从输入到输出的最短路径，跳过了分析步骤。这导致在零样本和低资源场景中，面对未见过的实体类型时性能急剧退化。

CoT推理已在数学和常识推理中证明有效，但在信息抽取领域的应用还处于早期。已有工作如PromptNER、ERA-CoT只在推理时用提示引导，未将推理链的生成纳入模型训练的核心环节。这是本文的切入点：用系统化的框架训练模型"想清楚再抽取"。

核心问题¶

现有NER模型（无论判别式还是生成式）都依赖隐式的模式匹配，缺乏显式推理机制，导致在零样本、跨域、低资源场景下泛化能力脆弱。如何让NER模型具备显式的、可验证的推理能力，从而更鲁棒地识别未见过的实体类型？

方法详解¶

ReasoningNER将NER重新定义为一个推理任务：给定输入文本和实体类型定义，模型需要先生成推理链（CoT），再输出实体列表。整个框架分三个阶段。

整体框架¶

输入：文本 \(X\) + 实体类型定义 \(\mathcal{S}\)
输出：推理链 \(\mathcal{C}\) + 实体集合 \(E\)（即 \(Y = (\mathcal{C}, E)\)）
三阶段：CoT Generation (CG) → CoT Tuning (CT) → Reasoning Enhancement (RE)

关键设计¶

CoT数据构建（CG阶段）：基于Pile-NER语料，用DeepSeek-R1生成带推理链的NER标注，经过三步质控：(a) 重标注——用专门prompt让LLM生成实体+推理路径；(b) 验证——结构完整性检查，推理链必须显式对应每个实体；(c) 一致性——用Qwen3-32B评估推理链的逻辑连贯性和事实准确性，打分0-10，阈值9分以上才保留。最终得到45,787个高质量样本 \(\mathcal{D}_{cot}\)。
CoT微调（CT阶段）：标准SFT，在NER-CoT数据上训练模型先输出推理链再输出实体列表。目标是最小化负对数似然损失：\(\mathcal{L}_{SFT}(\theta) = -\mathbb{E}[\sum_t \log \pi_\theta(y_t | X, \mathcal{S}, y_{<t})]\)。这一步让模型建立"分析→抽取"的行为模式，而非直接跳到答案。
推理增强（RE阶段）：用GRPO算法进一步优化推理能力。从InstructUIE的20个NER数据集中分层采样4,703个样本，对每个query采样16个候选输出，用复合奖励函数评估：
F1奖励 \(R_{F1}\)：预测实体与真值的span级micro F1，线性缩放到[0,1]
格式奖励 \(R_{schema}\)：输出是否符合预定义格式和实体类型约束（0或1）
总奖励 \(R(o_i) = \lambda_{F1} R_{F1} + \lambda_{schema} R_{schema}\)，其中 \(\lambda_{F1}=10\), \(\lambda_{schema}=1\)

用组内相对优势计算 \(A_i = R(o_i) - \bar{R}\)，通过PPO-clip目标更新策略，同时用KL散度约束不偏离参考模型太远。

损失函数 / 训练策略¶

CT阶段：标准NLL loss，5个epoch，lr=2e-5，cosine scheduler，batch 256，seq len 8192
RE阶段：GRPO目标函数，\(\epsilon=0.2\), \(\beta=0.04\), 1个epoch，batch 384，16个候选输出/query，最大输出4096 tokens
基座模型：Qwen3-8B-Base
训练设备：8×A800（CT）/ 6+2×A800（RE）
效率优化：bfloat16混合精度, gradient checkpointing, FlashAttention-2, Liger-kernel

实验关键数据¶

跨域零样本（CrossNER + MIT，表1核心数据）¶

模型	训练量	Movie	Rest.	AI	Litera.	Music	Politics	Science	Avg
GPT-4	-	60.4	59.7	50.0	55.2	69.2	63.4	63.2	60.1
B²NER 7B	70K	67.6	53.3	59.0	63.7	68.6	67.8	72.0	64.6
Qwen3 8B	-	70.1	57.4	61.2	58.0	71.0	71.9	68.6	65.4
DeepSeek-R1 32B	-	70.4	57.5	60.4	52.3	70.4	71.1	65.9	64.0
ReasoningNER 1.7B	50K	70.2	52.4	63.6	59.1	71.6	68.6	69.9	65.1
ReasoningNER 8B	50K	76.3	56.8	71.0	69.4	78.7	78.8	75.8	72.4
ReasoningNER 8B+RE	50K	79.3	67.7	72.2	77.1	84.0	79.8	81.4	77.3

零样本20数据集评估¶

ReasoningNER 8B (仅CT) 在20个NER数据集上平均F1=56.8，超GLiNER-L 9个点，超UniNER 11.1个点

有监督评估（20数据集）¶

ReasoningNER达到平均F1=85.2，在20个数据集中11个取得最佳，超B²NER 1.3个百分点

低资源（CoNLL03）¶

1%数据: F1=87.1（超UIE-base 4.3点，超KnowCoder 7.9点）
5%数据: F1=91.0; 10%数据: F1=92.9

跨语言（MultiConer22, 11种语言）¶

仅用英文训练，9种未见语言平均F1=48.1，超KnowCoder-X 8.6个百分点

消融实验要点¶

配置	Avg F1
Qwen3-1.7B-Base（基线）	31.9
+ SFT on Pile-NER	40.3 (+8.4)
+ SFT on NER-CoT (无CoT)	60.6 (+20.3)
+ SFT on NER-CoT (有CoT)	63.0 (+2.4)
+ RE (GRPO)	65.1 (+2.1)

NER-CoT数据质量贡献最大（+20.3），说明用DeepSeek-R1重标注+严格质控后的数据远优于原始Pile-NER
CoT推理带来+2.4的额外增益，证明显式推理有加成
GRPO再加+2.1，三个组件递进叠加
多种backbone实验证明方法通用：Qwen3/InternLM2/Llama3.1/Llama2均有效

亮点¶

范式创新清晰：将NER从"模式匹配"升级为"推理"，动机自然、方案完整
数据构建流程严谨：三步质控（结构验证+语义一致性评分），保证推理链质量
"认知捷径"概念有启发性：指出指令微调本质上在鼓励模型走捷径，跳过分析直达结论
小模型大效果：1.7B模型即可超越GPT-4（65.1 vs 60.1），8B模型超DeepSeek-R1 32B（72.4 vs 64.0）
跨语言零样本迁移：仅用英文数据训练，跨语言泛化能力大幅超越用双语数据训练的模型，说明推理能力具有语言无关性
GRPO在NER任务中的成功应用：双奖励函数（F1+schema一致性）设计合理

局限性 / 可改进方向¶

推理链冗长：模型倾向于生成过度详尽的推理过程，即使对简单句子也输出大量分析步骤，显著增加推理延迟和token消耗，影响实际部署
仅限NER任务：未扩展到关系抽取、事件抽取等更复杂的IE任务，通用性待验证
NER-CoT数据依赖强模型：构建流程需要DeepSeek-R1和Qwen3-32B，成本不低
消融中CoT的增益相对有限（+2.4），数据质量本身的贡献远大于推理形式的贡献，这让人怀疑推理范式的独立价值
未讨论推理链的可控性：如何在保持性能的同时压缩推理链长度是未来关键方向

与相关工作的对比¶

vs PromptNER / ERA-CoT：这些工作仅在推理时用prompt引导推理，未将CoT纳入训练。ReasoningNER将推理链监督融入SFT+RL全流程，更系统化
vs B²NER：B²NER通过跨数据集统一entity taxonomy提升泛化，属于数据/表示层面的改进；ReasoningNER从推理范式角度切入，用CoT+GRPO让模型"想清楚"，两者互补
vs KnowCoder：KnowCoder用代码格式编码实体类型定义，训练数据量巨大（459万）；ReasoningNER用5万高质量推理数据即超越，数据效率显著更高
vs DeepSeek-R1 / Qwen3（通用推理模型）：通用推理能力不等于任务特化推理能力，ReasoningNER通过NER-specific的CoT训练+GRPO，将通用推理"对齐"到NER任务

启发与关联¶

推理范式的可迁移性：这种"先推理后输出"的框架理论上可以迁移到其他结构化预测任务（关系抽取、事件抽取、slot filling等），核心是设计任务特定的CoT模板和奖励函数
数据质量 > 推理形式：消融实验中，NER-CoT数据本身的贡献（+20.3）远超CoT推理形式的贡献（+2.4），这启示我们：高质量的重标注数据可能比花哨的推理形式更重要
GRPO在NLP任务中的应用模式：双奖励函数（任务准确性+格式规范性）是一个通用的设计模式，可迁移到其他需要结构化输出的NLP任务
"认知捷径"视角值得借鉴：这个分析框架可以用来审视其他NLP任务中LLM的表现退化问题

评分¶

新颖性: ⭐⭐⭐⭐ 推理范式用于NER的系统化框架是新的，但CoT+RL的技术路线已不算新颖
实验充分度: ⭐⭐⭐⭐⭐ 7个跨域+20个零样本+低资源+跨语言+多backbone消融，非常全面
写作质量: ⭐⭐⭐⭐ 结构清晰，动机阐述到位，"认知捷径"概念有吸引力
价值: ⭐⭐⭐⭐ 在零样本NER领域建立了新SOTA，方法有迁移潜力，但推理链冗长问题限制实用性