A Reasoning Paradigm for Named Entity Recognition¶
会议: AAAI 2026
arXiv: 2511.11978
代码: https://github.com/HuiResearch/ReasoningIE (有)
领域: LLM / NLP / 信息抽取
关键词: NER, Chain-of-Thought, 推理范式, GRPO强化学习, 零样本泛化
一句话总结¶
提出 ReasoningNER,将命名实体识别从"隐式模式匹配"转变为"显式推理"范式,通过三阶段流程(CoT数据构建→CoT微调→GRPO强化增强)让模型先推理再抽取实体,在零样本设定下F1超GPT-4达12.3个百分点,8B模型在CrossNER上达72.4平均F1。
背景与动机¶
NER传统上有两种范式:判别式(BERT序列标注)和生成式(LLM指令微调)。判别式依赖标注数据,跨域泛化差;生成式虽然借助LLM的广泛知识提升了泛化性,但本质上仍是"语义模式匹配"——模型学到的是从指令到标签的直接映射,缺乏显式可验证的推理过程。作者将这种现象称为"认知捷径"(cognitive shortcutting),即模型走了从输入到输出的最短路径,跳过了分析步骤。这导致在零样本和低资源场景中,面对未见过的实体类型时性能急剧退化。
CoT推理已在数学和常识推理中证明有效,但在信息抽取领域的应用还处于早期。已有工作如PromptNER、ERA-CoT只在推理时用提示引导,未将推理链的生成纳入模型训练的核心环节。这是本文的切入点:用系统化的框架训练模型"想清楚再抽取"。
核心问题¶
现有NER模型(无论判别式还是生成式)都依赖隐式的模式匹配,缺乏显式推理机制,导致在零样本、跨域、低资源场景下泛化能力脆弱。如何让NER模型具备显式的、可验证的推理能力,从而更鲁棒地识别未见过的实体类型?
方法详解¶
ReasoningNER将NER重新定义为一个推理任务:给定输入文本和实体类型定义,模型需要先生成推理链(CoT),再输出实体列表。整个框架分三个阶段。
整体框架¶
- 输入:文本 \(X\) + 实体类型定义 \(\mathcal{S}\)
- 输出:推理链 \(\mathcal{C}\) + 实体集合 \(E\)(即 \(Y = (\mathcal{C}, E)\))
- 三阶段:CoT Generation (CG) → CoT Tuning (CT) → Reasoning Enhancement (RE)
关键设计¶
-
CoT数据构建(CG阶段):基于Pile-NER语料,用DeepSeek-R1生成带推理链的NER标注,经过三步质控:(a) 重标注——用专门prompt让LLM生成实体+推理路径;(b) 验证——结构完整性检查,推理链必须显式对应每个实体;(c) 一致性——用Qwen3-32B评估推理链的逻辑连贯性和事实准确性,打分0-10,阈值9分以上才保留。最终得到45,787个高质量样本 \(\mathcal{D}_{cot}\)。
-
CoT微调(CT阶段):标准SFT,在NER-CoT数据上训练模型先输出推理链再输出实体列表。目标是最小化负对数似然损失:\(\mathcal{L}_{SFT}(\theta) = -\mathbb{E}[\sum_t \log \pi_\theta(y_t | X, \mathcal{S}, y_{<t})]\)。这一步让模型建立"分析→抽取"的行为模式,而非直接跳到答案。
-
推理增强(RE阶段):用GRPO算法进一步优化推理能力。从InstructUIE的20个NER数据集中分层采样4,703个样本,对每个query采样16个候选输出,用复合奖励函数评估:
- F1奖励 \(R_{F1}\):预测实体与真值的span级micro F1,线性缩放到[0,1]
- 格式奖励 \(R_{schema}\):输出是否符合预定义格式和实体类型约束(0或1)
- 总奖励 \(R(o_i) = \lambda_{F1} R_{F1} + \lambda_{schema} R_{schema}\),其中 \(\lambda_{F1}=10\), \(\lambda_{schema}=1\)
用组内相对优势计算 \(A_i = R(o_i) - \bar{R}\),通过PPO-clip目标更新策略,同时用KL散度约束不偏离参考模型太远。
损失函数 / 训练策略¶
- CT阶段:标准NLL loss,5个epoch,lr=2e-5,cosine scheduler,batch 256,seq len 8192
- RE阶段:GRPO目标函数,\(\epsilon=0.2\), \(\beta=0.04\), 1个epoch,batch 384,16个候选输出/query,最大输出4096 tokens
- 基座模型:Qwen3-8B-Base
- 训练设备:8×A800(CT)/ 6+2×A800(RE)
- 效率优化:bfloat16混合精度, gradient checkpointing, FlashAttention-2, Liger-kernel
实验关键数据¶
跨域零样本(CrossNER + MIT,表1核心数据)¶
| 模型 | 训练量 | Movie | Rest. | AI | Litera. | Music | Politics | Science | Avg |
|---|---|---|---|---|---|---|---|---|---|
| GPT-4 | - | 60.4 | 59.7 | 50.0 | 55.2 | 69.2 | 63.4 | 63.2 | 60.1 |
| B²NER 7B | 70K | 67.6 | 53.3 | 59.0 | 63.7 | 68.6 | 67.8 | 72.0 | 64.6 |
| Qwen3 8B | - | 70.1 | 57.4 | 61.2 | 58.0 | 71.0 | 71.9 | 68.6 | 65.4 |
| DeepSeek-R1 32B | - | 70.4 | 57.5 | 60.4 | 52.3 | 70.4 | 71.1 | 65.9 | 64.0 |
| ReasoningNER 1.7B | 50K | 70.2 | 52.4 | 63.6 | 59.1 | 71.6 | 68.6 | 69.9 | 65.1 |
| ReasoningNER 8B | 50K | 76.3 | 56.8 | 71.0 | 69.4 | 78.7 | 78.8 | 75.8 | 72.4 |
| ReasoningNER 8B+RE | 50K | 79.3 | 67.7 | 72.2 | 77.1 | 84.0 | 79.8 | 81.4 | 77.3 |
零样本20数据集评估¶
- ReasoningNER 8B (仅CT) 在20个NER数据集上平均F1=56.8,超GLiNER-L 9个点,超UniNER 11.1个点
有监督评估(20数据集)¶
- ReasoningNER达到平均F1=85.2,在20个数据集中11个取得最佳,超B²NER 1.3个百分点
低资源(CoNLL03)¶
- 1%数据: F1=87.1(超UIE-base 4.3点,超KnowCoder 7.9点)
- 5%数据: F1=91.0; 10%数据: F1=92.9
跨语言(MultiConer22, 11种语言)¶
- 仅用英文训练,9种未见语言平均F1=48.1,超KnowCoder-X 8.6个百分点
消融实验要点¶
| 配置 | Avg F1 |
|---|---|
| Qwen3-1.7B-Base(基线) | 31.9 |
| + SFT on Pile-NER | 40.3 (+8.4) |
| + SFT on NER-CoT (无CoT) | 60.6 (+20.3) |
| + SFT on NER-CoT (有CoT) | 63.0 (+2.4) |
| + RE (GRPO) | 65.1 (+2.1) |
- NER-CoT数据质量贡献最大(+20.3),说明用DeepSeek-R1重标注+严格质控后的数据远优于原始Pile-NER
- CoT推理带来+2.4的额外增益,证明显式推理有加成
- GRPO再加+2.1,三个组件递进叠加
- 多种backbone实验证明方法通用:Qwen3/InternLM2/Llama3.1/Llama2均有效
亮点¶
- 范式创新清晰:将NER从"模式匹配"升级为"推理",动机自然、方案完整
- 数据构建流程严谨:三步质控(结构验证+语义一致性评分),保证推理链质量
- "认知捷径"概念有启发性:指出指令微调本质上在鼓励模型走捷径,跳过分析直达结论
- 小模型大效果:1.7B模型即可超越GPT-4(65.1 vs 60.1),8B模型超DeepSeek-R1 32B(72.4 vs 64.0)
- 跨语言零样本迁移:仅用英文数据训练,跨语言泛化能力大幅超越用双语数据训练的模型,说明推理能力具有语言无关性
- GRPO在NER任务中的成功应用:双奖励函数(F1+schema一致性)设计合理
局限性 / 可改进方向¶
- 推理链冗长:模型倾向于生成过度详尽的推理过程,即使对简单句子也输出大量分析步骤,显著增加推理延迟和token消耗,影响实际部署
- 仅限NER任务:未扩展到关系抽取、事件抽取等更复杂的IE任务,通用性待验证
- NER-CoT数据依赖强模型:构建流程需要DeepSeek-R1和Qwen3-32B,成本不低
- 消融中CoT的增益相对有限(+2.4),数据质量本身的贡献远大于推理形式的贡献,这让人怀疑推理范式的独立价值
- 未讨论推理链的可控性:如何在保持性能的同时压缩推理链长度是未来关键方向
与相关工作的对比¶
- vs PromptNER / ERA-CoT:这些工作仅在推理时用prompt引导推理,未将CoT纳入训练。ReasoningNER将推理链监督融入SFT+RL全流程,更系统化
- vs B²NER:B²NER通过跨数据集统一entity taxonomy提升泛化,属于数据/表示层面的改进;ReasoningNER从推理范式角度切入,用CoT+GRPO让模型"想清楚",两者互补
- vs KnowCoder:KnowCoder用代码格式编码实体类型定义,训练数据量巨大(459万);ReasoningNER用5万高质量推理数据即超越,数据效率显著更高
- vs DeepSeek-R1 / Qwen3(通用推理模型):通用推理能力不等于任务特化推理能力,ReasoningNER通过NER-specific的CoT训练+GRPO,将通用推理"对齐"到NER任务
启发与关联¶
- 推理范式的可迁移性:这种"先推理后输出"的框架理论上可以迁移到其他结构化预测任务(关系抽取、事件抽取、slot filling等),核心是设计任务特定的CoT模板和奖励函数
- 数据质量 > 推理形式:消融实验中,NER-CoT数据本身的贡献(+20.3)远超CoT推理形式的贡献(+2.4),这启示我们:高质量的重标注数据可能比花哨的推理形式更重要
- GRPO在NLP任务中的应用模式:双奖励函数(任务准确性+格式规范性)是一个通用的设计模式,可迁移到其他需要结构化输出的NLP任务
- "认知捷径"视角值得借鉴:这个分析框架可以用来审视其他NLP任务中LLM的表现退化问题
评分¶
- 新颖性: ⭐⭐⭐⭐ 推理范式用于NER的系统化框架是新的,但CoT+RL的技术路线已不算新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 7个跨域+20个零样本+低资源+跨语言+多backbone消融,非常全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,动机阐述到位,"认知捷径"概念有吸引力
- 价值: ⭐⭐⭐⭐ 在零样本NER领域建立了新SOTA,方法有迁移潜力,但推理链冗长问题限制实用性