An Exploration-Analysis-Disambiguation Reasoning Framework for Word Sense Disambiguation with Low-Parameter LLMs¶

日期: 2026-03-05
arXiv: 2603.05400
代码: HuggingFace
领域: NLP理解
关键词: word sense disambiguation, chain-of-thought, low-parameter LLM, reasoning, LoRA fine-tuning

一句话总结¶

提出 EAD（Exploration-Analysis-Disambiguation）推理框架，通过邻近词分析的 CoT 推理和高级推理（正确义项论证+错误义项排除）两种策略微调 <4B 参数的小模型，在 WSD 任务上达到与 GPT-4-Turbo 相当的性能。

研究背景与动机¶

领域现状：WSD 是 NLP 核心任务，高参数 LLM（GPT-4-Turbo）在零样本 WSD 上表现接近 SOTA，但计算和能耗成本限制了可扩展性。
现有痛点：(1) 大模型虽强但部署成本高；(2) 小模型直接做 WSD 效果差，尤其对罕见义项和领域特定义项；(3) 现有微调方法未充分利用推理能力。
核心矛盾：小模型缺乏推理链条——直接给答案会遗漏上下文线索，导致歧义消解不准确。
切入角度：设计推理驱动的微调策略，让小模型通过 CoT 推理过程逐步分析上下文和候选义项关系，而非直接输出答案。
核心 idea：EAD 三阶段框架——探索（收集候选义项）→ 分析（邻近词分析/深度推理）→ 消歧（得出最终义项）。

方法详解¶

整体框架¶

三种渐进式微调策略：(1) Direct Sense Identification — 不推理直接输出义项定义；(2) CoT Neighbour Words Analysis — 利用邻近词语义相似度引导 CoT 推理；(3) Advanced Reasoning — 对每个候选义项论证为什么正确/为什么错误。所有策略均基于 LoRA 微调 <4B 参数模型。

关键设计¶

邻近词分析（Neighbour Words Analysis）：
- 做什么：从歧义词上下文中选取语义最相关的邻近词作为消歧线索
- 核心思路：用 spaCy 分词，提取歧义词前后各 10 个 token，用 sentence-transformer 计算每个 token 与歧义词的余弦相似度，选取 top-k（k=5）最相关词。例如 "bat" 的上下文中 "match"、"player"、"bag" 相似度高 → 指向运动器材义而非蝙蝠
- 设计动机：邻近词提供的局部语义线索是消歧的关键信号，显式抽取后作为 CoT 推理的输入依据
高级推理（Advanced Reasoning）：
- 做什么：对每个候选义项进行正反论证——证明正确义项的合理性 + 排除错误义项
- 核心思路：使用 Virtuoso-Large 模型生成结构化推理（上下文分析→正确义项论证→错误义项排除），人工审核后作为训练数据。仅需 10K 样本即可达到与 101K 邻近词分析数据相当的效果
- 设计动机：受 GlossBERT 启发——训练模型不仅识别正确义项，还要理解为什么其他义项不对，形成更强的判别能力
动词消歧增强：
- 做什么：针对动词义项消歧的特殊困难，引入句法证据
- 核心思路：在推理链中加入动词的时态、语态、依存关系等句法信息
- 设计动机：动词的义项往往高度依赖句法结构（如 "run a company" vs "run a race"），纯语义不够

损失函数 / 训练策略¶

使用标准因果语言模型的交叉熵损失，LoRA 微调（rank 未指定）。AdamW 优化器，lr=2e-4，batch=4，梯度累积 8 步。训练 1-2 epoch。全程 NVIDIA A100-40GB，无量化。

实验关键数据¶

主实验（FEWS 数据集 F1 Score）¶

模型	参数量	策略	Noun	Verb	Adj	Adv	Overall
Gemma-3-4B	4B	CoT邻近词(2ep)	0.81	0.71	0.72	0.76	0.75
Qwen-3-4B	4B	CoT邻近词(2ep)	0.79	0.67	0.75	0.68	0.74
Yi-34B baseline	34B	无微调	0.65	0.51	0.57	0.48	0.58
GPT-4-Turbo	~1.8T?	零样本	0.78	0.71	0.74	0.72	0.74

消融实验¶

策略	训练数据量	Overall F1	说明
Direct（无推理）	101K	0.57	基线
CoT 邻近词分析	101K	0.75	+18%
高级推理	10K	0.74	用 1/10 数据达到相当效果
高级推理+动词增强	14.5K	0.76	动词 F1 提升最多

关键发现¶

CoT 推理带来约 18% F1提升，证明推理链条对小模型至关重要
高级推理仅需 10% 训练数据（10K vs 101K）即 comparable，说明推理质量比数量重要
LLaMA-3.2 和 DeepSeek-distill 未学到有效推理能力，说明不是所有小模型都适合推理微调
Gemma-3-4B 和 Qwen-3-4B 表现最佳，超越所有中等参数模型（7B-34B）

亮点与洞察¶

邻近词 + CoT 的组合简单有效：显式抽取语义相关的上下文词作为推理依据，为 CoT 提供了结构化的输入信号。这个思路可迁移到其他需要上下文理解的任务
正反论证训练：同时训练"为什么对"和"为什么不对"，类比 DPO 的 chosen/rejected，提升了模型判别力
高效数据利用：高质量推理数据 10K = 普通数据 101K，强调了数据标注质量的杠杆效应

局限性 / 可改进方向¶

仅在英语 WSD 上评估，多语言泛化需验证
邻近词选择基于静态嵌入相似度，可能遗漏更复杂的语用线索
高级推理数据由 LLM 生成再人工审核，规模化成本仍不低
未与 BERT-based 专用 WSD 模型全面对比（如 BEM、GlossBERT 等）

评分¶

新颖性: ⭐⭐⭐ EAD 框架是对已有 CoT/推理方法的工程优化，核心思路不算新
实验充分度: ⭐⭐⭐⭐ 多模型对比、消融、跨数据集评估较完整
写作质量: ⭐⭐⭐⭐ 方法论清晰，实验设计有层次
价值: ⭐⭐⭐⭐ 对小模型做 WSD 有实用指导意义