Task-Informed Anti-Curriculum by Masking Improves Downstream Performance on Text¶

会议: ACL 2025
arXiv: 2502.12953
代码: 有 (https://github.com/JarcaAndrei/TIACBM)
领域: NLP / 训练策略
关键词: 掩码语言模型, 反课程学习, 任务感知掩码, 微调策略, 情感分析

一句话总结¶

TIACBM 提出了一种任务感知的反课程掩码微调策略：利用下游任务知识（如情感极性、词性标签）决定哪些 token 被掩码，并采用周期衰减的掩码率，在情感分析、文本分类和作者归属三个任务上均取得统计显著的性能提升。

研究背景与动机¶

掩码语言建模（MLM）是预训练语言模型的核心技术，但存在两个被忽视的问题：

随机选择被掩码的 token：标准 MLM 中哪些 token 被掩码完全随机，未利用任务相关知识

固定掩码比例：通常在整个训练过程中保持 15% 的掩码率不变

已有研究（Ankner et al., 2024; Yang et al., 2023）发现衰减掩码率对文本预训练更有效——这本质上对应反课程策略（hard-to-easy），因为更高的掩码率使学习任务更困难。但这些工作仅关注预训练阶段，且未利用下游任务信息。

TIACBM 的核心创新在于：在微调阶段引入 MLM 作为辅助目标，并结合任务知识来选择性地掩码重要 token。

方法详解¶

整体框架¶

TIACBM 包含两个核心组件： 1. 周期衰减掩码率：在训练中使用从高到低的掩码率向量 \(\mathbf{r} = \{r_1 \geq \cdots \geq r_K\}\)，每 K 步重置一次（周期性） 2. 任务感知 token 选择：根据任务特定的 task_relevance 函数计算每个 token 的重要性，按概率抽样选择被掩码的 token

关键设计¶

情感分析任务的掩码策略
- 核心假设：最具主观性的词是最重要的特征
- 实现：使用 SentiWordNet 3.0 查找每个词的极性分数（正面 + 负面 = 主观性），主观性高的词更可能被掩码
- 通过 Lesk 算法找到最可能的 synset 来确定正面/负面分数
- 重要性分数：\(s_i = s_{pos}^i + s_{neg}^i\)
文本分类（主题）任务的掩码策略
- 核心假设：实词（名词、动词、形容词、副词）比功能词更与主题相关
- 实现：先对非实词赋予 0 重要性，对实词使用预训练模型的注意力权重作为重要性
- 注意力重要性：对所有 attention block 和 head 取平均 \(\mathbf{a} = \frac{1}{B \cdot H \cdot |\mathbf{x}|} \sum_h \sum_b \sum_j A_{b,j}^h\)
- 最终：\(s_i = a_i\) 如果 \(x_i\) 是实词，否则 \(s_i = 0\)
作者归属任务的掩码策略
- 核心假设：功能词（介词、冠词、连词、符号、标点）反映写作风格
- 实现：与文本分类相反，掩码功能词而非实词
- 最终：\(s_i = a_i\) 如果 \(x_i\) 是功能词，否则 \(s_i = 0\)
周期衰减掩码率
- 创建 K 个衰减掩码率的向量，每 K 个迭代周期重置
- 动机：周期性重置防止模型在低掩码率阶段过拟合，同时保持 hard-to-easy 的反课程效果
- 掩码的 token 数量 \(N = \lfloor |\mathbf{x}| \cdot r_t \rfloor\)

训练策略¶

微调同时优化分类损失和 MLM 重建损失，掩码策略影响 MLM 部分的重建目标。通过战略性地优先掩码判别性特征来防止特征共适应（feature co-adaptation），类似于 Dropout 的正则化效果。

实验关键数据¶

主实验——BERT/RoBERTa（Table 1 摘要）¶

策略	Reuters(F1)	20News(Acc)	SST2(Acc)	PAN19-P1(Acc)	PAN19-P5(Acc)
传统微调	90.61	84.63	93.38	58.24	66.10
固定掩码(15%)	90.81	84.98	93.94	47.50	65.76
Poesina (CL++)	90.72	82.30	94.00	44.76	68.66
Ankner (衰减)	90.99	85.39	93.83	46.03	65.55
周期衰减	90.96	84.88	94.10	51.94	69.28
TIACBM	91.20	85.65	94.61	60.60	69.94

RoBERTa 上也有一致提升，所有结果均通过 Cochran's Q 检验（p < 0.001）。

GPT-2 实验（Table 2）¶

策略	SST2(Acc)	PAN19-P1(Acc)	PAN19-P5(Acc)
传统微调	92.35	67.96	38.16
TIACBM	92.96	73.44	42.90

证明 TIACBM 不限于掩码语言模型，对 GPT-2 等自回归模型也有效。

关键发现¶

TIACBM 在所有任务、所有模型上均为最优，且改进具有统计显著性
PAN19 作者归属任务上提升最显著（BERT 上从 58.24% → 60.60%），因为功能词掩码直接针对作者风格特征
周期衰减优于简单衰减：对比 Ankner 的非周期衰减，周期版（无任务信息）在 PAN19 上已有提升
任务信息是核心贡献：对比周期衰减（无任务信息）和 TIACBM（有任务信息），后者在所有任务上均更优
MLM 不仅有利于预训练，对微调也有帮助——这是一个重要的经验性发现

亮点与洞察¶

简洁有效：方法实现简单，无需额外模型或数据，仅需任务特定的 token 重要性函数
理论直觉清晰：掩码判别性特征 → 防止特征共适应 → 类似有目标的数据增强/正则化
适用性广：在掩码LM（BERT/RoBERTa）和自回归LM（GPT-2）上均有效
课程学习视角新颖：首次明确将掩码率调度与反课程学习联系，并在微调阶段验证

局限与展望¶

没有通用的最优掩码率调度，K 和衰减形式需用户调优
任务特定的 token 重要性函数设计可能在某些任务上不直观（如回归任务、多标签任务）
仅在 3 类任务上实验，未涵盖 NER、QA、摘要等更多任务类型
未探讨与其他正则化技术（如 Dropout、R-Drop）的交互效果

评分¶

新颖性: ⭐⭐⭐⭐ — 任务感知掩码 + 周期反课程的组合是原创的贡献
实验充分度: ⭐⭐⭐⭐ — 3 模型 × 4 数据集 × 5 基线的系统对比，统计检验充分
写作质量: ⭐⭐⭐⭐ — 方法描述清晰，算法伪代码规范
价值: ⭐⭐⭐ — 改进幅度有限（~1%），但方法简洁，易于集成到现有微调管道