📚 预训练¶

💬 ACL2026 · 5 篇论文解读

Commonsense Knowledge with Negation: A Resource to Enhance Negation Understanding: 提出自动为现有常识知识库增添否定的方法，构建超过 200 万三元组的否定常识语料库（¬Atomic 和 ¬Anion），并证明在其上预训练可以提升 LLM 的否定理解能力。
Compact Example-Based Explanations for Language Models: 本文提出选择相关性分数（Selection Relevance Score），一种无需重训练的指标来评估训练样本子集作为示例解释的质量，并证明常见的"选最高影响力"策略常不如随机选择，进而提出平衡影响力与代表性的新策略。
SAGE: Sign-Adaptive Gradient for Memory-Efficient LLM Optimization: 本文提出 SAGE 优化器，通过 Lion 风格的符号更新方向和一个 \(O(d)\) 内存开销的自适应阻尼缩放因子，解决了轻量级优化器在嵌入层上失败的"嵌入层困境"，在 Llama 模型（最大 1.3B）上以显著更低的优化器内存达到新的 SOTA 困惑度。
SCRIPT: A Subcharacter Compositional Representation Injection Module for Korean Pre-Trained Language Models: 本文提出 SCRIPT，一个模型无关的即插即用模块，通过双通道策略将韩文 Hangul 的子字符（Jamo）组合知识注入现有子词级 PLM 的嵌入层，无需重新预训练即可在韩语 NLU/NLG 任务上获得一致提升，并使嵌入空间更好地捕捉语法规律和语义变化。
Working Memory Constraints Scaffold Learning in Transformers under Data Scarcity: 本文将人类工作记忆约束（固定窗口、指数衰减、逻辑衰减、首因-近因效应）集成到 GPT-2 注意力机制中，在发展可信的小规模语料（10M/100M 词）上从头训练，发现这些约束在数据稀缺时显著提升语法准确率和人类阅读时间的预测力，且促进注意力头的功能专门化。