⚡ LLM效率¶

💬 ACL2026 · 7 篇论文解读

Abstain-R1: Calibrated Abstention and Post-Refusal Clarification via Verifiable RL: Abstain-R1 提出一种澄清感知的 RLVR 奖励，在不可回答查询上联合优化"明确拒答"和"拒答后给出有用澄清（指出缺失信息）"，使 3B 模型在拒答和澄清质量上接近甚至超越 DeepSeek-R1 等大模型。
BOSCH: Black-Box Binary Optimization for Short-Context Attention-Head Selection in LLMs: 提出 BOSCH，一种免训练的注意力头级别 SWA 混合方法，将 SWA 头选择建模为大邻域搜索问题并分解为三阶段优化（层重要性探测→自适应比例分配→分组头选择），在 4 个模型 4 种比例设置下系统性超越层级启发式和 6 种静态头级别方法。
Forget What Matters, Keep the Rest: Selective Unlearning of Informative Tokens: 提出 Entropy-guided Token Weighting (ETW)，利用预测分布的熵值作为 token 信息量的代理指标，选择性地对信息性 token 施加更强的遗忘惩罚，在有效遗忘目标知识的同时更好地保持模型通用能力。
HumanLLM: Benchmarking and Improving LLM Anthropomorphism via Human Cognitive Patterns: 本文提出 HumanLLM 框架，将 244 个心理学模式（100 个人格特质 + 144 个社会认知模式）建模为相互作用的因果力而非孤立标签，构建了 11,359 个包含 2-5 个模式交互的场景和多轮对话数据集，通过双层 checklist 评估实现与人类判断的高对齐（\(r=0.90\)），HumanLLM-8B 在多模式动态上以 4 倍小的参数量超越 Qwen3-32B。
Multi-Drafter Speculative Decoding with Alignment Feedback: 本文提出 MetaSD，一个将多个异构草稿器整合到推测解码中的统一框架，将草稿器选择建模为多臂赌博机问题，通过块散度（Block Divergence）奖励信号动态选择与目标 LLM 最对齐的草稿器，在黑盒和白盒配置下一致优于单草稿器方法。
SciCoQA: Quality Assurance for Scientific Paper–Code Alignment: 本文提出 SciCoQA，首个用于检测科学论文与其代码实现之间差异的基准数据集，包含 635 个差异实例（92 个真实 + 543 个合成），评测 22 个 LLM 后发现最强模型仅能检测 46.7% 的真实差异，揭示了自动化科学质量保证中的关键能力缺口。
Speculative Verification: Exploiting Information Gain to Refine Speculative Decoding: 提出推测验证（Speculative Verification, SV），通过引入与草稿模型同等规模的伴随模型（companion model），利用草稿-伴随分布的相似性预测推测准确率，动态调整验证长度以最大化有效吞吐量，在大批量推理中实现相对标准推测解码平均1.4×、最高1.9×的加速。