🔬 可解释性¶
🤖 AAAI2026 · 36 篇论文解读
- A Closer Look at Knowledge Distillation in Spiking Neural Network Training
-
针对ANN→SNN知识蒸馏中教师ANN连续特征/logits与学生SNN离散稀疏spike特征/logits之间分布差异被忽视的问题,提出基于显著性缩放激活图蒸馏(SAMD)和噪声平滑logits蒸馏(NLD)的CKDSNN框架,在CIFAR-10/100、ImageNet-1K和CIFAR10-DVS上均取得SNN训练的新SOTA。
- A Coherence-Based Measure of AGI
-
指出现有 AGI 评分用算术平均隐含"可补偿"假设(强项弥补弱项),提出基于广义均值连续谱的一致性度量 \(\text{AGI}_{\text{AUC}}\):在补偿性参数 \(p \in [-1, 1]\) 上积分,惩罚能力不均衡,暴露被算术平均掩盖的瓶颈。
- Adaptive Evidential Learning for Temporal-Semantic Robustness in Moment Retrieval
-
提出 DEMR 框架,将深度证据回归(DER)引入视频时刻检索任务,通过 Reflective Flipped Fusion 模块缓解模态不平衡、通过 Geom-regularizer 修复原始 DER 中不确定性估计的反直觉偏差,在标准和去偏数据集上均取得了显著提升。
- Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT
-
通过机械可解释性方法逆向工程 Video Vision Transformer(ViViT)的内部电路,揭示注意力头负责"收集证据"、MLP 模块负责"组合概念"的分工机制,证明模型在简单分类任务中隐藏了超越训练目标的语义知识。
- Beyond Hallucinations: A Composite Score for Measuring Reliability in Open-Source Large Language Models
-
提出 Composite Reliability Score (CRS),将校准度、鲁棒性和不确定性量化三个维度统一为单一可解释指标,对 10 个开源 LLM 在 5 个 QA 数据集上进行系统评估,发现 Mistral-8x22B 综合可靠性最高(CRS=0.81),而模型大小并不直接决定可靠性。
- Concepts from Representations: Post-hoc Concept Bottleneck Models via Sparse Decomposition of Visual Representations
-
提出 PCBM-ReD,通过从预训练视觉编码器中自动提取概念、MLLM 标注/过滤、重建引导选择,再利用 CLIP 视觉-文本对齐将图像表示稀疏分解为概念嵌入的线性组合,构建事后概念瓶颈模型,在 11 个分类任务上达到 SOTA 精度且保持可解释性。
- CrossCheck-Bench: Diagnosing Compositional Failures in Multimodal Conflict Resolution
-
构建包含15k对抗性QA样本的三级层次基准CrossCheck-Bench,通过7种原子能力和15个任务诊断VLM在多模态冲突解决中的组合推理失败,揭示从感知(L1)到推理(L3)的系统性性能衰退以及传统提示策略的局限性。
- Data Whitening Improves Sparse Autoencoder Learning
-
本文将经典稀疏编码中的 PCA 白化(whitening)引入现代稀疏自编码器(SAE)训练,通过理论分析和仿真证明白化能使优化景观更凸更各向同性,在 SAEBench 上的实验表明白化显著提升可解释性指标(Sparse Probing +7.3%、SCR +54%、TPP +372%),尽管重构质量略有下降。
- Distribution-Based Feature Attribution for Explaining the Predictions of Any Classifier
-
提出首个基于数据分布的特征归因方法 DFAX,通过比较目标实例在目标类与非目标类条件概率之差来量化特征重要性,首次给出特征归因的形式化定义,在10个数据集上显著优于SHAP/LIME等基线且速度快数个数量级。
- DR.Experts: Differential Refinement of Distortion-Aware Experts for Blind Image Quality Assessment
-
提出DR.Experts框架,利用DA-CLIP获取失真类型先验,通过差分精炼注意力机制(DSDM)将失真注意力与语义注意力分离以纯化失真特征,再通过动态失真加权模块(DDWM)按感知影响自适应加权各类失真特征,在5个BIQA基准上达到SOTA。
- ElementaryNet: A Non-Strategic Neural Network for Predicting Human Behavior in Normal-Form Games
-
提出 ElementaryNet,一种可证明不具备策略性推理能力的神经网络架构,用于建模博弈中人类的"level-0"(非策略性)行为,在预测准确率上与 GameNet(当前 SOTA)无统计差异,同时具备更好的可解释性。
- Enhancing Binary Encoded Crime Linkage Analysis Using Siamese Network
-
提出基于 Siamese Autoencoder 的犯罪关联分析框架,通过 decoder 阶段融合地理时间特征 和 领域专家驱动的数据降维策略,在英国 NCA 的真实 ViCLAS 数据库上实现了 AUC 提升最高 9%,为高维稀疏二进制编码犯罪数据提供了有效的机器学习解决方案。
- Explainable Melanoma Diagnosis with Contrastive Learning and LLM-based Report Generation
-
提出 CEFM 框架,通过跨模态对比学习将 ViT 视觉特征与基于 ABCD 规则的临床特征(不对称性、边界、颜色)对齐,再由 CLIP + DeepSeek 生成结构化诊断报告,在 ISIC 数据集上达到 92.79% 准确率和 0.961 AUC,专家评分可解释性达 4.6/5。
- Finding the Translation Switch: Discovering and Exploiting the Task-Initiation Features in LLMs
-
利用稀疏自编码器(SAE)发现 LLM 中控制翻译任务启动的"翻译启动特征",通过因果干预验证其功能(增强特征→提升翻译质量/减少幻觉,消除特征→产生幻觉),并将该机制洞察转化为实用的数据选择策略——优先在"机制困难"样本上微调,显著提升数据效率和抑制幻觉。
- FineVAU: A Novel Human-Aligned Benchmark for Fine-Grained Video Anomaly Understanding
-
本文提出FineVAU基准,将视频异常理解 (VAU) 分解为事件(What)、实体(Who)、地点(Where)三个维度,设计了与人类感知高度对齐的FV-Score评估指标,并通过全自动LVLM辅助管线构建了FineW³数据集,实验揭示当前LVLM在细粒度异常事件感知上的关键短板。
- FlashKAT: Understanding and Addressing Performance Bottlenecks in the Kolmogorov-Arnold Transformer
-
深入分析 KAT(Kolmogorov-Arnold Transformer)训练慢 123 倍的根因,发现瓶颈并非 FLOPs 而是反向传播中梯度累积的内存停顿(atomic add 导致全局内存竞争),提出 FlashKAT 通过重构 GPU 核函数将训练加速 86.5 倍并降低近一个数量级的梯度舍入误差。
- Flexible Concept Bottleneck Model
-
本文提出Flexible Concept Bottleneck Model (FCBM),通过引入超网络动态生成概念权重和可学习温度的sparsemax模块,实现了概念池的动态适配(包括完全替换),并在5个公开数据集上以相似的有效概念数达到了与SOTA基线可比的精度,仅需单个epoch微调即可适应全新概念集。
- FourierPET: Deep Fourier-based Unrolled Network for Low-count PET Reconstruction
-
发现低剂量 PET 的三类退化在频域可分离——泊松噪声/光子不足导致高频相位扰动,衰减校正误差抑制低频幅度——据此提出 FourierPET:基于 ADMM 展开的频率感知重建框架,仅 0.44M 参数在三个数据集上全面 SOTA。
- GateRA: Token-Aware Modulation for Parameter-Efficient Fine-Tuning
-
提出 GateRA,在 PEFT 方法(LoRA/DoRA/HiRA)中引入轻量级 token 感知门控模块,通过 sigmoid 门控动态调整每个 token 的适配强度——对分布内/简单 token 抑制更新以保留预训练知识,对挑战性 token 放大适配。结合熵正则化促进近二值门控决策,在常识推理(+1.1%)、对话和数学推理上一致优于 HiRA。
- GenePheno: Interpretable Gene Knockout-Induced Phenotype Abnormality Prediction Framework
-
本文提出 GenePheno,首个从基因序列端到端预测基因敲除诱导表型异常的可解释多标签预测框架,通过对比式多标签学习捕获表型间相关性、互斥正则化强制生物学一致性、以及基因本体(GO)瓶颈层提供可解释性,在 4 个数据集上取得 SOTA 的基因中心 \(F_{\max}\) 和表型中心 AUC。
- HSKBenchmark: Modeling and Benchmarking Chinese Second Language Acquisition in Large Language Models through Curriculum Tuning
-
提出 HSKBenchmark,首个面向 LLM 中文二语习得(SLA)分阶段建模与写作评估的基准,包含 HSK 3-6 级教材(6.76M tokens)、16K 合成指令数据、30 个测试题目及语言学评估系统,配合课程式微调框架模拟人类习得轨迹。
- Hypothesis Generation via LLM-Automated Language Bias for ILP
-
提出首个端到端框架:多Agent LLM系统(Actor/Critic)自动从原始文本构建ILP语言偏差(谓词系统+类型声明+模式约束),Translator将文本翻译为Prolog事实,再由MAXSYNTH求解器基于MDL原则归纳全局最优规则集。在SHOES和ZENDO任务上分别达88.3%和81.3%准确率,跨4种LLM方差<5%。
- iMAD: Intelligent Multi-Agent Debate for Efficient and Accurate LLM Inference
-
iMAD 提出选择性触发多Agent辩论的框架:先让单Agent生成带自我批判的结构化响应,从中提取 41 个可解释的语言/语义特征,用轻量 MLP 分类器(FocusCal 损失训练)判断是否需要触发 MAD,在 6 个 QA/VQA 数据集上减少高达 92% 的 Token 开销,同时提升准确率高达 13.5%。
- Induce, Align, Predict: Zero-Shot Stance Detection via Cognitive Inductive Reasoning
-
提出CIRF框架,通过无监督schema归纳(USI)从LLM生成的一阶逻辑中抽象可迁移推理模式,再用schema增强图核模型(SEGKM)进行结构对齐实现可解释零样本立场推理,在三个基准上达到SOTA且仅需30%标注数据。
- LLM Circuit Analyses Are Consistent Across Training and Scale
-
本文首次系统追踪 decoder-only LLM 的内部电路(circuits)在 3000 亿 token 训练过程中和 70M–2.8B 参数规模间的演化,发现虽然具体注意力头会发生更替,但执行的算法保持稳定,且跨规模具有一致性,表明在小模型上做的电路分析可推广到更大模型和更长训练。
- Probing Preference Representations: A Multi-Dimensional Evaluation and Analysis Method for Reward Models
-
提出 MRMBench 基准,通过 6 个维度(无害性、有帮助性、正确性、连贯性、复杂性、冗长性)的探针任务评估奖励模型是否有效捕获多维偏好,发现探针性能与 PPO 对齐质量强相关(Pearson \(r > 0.8\)),并提出推理时探针方法将 AlpacaEval win rate 从 57.3% 提升至 62.5%。
- Quiet Feature Learning in Algorithmic Tasks
-
在 10 个算法任务(18,544 次训练运行,\(10^9\)-\(10^{16}\) FLOPs)上发现,Transformer 的损失平台期并非学习停滞——模型在此期间悄悄学习了"安静特征"(中间算法子程序),这些特征不直接降低输出损失但对最终性能因果必要(消融后准确率下降 41-75%)。这挑战了用损失曲线判断训练进展的常规做法。
- SCoPe: Intrinsic Semantic Space Control for Mitigating Copyright Infringement in LLMs
-
将LLM版权侵权缓解问题重新定义为内在语义空间控制,利用稀疏自编码器(SAE)将隐状态映射到高维稀疏空间,识别版权敏感子空间并在解码时钳制其激活,无需外部过滤器或参数更新即可有效减少版权内容复制,同时保持模型通用能力。
- ShapBPT: Image Feature Attributions Using Data-Aware Binary Partition Trees
-
提出 ShapBPT,将数据感知的二叉分割树(BPT)作为层次联盟结构与 Owen 近似的 Shapley 值结合,实现与图像形态学对齐的特征归因,比现有 Shapley 方法收敛更快、形状识别更准确,并通过 20 人用户研究确认解释更受人类偏好。
- SOM Directions are Better than One: Multi-Directional Refusal Suppression in Language Models
-
证明LLM的拒绝行为并非由单一方向编码,而是形成低维流形,利用自组织映射(SOM)提取多个拒绝方向并通过贝叶斯优化搜索最优消融组合,在多个模型上超越单方向基线和专用越狱算法。
- SparK: Query-Aware Unstructured Sparsity with Recoverable KV Cache Channel Pruning
-
提出SparK——一种training-free的KV cache通道级非结构化剪枝方法,通过query-aware的saliency评估选择关键通道+recovery机制恢复被剪枝通道的贡献,在80%剪枝率下性能损失<5%,与token eviction方法正交互补,可额外减少30%+ KV cache存储。
- ToC: Tree-of-Claims Search with Multi-Agent Language Models
-
提出 Tree-of-Claims (ToC) 框架,将专利权利要求编辑建模为结构化搜索问题,通过 MCTS 与 EditorAgent/ExaminerAgent 多智能体协作,在新颖性、范围保持和语义一致性之间联合优化,比零/少样本 LLM 基线平均提升约 8% 综合分。
- Universal Safety Controllers with Learned Prophecies
-
提出 UCLearn,通过从少量代表性 plant 模型中学习 CTL (计算树逻辑) 公式作为预言(prophecy)的近似表示,替代精确但计算昂贵的树自动机,实现高效、可扩展且可解释的通用安全控制器合成。
- Unsupervised Feature Selection Through Group Discovery
-
提出 GroupFS,首个端到端可微分的无监督特征选择框架,能同时发现潜在特征分组并选择信息量最大的组,无需预定义分组或标签监督。
- Using Certifying Constraint Solvers for Generating Step-wise Explanations
-
提出利用约束求解器生成的不可满足性证明(proof)作为起点,通过一系列简化和转换技术高效生成面向用户的逐步解释序列(step-wise explanation),相比从零构建解释方法速度提升高达100倍。
- Voices, Faces, and Feelings: Multi-modal Emotion-Cognition Captioning for Mental Health Understanding
-
提出情感-认知协同多模态描述(ECMC)任务和框架,通过双流BridgeNet从视频、音频、文本中提取情感和认知特征,利用LLaMA生成自然语言描述,为心理健康评估提供可解释的情感-认知画像,显著提升辅助诊断的准确性和可解释性。