From Attribution to Action: Jointly ALIGNing Predictions and Explanations¶

会议: AAAI 2026
arXiv: 2511.06944
代码: 无
领域: 分割
关键词: 解释引导学习, 域泛化, 可解释性, Grad-CAM, 掩码学习

一句话总结¶

提出 ALIGN 框架，通过联合训练可学习掩码生成器（masker）和分类器，迭代对齐模型归因图与任务相关区域掩码，同时提升预测准确性和可解释性，在 VLCS 和 Terra Incognita 域泛化基准上超越 6 个强基线。

研究背景与动机¶

解释引导学习（EGL）通过将解释信号（如显著性图）整合到训练中，使模型关注可解释的语义区域。然而现有 EGL 方法存在两大瓶颈：

标注依赖问题：CARE、GRADIA 等方法依赖人工标注掩码，成本高且难以扩展。即使使用 SAM 等预训练分割模型生成伪掩码，这些掩码并非针对下游任务优化，可能包含不相关区域或遗漏关键信息
低质量掩码损害性能：作者通过实验和理论分析表明，不精确的掩码不仅无法提升模型，反而会引入虚假关联，降低预测性能。例如 SAM 对含狗的图像可能主要捕获周围环境而非目标对象

核心动机：需要一个任务驱动的、自学习的掩码来引导模型，而非依赖固定的外部标注或通用分割结果。

方法详解¶

整体框架¶

ALIGN（Attribution-Learning Iterative Guidance Network）联合训练两个组件：

Masker \(M\)：轻量卷积网络，生成软掩码 \(M(x) \in [0,1]^d\)，标识输入中任务相关的区域
Classifier \(f\)：标准 ResNet，不仅优化预测准确性，还对齐其 Grad-CAM 显著性图与掩码

两者通过交替优化（alternating optimization）迭代训练：先固定分类器更新掩码，再固定掩码更新分类器。

关键设计¶

理论分析（PAC学习框架）¶

基于域迁移场景，将输入分解为目标部分 \(x^{(obj)} = M \odot x\) 和背景部分 \(x^{(bg)} = (1-M) \odot x\)，对比三类模型：

\(f_1\)（vanilla）：使用所有特征包括虚假特征
\(f_2\)（完美引导）：仅使用任务相关区域
\(f_3\)（严格引导）：仅使用目标的严格子集

四个引理给出关键结论：

Lemma 1：不依赖背景特征的模型对域变化敏感度更低（Lipschitz常数更小）
Lemma 2：MSE误差差异被 \(4|\mathbb{E}_{\mathcal{D}_T}[f(x)] - \mathbb{E}_{\mathcal{D}_S}[f(x)]|\) 上界约束
Lemma 3：交叉熵差异 \(\Delta_{CE} \leq C \cdot \epsilon\)，模型越不敏感于背景，\(\epsilon\) 越小
Lemma 4：\(f_2\) 在域内性能优于 \(f_3\)，使用完整相关特征比子集更好

理论洞察：高质量掩码同时改善泛化（通过减少虚假特征依赖）和域内性能（通过保留完整相关特征）。

Masker 目标函数¶

核心思想是使保留前景的预测置信度高、去除前景后置信度低：

\[dist(x) = f_y(x \odot M(x)) - f_y(x \odot (1-M(x)))\]

\[\mathcal{L}_{dist} = MSE(dist(x), 1)\]

加两个正则项保证掩码质量： - 稀疏性损失 \(\mathcal{L}_{sparsity} = \|M(x)\|_1\)：避免不必要的激活 - 平滑性损失 \(\mathcal{L}_{smooth}\)：惩罚相邻像素间的突变，保证空间连续性

\[\mathcal{L}_{mask} = \mathcal{L}_{dist} + \lambda_1 \mathcal{L}_{sparsity} + \lambda_2 \mathcal{L}_{smooth}\]

Classifier 目标函数¶

\[\mathcal{L}_{clf} = \mathcal{L}_{cls} + \lambda_3 \mathcal{L}_{egl} + \lambda_4 \mathcal{L}_{reg}\]

分类损失 \(\mathcal{L}_{cls} = CE(f(x), y)\)
解释引导损失 \(\mathcal{L}_{egl} = BCE(\Phi_y(x), M(x))\)：对齐 Grad-CAM 显著性图与掩码
Mixup正则 \(\mathcal{L}_{reg}\)：对同类样本做mixup，鼓励归因空间一致性并促进解释稀疏性

损失函数 / 训练策略¶

冷启动策略：前200个epoch仅训练分类器（\(\mathcal{L}_{cls} + \mathcal{L}_{reg}\)），不引入解释监督，让分类器先建立可靠的初始决策
之后开始交替优化：固定 \(f\) 更新 \(M\)，再固定 \(M\) 更新 \(f\)，逐步对齐模型推理与学到的掩码
使用 Grad-CAM 作为解释方法

实验关键数据¶

主实验¶

VLCS 数据集（4个子域，Accuracy/AUC）：

方法	VOC2007 Acc	VOC2007 AUC	LabelMe Acc	Caltech Acc	SUN09 Acc
ERM	85.35	76.95	80.80	99.73	80.87
SGT	86.64	72.91	79.54	99.52	79.23
DRE	85.61	77.41	80.31	99.95	81.76
ALIGN	86.91	82.18	80.23	99.98	82.54

Terra Incognita 数据集：

方法	Loc_38 Acc	Loc_43 Acc	Loc_46 Acc	Loc_100 Acc
ERM	77.89	76.35	72.69	88.47
DRE	77.37	74.89	73.95	88.39
ALIGN	83.62	72.47	77.27	90.54

ALIGN 在大多数子域取得最佳或最具竞争力的准确率和 AUC，同时在 Sufficiency 和 Comprehensiveness 指标上表现出色。

消融实验¶

Masker 消融（VLCS VOC2007）：

变体	Acc	AUC
w/o EG（无解释引导）	85.61	77.41
m-SAM（SAM掩码替代）	85.51	80.32
m-Gray（灰度掩码）	86.90	79.15
ALIGN	86.91	82.18

关键结论：任何外部掩码信号都优于无 EGL，但任务驱动的学习掩码远优于固定掩码。

关键发现¶

OOD泛化：在VOC2007训练、其他域测试的设置下，ALIGN在5/6个OOD设置中达到最佳
SAM等通用分割模型生成的掩码可能聚焦在非目标区域（如背景环境），对下游任务产生误导
可解释性指标（Sufficiency↓, Comprehensiveness↑）表明ALIGN的归因更可靠

亮点与洞察¶

理论与实践结合：PAC框架下的泛化界分析为掩码质量的重要性提供了严格理论支撑，而非仅凭经验
无需标注的EGL：通过学习掩码替代人工标注或预训练分割结果，实现端到端的解释引导
冷启动策略：前200 epoch纯分类器训练避免了不稳定的早期掩码对训练的干扰
掩码的双重正则：稀疏+平滑约束确保掩码紧凑且空间连续，而非碎片化噪声

局限性 / 可改进方向¶

在个别域上（如LabelMe、Terra Loc_43）未达到最佳，因为学到的掩码可能遗漏少量相关特征（对应Lemma 4）
Masker为轻量卷积网络，可能难以捕获复杂的语义结构；可考虑更强的架构
仅使用 Grad-CAM 作为解释方法，未探索其他归因方法（如 SHAP、Integrated Gradients）的效果
训练和评估仅在分类任务上进行，未验证在检测/分割等密集预测任务中的效果
交替优化可能陷入局部最优，未探索联合端到端优化的可能性

评分¶

新颖性: ⭐⭐⭐⭐ — 联合学习掩码与分类器的EGL框架新颖，理论分析扎实
实验充分度: ⭐⭐⭐⭐ — 两个DG基准，多个消融，OOD实验充分
写作质量: ⭐⭐⭐⭐⭐ — 理论-实验-方法逻辑清晰，引理推导细致
价值: ⭐⭐⭐⭐ — 为无标注EGL提供了理论基础和实用方案