Machine Learning from Explanations¶
会议: ICML2025
arXiv: 2507.04788
代码: 待确认
领域: robotics
关键词: 解释引导学习, 小数据学习, 虚假相关, 注意力对齐, 样本效率
一句话总结¶
提出一种用简单解释信号(重要输入特征)引导机器学习的方法——通过交替优化预测准确率和注意力对齐的两阶段训练循环,在小数据、类不平衡、虚假特征场景下显著提升性能和稳定性。
研究背景与动机¶
小数据的根本困境¶
- 相同数据+相同算法可以产生准确率相似但决策函数完全不同的模型
- 模型倾向于学习虚假相关(如背景而非目标物体)
- 少数类样本不足以学到正确分类原因
为什么不能只靠更多数据¶
- 获取大量高质量标注数据昂贵
- 某些领域(罕见病诊断/新产品缺陷检测)天然数据稀缺
- 更多数据不能保证消除决策函数的歧义
与已有方法的区别¶
已有方法(Ross et al. 2017等)惩罚模型学"错误原因",但不能确保学到"正确原因"。本文直接提供正确解释并引导学习。
方法详解¶
两阶段交替训练循环¶
阶段1:优化预测准确率(标准label loss) 阶段2:对齐注意力与解释(解释对齐loss)
交替进行到收敛,而非简单加权组合。
解释的形式¶
最简单形式:输入特征的二值掩码,标记哪些特征是标签的关键原因。
与联合Loss方法的本质区别¶
- 联合loss只惩罚"错误原因",不引导"正确原因"
- 本文通过交替优化确保模型同时满足两个目标
- 实验证明联合loss在简单任务上都不能学到正确原因
实验关键数据¶
虚假特征场景¶
| 方法 | 有虚假特征准确率 | 无虚假特征准确率 | 学到正确原因 |
|---|---|---|---|
| 标准训练 | 高(使用虚假特征) | 低 | 否 |
| Ross et al.(惩罚) | 中等 | 中等 | 部分 |
| 本文(解释引导) | 高 | 高 | 是 |
小数据场景¶
| 训练样本数 | 标准训练 | 惩罚方法 | 本文方法 |
|---|---|---|---|
| 50 | 62% | 65% | 78% |
| 100 | 71% | 73% | 85% |
| 500 | 82% | 83% | 90% |
关键发现¶
- 解释引导显著加速收敛(更少epoch达到更高准确率)
- 模型稳定性大幅提升(不同运行间的方差降低)
- 在类不平衡场景中对少数类的改进最明显
- 联合loss方法在极简几何形状检测上都失败,但本文方法成功
亮点与洞察¶
- "提供正确原因"比"惩罚错误原因"更有效——这一发现直觉上合理但实验首次系统证明。
- 交替优化比联合loss更稳定,避免了两个目标的权衡调参。
- 解释形式极其简单(二值掩码),获取成本低。
- 在极简任务上联合loss都失败的反例非常有说服力。
- 对AI可信部署有重要的实践指导意义。
局限与展望¶
- 需要人工提供解释,增加了标注成本。
- 仅验证图像分类,文本/表格等模态待扩展。
- 解释的质量直接影响效果,但如何评估解释质量未深入讨论。
- 大数据场景下的收益递减效应未量化。
- 与其他知识注入方法(如课程学习、知识蒸馏)的对比不够。
相关工作与启发¶
- 与Ross et al.的本质区别是"引导"vs"惩罚"。
- 与Rieger et al.(RRR)的区别:RRR用bounding box,本文用特征掩码。
- 启发:解释信号可从LLM/GPT-4V自动生成,降低人工成本。
评分¶
- 新颖性: 4.0/5 — 概念简单但与已有方法有明确区别
- 实验充分度: 4.5/5 — 多场景+反例+消融
- 写作质量: 4.5/5 — 问题定义清晰
- 价值: 4.5/5 — 对AI可信部署有直接意义
补充分析¶
极简反例的启示¶
检测简单几何形状任务上,联合loss方法都无法学到正确区域,交替训练仅50样本就收敛。
解释获取成本¶
在医疗等专家场景,标注解释的边际成本远低于获取新样本。未来可用LLM/VLM自动生成。
与课程学习的关系¶
解释引导可视为一种更精确的课程学习:不仅告诉模型学什么,还告诉为什么。
相关论文¶
- [ICML 2025] Learning to Stop: Deep Learning for Mean Field Optimal Stopping
- [NeurIPS 2025] Understanding Prompt Tuning and In-Context Learning via Meta-Learning
- [ICML 2025] BiAssemble: Learning Collaborative Affordance for Bimanual Geometric Assembly
- [ICML 2025] Efficient Robotic Policy Learning via Latent Space Backward Planning
- [NeurIPS 2025] Learning Spatial-Aware Manipulation Ordering