G2D: Boosting Multimodal Learning with Gradient-Guided Distillation¶
会议: ICCV 2025
arXiv: 2506.21514
代码: GitHub
领域: 多模态VLM / 模态不平衡 / 知识蒸馏
关键词: modality imbalance, knowledge distillation, gradient modulation, sequential modality prioritization, multimodal fusion
一句话总结¶
提出G2D(Gradient-Guided Distillation),通过融合单模态教师到多模态学生的特征蒸馏+logit蒸馏损失,并结合基于单模态教师置信度分数的Sequential Modality Prioritization(SMP)梯度调制策略,解决多模态学习中的模态不平衡问题,在CREMA-D上实现85.89%准确率、超越所有专注模态不平衡的SOTA方法。
研究背景与动机¶
模态不平衡现象:多模态联合训练中,一个模态主导优化过程,其他模态被抑制——称为"模态竞争"或"模态懒惰"。这导致(i)多模态性能反不如单模态,或(ii)弱模态特征在联合训练中退化。
CREMA-D上的典型案例(图1): - 音频单独训练达61.69%,在多模态训练中降到只有59.95%(影响不大) - 视频单独训练达76.48%,但在多模态联合训练中骤降至27.42%(几乎崩溃) - 联合多模态模型仅67.47%,远低于视频单模态的76.48%
现有方法的局限: - 梯度调制(OGM-GE, AGM):动态调整弱模态梯度,但需要精细的超参数调节 - 特征重平衡(MLA, MMPareto):调整各模态贡献,但无法完全消除不平衡 - 知识蒸馏(UMT, UME):用单模态教师指导多模态学生,但选择哪种蒸馏方式需要经验调节
核心insight:弱模态的根本问题是优化不充分——在联合训练中,强模态快速收敛导致梯度信号主要服务于强模态。解决方案不是"削弱强模态",而是"给弱模态专属的无干扰训练阶段"。
方法详解¶
整体框架¶
G2D包含三个核心组件:(1) 独立预训练的单模态教师 \(\{T^m\}_{m=1}^k\),(2) 联合训练的多模态学生 \(S\),(3) 融合蒸馏损失 \(\mathcal{L}_{\text{G2D}}\) + SMP梯度调制策略。
关键设计1:G2D损失函数¶
融合三类损失:
(1) 多模态学生损失 \(\mathcal{L}_S\):标准交叉熵(分类)或MSE(回归),使用融合后的多模态特征预测标签。
(2) 特征蒸馏损失 \(\mathcal{L}_{\text{feat}}\):L2距离约束学生编码器的模态特征与教师编码器的模态特征对齐:
(3) Logit蒸馏损失 \(\mathcal{L}_{\text{logit}}\):用KL散度让多模态学生的输出分布逼近各单模态教师的分布:
总G2D损失:
特征蒸馏保留模态特定表示,logit蒸馏对齐决策边界,两者互补。
关键设计2:模态置信度量化(Scoring Module)¶
利用单模态教师的batch-wise平均softmax概率作为模态置信度:
置信度高的模态为"强势模态",低的为"弱势模态"。关键优势:使用单模态教师的置信度,不受联合训练中模态不平衡的影响。
关键设计3:Sequential Modality Prioritization(SMP)¶
核心假设:给弱势模态专属的无干扰训练阶段可以缓解模态不平衡。
具体策略: 1. 根据教师置信度排序模态:\(\pi_t[1]\)(最弱)到 \(\pi_t[k]\)(最强) 2. 训练分阶段进行:前 \(\tau_1\) 个epoch只训练最弱模态,接下来 \(\tau_2\) 个epoch训练第二弱模态,最后所有模态联合训练 3. 通过梯度调制系数 \(\kappa_q^m\) 控制哪些模态参与梯度更新:
其中 \(\kappa_q^m = 1\) 表示该模态参与训练,\(\kappa_q^m = 0\) 表示冻结。
这是完全抑制策略——不是用连续权重削弱强模态(如OGM-GE的 \(1 - \tanh(x)\)),而是直接将强模态梯度置零,确保弱模态获得完全的优化机会。
实验¶
数据集¶
- CREMA-D:音频-视频情感识别,6类
- AV-MNIST:音频-视频数字分类,10类
- VGGSound:音频-视频事件分类,309类
- UR-Funny:文本-视觉-音频幽默检测,2类
- IEMOCAP:音视频文本情感识别
- MIS-ME:土壤图像+气象表格回归(首次评估模态不平衡的回归场景)
主实验结果(双模态音视频)¶
| 方法 | CREMA-D Multi | AV-MNIST Multi | VGGSound Multi |
|---|---|---|---|
| Joint-Train | 67.47 | 69.77 | 50.97 |
| AGM | 78.48 | 72.14 | 47.11 |
| OGM-GE | 58.60 | 24.53 | 37.96 |
| MLA | 79.70 | 65.32 | 51.65 |
| ReconBoost | 83.62 | 72.14 | 52.74 |
| DLMG | 67.61 | 72.33 | 53.78 |
| UMT (KD baseline) | 67.61 | 72.33 | 53.78 |
| G2D (本文) | 85.89 | 73.03 | 53.82 |
G2D在CREMA-D上大幅领先(+2.27 vs ReconBoost),将视频模态在多模态训练中的性能从27.42%提升到72.72%。
三模态实验(UR-Funny)¶
| 模态组合 | Joint-Train | OGM-GE | MMPareto | ReconBoost | UMT | G2D |
|---|---|---|---|---|---|---|
| A-V Multi | 61.57 | 61.87 | 61.27 | 62.07 | 60.46 | 62.98 |
| A-TXT Multi | 62.17 | 62.47 | 62.88 | 61.06 | 62.47 | 63.28 |
| A-V-TXT Multi | 62.58 | 63.68 | 62.88 | 61.37 | 63.38 | 65.49 |
G2D在三模态场景下同样有效,且不会过度抑制强势模态(如文本)。
消融实验¶
| SMP对不同方法的增益 | 无SMP | 有SMP | 增益 |
|---|---|---|---|
| Joint-Train on CREMA-D | 67.47 | 80.78 | +13.31 |
| UMT on CREMA-D | 67.61 | 82.39 | +14.78 |
| G2D loss on CREMA-D | 78.63 | 85.89 | +7.26 |
| 完全抑制 vs 部分抑制 | CREMA-D | AV-MNIST | VGGSound | UR-Funny |
|---|---|---|---|---|
| 部分抑制(OGM-GE式) | 81.99 | 72.83 | 51.16 | 63.68 |
| 完全抑制(SMP) | 85.89 | 73.03 | 53.82 | 65.49 |
关键发现¶
- SMP对所有方法都有效——即使用在vanilla joint-training上也能带来+13个百分点的提升
- 完全梯度抑制一致优于部分抑制,支持"给弱模态充分的无干扰训练"假设
- G2D首次在回归任务(MIS-ME)上验证了模态不平衡的存在和缓解
- Late fusion在G2D框架下表现最优,因为它保留了独立的单模态表示
亮点与洞察¶
- SMP策略简单但极其有效:完全冻结强模态、只训练弱模态的策略,比精细的梯度权重调节更有效。这说明弱模态需要的不是more gradient,而是undisturbed gradient
- 知识蒸馏的恰当使用:特征蒸馏+logit蒸馏结合监督损失,既保持单模态的最优表示,又优化多模态目标
- 通用性强:适用于2模态/3模态、分类/回归、多种融合方式,且SMP可以即插即用到其他方法
局限性¶
- SMP的 \(\tau_j\) 超参数在不同数据集上需要调节(CREMA-D上最优为150个epoch训练弱模态)
- 需要额外预训练多个单模态教师模型,增加了总体训练开销
- 在AV-MNIST等模态不平衡较轻的数据集上提升有限(73.03 vs 72.76)
- 未在大规模预训练模型(如CLIP, LLaVA)上验证
相关工作¶
- 梯度调制:OGM-GE, AGM, PMR
- 特征重平衡:MLA, MMPareto, ReconBoost
- 知识蒸馏:UMT, UME
- 模态不平衡分析:MSES, MSLR
评分¶
- 新颖性:3/5(KD框架+梯度调制的组合较为自然,SMP策略简单但effective)
- 技术深度:3/5(方法清晰但缺乏理论分析,SMP为什么有效需要更深入的解释)
- 实验充分度:5/5(6个数据集、10+baseline、大量消融、回归任务、fusion对比)
- 写作质量:4/5(结构清晰,图表丰富)
相关论文¶
- [NeurIPS 2025] CovMatch: Cross-Covariance Guided Multimodal Dataset Distillation with Trainable Text Encoder
- [ICCV 2025] Controlling Multimodal LLMs via Reward-guided Decoding
- [ICCV 2025] BASIC: Boosting Visual Alignment with Intrinsic Refined Embeddings in Multimodal Large Language Models
- [ICCV 2025] Boosting MLLM Reasoning with Text-Debiased Hint-GRPO
- [ICLR 2026] KeepLoRA: Continual Learning with Residual Gradient Adaptation