G2D: Boosting Multimodal Learning with Gradient-Guided Distillation¶

会议: ICCV 2025
arXiv: 2506.21514
代码: GitHub
领域: 多模态VLM / 模态不平衡 / 知识蒸馏
关键词: modality imbalance, knowledge distillation, gradient modulation, sequential modality prioritization, multimodal fusion

一句话总结¶

提出G2D（Gradient-Guided Distillation），通过融合单模态教师到多模态学生的特征蒸馏+logit蒸馏损失，并结合基于单模态教师置信度分数的Sequential Modality Prioritization（SMP）梯度调制策略，解决多模态学习中的模态不平衡问题，在CREMA-D上实现85.89%准确率、超越所有专注模态不平衡的SOTA方法。

研究背景与动机¶

模态不平衡现象：多模态联合训练中，一个模态主导优化过程，其他模态被抑制——称为"模态竞争"或"模态懒惰"。这导致(i)多模态性能反不如单模态，或(ii)弱模态特征在联合训练中退化。

CREMA-D上的典型案例（图1）： - 音频单独训练达61.69%，在多模态训练中降到只有59.95%（影响不大） - 视频单独训练达76.48%，但在多模态联合训练中骤降至27.42%（几乎崩溃） - 联合多模态模型仅67.47%，远低于视频单模态的76.48%

现有方法的局限： - 梯度调制（OGM-GE, AGM）：动态调整弱模态梯度，但需要精细的超参数调节 - 特征重平衡（MLA, MMPareto）：调整各模态贡献，但无法完全消除不平衡 - 知识蒸馏（UMT, UME）：用单模态教师指导多模态学生，但选择哪种蒸馏方式需要经验调节

核心insight：弱模态的根本问题是优化不充分——在联合训练中，强模态快速收敛导致梯度信号主要服务于强模态。解决方案不是"削弱强模态"，而是"给弱模态专属的无干扰训练阶段"。

方法详解¶

整体框架¶

G2D包含三个核心组件：(1) 独立预训练的单模态教师 \(\{T^m\}_{m=1}^k\)，(2) 联合训练的多模态学生 \(S\)，(3) 融合蒸馏损失 \(\mathcal{L}_{\text{G2D}}\) + SMP梯度调制策略。

关键设计1：G2D损失函数¶

融合三类损失：

(1) 多模态学生损失 \(\mathcal{L}_S\)：标准交叉熵（分类）或MSE（回归），使用融合后的多模态特征预测标签。

(2) 特征蒸馏损失 \(\mathcal{L}_{\text{feat}}\)：L2距离约束学生编码器的模态特征与教师编码器的模态特征对齐：

\[\mathcal{L}_{\text{feat}}^m = \mathbb{E}_{x \sim \mathcal{D}}\left[\|\phi_s^m(x^m; \theta_s^m) - \phi_t^m(x^m; \theta_t^m)\|^2\right]\]

(3) Logit蒸馏损失 \(\mathcal{L}_{\text{logit}}\)：用KL散度让多模态学生的输出分布逼近各单模态教师的分布：

\[\mathcal{L}_{\text{logit}}^m = \mathbb{E}_{x \sim \mathcal{D}}\left[\text{KL}(\sigma(l_t^m) \| \sigma(l_s))\right]\]

总G2D损失：

\[\mathcal{L}_{\text{G2D}} = \mathcal{L}_S + \alpha \sum_{m=1}^{k} \mathcal{L}_{\text{feat}}^m + \beta \sum_{m=1}^{k} \mathcal{L}_{\text{logit}}^m\]

特征蒸馏保留模态特定表示，logit蒸馏对齐决策边界，两者互补。

关键设计2：模态置信度量化（Scoring Module）¶

利用单模态教师的batch-wise平均softmax概率作为模态置信度：

\[\rho_t^m = \frac{1}{|\mathcal{B}^m|} \sum_{(x_i^m, y_i^m) \in \mathcal{B}^m} \text{Softmax}(l_t^m(x_i^m; \theta^m))[y_i^m]\]

置信度高的模态为"强势模态"，低的为"弱势模态"。关键优势：使用单模态教师的置信度，不受联合训练中模态不平衡的影响。

关键设计3：Sequential Modality Prioritization（SMP）¶

核心假设：给弱势模态专属的无干扰训练阶段可以缓解模态不平衡。

具体策略： 1. 根据教师置信度排序模态：\(\pi_t[1]\)（最弱）到 \(\pi_t[k]\)（最强） 2. 训练分阶段进行：前 \(\tau_1\) 个epoch只训练最弱模态，接下来 \(\tau_2\) 个epoch训练第二弱模态，最后所有模态联合训练 3. 通过梯度调制系数 \(\kappa_q^m\) 控制哪些模态参与梯度更新：

\[\theta_{q+1}^m = \theta_q^m - \eta \cdot \kappa_q^m \cdot \frac{\partial \mathcal{L}_{\text{G2D}}}{\partial \theta_q^m}\]

其中 \(\kappa_q^m = 1\) 表示该模态参与训练，\(\kappa_q^m = 0\) 表示冻结。

这是完全抑制策略——不是用连续权重削弱强模态（如OGM-GE的 \(1 - \tanh(x)\)），而是直接将强模态梯度置零，确保弱模态获得完全的优化机会。

实验¶

数据集¶

CREMA-D：音频-视频情感识别，6类
AV-MNIST：音频-视频数字分类，10类
VGGSound：音频-视频事件分类，309类
UR-Funny：文本-视觉-音频幽默检测，2类
IEMOCAP：音视频文本情感识别
MIS-ME：土壤图像+气象表格回归（首次评估模态不平衡的回归场景）

主实验结果（双模态音视频）¶

方法	CREMA-D Multi	AV-MNIST Multi	VGGSound Multi
Joint-Train	67.47	69.77	50.97
AGM	78.48	72.14	47.11
OGM-GE	58.60	24.53	37.96
MLA	79.70	65.32	51.65
ReconBoost	83.62	72.14	52.74
DLMG	67.61	72.33	53.78
UMT (KD baseline)	67.61	72.33	53.78
G2D (本文)	85.89	73.03	53.82

G2D在CREMA-D上大幅领先（+2.27 vs ReconBoost），将视频模态在多模态训练中的性能从27.42%提升到72.72%。

三模态实验（UR-Funny）¶

模态组合	Joint-Train	OGM-GE	MMPareto	ReconBoost	UMT	G2D
A-V Multi	61.57	61.87	61.27	62.07	60.46	62.98
A-TXT Multi	62.17	62.47	62.88	61.06	62.47	63.28
A-V-TXT Multi	62.58	63.68	62.88	61.37	63.38	65.49

G2D在三模态场景下同样有效，且不会过度抑制强势模态（如文本）。

消融实验¶

SMP对不同方法的增益	无SMP	有SMP	增益
Joint-Train on CREMA-D	67.47	80.78	+13.31
UMT on CREMA-D	67.61	82.39	+14.78
G2D loss on CREMA-D	78.63	85.89	+7.26

完全抑制 vs 部分抑制	CREMA-D	AV-MNIST	VGGSound	UR-Funny
部分抑制（OGM-GE式）	81.99	72.83	51.16	63.68
完全抑制（SMP）	85.89	73.03	53.82	65.49

关键发现¶

SMP对所有方法都有效——即使用在vanilla joint-training上也能带来+13个百分点的提升
完全梯度抑制一致优于部分抑制，支持"给弱模态充分的无干扰训练"假设
G2D首次在回归任务（MIS-ME）上验证了模态不平衡的存在和缓解
Late fusion在G2D框架下表现最优，因为它保留了独立的单模态表示

亮点与洞察¶

SMP策略简单但极其有效：完全冻结强模态、只训练弱模态的策略，比精细的梯度权重调节更有效。这说明弱模态需要的不是more gradient，而是undisturbed gradient
知识蒸馏的恰当使用：特征蒸馏+logit蒸馏结合监督损失，既保持单模态的最优表示，又优化多模态目标
通用性强：适用于2模态/3模态、分类/回归、多种融合方式，且SMP可以即插即用到其他方法

局限性¶

SMP的 \(\tau_j\) 超参数在不同数据集上需要调节（CREMA-D上最优为150个epoch训练弱模态）
需要额外预训练多个单模态教师模型，增加了总体训练开销
在AV-MNIST等模态不平衡较轻的数据集上提升有限（73.03 vs 72.76）
未在大规模预训练模型（如CLIP, LLaVA）上验证

评分¶

新颖性：3/5（KD框架+梯度调制的组合较为自然，SMP策略简单但effective）
技术深度：3/5（方法清晰但缺乏理论分析，SMP为什么有效需要更深入的解释）
实验充分度：5/5（6个数据集、10+baseline、大量消融、回归任务、fusion对比）
写作质量：4/5（结构清晰，图表丰富）