跳转至

ImageBindDC: Compressing Multi-modal Data with ImageBind-based Condensation

会议: AAAI 2026
arXiv: 2511.08263
代码: 无
领域: 多模态VLM
关键词: 数据蒸馏, 多模态压缩, ImageBind, 特征函数距离, 分布匹配

一句话总结

本文提出ImageBindDC,首个在ImageBind统一特征空间中进行多模态数据压缩的框架,利用特征函数距离(CFD)替代传统MMD,并设计单模态/跨模态/联合模态三级分布对齐损失,在NYU-v2上仅用5个合成样本/类即实现与全数据训练相当的性能(97.30%),比前SOTA绝对提升8.2%,且压缩时间削减4.6倍。

研究背景与动机

领域现状

现代AI的成功依赖大规模数据和大模型的协同,但训练的计算、存储、经济成本日益高昂。数据集蒸馏(Dataset Condensation/Distillation)通过合成少量代表性样本来替代大规模数据训练,已在单模态(图像)场景中取得显著成效,通过梯度匹配(DC, DSA)、轨迹匹配(MTT)或分布匹配(DM, NCFM)等策略实现。

现有痛点

现有数据压缩方法在多模态场景中表现不佳:

独立压缩丢失关联:传统方法对每个模态(如视觉、音频)独立压缩,虽然保留了单模态统计特性,但破坏了跨模态的语义对应关系。例如,独立压缩后的合成图像和合成音频可能不再语义匹配。

现有多模态方法不足: - AVDD在独立的模态特征空间中做分布匹配,风险是模态间不对齐 - LoRS将跨模态关系简化为标量相似度,过于简单化 - RepBlend通过表示混合来防止模态坍缩,但是启发式方法,难以保证联合语义

分布匹配度量局限:广泛使用的MMD(最大均值差异)依赖核函数选择(通常是启发式的高斯核),可能无法捕获分布间的所有统计差异。

核心idea

在ImageBind提供的统一多模态嵌入空间中执行数据压缩,利用特征函数距离(CFD)进行精确的分布匹配(等价于匹配无穷阶矩),并设计三级对齐损失保证多模态结构的完整性。

方法详解

整体框架

ImageBindDC的流程如下: 1. 将真实多模态数据(如图像+音频)通过冻结的ImageBind编码器映射到统一嵌入空间 2. 初始化合成多模态数据(通过herding方法) 3. 也将合成数据映射到同一嵌入空间 4. 通过三级分布匹配损失优化合成数据 5. 输出压缩后的小规模合成数据集

关键设计

1. 特征函数距离(CFD)替代MMD

  • 传统DM方法使用MMD作为分布距离度量,但MMD的效果高度依赖核函数选择
  • CFD基于概率分部的特征函数(Fourier变换),根据Lévy唯一性定理,两个分布相同当且仅当它们的特征函数相同
  • CFD在频域中操作,隐式匹配分布的所有统计矩(不仅仅是一阶和二阶)
\[\text{CFD}(x, \tilde{x}) = |\Phi(x;t) - \Phi(\tilde{x};t)|^2\]

其中特征函数 \(\Phi(z;t) = \mathbb{E}_{z \sim P}[e^{jt^\top z}]\)\(t\) 是从高斯分布采样的频率向量。

设计动机:CFD不依赖用户定义的核函数,提供了更原则性的分布匹配框架。

2. 三级分布对齐损失

这是ImageBindDC的核心创新——在三个层面确保合成数据与真实数据的分布一致性:

(i) 单模态对齐 \(\mathcal{L}_{\text{uni}}\): - 分别匹配音频和视觉模态内的合成与真实数据分布 - \(\mathcal{L}_{\text{uni}} = \text{CFD}(e_a, \tilde{e}_a) + \text{CFD}(e_v, \tilde{e}_v)\) - 保证每个模态内的统计特性

(ii) 跨模态对齐 \(\mathcal{L}_{\text{cross}}\): - 通过逐元素乘法捕获真实/合成数据对之间的模态关系 - \(\rho_{\text{cross}} = \frac{\langle e_a \odot e_v, \tilde{e}_a \odot \tilde{e}_v \rangle}{\|e_a \odot e_v\|_2 \|\tilde{e}_a \odot \tilde{e}_v\|_2}\) - \(\mathcal{L}_{\text{cross}} = 1 - \rho_{\text{cross}}\) - 保证配对语义对应关系

(iii) 联合模态对齐 \(\mathcal{L}_{\text{joint}}\): - 通过均值嵌入的矩阵乘法捕获完整的多变量数据结构 - \(\rho_{\text{joint}} = E_a \odot \tilde{E}_v^\top \times E_v \odot \tilde{E}_a^\top\) - \(\mathcal{L}_{\text{joint}} = 1 - \rho_{\text{joint}}\) - 保证联合分布的整体结构

3. ImageBind统一嵌入空间

利用预训练的ImageBind模型将不同模态映射到共享特征空间,使得跨模态的分布匹配不需要在异构的原始数据空间中操作。ImageBind在压缩过程中保持冻结,避免了复杂的双层优化。

损失函数 / 训练策略

\[\mathcal{L} = \lambda_{\text{uni}} \mathcal{L}_{\text{uni}} + \lambda_{\text{cross}} \mathcal{L}_{\text{cross}} + \lambda_{\text{joint}} \mathcal{L}_{\text{joint}}\]

训练细节: - 合成数据初始化:herding方法 - 优化器:SGD(动量0.5),合成数据学习率0.5 - 训练30轮,每10步评估 - batch size:合成32,真实128 - 数据增强:可微分Siamese增强策略

实验关键数据

主实验

VGGS-10K数据集(ConvNet引导,分类准确率)

方法 1 DPC 10 DPC 20 DPC
Random 15.44% 32.01% 45.10%
DM 36.54% 43.85% 49.01%
AVDD 40.41% 48.08% 48.86%
ImageBindDC 42.66% 55.23% 55.30%
全数据 68.24% - -

NYU-v2数据集(深度-文本分类)

DPC Random DM AVDD ImageBindDC 全数据
1 60.60% 67.97% 72.22% 80.43% 98.62%
5 73.85% 89.08% 95.92% 97.30% -
10 88.38% 96.89% 98.62% 98.73% -

NYU-v2上5 DPC即达97.30%,接近全数据的98.62%,实现"无损压缩"。

消融实验

CFD vs MMD(AVE数据集,ImageBind引导)

配置 1 DPC 10 DPC
MMD(Audio only) 27.87%
CFD(Audio only) 32.33%
MMD(Video+Audio) 69.26%
CFD(Video+Audio) 70.34%

对齐组件消融(AVE,10 DPC)

配置 准确率 说明
Uni-modal only 70.34% 基线
+ Joint-modal 提升 有增益
+ Cross-modal 提升 有增益
All three 73.67% +3.33%,三者协同

计算效率(VGGS-10K)

方法 1 DPC时间(s) 20 DPC时间(s) 1 DPC显存(GB)
DM 140.3 707.21 8.96
AVDD 158.11 700.10 8.96
ImageBindDC 57.46 123.74 5.60

ImageBindDC比DM快2.4倍以上,显存降低37.5%。

关键发现

  1. 三级损失具有协同效应:不是简单叠加,而是互相补充。单模态保证模态内完整性,跨模态和联合模态保证模态间关系结构
  2. ImageBindDC具有跨架构泛化性:在ImageBind上蒸馏的合成数据,用ConvNet训练也能获得最佳性能
  3. UMAP可视化显示ImageBindDC合成数据的嵌入分布与真实数据分布最接近

亮点与洞察

  1. 统一空间做多模态压缩的思路简洁而有效——利用ImageBind已经对齐好的特征空间,避免在原始异构数据空间中处理跨模态关系
  2. CFD替代MMD提供了更原则性的分布匹配:无需选核函数,隐式匹配所有阶矩——这个改进对整个数据蒸馏领域都有价值
  3. 三级对齐的思想完整覆盖了多模态数据结构,从方法论角度十分干净
  4. 在NYU-v2上5个样本/类就实现无损性能,展现了该方法的实际价值

局限与展望

  • 目前仅验证了音频-视觉、深度-文本、音频-文本三种双模态组合,是否适用于三模态及以上尚未验证
  • ImageBind的质量直接决定了压缩效果的上限——如果ImageBind在特定领域嵌入质量不高,方法可能受限
  • 合成数据的视觉质量仍有提升空间(Figure 5中AVDD的合成图像明显更差,但ImageBindDC也未达到真实数据的清晰度)
  • 缺少与更新的强基线(如RepBlend, LoRS)在所有数据集上的完整对比

相关工作与启发

  • NCFM首次将特征函数引入单模态数据蒸馏,本文将其推广到多模态
  • ImageBind提供的统一嵌入空间是方法的基础——如果未来出现更好的多模态对齐模型,可以直接替换
  • 三级对齐的设计思想可推广到其他需要保持多模态结构的场景(如多模态知识蒸馏、数据增强等)

评分

  • 新颖性: ⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐
  • 价值: ⭐⭐⭐⭐

相关论文