ImageBindDC: Compressing Multi-modal Data with ImageBind-based Condensation¶

会议: AAAI 2026
arXiv: 2511.08263
代码: 无
领域: 多模态VLM
关键词: 数据蒸馏, 多模态压缩, ImageBind, 特征函数距离, 分布匹配

一句话总结¶

本文提出ImageBindDC，首个在ImageBind统一特征空间中进行多模态数据压缩的框架，利用特征函数距离（CFD）替代传统MMD，并设计单模态/跨模态/联合模态三级分布对齐损失，在NYU-v2上仅用5个合成样本/类即实现与全数据训练相当的性能（97.30%），比前SOTA绝对提升8.2%，且压缩时间削减4.6倍。

研究背景与动机¶

领域现状¶

现代AI的成功依赖大规模数据和大模型的协同，但训练的计算、存储、经济成本日益高昂。数据集蒸馏（Dataset Condensation/Distillation）通过合成少量代表性样本来替代大规模数据训练，已在单模态（图像）场景中取得显著成效，通过梯度匹配（DC, DSA）、轨迹匹配（MTT）或分布匹配（DM, NCFM）等策略实现。

现有痛点¶

现有数据压缩方法在多模态场景中表现不佳：

独立压缩丢失关联：传统方法对每个模态（如视觉、音频）独立压缩，虽然保留了单模态统计特性，但破坏了跨模态的语义对应关系。例如，独立压缩后的合成图像和合成音频可能不再语义匹配。

现有多模态方法不足： - AVDD在独立的模态特征空间中做分布匹配，风险是模态间不对齐 - LoRS将跨模态关系简化为标量相似度，过于简单化 - RepBlend通过表示混合来防止模态坍缩，但是启发式方法，难以保证联合语义

分布匹配度量局限：广泛使用的MMD（最大均值差异）依赖核函数选择（通常是启发式的高斯核），可能无法捕获分布间的所有统计差异。

核心idea¶

在ImageBind提供的统一多模态嵌入空间中执行数据压缩，利用特征函数距离（CFD）进行精确的分布匹配（等价于匹配无穷阶矩），并设计三级对齐损失保证多模态结构的完整性。

方法详解¶

整体框架¶

ImageBindDC的流程如下： 1. 将真实多模态数据（如图像+音频）通过冻结的ImageBind编码器映射到统一嵌入空间 2. 初始化合成多模态数据（通过herding方法） 3. 也将合成数据映射到同一嵌入空间 4. 通过三级分布匹配损失优化合成数据 5. 输出压缩后的小规模合成数据集

关键设计¶

1. 特征函数距离（CFD）替代MMD¶

传统DM方法使用MMD作为分布距离度量，但MMD的效果高度依赖核函数选择
CFD基于概率分部的特征函数（Fourier变换），根据Lévy唯一性定理，两个分布相同当且仅当它们的特征函数相同
CFD在频域中操作，隐式匹配分布的所有统计矩（不仅仅是一阶和二阶）

\[\text{CFD}(x, \tilde{x}) = |\Phi(x;t) - \Phi(\tilde{x};t)|^2\]

其中特征函数 \(\Phi(z;t) = \mathbb{E}_{z \sim P}[e^{jt^\top z}]\)，\(t\) 是从高斯分布采样的频率向量。

设计动机：CFD不依赖用户定义的核函数，提供了更原则性的分布匹配框架。

2. 三级分布对齐损失¶

这是ImageBindDC的核心创新——在三个层面确保合成数据与真实数据的分布一致性：

(i) 单模态对齐 \(\mathcal{L}_{\text{uni}}\)： - 分别匹配音频和视觉模态内的合成与真实数据分布 - \(\mathcal{L}_{\text{uni}} = \text{CFD}(e_a, \tilde{e}_a) + \text{CFD}(e_v, \tilde{e}_v)\) - 保证每个模态内的统计特性

(ii) 跨模态对齐 \(\mathcal{L}_{\text{cross}}\)： - 通过逐元素乘法捕获真实/合成数据对之间的模态关系 - \(\rho_{\text{cross}} = \frac{\langle e_a \odot e_v, \tilde{e}_a \odot \tilde{e}_v \rangle}{\|e_a \odot e_v\|_2 \|\tilde{e}_a \odot \tilde{e}_v\|_2}\) - \(\mathcal{L}_{\text{cross}} = 1 - \rho_{\text{cross}}\) - 保证配对语义对应关系

(iii) 联合模态对齐 \(\mathcal{L}_{\text{joint}}\)： - 通过均值嵌入的矩阵乘法捕获完整的多变量数据结构 - \(\rho_{\text{joint}} = E_a \odot \tilde{E}_v^\top \times E_v \odot \tilde{E}_a^\top\) - \(\mathcal{L}_{\text{joint}} = 1 - \rho_{\text{joint}}\) - 保证联合分布的整体结构

3. ImageBind统一嵌入空间¶

利用预训练的ImageBind模型将不同模态映射到共享特征空间，使得跨模态的分布匹配不需要在异构的原始数据空间中操作。ImageBind在压缩过程中保持冻结，避免了复杂的双层优化。

损失函数 / 训练策略¶

\[\mathcal{L} = \lambda_{\text{uni}} \mathcal{L}_{\text{uni}} + \lambda_{\text{cross}} \mathcal{L}_{\text{cross}} + \lambda_{\text{joint}} \mathcal{L}_{\text{joint}}\]

训练细节： - 合成数据初始化：herding方法 - 优化器：SGD（动量0.5），合成数据学习率0.5 - 训练30轮，每10步评估 - batch size：合成32，真实128 - 数据增强：可微分Siamese增强策略

实验关键数据¶

主实验¶

VGGS-10K数据集（ConvNet引导，分类准确率）：

方法	1 DPC	10 DPC	20 DPC
Random	15.44%	32.01%	45.10%
DM	36.54%	43.85%	49.01%
AVDD	40.41%	48.08%	48.86%
ImageBindDC	42.66%	55.23%	55.30%
全数据	68.24%	-	-

NYU-v2数据集（深度-文本分类）：

DPC	Random	DM	AVDD	ImageBindDC	全数据
1	60.60%	67.97%	72.22%	80.43%	98.62%
5	73.85%	89.08%	95.92%	97.30%	-
10	88.38%	96.89%	98.62%	98.73%	-

NYU-v2上5 DPC即达97.30%，接近全数据的98.62%，实现"无损压缩"。

消融实验¶

CFD vs MMD（AVE数据集，ImageBind引导）：

配置	1 DPC	10 DPC
MMD（Audio only）	27.87%	—
CFD（Audio only）	32.33%	—
MMD（Video+Audio）	—	69.26%
CFD（Video+Audio）	—	70.34%

对齐组件消融（AVE，10 DPC）：

配置	准确率	说明
Uni-modal only	70.34%	基线
+ Joint-modal	提升	有增益
+ Cross-modal	提升	有增益
All three	73.67%	+3.33%，三者协同

计算效率（VGGS-10K）：

方法	1 DPC时间(s)	20 DPC时间(s)	1 DPC显存(GB)
DM	140.3	707.21	8.96
AVDD	158.11	700.10	8.96
ImageBindDC	57.46	123.74	5.60

ImageBindDC比DM快2.4倍以上，显存降低37.5%。

关键发现¶

三级损失具有协同效应：不是简单叠加，而是互相补充。单模态保证模态内完整性，跨模态和联合模态保证模态间关系结构
ImageBindDC具有跨架构泛化性：在ImageBind上蒸馏的合成数据，用ConvNet训练也能获得最佳性能
UMAP可视化显示ImageBindDC合成数据的嵌入分布与真实数据分布最接近

亮点与洞察¶

统一空间做多模态压缩的思路简洁而有效——利用ImageBind已经对齐好的特征空间，避免在原始异构数据空间中处理跨模态关系
CFD替代MMD提供了更原则性的分布匹配：无需选核函数，隐式匹配所有阶矩——这个改进对整个数据蒸馏领域都有价值
三级对齐的思想完整覆盖了多模态数据结构，从方法论角度十分干净
在NYU-v2上5个样本/类就实现无损性能，展现了该方法的实际价值

局限与展望¶

目前仅验证了音频-视觉、深度-文本、音频-文本三种双模态组合，是否适用于三模态及以上尚未验证
ImageBind的质量直接决定了压缩效果的上限——如果ImageBind在特定领域嵌入质量不高，方法可能受限
合成数据的视觉质量仍有提升空间（Figure 5中AVDD的合成图像明显更差，但ImageBindDC也未达到真实数据的清晰度）
缺少与更新的强基线（如RepBlend, LoRS）在所有数据集上的完整对比

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐
价值: ⭐⭐⭐⭐