跳转至

Learning Shared Representations from Unpaired Data

会议: NeurIPS 2025
arXiv: 2505.21524
代码: https://shaham-lab.github.io/SUE_page
领域: 多模态VLM / 跨模态表示学习 / 弱配对学习
关键词: spectral embedding, universal embedding, unpaired multimodal learning, MMD, CCA

一句话总结

提出 SUE (Spectral Universal Embedding),首次证明几乎完全依赖非配对数据即可学习跨模态共享表示:通过独立的频谱嵌入从各模态随机游走中提取模态不变的"通用"结构,再用极少量配对样本(~100对)做 CCA 线性对齐 + MMD 非线性微调,在检索上超越使用同等配对数的对比学习 250%+。

研究背景与动机

  1. 领域现状:跨模态共享表示学习是多模态学习的核心任务。当前 SOTA(如 CLIP)依赖海量配对数据(4 亿对图文)进行对比学习。
  2. 现有痛点:配对数据获取成本高昂——在医学、遥感、语音等领域,配对标注需专家参与或特殊测试,大规模配对数据几乎不可能获得。而非配对数据(各模态独立的数据)则相对容易大量获取。
  3. 核心矛盾:对比学习的核心监督信号来自配对关系,没有配对就无法训练。直觉上,没有配对信息的情况下无法建立跨模态联系。
  4. 切入角度:作者提出"通用嵌入(universal embedding)"概念——如果各模态的预训练表示都能很好地捕捉语义相似性,那么基于各模态表示独立构建的随机游走过程应该高度相似。这种相似性可以通过频谱嵌入来捕获,且不需要配对数据。
  5. 核心 idea:独立模态的扩散算子(diffusion operator)具有相似的特征函数(模态不变性),频谱嵌入可以从非配对数据中提取这种通用结构。

方法详解

整体框架

SUE 分三步流水线: 1. Spectral Embedding (SE):从各模态预训练特征独立计算频谱嵌入,提取模态不变结构 2. CCA:用极少量配对样本做线性对齐(消除 SE 的符号/基底歧义) 3. MMD-net:用非线性残差网络进一步对齐两个分布

输入:大量非配对的单模态预训练嵌入 \(\mathcal{X}, \mathcal{Y}\) + 极少配对 \(\mathcal{X}_p, \mathcal{Y}_p\)\(m \ll n\))。输出:通用嵌入映射 \(f_\mathcal{X}, f_\mathcal{Y}\)

关键设计

  1. 频谱嵌入(SE)的通用性论证
  2. 做什么:证明从不同模态独立计算的 SE 可以捕获相同的语义结构
  3. 核心思路:设潜在语义流形为 \(\mathcal{M}\)\(f, g\) 是将 \(\mathcal{M}\) 变换为两个模态的映射。如果 \(f, g\) 有有界畸变和有界 Ricci 曲率,则 \(f(\mathcal{M})\)\(g(\mathcal{M})\) 上的 Laplace-Beltrami 算子有在 \(L_\infty\) 意义下相似的特征函数。实践中,随机游走矩阵 \(P = D^{-1}W\) 收敛于扩散算子,SE 的前 \(k\) 个非平凡特征向量提供了扩散算子特征函数的离散近似
  4. 设计动机:现代预训练单模态模型(如 CLIP 视觉编码器、BERT 文本编码器)已经很好地编码了语义相似性,基于它们的随机游走确实高度相似(实验验证)

  5. 参数化频谱嵌入 (SpectralNet)

  6. 做什么:用深度学习方法可泛化地计算 SE,克服传统 SE 的可扩展性和泛化性不足
  7. 核心思路:学习参数化映射 \(f: \mathbb{R}^d \to \mathbb{R}^k\),最小化 Rayleigh 商 \(\mathcal{L}_{\text{spectralnet}}(f) = \frac{1}{n^2}\text{Trace}(f(X)^T L f(X))\),同时约束正交性 \(f(X)^T f(X) = I_k\),其中 \(L=I-P\) 是随机游走图 Laplacian。两个模态的 \(S_\mathcal{X}, S_\mathcal{Y}\) 完全独立训练
  8. 设计动机:传统 SE 不可泛化到新样本,SpectralNet 学到的参数化映射可以直接应用于测试数据

  9. CCA 线性对齐

  10. 做什么:消除 SE 的非唯一性(符号、基底旋转)
  11. 核心思路:在极少量配对样本 \((S_\mathcal{X}(\mathcal{X}_p), S_\mathcal{Y}(\mathcal{Y}_p))\) 上执行 CCA,得到投影矩阵 \(Q_\mathcal{X}, Q_\mathcal{Y} \in \mathbb{R}^{k \times r}\)。对齐后 \(\tilde{S}_\mathcal{X} = Q_\mathcal{X} \circ S_\mathcal{X}\), \(\tilde{S}_\mathcal{Y} = Q_\mathcal{Y} \circ S_\mathcal{Y}\)
  12. 设计动机:SE 的特征向量方向和基底不唯一,CCA 用最少的配对样本解决这个歧义

  13. MMD-net 非线性对齐

  14. 做什么:精调两模态分布的对齐精度
  15. 核心思路:训练残差网络 \(F_\theta: \mathbb{R}^r \to \mathbb{R}^r\) 最小化经验 MMD:\(\mathcal{L}_{\text{MMD}} = \frac{1}{m_1^2}\sum_{x_i,x_j}\kappa(\tilde{x_i},\tilde{x_j}) - \frac{2}{m_1 m_2}\sum_{x_i,y_j}\kappa(\tilde{x_i},\tilde{y_j}) + \frac{1}{m_2^2}\sum_{y_i,y_j}\kappa(\tilde{y_i},\tilde{y_j})\),其中 \(\kappa\) 为 RBF 核
  16. 设计动机:CCA 只做线性对齐不够精确,MMD loss 不需要配对数据,可以利用全部非配对数据集

最终映射

\(f_\mathcal{X} = Q_\mathcal{X} \circ S_\mathcal{X}\)\(f_\mathcal{Y} = F_\theta \circ Q_\mathcal{Y} \circ S_\mathcal{Y}\)

实验关键数据

主实验 — 跨模态检索 (Recall@k)

数据集 #配对 任务 SUE R@1 SUE R@10 对比学习 R@1 对比学习 R@10 SUE 提升
MSCOCO 100 I2T 5.75 34.25 1.50 13.00 +257%
MSCOCO 100 T2I 5.25 33.25 0.80 12.20 +257%
Flickr30k 500 I2T 4.25 32.00 3.00 16.20 +103%
Flickr30k 500 T2I 5.75 32.75 2.50 15.00 +103%
Edges2Shoes 50 E2S 4.00 25.25 1.00 14.00 +201%
Handwritten 100 K2P 25.50 79.00 4.80 28.00 +284%

消融实验 — 各组件贡献 (Flickr30k & MSCOCO T2I R@10)

配置 Flickr30k (无SE) Flickr30k (+SE) MSCOCO (无SE) MSCOCO (+SE)
原始表示 2.25 8.75 1.50 4.25
+MMD 3.75 5.50 2.00 3.75
+CCA 4.50 30.25 7.75 31.50
+CCA+MMD 4.75 32.75 9.75 33.25

关键发现

  • SE 是核心:没有 SE 时,CCA+MMD 在 Flickr30k 上只有 4.75(R@10),加 SE 后跃升至 32.75——SE 贡献了绝大部分性能
  • 用 SE 替换为 AutoEncoder 后性能显著下降,证明 SE 的通用性是不可替代的
  • SUE 100对配对 ≈ 对比学习 1000+ 对配对,非配对数据的价值被严重低估
  • 增加非配对数据量持续提升检索性能(图 5b),而增加配对数超过最低需求后增益趋零(图 5c)
  • SUE 甚至可以做"几乎无文本"的文本到图像生成和语义算术(向量加法 = 语义组合)

亮点与洞察

  • 范式转移:从"必须有大量配对"到"几乎只需非配对数据",对资源受限领域(医学影像、稀有语言等)有深远意义
  • SE 的通用性惊人——独立模态训练的频谱嵌入竟然能高度对齐,这从理论(扩散算子特征函数保持)和实验两方面得到验证
  • MMD loss 的妙用:作为不需要配对数据的分布对齐工具,使得全部非配对数据都能被利用
  • 语义算术(文本嵌入 + 图像嵌入 = 组合语义图像)在几乎没有配对的条件下出现,展示了通用嵌入空间的深层结构性

局限性 / 可改进方向

  • 绝对检索性能仍远低于 CLIP 等大规模配对训练的 SOTA(R@10≈33 vs CLIP>>90),作者也承认目前不意在替代大配对模型
  • 仅在视觉-语言和视觉-视觉场景验证,需扩展到视频、语音、科学数据等更复杂模态
  • SE 的计算复杂度(特征分解)可能成为超大数据集的瓶颈,虽然 SpectralNet 缓解了部分问题
  • 理论上的"有界畸变+有界 Ricci 曲率"假设在实际预训练模型中是否成立仍缺乏严格验证
  • CCA 步骤仍需最少 ~100-500 对配对数据,完全零配对的场景有待探索

相关工作与启发

  • vs CLIP:CLIP 是在 4 亿配对上训练的对比学习,SUE 只需 100 对即可获得有意义的跨模态表示——两者面向完全不同的数据可得性场景
  • vs CSA:CSA 虽然为小配对设计,但仍仅操作配对数据,不利用非配对数据;SUE 的核心力量来自非配对数据
  • vs MACK:MACK 使用分割-文本配对模型做图文对齐,仍依赖配对训练的子模块;SUE 的三个组件都可以在非配对数据上工作

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 从理论到实践完整论证了非配对数据可以学习跨模态共享表示,概念上极具突破性
  • 实验充分度: ⭐⭐⭐⭐ 覆盖检索、生成、算术、零样本、分类等多个任务,消融清晰,但绝对性能有限
  • 写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨,直觉解释清晰,图示优美,整体叙事从理论到实验流畅
  • 价值: ⭐⭐⭐⭐ 开启了非配对多模态学习的新范式,对数据稀缺领域有重要意义,但离实际应用仍有差距