Learning Shared Representations from Unpaired Data¶

会议: NeurIPS 2025
arXiv: 2505.21524
代码: https://shaham-lab.github.io/SUE_page
领域: 多模态VLM / 跨模态表示学习 / 弱配对学习
关键词: spectral embedding, universal embedding, unpaired multimodal learning, MMD, CCA

一句话总结¶

提出 SUE (Spectral Universal Embedding)，首次证明几乎完全依赖非配对数据即可学习跨模态共享表示：通过独立的频谱嵌入从各模态随机游走中提取模态不变的"通用"结构，再用极少量配对样本（~100对）做 CCA 线性对齐 + MMD 非线性微调，在检索上超越使用同等配对数的对比学习 250%+。

研究背景与动机¶

领域现状：跨模态共享表示学习是多模态学习的核心任务。当前 SOTA（如 CLIP）依赖海量配对数据（4 亿对图文）进行对比学习。
现有痛点：配对数据获取成本高昂——在医学、遥感、语音等领域，配对标注需专家参与或特殊测试，大规模配对数据几乎不可能获得。而非配对数据（各模态独立的数据）则相对容易大量获取。
核心矛盾：对比学习的核心监督信号来自配对关系，没有配对就无法训练。直觉上，没有配对信息的情况下无法建立跨模态联系。
切入角度：作者提出"通用嵌入（universal embedding）"概念——如果各模态的预训练表示都能很好地捕捉语义相似性，那么基于各模态表示独立构建的随机游走过程应该高度相似。这种相似性可以通过频谱嵌入来捕获，且不需要配对数据。
核心 idea：独立模态的扩散算子（diffusion operator）具有相似的特征函数（模态不变性），频谱嵌入可以从非配对数据中提取这种通用结构。

方法详解¶

整体框架¶

SUE 分三步流水线： 1. Spectral Embedding (SE)：从各模态预训练特征独立计算频谱嵌入，提取模态不变结构 2. CCA：用极少量配对样本做线性对齐（消除 SE 的符号/基底歧义） 3. MMD-net：用非线性残差网络进一步对齐两个分布

输入：大量非配对的单模态预训练嵌入 \(\mathcal{X}, \mathcal{Y}\) + 极少配对 \(\mathcal{X}_p, \mathcal{Y}_p\)（\(m \ll n\)）。输出：通用嵌入映射 \(f_\mathcal{X}, f_\mathcal{Y}\)。

关键设计¶

频谱嵌入（SE）的通用性论证：
做什么：证明从不同模态独立计算的 SE 可以捕获相同的语义结构
核心思路：设潜在语义流形为 \(\mathcal{M}\)，\(f, g\) 是将 \(\mathcal{M}\) 变换为两个模态的映射。如果 \(f, g\) 有有界畸变和有界 Ricci 曲率，则 \(f(\mathcal{M})\) 和 \(g(\mathcal{M})\) 上的 Laplace-Beltrami 算子有在 \(L_\infty\) 意义下相似的特征函数。实践中，随机游走矩阵 \(P = D^{-1}W\) 收敛于扩散算子，SE 的前 \(k\) 个非平凡特征向量提供了扩散算子特征函数的离散近似
设计动机：现代预训练单模态模型（如 CLIP 视觉编码器、BERT 文本编码器）已经很好地编码了语义相似性，基于它们的随机游走确实高度相似（实验验证）
参数化频谱嵌入 (SpectralNet)：
做什么：用深度学习方法可泛化地计算 SE，克服传统 SE 的可扩展性和泛化性不足
核心思路：学习参数化映射 \(f: \mathbb{R}^d \to \mathbb{R}^k\)，最小化 Rayleigh 商 \(\mathcal{L}_{\text{spectralnet}}(f) = \frac{1}{n^2}\text{Trace}(f(X)^T L f(X))\)，同时约束正交性 \(f(X)^T f(X) = I_k\)，其中 \(L=I-P\) 是随机游走图 Laplacian。两个模态的 \(S_\mathcal{X}, S_\mathcal{Y}\) 完全独立训练
设计动机：传统 SE 不可泛化到新样本，SpectralNet 学到的参数化映射可以直接应用于测试数据
CCA 线性对齐：
做什么：消除 SE 的非唯一性（符号、基底旋转）
核心思路：在极少量配对样本 \((S_\mathcal{X}(\mathcal{X}_p), S_\mathcal{Y}(\mathcal{Y}_p))\) 上执行 CCA，得到投影矩阵 \(Q_\mathcal{X}, Q_\mathcal{Y} \in \mathbb{R}^{k \times r}\)。对齐后 \(\tilde{S}_\mathcal{X} = Q_\mathcal{X} \circ S_\mathcal{X}\), \(\tilde{S}_\mathcal{Y} = Q_\mathcal{Y} \circ S_\mathcal{Y}\)
设计动机：SE 的特征向量方向和基底不唯一，CCA 用最少的配对样本解决这个歧义
MMD-net 非线性对齐：
做什么：精调两模态分布的对齐精度
核心思路：训练残差网络 \(F_\theta: \mathbb{R}^r \to \mathbb{R}^r\) 最小化经验 MMD：\(\mathcal{L}_{\text{MMD}} = \frac{1}{m_1^2}\sum_{x_i,x_j}\kappa(\tilde{x_i},\tilde{x_j}) - \frac{2}{m_1 m_2}\sum_{x_i,y_j}\kappa(\tilde{x_i},\tilde{y_j}) + \frac{1}{m_2^2}\sum_{y_i,y_j}\kappa(\tilde{y_i},\tilde{y_j})\)，其中 \(\kappa\) 为 RBF 核
设计动机：CCA 只做线性对齐不够精确，MMD loss 不需要配对数据，可以利用全部非配对数据集

最终映射¶

\(f_\mathcal{X} = Q_\mathcal{X} \circ S_\mathcal{X}\)，\(f_\mathcal{Y} = F_\theta \circ Q_\mathcal{Y} \circ S_\mathcal{Y}\)

实验关键数据¶

主实验 — 跨模态检索 (Recall@k)¶

数据集	#配对	任务	SUE R@1	SUE R@10	对比学习 R@1	对比学习 R@10	SUE 提升
MSCOCO	100	I2T	5.75	34.25	1.50	13.00	+257%
MSCOCO	100	T2I	5.25	33.25	0.80	12.20	+257%
Flickr30k	500	I2T	4.25	32.00	3.00	16.20	+103%
Flickr30k	500	T2I	5.75	32.75	2.50	15.00	+103%
Edges2Shoes	50	E2S	4.00	25.25	1.00	14.00	+201%
Handwritten	100	K2P	25.50	79.00	4.80	28.00	+284%

消融实验 — 各组件贡献 (Flickr30k & MSCOCO T2I R@10)¶

配置	Flickr30k (无SE)	Flickr30k (+SE)	MSCOCO (无SE)	MSCOCO (+SE)
原始表示	2.25	8.75	1.50	4.25
+MMD	3.75	5.50	2.00	3.75
+CCA	4.50	30.25	7.75	31.50
+CCA+MMD	4.75	32.75	9.75	33.25

关键发现¶

SE 是核心：没有 SE 时，CCA+MMD 在 Flickr30k 上只有 4.75（R@10），加 SE 后跃升至 32.75——SE 贡献了绝大部分性能
用 SE 替换为 AutoEncoder 后性能显著下降，证明 SE 的通用性是不可替代的
SUE 100对配对 ≈ 对比学习 1000+ 对配对，非配对数据的价值被严重低估
增加非配对数据量持续提升检索性能（图 5b），而增加配对数超过最低需求后增益趋零（图 5c）
SUE 甚至可以做"几乎无文本"的文本到图像生成和语义算术（向量加法 = 语义组合）

亮点与洞察¶

范式转移：从"必须有大量配对"到"几乎只需非配对数据"，对资源受限领域（医学影像、稀有语言等）有深远意义
SE 的通用性惊人——独立模态训练的频谱嵌入竟然能高度对齐，这从理论（扩散算子特征函数保持）和实验两方面得到验证
MMD loss 的妙用：作为不需要配对数据的分布对齐工具，使得全部非配对数据都能被利用
语义算术（文本嵌入 + 图像嵌入 = 组合语义图像）在几乎没有配对的条件下出现，展示了通用嵌入空间的深层结构性

局限性 / 可改进方向¶

绝对检索性能仍远低于 CLIP 等大规模配对训练的 SOTA（R@10≈33 vs CLIP>>90），作者也承认目前不意在替代大配对模型
仅在视觉-语言和视觉-视觉场景验证，需扩展到视频、语音、科学数据等更复杂模态
SE 的计算复杂度（特征分解）可能成为超大数据集的瓶颈，虽然 SpectralNet 缓解了部分问题
理论上的"有界畸变+有界 Ricci 曲率"假设在实际预训练模型中是否成立仍缺乏严格验证
CCA 步骤仍需最少 ~100-500 对配对数据，完全零配对的场景有待探索

评分¶

新颖性: ⭐⭐⭐⭐⭐ 从理论到实践完整论证了非配对数据可以学习跨模态共享表示，概念上极具突破性
实验充分度: ⭐⭐⭐⭐ 覆盖检索、生成、算术、零样本、分类等多个任务，消融清晰，但绝对性能有限
写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨，直觉解释清晰，图示优美，整体叙事从理论到实验流畅
价值: ⭐⭐⭐⭐ 开启了非配对多模态学习的新范式，对数据稀缺领域有重要意义，但离实际应用仍有差距