Bispectral OT: Dataset Comparison using Symmetry-Aware Optimal Transport¶
会议: NeurIPS 2025
arXiv: 2509.20678
代码: https://github.com/annabel-ma/bispectral-ot
领域: 机器学习理论
关键词: optimal transport, bispectrum, symmetry invariance, dataset comparison, Fourier transform
一句话总结¶
提出 Bispectral Optimal Transport (BOT),将离散最优传输中的代价矩阵从原始像素距离替换为 bispectrum(群 Fourier 不变量)距离,使得传输计划在保持信号结构的同时精确消除群作用(如旋转)带来的变异,在旋转变换的 MNIST 等数据集上将类别保持准确率从 33% 提升至 84%。
研究背景与动机¶
- 领域现状:最优传输(OT)在机器学习中广泛用于分布对齐,应用包括迁移学习、域适应、生成建模等。标准离散 OT 基于样本间的成对几何距离(如 L2)计算传输计划。
- 现有痛点:在存在对称性的场景中(如图像旋转),基于原始特征的 OT 可能基于方向而非物体形状来匹配图像——即传输计划对 nuisance variation 敏感,忽略了数据的内在语义结构。
- 核心矛盾:需要一个传输计划既能消除对称变换带来的 nuisance(如旋转角度不同),又能保留区分性信息(如物体形状)。简单的不变特征(如 power spectrum)可以消除群作用但丢失了结构信息。
- 本文要解决什么? 如何在 OT 中编码对称性意识,使传输计划对群作用不变但对信号结构保持选择性?
- 切入角度:Bispectrum 是群 Fourier 分析中的最低阶完备不变量——它同时编码信号结构和群不变性,移除且仅移除群作用引起的变化。
- 核心 idea 一句话:在 OT 的代价矩阵中使用 bispectral 表示替代原始特征,得到对对称变换不变但保留判别信息的传输计划。
方法详解¶
整体框架¶
输入:两组数据集(可能存在对称变换差异)。构造 bispectral 特征表示 -> 在 bispectral 空间中计算成对距离作为 OT 代价矩阵 -> 求解 Sinkhorn OT -> 得到对称性感知的传输计划。
关键设计¶
- Bispectrum 特征提取:
- 做什么:将图像转换为旋转不变的 bispectral 表示。
- 核心思路:(1) 将 M x N 图像转为极坐标表示 R x K(R 个径向 bin,K 个角度 bin);(2) 对每个半径 r 的角度切片做 1D DFT;(3) 对 DFT 结果计算 bispectrum \(B_{i,j} = \hat{f}_i \hat{f}_j \hat{f}_{i+j}^\dagger\);(4) 跨半径拼接得到全局 SO(2)-不变表示。
-
设计动机:Bispectrum 是最低阶的完备谱不变量——power spectrum 也是不变的但丢失相位信息(不完备),bispectrum 保留了相对相位结构。
-
Bispectral OT 问题:
- 做什么:在 bispectral 特征空间中求解 OT。
- 核心思路:代价矩阵 \(C_{ij} = d(B(\mathbf{x}^{(i)}), B(\mathbf{y}^{(j)}))\),其中 \(B(\cdot)\) 是 bispectral 特征,\(d\) 可以是 L1/L2/cosine 距离。然后用标准 Sinkhorn 算法求解。
- 设计动机:在不变特征空间中计算距离,使得传输计划自然对称性感知。
损失函数 / 训练策略¶
无训练。纯计算框架,在 bispectral 特征空间中求解标准 OT 问题。
实验关键数据¶
主实验¶
| 数据集 | OT (L1, 原始像素) | BOT (L1) | BOT (L2) | BOT (cosine) |
|---|---|---|---|---|
| MNIST | 0.330 | 0.841 | 0.802 | 0.816 |
| KMNIST | 0.242 | 0.782 | 0.723 | 0.735 |
| FMNIST | 0.300 | 0.762 | 0.766 | 0.732 |
| EMNIST | 0.197 | 0.598 | 0.569 | 0.572 |
注:数值为类别保持准确率(旋转集到非旋转集的OT匹配中,匹配到同类的比例)。
消融/分析¶
| 分析 | 发现 |
|---|---|
| MDS 可视化 | Bispectral 空间中旋转变体聚成同类簇,像素空间中散布 |
| 旋转对称的数字(0) | 在 bispectral 空间中簇最紧凑 |
| 6 和 9 | 在 bispectral 空间中靠近(旋转 180° 等价) |
| Baseline (无旋转) | OT 原始像素已经很高(~97%),BOT 也很高(~86%) |
关键发现¶
- BOT 将类别保持准确率提升 2-3 倍:从 20-33% 提升到 60-84%,在所有数据集上一致。
- L1 距离在 bispectral 空间中最有效:可能因为 bispectrum 的稀疏结构更适合 L1。
- 旋转对称性被优美地捕捉:0 最紧凑(高旋转对称性),2 最分散(低旋转对称性),6/9 靠近。
- 无旋转基线差距说明 bispectral 表示有信息损失:无旋转时 OT 原始像素(97%) > BOT(86%),代价是图像重构信息的部分丢失。
亮点与洞察¶
- Bispectrum 作为 OT 代价特征是首创,将群论/调和分析的工具引入 OT,新颖且有理论深度。
- 完备不变量的概念很关键:power spectrum 是不变的但不完备(丢信息),bispectrum 是最低阶的完备不变量——恰好在去除 nuisance 和保留信息之间取得最优平衡。
- MDS 可视化直观展示了 bispectral 空间的优美几何结构,具有教学价值。
局限性 / 可改进方向¶
- 目前仅处理 SO(2) 旋转对称:扩展到 SO(3) 或非交换群时 bispectrum 计算复杂度显著增加。
- 仅在 MNIST 类简单数据集上验证:自然图像(如 ImageNet)的对称性更复杂,bispectral 表示是否仍然有效未知。
- 无旋转时性能下降:bispectral 表示有信息损失(从 97% 降到 86%),在不需要对称不变性时不应使用。
- 距离度量的选择:当前使用标准范数(L1/L2/cos),可能存在更好的 bispectral 空间专用距离。
相关工作与启发¶
- vs 标准 OT: 标准 OT 对称性不感知,匹配被 nuisance variation 主导。
- vs Gromov-Wasserstein: GW 对等距变换不变但不处理一般群作用。
- vs 数据增强 + OT: 可以通过数据增强间接获得不变性,但计算成本高且不保证完备性。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次将 bispectrum 引入 OT,理论优美
- 实验充分度: ⭐⭐⭐ 仅在 MNIST 类数据集上,缺少大规模/自然图像验证
- 写作质量: ⭐⭐⭐⭐ 数学背景清晰,但实验部分较简短
- 价值: ⭐⭐⭐⭐ 提出了有前景的新方向,但实际影响力待验证