跳转至

Bispectral OT: Dataset Comparison using Symmetry-Aware Optimal Transport

会议: NeurIPS 2025
arXiv: 2509.20678
代码: https://github.com/annabel-ma/bispectral-ot
领域: 机器学习理论
关键词: optimal transport, bispectrum, symmetry invariance, dataset comparison, Fourier transform

一句话总结

提出 Bispectral Optimal Transport (BOT),将离散最优传输中的代价矩阵从原始像素距离替换为 bispectrum(群 Fourier 不变量)距离,使得传输计划在保持信号结构的同时精确消除群作用(如旋转)带来的变异,在旋转变换的 MNIST 等数据集上将类别保持准确率从 33% 提升至 84%。

研究背景与动机

  1. 领域现状:最优传输(OT)在机器学习中广泛用于分布对齐,应用包括迁移学习、域适应、生成建模等。标准离散 OT 基于样本间的成对几何距离(如 L2)计算传输计划。
  2. 现有痛点:在存在对称性的场景中(如图像旋转),基于原始特征的 OT 可能基于方向而非物体形状来匹配图像——即传输计划对 nuisance variation 敏感,忽略了数据的内在语义结构。
  3. 核心矛盾:需要一个传输计划既能消除对称变换带来的 nuisance(如旋转角度不同),又能保留区分性信息(如物体形状)。简单的不变特征(如 power spectrum)可以消除群作用但丢失了结构信息。
  4. 本文要解决什么? 如何在 OT 中编码对称性意识,使传输计划对群作用不变但对信号结构保持选择性?
  5. 切入角度:Bispectrum 是群 Fourier 分析中的最低阶完备不变量——它同时编码信号结构和群不变性,移除且仅移除群作用引起的变化。
  6. 核心 idea 一句话:在 OT 的代价矩阵中使用 bispectral 表示替代原始特征,得到对对称变换不变但保留判别信息的传输计划。

方法详解

整体框架

输入:两组数据集(可能存在对称变换差异)。构造 bispectral 特征表示 -> 在 bispectral 空间中计算成对距离作为 OT 代价矩阵 -> 求解 Sinkhorn OT -> 得到对称性感知的传输计划。

关键设计

  1. Bispectrum 特征提取:
  2. 做什么:将图像转换为旋转不变的 bispectral 表示。
  3. 核心思路:(1) 将 M x N 图像转为极坐标表示 R x K(R 个径向 bin,K 个角度 bin);(2) 对每个半径 r 的角度切片做 1D DFT;(3) 对 DFT 结果计算 bispectrum \(B_{i,j} = \hat{f}_i \hat{f}_j \hat{f}_{i+j}^\dagger\);(4) 跨半径拼接得到全局 SO(2)-不变表示。
  4. 设计动机:Bispectrum 是最低阶的完备谱不变量——power spectrum 也是不变的但丢失相位信息(不完备),bispectrum 保留了相对相位结构。

  5. Bispectral OT 问题:

  6. 做什么:在 bispectral 特征空间中求解 OT。
  7. 核心思路:代价矩阵 \(C_{ij} = d(B(\mathbf{x}^{(i)}), B(\mathbf{y}^{(j)}))\),其中 \(B(\cdot)\) 是 bispectral 特征,\(d\) 可以是 L1/L2/cosine 距离。然后用标准 Sinkhorn 算法求解。
  8. 设计动机:在不变特征空间中计算距离,使得传输计划自然对称性感知。

损失函数 / 训练策略

无训练。纯计算框架,在 bispectral 特征空间中求解标准 OT 问题。

实验关键数据

主实验

数据集 OT (L1, 原始像素) BOT (L1) BOT (L2) BOT (cosine)
MNIST 0.330 0.841 0.802 0.816
KMNIST 0.242 0.782 0.723 0.735
FMNIST 0.300 0.762 0.766 0.732
EMNIST 0.197 0.598 0.569 0.572

注:数值为类别保持准确率(旋转集到非旋转集的OT匹配中,匹配到同类的比例)。

消融/分析

分析 发现
MDS 可视化 Bispectral 空间中旋转变体聚成同类簇,像素空间中散布
旋转对称的数字(0) 在 bispectral 空间中簇最紧凑
6 和 9 在 bispectral 空间中靠近(旋转 180° 等价)
Baseline (无旋转) OT 原始像素已经很高(~97%),BOT 也很高(~86%)

关键发现

  • BOT 将类别保持准确率提升 2-3 倍:从 20-33% 提升到 60-84%,在所有数据集上一致。
  • L1 距离在 bispectral 空间中最有效:可能因为 bispectrum 的稀疏结构更适合 L1。
  • 旋转对称性被优美地捕捉:0 最紧凑(高旋转对称性),2 最分散(低旋转对称性),6/9 靠近。
  • 无旋转基线差距说明 bispectral 表示有信息损失:无旋转时 OT 原始像素(97%) > BOT(86%),代价是图像重构信息的部分丢失。

亮点与洞察

  • Bispectrum 作为 OT 代价特征是首创,将群论/调和分析的工具引入 OT,新颖且有理论深度。
  • 完备不变量的概念很关键:power spectrum 是不变的但不完备(丢信息),bispectrum 是最低阶的完备不变量——恰好在去除 nuisance 和保留信息之间取得最优平衡。
  • MDS 可视化直观展示了 bispectral 空间的优美几何结构,具有教学价值。

局限性 / 可改进方向

  • 目前仅处理 SO(2) 旋转对称:扩展到 SO(3) 或非交换群时 bispectrum 计算复杂度显著增加。
  • 仅在 MNIST 类简单数据集上验证:自然图像(如 ImageNet)的对称性更复杂,bispectral 表示是否仍然有效未知。
  • 无旋转时性能下降:bispectral 表示有信息损失(从 97% 降到 86%),在不需要对称不变性时不应使用。
  • 距离度量的选择:当前使用标准范数(L1/L2/cos),可能存在更好的 bispectral 空间专用距离。

相关工作与启发

  • vs 标准 OT: 标准 OT 对称性不感知,匹配被 nuisance variation 主导。
  • vs Gromov-Wasserstein: GW 对等距变换不变但不处理一般群作用。
  • vs 数据增强 + OT: 可以通过数据增强间接获得不变性,但计算成本高且不保证完备性。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次将 bispectrum 引入 OT,理论优美
  • 实验充分度: ⭐⭐⭐ 仅在 MNIST 类数据集上,缺少大规模/自然图像验证
  • 写作质量: ⭐⭐⭐⭐ 数学背景清晰,但实验部分较简短
  • 价值: ⭐⭐⭐⭐ 提出了有前景的新方向,但实际影响力待验证