SONIC: Spectral Oriented Neural Invariant Convolutions¶

会议: ICLR 2026
arXiv: 2601.19884
代码: 无
领域: 医学影像 / 计算机视觉
关键词: 频谱卷积, 方向不变性, 连续参数化, 全局感受野, 分辨率自适应

一句话总结¶

SONIC 将状态空间模型的思想迁移到多维频域，用 6 个连续参数（幅度、方向、阻尼、振荡等）定义一组方向选择性的频谱传递函数，再通过低秩矩阵 \(B\)、\(C\) 跨通道混合，实现天然具备全局感受野和分辨率不变性的卷积替代算子，在 3D 医学分割上匹配 nnU-Net 且参数少近两个数量级，在 ImageNet 上也具有竞争力。

研究背景与动机¶

领域现状：图像特征提取的两大主流范式是 CNN 和 ViT。CNN 用固定尺寸卷积核扫描局部 patch，需要极深的网络才能间接获取全局上下文；ViT 通过自注意力机制提供全局连接，但缺乏结构化空间归纳偏置，依赖显式位置编码，且计算复杂度随分辨率二次增长。此外，以 GFNet 和 FNO 为代表的频谱方法尝试在傅里叶域直接操作，但仍存在明显不足。

现有痛点：GFNet 的频域滤波器参数与离散 FFT 网格绑定——滤波器大小等于输入空间分辨率，换分辨率就需要重新训练或插值；FNO 虽然能处理连续函数，但缺乏方向感知能力，所有频率方向被同等对待，难以高效捕获自然图像中的边缘和纹理。已有频谱方法的参数量也通常与频域维度直接相关，在高分辨率 3D 医学影像场景下尤其不可接受。

核心矛盾：全局感受野与分辨率无关性之间存在天然张力——传统空间卷积局部但分辨率友好，频域全局但受限于离散网格。此外，方向选择性在视觉任务中至关重要（类似 V1 皮层的方向选择性神经元），但现有频谱方法普遍忽视了这一点。

本文目标 （1）如何在频域设计真正连续的、不依赖离散网格的卷积参数化？（2）如何在频域引入方向感知先验，同时保持极低的参数量？（3）如何让单一架构在 2D / 3D、不同分辨率之间无缝切换？

切入角度：作者观察到状态空间模型（如 S4、Mamba）的核心——通过少量连续参数生成全局卷积核——可以从 1D 序列推广到多维频域。每个 "模式" 用带方向的解析函数（resolvent）在频率空间中定义一个方向选择性的传递函数，少量模式通过低秩矩阵组合就能覆盖丰富的频域响应。

核心 idea：用 SSM 式的连续解析函数在频域中参数化方向选择性的全局卷积核，以低秩分解实现极端参数高效的全局感受野。

方法详解¶

整体框架¶

SONIC 算子的 pipeline 如下：输入特征图 \(X \in \mathbb{R}^{C \times H \times W}\)（或 3D 体积），先做多维 FFT 得到 \(\hat{X}\)；然后用连续参数化的传递函数 \(\hat{K}(\omega)\) 在频域逐点相乘（即频域卷积），最后做 IFFT 回到空间域。传递函数的关键在于它不是一个与网格分辨率绑定的可学习张量，而是由一小组解析函数在任意频率坐标上求值得到的连续函数。整个 SONIC block 可以直接替换标准 ResNet / U-Net 中的空间卷积层。

关键设计¶

方向选择性频谱模式（Orientation-Selective Spectral Modes）:
- 功能：每个模式定义频域中一个方向选择性的传递函数，对特定方向的频率成分做选择性增强/抑制
- 核心思路：每个模式由 6 个连续参数控制——幅度 \(a\)、衰减率 \(\sigma\)、振荡频率 \(\omega_0\)、方向角 \(\theta\)（2D）或方向向量（3D），以及相位偏移。这些参数共同定义了一个在频率-方向空间中的解析响应函数（resolvent 形式），公式形如 \(H_k(\omega) = a_k / (\sigma_k + i(\omega \cdot \hat{n}_k - \omega_{0,k}))\)，其中 \(\hat{n}_k\) 是方向单位向量。由于 \(H_k\) 是频率坐标 \(\omega\) 的连续函数，可以在任意分辨率的 FFT 网格上直接求值
- 设计动机：自然图像的能量在频域中沿不同方向分布不均匀（边缘对应特定方向的高频），方向选择性模式能更高效地编码这些各向异性结构，同时 resolvent 参数化保证了跨分辨率的连续性
低秩通道混合矩阵 \(B\)、\(C\):
- 功能：将 \(K\) 个共享的频谱模式映射到 \(C\) 个输入/输出通道，实现跨通道的频域特征混合
- 核心思路：输入端用矩阵 \(B \in \mathbb{R}^{K \times C_{in}}\) 将 \(C_{in}\) 个通道投影到 \(K\) 个模式空间，频域乘以传递函数后，再用 \(C \in \mathbb{R}^{C_{out} \times K}\) 映射回输出通道。最终的频域传递函数为 \(\hat{K}(\omega) = C \cdot \text{diag}(H_1(\omega), \ldots, H_K(\omega)) \cdot B\)。由于通常 \(K \ll C\)，这是一个低秩分解，参数量仅为 \(O(K \cdot (C_{in} + C_{out}) + 6K)\)，远低于传统卷积的 \(O(C_{in} \cdot C_{out} \cdot k^d)\)
- 设计动机：频谱模式在不同通道间很大程度上是共享的（如"水平边缘检测"这一需求在多个通道中复用），低秩分解正好捕获了这种共享结构
连续分辨率不变性:
- 功能：同一组参数可以在不同空间分辨率上直接使用，无需微调或插值
- 核心思路：由于传递函数 \(H_k(\omega)\) 是频率坐标的连续函数，当输入分辨率改变时（即 FFT 网格点变密/变疏），只需在新的频率坐标上重新求值即可。这与 GFNet 形成鲜明对比——GFNet 的滤波器是与网格分辨率等大的可学习张量，分辨率一变就需要处理维度不匹配问题
- 设计动机：医学影像中同一协议不同机器采集的数据分辨率差异大（如 MRI 的层厚从 1mm 到 5mm），分辨率不变性对于部署至关重要

损失函数 / 训练策略¶

分类任务使用标准交叉熵损失；3D 医学分割使用 Dice + CE 联合损失
SONIC block 可以直接替换 ResNet / U-Net 中的卷积层，训练策略与原架构兼容，无需特殊初始化或学习率调度
医学分割实验中遵循 nnU-Net 的标准训练协议以保证公平比较
ImageNet 实验中由于计算资源限制，作者仅训练了 200k 步（而非完整的 300 epoch），但已能展示方法的竞争力

实验关键数据¶

主实验——3D 医学影像分割¶

SONIC 以 SonicNet 架构（用 SONIC block 替换 nnU-Net 中的空间卷积）在多个 3D 医学分割基准上与标准方法对比：

方法	数据集	Dice Score	参数量	说明
nnU-Net (3×3×3 conv)	PROMIS / Prostate158	基准线	~31M	医学分割事实标准
SonicNet	PROMIS / Prostate158	匹配或略超 nnU-Net	~0.4M	参数少近 80 倍
ViT baseline	PROMIS / Prostate158	低于 nnU-Net	~25M	缺乏空间先验
SonicNet	新增基准 1 (高变异性)	与 SOTA 竞争	~0.4M	nnU-Net Revisited 推荐数据集
SonicNet	新增基准 2 (高变异性)	与 SOTA 竞争	~0.4M	多中心高变异场景

合成基准与 ImageNet¶

实验	方法	关键结果	说明
SynthShape（几何鲁棒性）	CNN / ViT / SONIC	SONIC 在旋转、噪声扰动下性能衰减最小	确定性可复现数据集
HalliGalli（全局感受野验证）	CNN / ViT / GFNet / SONIC	仅 SONIC 能正确完成任务，且在加噪声后仍鲁棒	需同时感知四角远距形状
ImageNet (200k steps)	ResNet / ViT / GFNet / FNO / SONIC	SONIC 竞争力强，参数量少 1 个数量级	有限训练预算下对比
ImageNet 分辨率降采样	各方法从 224→低分辨率	SONIC 性能衰减最小，验证分辨率不变性	同一模型直接切分辨率

消融实验¶

配置	关键变化	说明
Full SonicNet	基准	完整模型
去掉方向选择性（各向同性模式）	性能明显下降	方向感知是核心贡献
用离散可学习频谱替代连续参数化 (≈GFNet)	分辨率泛化能力丧失	连续参数化是分辨率不变性的根基
不同模式数 \(K\)	\(K\) 过小丢表达力，\(K\) 过大边际收益递减	存在最优 \(K\) 的平衡点
不同模型规模（参数量缩放）	SONIC 在极小参数量下就保持强性能	参数效率始终优于空间卷积

关键发现¶

方向选择性至关重要：去掉方向参数后性能显著下降，说明各向异性的频域先验比各向同性的全局滤波更有效
HalliGalli 实验最有说服力：CNN 的局部感受野根本无法完成需要全局感知的任务，ViT 和 GFNet 理论上有全局感受野但在加噪后性能崩塌，唯独 SONIC 保持鲁棒——说明其全局感受野是"有效的"而非"理论上的"
参数效率惊人：在 3D 医学场景中以约 0.4M 参数匹配 31M 参数的 nnU-Net，这意味着传统 3D 卷积核中存在极大冗余
分辨率不变性可验证：ImageNet 降采样实验中 SONIC 的性能衰减曲线明显平坦于所有对比方法

亮点与洞察¶

SSM 到多维频域的桥梁：SONIC 本质上是把 S4/Mamba 中"用少量连续参数生成全局卷积核"的思想从 1D 序列推广到了多维信号的频域。这个跨领域迁移非常自然——SSM 的核心公式本身就是 Laplace 变换/resolvent 形式，直接对应频域传递函数。这为后续将序列建模的进展引入视觉任务开辟了新通道
用 HalliGalli 证明"有效全局感受野"：很多方法声称有全局感受野，但实际上深层叠加后有效感受野远小于理论值。作者设计的 HalliGalli 任务是一个巧妙的 litmus test——只有真正能有效利用远距离信息的模型才能通过。这个实验设计思路可以复用到其他声称有全局能力的架构评估中
连续参数化的部署优势：一个模型训练后可以直接部署到不同分辨率的输入上，这在医学影像中极为实用——不同设备、不同扫描协议产生的数据分辨率差异大，通常需要重新训练或微调

局限与展望¶

SONIC block 纯线性：频域乘法本质是线性操作，相邻两个 SONIC block 之间必须经过 IFFT → 非线性激活 → FFT，双重 FFT/IFFT 的开销在浅层网络中可以接受，但在极深架构中可能成为瓶颈。频域非线性至今仍是开放问题
ImageNet 实验不够充分：由于计算资源限制，作者仅训练了 200k steps（远低于标准的 300 epoch），因此 ImageNet 上的结果只能说明"竞争力"而非"优势"。需要完整训练预算下的对比才能定论
未探索混合架构：论文刻意保持 SONIC 的"纯粹性"，未将其与空间卷积混合使用。而实践中，低层用空间卷积捕获局部纹理 + 高层用 SONIC 捕获全局结构，可能是更优的设计
缺乏检测/密集预测验证：仅在分类和分割上验证，未涉及目标检测、实例分割等需要精确定位的任务
模式数 \(K\) 的选择：目前依赖手动调参，未提供自动确定最优 \(K\) 的方法

评分¶

新颖性: ⭐⭐⭐⭐ SSM→多维频域方向选择性的迁移有创意，但本质仍是频域乘法的一种参数化变体
实验充分度: ⭐⭐⭐ 医学分割验证扎实，但 ImageNet 训练不完整、缺少检测任务、消融不够系统
写作质量: ⭐⭐⭐ 核心 idea 清晰，但初始版本被多个 reviewer 批评可读性差，经过大幅改写后有所改善
价值: ⭐⭐⭐⭐ 对医学影像多分辨率部署有直接实用价值，参数效率优势在资源受限的 3D 场景中非常有吸引力

评分¶

新颖性: ⭐⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐