跳转至

COSMO-INR: Complex Sinusoidal Modulation for Implicit Neural Representations

会议: ICLR2026
arXiv: 2505.11640
代码: 待确认
领域: 图像生成
关键词: Implicit Neural Representation, 激活函数, 频谱分析, Chebyshev多项式, 复正弦调制

一句话总结

通过谐波失真分析和 Chebyshev 多项式逼近,证明奇/偶对称激活函数在后激活频谱中存在衰减,提出用复正弦项调制激活函数 (COSMO-RC) 来保留完整频谱支持,在图像重建上平均 PSNR 比最强基线高 +5.67 dB。

研究背景与动机

隐式神经表示 (INR) 用 MLP 将坐标映射到信号值,其性能高度依赖激活函数的选择。已有工作(SIREN、WIRE、Gaussian 等)提出多种激活函数,但其有效性的理论基础仍不清楚。关键挑战包括:(1) 频谱偏差——对高频信号成分不敏感;(2) 噪声鲁棒性差;(3) 难以同时捕获局部和全局特征。作者希望从频谱分析角度揭示激活函数的底层机制。

方法详解

整体框架

利用谐波失真分析,通过 Chebyshev 多项式逼近分析激活函数的后激活频谱行为,发现奇/偶对称性导致频谱衰减,提出复正弦调制方案,并设计 COSMO-RC 激活函数和正则化先验架构。

关键设计

1. 频谱衰减问题的发现:将激活函数用 Chebyshev 多项式展开 \(\phi(x) = \sum_{n=0}^{\infty} a_n T_n(x)\),发现偶对称函数的奇次系数 \(a_n = 0\),奇对称函数的偶次系数 \(a_n = 0\)。这导致后激活频谱 \(z' = \sum_{i=0}^{K} \alpha_i \bigotimes_{l=0}^{i} z\) 中部分频率成分被衰减,削弱了网络的表达能力。

2. 复正弦调制解决方案:将激活函数调制为 \(g(x) = \phi(x) \cdot e^{j\zeta x}\),严格证明这能保留 Chebyshev 展开中的所有奇偶频率系数,从而保证完整频谱支持。

3. COSMO-RC 激活函数:基于升余弦函数(Chebyshev 系数衰减最小)加复正弦调制: $\(\phi(x) = \frac{1}{T} \text{sinc}\left(\frac{x}{T}\right) \frac{\cos(\pi \beta x / T)}{1 - (2\beta x / T)^2} \cdot \exp(2\pi \zeta x j)\)$ 其中 \(\beta = 0.05\) 固定,\(T\)(带宽)和 \(\zeta\)(频移)可学习。各层输出为复数值,归一化到单位圆上保持稳定。

4. 正则化先验嵌入器:使用 ResNet-34 前五层提取图像先验特征,通过 MLP 映射为 \((T, \zeta)\) 参数,并用 sigmoid 投影 \(\theta = a + (b-a) \cdot \sigma(\hat{\theta})\) 约束参数范围,消除手动调参需求。

实验关键数据

任务 数据集 COSMO-RC 最强基线 提升
图像重建 Kodak (24张) 41.24 dB INCODE 35.57dB +5.67 dB
图像去噪 DIV2K 最优 INCODE +0.46 dB
超分辨率 2× DIV2K 34.03 dB / 0.96 SSIM FINER 32.94dB +1.09 dB
超分辨率 4× DIV2K 30.42 dB / 0.95 SSIM FINER 29.75dB +0.67 dB
超分辨率 6× DIV2K 27.66 dB / 0.93 SSIM FINER 27.02dB +0.64 dB
NeRF (Lego) 200张测试图 29.50 dB INCODE 26.05dB +3.45 dB
图像修复 Celtic spiral 略优于 SOTA 微幅领先
3D 占用体 Lucy (Stanford) IOU 最高 微幅领先

亮点与洞察

  1. 理论驱动设计:从 Chebyshev 分析出发发现频谱衰减问题,再用复正弦调制有严格数学证明
  2. 巨大性能优势:图像重建 +5.67 dB、NeRF +3.45 dB 的提升幅度在 INR 领域非常显著
  3. 通用性强:复正弦调制可应用于任何激活函数,不限于升余弦
  4. 收敛更快:先验嵌入器 + 正则化使模型无需手动调参即可快速收敛

局限性

  • 复数运算增加计算开销,且最终层需提取实部,可能丢失部分信息
  • 先验嵌入器依赖 ResNet-34,引入额外参数和计算量
  • 固定 \(\beta = 0.05\) 的选择缺乏自适应性
  • 图像修复和 3D 任务上优势较小,提升不均匀
  • 理论分析仅限于频谱域,未涉及空间域的表达能力分析

相关工作与启发

  • SIREN (Sitzmann et al.):正弦激活函数,奇对称,偶次 Chebyshev 系数为零
  • WIRE:小波激活,解决 SIREN 的全局伪影问题
  • INCODE:先验嵌入器的灵感来源,COSMO-RC 在此基础上加入正则化
  • FINER:可调频率 INR,是超分辨率上的最强竞争者
  • 启发:复正弦调制的思路可推广到其他需要频谱完整性的网络(如 PDE 求解器、音频合成)

评分

  • 新颖性: ⭐⭐⭐⭐ (频谱衰减的理论发现 + 复调制方案有数学深度)
  • 实验充分度: ⭐⭐⭐⭐ (覆盖重建/去噪/超分/修复/3D/NeRF 六类任务)
  • 写作质量: ⭐⭐⭐⭐ (理论与实验衔接流畅)
  • 价值: ⭐⭐⭐⭐ (为 INR 激活函数设计提供了可推广的理论框架)