COSMO-INR: Complex Sinusoidal Modulation for Implicit Neural Representations¶
会议: ICLR2026
arXiv: 2505.11640
代码: 待确认
领域: 图像生成
关键词: Implicit Neural Representation, 激活函数, 频谱分析, Chebyshev多项式, 复正弦调制
一句话总结¶
通过谐波失真分析和 Chebyshev 多项式逼近,证明奇/偶对称激活函数在后激活频谱中存在衰减,提出用复正弦项调制激活函数 (COSMO-RC) 来保留完整频谱支持,在图像重建上平均 PSNR 比最强基线高 +5.67 dB。
研究背景与动机¶
隐式神经表示 (INR) 用 MLP 将坐标映射到信号值,其性能高度依赖激活函数的选择。已有工作(SIREN、WIRE、Gaussian 等)提出多种激活函数,但其有效性的理论基础仍不清楚。关键挑战包括:(1) 频谱偏差——对高频信号成分不敏感;(2) 噪声鲁棒性差;(3) 难以同时捕获局部和全局特征。作者希望从频谱分析角度揭示激活函数的底层机制。
方法详解¶
整体框架¶
利用谐波失真分析,通过 Chebyshev 多项式逼近分析激活函数的后激活频谱行为,发现奇/偶对称性导致频谱衰减,提出复正弦调制方案,并设计 COSMO-RC 激活函数和正则化先验架构。
关键设计¶
1. 频谱衰减问题的发现:将激活函数用 Chebyshev 多项式展开 \(\phi(x) = \sum_{n=0}^{\infty} a_n T_n(x)\),发现偶对称函数的奇次系数 \(a_n = 0\),奇对称函数的偶次系数 \(a_n = 0\)。这导致后激活频谱 \(z' = \sum_{i=0}^{K} \alpha_i \bigotimes_{l=0}^{i} z\) 中部分频率成分被衰减,削弱了网络的表达能力。
2. 复正弦调制解决方案:将激活函数调制为 \(g(x) = \phi(x) \cdot e^{j\zeta x}\),严格证明这能保留 Chebyshev 展开中的所有奇偶频率系数,从而保证完整频谱支持。
3. COSMO-RC 激活函数:基于升余弦函数(Chebyshev 系数衰减最小)加复正弦调制: $\(\phi(x) = \frac{1}{T} \text{sinc}\left(\frac{x}{T}\right) \frac{\cos(\pi \beta x / T)}{1 - (2\beta x / T)^2} \cdot \exp(2\pi \zeta x j)\)$ 其中 \(\beta = 0.05\) 固定,\(T\)(带宽)和 \(\zeta\)(频移)可学习。各层输出为复数值,归一化到单位圆上保持稳定。
4. 正则化先验嵌入器:使用 ResNet-34 前五层提取图像先验特征,通过 MLP 映射为 \((T, \zeta)\) 参数,并用 sigmoid 投影 \(\theta = a + (b-a) \cdot \sigma(\hat{\theta})\) 约束参数范围,消除手动调参需求。
实验关键数据¶
| 任务 | 数据集 | COSMO-RC | 最强基线 | 提升 |
|---|---|---|---|---|
| 图像重建 | Kodak (24张) | 41.24 dB | INCODE 35.57dB | +5.67 dB |
| 图像去噪 | DIV2K | 最优 | INCODE | +0.46 dB |
| 超分辨率 2× | DIV2K | 34.03 dB / 0.96 SSIM | FINER 32.94dB | +1.09 dB |
| 超分辨率 4× | DIV2K | 30.42 dB / 0.95 SSIM | FINER 29.75dB | +0.67 dB |
| 超分辨率 6× | DIV2K | 27.66 dB / 0.93 SSIM | FINER 27.02dB | +0.64 dB |
| NeRF (Lego) | 200张测试图 | 29.50 dB | INCODE 26.05dB | +3.45 dB |
| 图像修复 | Celtic spiral | 略优于 SOTA | — | 微幅领先 |
| 3D 占用体 | Lucy (Stanford) | IOU 最高 | — | 微幅领先 |
亮点与洞察¶
- 理论驱动设计:从 Chebyshev 分析出发发现频谱衰减问题,再用复正弦调制有严格数学证明
- 巨大性能优势:图像重建 +5.67 dB、NeRF +3.45 dB 的提升幅度在 INR 领域非常显著
- 通用性强:复正弦调制可应用于任何激活函数,不限于升余弦
- 收敛更快:先验嵌入器 + 正则化使模型无需手动调参即可快速收敛
局限性¶
- 复数运算增加计算开销,且最终层需提取实部,可能丢失部分信息
- 先验嵌入器依赖 ResNet-34,引入额外参数和计算量
- 固定 \(\beta = 0.05\) 的选择缺乏自适应性
- 图像修复和 3D 任务上优势较小,提升不均匀
- 理论分析仅限于频谱域,未涉及空间域的表达能力分析
相关工作与启发¶
- SIREN (Sitzmann et al.):正弦激活函数,奇对称,偶次 Chebyshev 系数为零
- WIRE:小波激活,解决 SIREN 的全局伪影问题
- INCODE:先验嵌入器的灵感来源,COSMO-RC 在此基础上加入正则化
- FINER:可调频率 INR,是超分辨率上的最强竞争者
- 启发:复正弦调制的思路可推广到其他需要频谱完整性的网络(如 PDE 求解器、音频合成)
评分¶
- 新颖性: ⭐⭐⭐⭐ (频谱衰减的理论发现 + 复调制方案有数学深度)
- 实验充分度: ⭐⭐⭐⭐ (覆盖重建/去噪/超分/修复/3D/NeRF 六类任务)
- 写作质量: ⭐⭐⭐⭐ (理论与实验衔接流畅)
- 价值: ⭐⭐⭐⭐ (为 INR 激活函数设计提供了可推广的理论框架)