COSMO-INR: Complex Sinusoidal Modulation for Implicit Neural Representations¶

会议: ICLR2026
arXiv: 2505.11640
代码: 待确认
领域: 图像生成
关键词: Implicit Neural Representation, 激活函数, 频谱分析, Chebyshev多项式, 复正弦调制

一句话总结¶

通过谐波失真分析和 Chebyshev 多项式逼近，证明奇/偶对称激活函数在后激活频谱中存在衰减，提出用复正弦项调制激活函数 (COSMO-RC) 来保留完整频谱支持，在图像重建上平均 PSNR 比最强基线高 +5.67 dB。

研究背景与动机¶

隐式神经表示 (INR) 用 MLP 将坐标映射到信号值，其性能高度依赖激活函数的选择。已有工作（SIREN、WIRE、Gaussian 等）提出多种激活函数，但其有效性的理论基础仍不清楚。关键挑战包括：(1) 频谱偏差——对高频信号成分不敏感；(2) 噪声鲁棒性差；(3) 难以同时捕获局部和全局特征。作者希望从频谱分析角度揭示激活函数的底层机制。

方法详解¶

整体框架¶

利用谐波失真分析，通过 Chebyshev 多项式逼近分析激活函数的后激活频谱行为，发现奇/偶对称性导致频谱衰减，提出复正弦调制方案，并设计 COSMO-RC 激活函数和正则化先验架构。

关键设计¶

1. 频谱衰减问题的发现：将激活函数用 Chebyshev 多项式展开 $\phi(x) = \sum_{n=0}^{\infty} a_n T_n(x)$，发现偶对称函数的奇次系数 $a_n = 0$，奇对称函数的偶次系数 $a_n = 0$。这导致后激活频谱 $z' = \sum_{i=0}^{K} \alpha_i \bigotimes_{l=0}^{i} z$ 中部分频率成分被衰减，削弱了网络的表达能力。

2. 复正弦调制解决方案：将激活函数调制为 $g(x) = \phi(x) \cdot e^{j\zeta x}$，严格证明这能保留 Chebyshev 展开中的所有奇偶频率系数，从而保证完整频谱支持。

3. COSMO-RC 激活函数：基于升余弦函数（Chebyshev 系数衰减最小）加复正弦调制： $$\phi(x) = \frac{1}{T} \text{sinc}\left(\frac{x}{T}\right) \frac{\cos(\pi \beta x / T)}{1 - (2\beta x / T)^2} \cdot \exp(2\pi \zeta x j)$$ 其中 $\beta = 0.05$ 固定，$T$（带宽）和 $\zeta$（频移）可学习。各层输出为复数值，归一化到单位圆上保持稳定。

4. 正则化先验嵌入器：使用 ResNet-34 前五层提取图像先验特征，通过 MLP 映射为 $(T, \zeta)$ 参数，并用 sigmoid 投影 $\theta = a + (b-a) \cdot \sigma(\hat{\theta})$ 约束参数范围，消除手动调参需求。

实验关键数据¶

任务	数据集	COSMO-RC	最强基线	提升
图像重建	Kodak (24张)	41.24 dB	INCODE 35.57dB	+5.67 dB
图像去噪	DIV2K	最优	INCODE	+0.46 dB
超分辨率 2×	DIV2K	34.03 dB / 0.96 SSIM	FINER 32.94dB	+1.09 dB
超分辨率 4×	DIV2K	30.42 dB / 0.95 SSIM	FINER 29.75dB	+0.67 dB
超分辨率 6×	DIV2K	27.66 dB / 0.93 SSIM	FINER 27.02dB	+0.64 dB
NeRF (Lego)	200张测试图	29.50 dB	INCODE 26.05dB	+3.45 dB
图像修复	Celtic spiral	略优于 SOTA	—	微幅领先
3D 占用体	Lucy (Stanford)	IOU 最高	—	微幅领先

亮点与洞察¶

理论驱动设计：从 Chebyshev 分析出发发现频谱衰减问题，再用复正弦调制有严格数学证明
巨大性能优势：图像重建 +5.67 dB、NeRF +3.45 dB 的提升幅度在 INR 领域非常显著
通用性强：复正弦调制可应用于任何激活函数，不限于升余弦
收敛更快：先验嵌入器 + 正则化使模型无需手动调参即可快速收敛

局限性¶

复数运算增加计算开销，且最终层需提取实部，可能丢失部分信息
先验嵌入器依赖 ResNet-34，引入额外参数和计算量
固定 $\beta = 0.05$ 的选择缺乏自适应性
图像修复和 3D 任务上优势较小，提升不均匀
理论分析仅限于频谱域，未涉及空间域的表达能力分析

评分¶

新颖性: ⭐⭐⭐⭐ (频谱衰减的理论发现 + 复调制方案有数学深度)
实验充分度: ⭐⭐⭐⭐ (覆盖重建/去噪/超分/修复/3D/NeRF 六类任务)
写作质量: ⭐⭐⭐⭐ (理论与实验衔接流畅)
价值: ⭐⭐⭐⭐ (为 INR 激活函数设计提供了可推广的理论框架)