SASNet: Spatially-Adaptive Sinusoidal Networks for INRs¶

会议: CVPR 2026
arXiv: 2503.09750
代码: https://github.com/Fengyee/SASNet_inr
领域: 3D视觉 / 隐式神经表示
关键词: 隐式神经表示, SIREN, 空间自适应, 频率泄漏, 哈希网格

一句话总结¶

提出 SASNet，通过将冻结的频率嵌入层与轻量级哈希网格 MLP 学习的空间自适应掩码相结合，解决 SIREN 中频率初始化敏感和高频泄漏问题，在图像拟合、体数据拟合和 SDF 重建任务上实现更快收敛和更高重建质量。

研究背景与动机¶

隐式神经表示 (INR) 已成为计算机视觉和图形学中建模低维信号的强大工具，将坐标直接映射到信号值。其中，正弦网络 (SIREN) 因使用正弦激活函数能建模高频信号而被广泛使用，特别适合图像拟合、超分辨率和 SDF 建模等需要高频重建的任务。

然而，SIREN 存在一个核心痛点：对频率参数 \(\omega_0\) 极度敏感。\(\omega_0\) 小时产生干净但过于平滑的重建，缺失细节；\(\omega_0\) 大时可以捕获锐利边缘，但在平滑区域（如图像背景）引入虚假的高频噪声——作者将这种不想要的高频成分在低频区域的激活称为"频率泄漏"。延长训练以恢复高频细节会进一步导致优化不稳定和过拟合。

根本矛盾在于：SIREN 中每个神经元的影响是全局的——一个负责编码高频细节的神经元会同时影响整个空间域，包括不需要高频信息的平滑区域。这就是频率泄漏的根源。网格化方法（如 InstantNGP）通过哈希网格实现空间局部化，但表示精细细节需要极高分辨率网格，增加了内存和计算成本。

核心 idea：将 SIREN 的频率控制能力与哈希网格 MLP 的空间局部化能力结合——用冻结的频率嵌入层固定网络的频谱支撑，用轻量级哈希网格 MLP 学习空间自适应掩码来约束每个神经元的空间影响范围，从而在需要细节的区域激活高频神经元、在平滑区域抑制它们。

方法详解¶

整体框架¶

SASNet 由两个并行网络组成：一个正弦 MLP 和一个哈希网格 MLP。输入坐标 \(\mathbf{x}\) 同时进入两个网络。哈希网格 MLP 将坐标编码为特征，通过 ReLU MLP 解码为空间自适应掩码 \(\mathcal{M}^i(\mathbf{x})\)。每个掩码通过 Hadamard 乘积 \(\odot\) 应用于正弦 MLP 的对应层，调制神经元的激活值。冻结的频率嵌入层固定频谱范围，掩码负责空间局部化。两个网络联合训练。

关键设计¶

冻结频率嵌入层 (Frozen Frequency Embedding Layer):
- 功能：显式固定网络的频率支撑范围，提供可控的频谱
- 核心思路：遵循 Novello et al. 的方法，在 SIREN 的第一层使用预定义的频率集合并冻结其权重。不同于标准 SIREN 通过单个 \(\omega_0\) 隐式决定频谱范围，冻结嵌入层直接指定可用的频率成分，使频率控制从隐式变为显式
- 设计动机：标准 SIREN 的频率范围由 \(\omega_0\) 和权重初始化共同决定且不可控，冻结嵌入层消除了这一不确定性，为后续的空间掩码提供了稳定的频率基础
空间自适应掩码 (Spatially-Adaptive Masks):
- 功能：学习每个空间位置应该激活哪些神经元/频率带
- 核心思路：使用多尺度哈希网格编码输入坐标为特征向量，通过小型 ReLU MLP 解码为与正弦 MLP 各层维度匹配的掩码值。掩码通过逐元素乘法 \(\mathbf{h}^i \odot \mathcal{M}^i(\mathbf{x})\) 调制正弦层的输出。直觉上，在平滑区域掩码会抑制高频神经元，在细节区域则允许高频神经元通过。通过联合训练，网络自动学习这种空间分配
- 设计动机：这是解决频率泄漏问题的关键——将全局 INR 的每个神经元的影响限制到特定空间区域。哈希网格天然具有空间局部性，将其作为掩码生成器而非直接特征提取器是新颖的用法
联合训练的混合架构 (Joint Training of Hybrid Architecture):
- 功能：在参数效率的约束下实现频率控制和空间局部化的最优平衡
- 核心思路：正弦 MLP 和哈希网格 MLP 共享输入坐标，联合优化标准 INR 拟合损失 \(\mathcal{L}(\theta) = \frac{1}{N}\sum_i \|f_\theta(\mathbf{x}_i) - \mathscr{f}_i\|^2 + \lambda \mathcal{R}(\theta)\)。哈希网格 MLP 设计为轻量级（小分辨率网格 + 浅层 ReLU MLP），避免大幅增加参数量。对于 SDF 任务，正则化项 \(\mathcal{R}(\theta)\) 强制 eikonal 约束
- 设计动机：相比纯 SIREN 或纯哈希网格方法，混合架构继承了 SIREN 的频率表达能力（正弦激活的导数精度）和哈希网格的空间局部性，同时避免了各自的弱点

损失函数 / 训练策略¶

基本拟合损失为 L2 重建损失。SDF 任务额外加入 eikonal 正则化确保梯度范数为 1。频率嵌入层在训练全程保持冻结。联合训练时掩码自然收敛到将低频神经元分配给平滑区域、高频神经元分配给细节区域的配置。

实验关键数据¶

主实验¶

基于论文摘要和方法描述，SASNet 在以下三类任务上进行了评估（具体数值待缓存补充）：

任务	指标	SASNet vs SIREN	说明
2D 图像拟合	PSNR	显著提升	锐利边缘+干净背景
3D 体数据拟合	PSNR	显著提升	消除了平滑区域噪声
SDF 重建	CD/IoU	优于先前方法	掩码自动聚焦零等值面
×16 超分辨率	PSNR	超越不同 \(\omega_0\) 的 SIREN	高低 \(\omega_0\) 均有问题，SASNet 两者兼顾

消融实验¶

配置	关键效果	说明
SIREN (low \(\omega_0\))	平滑但模糊	缺失高频细节
SIREN (high \(\omega_0\))	锐利但噪声	频率泄漏严重
SASNet w/o frozen embedding	收敛不稳定	频率范围不可控
SASNet w/o masks	类似 SIREN	无空间局部化
SASNet (full)	锐利且干净	频率控制+空间局部化

关键发现¶

频率泄漏是 SIREN 的根本瓶颈：无论如何调节 \(\omega_0\) 都无法同时获得锐利细节和干净背景，这不是超参数调优能解决的问题
空间掩码自动学习频率分配：可视化显示低频神经元的掩码在平滑区域值高，高频神经元的掩码在边缘/细节区域值高，验证了设计直觉
参数效率高：哈希网格 MLP 作为掩码生成器仅增加少量参数，但带来显著的质量提升
SDF 任务中掩码聚焦零等值面：在 Armadillo 模型的腿部等细节区域，掩码自动集中神经元激活，与 SDF 的物理意义一致

亮点与洞察¶

将哈希网格作为掩码生成器而非特征提取器是最巧妙的设计——通常哈希网格直接替代正弦激活作为特征编码（如 InstantNGP），本文反其道而行，让哈希网格服务于正弦网络的空间调制。这保留了 SIREN 精确的导数计算能力，同时获得空间局部性
冻结频率 + 学习空间分配的解耦在概念上非常优雅——"固定你能做什么频率，学习在哪里做"，将频率控制和空间分配正交化
这种掩码调制机制可以迁移到 NeRF/3DGS：在神经辐射场中，不同空间区域也需要不同频率的表达能力，空间自适应掩码可能有效

局限与展望¶

缓存文件仅包含摘要、引言和方法部分，缺少完整的实验数据（具体 PSNR 数值、运行时间对比等）
哈希网格本身引入了离散化，在分辨率不足时可能产生块效应
掩码的学习是否需要大量迭代才能收敛，在极少数据点的场景中是否有效，未充分讨论
仅在低维信号（2D 图像、3D 体数据/SDF）上验证，未扩展到 NeRF 等高维场景表示

评分¶

新颖性: ⭐⭐⭐⭐ 将哈希网格作为 SIREN 的空间掩码生成器是新颖的架构设计，冻结频率+学习空间的解耦思路清晰
实验充分度: ⭐⭐⭐ 缓存不完整导致无法评估具体数值，但覆盖了三类任务（图像、体数据、SDF）
写作质量: ⭐⭐⭐⭐ 问题定义清晰，"频率泄漏"的可视化对比直观有力，INR 分类体系（全局/局部/混合）有组织价值
价值: ⭐⭐⭐⭐ 对 INR 领域的频率控制问题提出了优雅的解决方案，空间掩码思路有广泛的迁移潜力