Spectral-Geometric Neural Fields for Pose-Free LiDAR View Synthesis¶

会议: ICLR 2026
arXiv: 2603.12903
代码: 无
领域: 自动驾驶
关键词: LiDAR 新视图合成, 无位姿 NeRF, 谱嵌入, 几何一致性, 对抗学习

一句话总结¶

SG-NLF 提出一个融合谱信息与几何一致性的无位姿 LiDAR NeRF 框架，通过混合谱-几何表示重建连续光滑几何、置信度感知位姿图实现全局位姿优化、对抗学习策略强化跨帧一致性，在重建质量和位姿精度上分别超过前 SOTA 35.8% 和 68.8%。

研究背景与动机¶

领域现状：新视图合成（NVS）是 3D 感知的关键任务，在场景理解和自动驾驶中广泛应用。近年来 NeRF 已成功扩展到 LiDAR NVS，性能超越传统模拟方法。
现有痛点：
- 大多数 LiDAR NVS 方法依赖精确相机位姿，但在真实场景中往往难以获取
- 现有方法（pose-dependent 和 pose-free）均使用几何插值（如多分辨率哈希编码）进行神经场渲染，由于 LiDAR 数据的稀疏性和不规则性，插值特征难以重建连续表面，导致无纹理区域的几何不一致（几何空洞）
- 唯一的 pose-free 方法 GeoNLF 依赖逐对对齐，难以保证全局位姿精度
核心矛盾：LiDAR 数据固有的稀疏性和缺乏纹理使得基于插值的表示无法重建光滑连续的曲面；低频 LiDAR 序列中更大的帧间运动和更少的重叠进一步恶化了多视图一致性。
本文要解决什么：同时实现高质量 LiDAR 新视图合成和精确位姿估计，特别是在具有挑战性的低频场景中。
切入角度：引入谱嵌入（Spectral Embedding）来提供全局结构先验，弥补局部几何插值的不足。
核心 idea：将 Laplace-Beltrami 算子的本征函数以可微方式学习并融合为谱嵌入，结合几何编码形成混合表示；构建基于特征兼容性的置信度感知图实现全局位姿优化。

方法详解¶

整体框架¶

多视图 LiDAR 序列 \(\{\mathcal{S}_i\}_{i=0}^{N}\) → 混合谱-几何表示提取特征 → 置信度感知图全局位姿优化 → NeRF 体渲染合成新视图 \(\hat{\mathcal{S}}\) → 对抗学习强化跨帧一致性。

关键设计¶

混合谱-几何表示 (Hybrid Spectral-Geometric Representation)：
- 几何编码：基于多分辨率哈希网格编码 \(\boldsymbol{f}_{\text{geo}}(\mathbf{x})\) 捕获局部结构和高频细节
- 谱嵌入：学习 Laplace-Beltrami 算子的前 \(K\) 个本征函数 \(\boldsymbol{f}_{\text{spe}}(\mathbf{x}) = [\Psi_0(\mathbf{x}), \ldots, \Psi_K(\mathbf{x})]^\top\)，具有内在等距不变性和曲面感知能力
- 通过最小化 Rayleigh 商 \(\mathcal{R}_\Sigma(\Psi_i) = \frac{\sum_j \|\nabla_\Sigma \Psi_i(\hat{\mathbf{x}}_j)\|^2 dA_j}{\sum_j \Psi_i^2(\hat{\mathbf{x}}_j) dA_j}\) 以可微方式优化本征函数
- 施加正交性约束 \(\mathcal{L}_{\text{ortho}}\) 和归一化约束 \(\mathcal{L}_{\text{norm}}\) 确保学到的本征函数构成有效的正交基
- 两种编码在训练中渐进融合为混合表示 \(\boldsymbol{f}_{\text{hyb}}(\mathbf{x})\)
- 设计动机：谱嵌入提供全局光滑性先验，几何编码补充高频细节，互补融合解决稀疏 LiDAR 的几何空洞问题
置信度感知位姿图全局优化 (Confidence-aware Global Pose Optimization)：
- 构建位姿图 \(\mathcal{G} = (\mathcal{V}, \mathcal{E})\)，顶点代表 LiDAR 帧和位姿，边代表帧间约束
- 边集不仅包含时序相邻边，还包含高特征兼容性的非相邻边
- 通过粗到精的互最近邻（MNN）策略建立特征对应关系
- 边兼容性分数 \(E^{ij}\) 基于精细对应集中特征对的平均余弦相似度
- 每条边的权重 \(\alpha^{ij}\) 基于对应关系的空间一致性 \(P_{mn}\) 计算
- 位姿图损失 \(\mathcal{L}_{\text{graph}} = \sum_{(i,j) \in \mathcal{E}} \alpha^{ij} \cdot \mathcal{L}_{\text{cd}}^{ij}\)
- 设计动机：仅逐对对齐无法保证全局精度，全局图优化结合自适应边权重可有效抑制不准确对齐的影响
跨帧一致性对抗学习 (Cross-frame Consistency)：
- 构建 "真" 深度图对 \(\mathbf{I}_{\text{real}} = [D_{ij}, D_j]\)（真实点云变换后投影）和 "假" 深度图对 \(\mathbf{I}_{\text{fake}} = [\hat{D}_{ij}, D_j]\)（合成点云变换后投影）
- 多尺度 PatchGAN 判别器检测全局和局部级别的几何不对齐
- 使用 hinge loss：\(\mathcal{L}_{\text{con}} = \max(0, 1 - \mathbf{\Phi}(\mathbf{I}_{\text{real}})) + \max(0, 1 + \mathbf{\Phi}(\mathbf{I}_{\text{fake}}))\)
- 设计动机：像素级监督仅惩罚单帧光度误差，忽略了结构信息；对抗学习同时评估重建质量和位姿精度

损失函数 / 训练策略¶

总训练目标结合一致性损失、范围图像损失和谱损失
谱损失 \(\mathcal{L}_{\text{spe}} = \sum_i \mathcal{R}_\Sigma(\Psi_i) + \lambda_n \mathcal{L}_{\text{norm}} + \lambda_o \mathcal{L}_{\text{ortho}}\)
位姿在 Lie 代数空间中参数化和优化，省略 Jacobian \(\boldsymbol{J}\) 以获得更稳定的收敛
训练 60K 迭代，batch size 4096 rays，Adam 优化器，学习率 0.01 线性衰减
单卡 RTX 4090 GPU 训练

实验关键数据¶

主实验¶

数据集/方法	CD↓	F-score↑	Depth PSNR↑	Intensity PSNR↑	备注
KITTI-360 低频
LiDAR4D (GT pose)	0.2760	0.8843	24.73	16.95	pose-dependent
GeoNLF (pose-free)	0.2363	0.9178	25.28	16.58	前 SOTA
SG-NLF (Ours)	0.1695	0.9191	28.71	19.27	CD 降 28.3%
nuScenes 低频
GeoNLF	0.2408	0.8647	22.95	28.61	前 SOTA
SG-NLF (Ours)	0.1545	0.9097	28.41	30.50	CD 降 35.8%
位姿估计 ATE(m)↓
GeoNLF (KITTI-360)	0.170	-	-	-
SG-NLF (KITTI-360)	0.074	-	-	-	降 56.4%
GeoNLF (nuScenes)	0.228	-	-	-
SG-NLF (nuScenes)	0.071	-	-	-	降 68.8%

消融实验¶

配置	CD↓	Depth PSNR↑	Intensity PSNR↑	ATE(m)↓	说明
Baseline (无组件)	0.618	21.32	25.86	1.328	与 GeoNLF 相同基线
w/o 混合表示 (HR)	0.217	25.10	28.43	0.204	仅几何编码
w/o 全局位姿优化 (GP)	0.463	23.94	27.55	0.798	无图优化
w/o 跨帧一致性 (CFC)	0.182	26.60	29.30	0.076	无对抗学习
完整 SG-NLF	0.155	28.41	30.50	0.071	全部组件
仅谱嵌入 (w/o GE)	0.181	26.85	29.03	-	光滑但缺高频细节

关键发现¶

谱嵌入提供的全局结构先验是解决 LiDAR 稀疏数据几何不一致问题的关键
即使不使用真实位姿，SG-NLF 仍优于使用 GT 位姿的 LiDAR4D（CD: 0.1695 vs 0.2760）
三个核心组件（混合表示、全局位姿优化、跨帧一致性）均有显著贡献
在标准频率场景中同样取得 SOTA，证明泛化能力强
跨帧一致性即使没有位姿优化也能有效正则化训练

亮点与洞察¶

首次将谱方法（LBO 本征函数）引入 LiDAR NeRF，为稀疏点云的连续表面重建提供了全新视角
混合表示兼顾低频全局结构和高频局部细节，是应对 LiDAR 稀疏性的优雅方案
置信度感知位姿图的设计全面超越了简单的逐对对齐方法
对抗学习策略巧妙地将重建质量和位姿精度统一到一个判别框架中
在低频场景（帧间大运动、少重叠）下的表现尤为突出

局限性 / 可改进方向¶

目前仅提供 SG-NLF 的一种实现，可探索更多技术实现用于不同应用场景
训练需要 60K 迭代，推理时间虽有改善但仍有优化空间
主要在 KITTI-360 和 nuScenes 两个数据集上验证，更多驾驶场景的泛化性有待验证
谱嵌入的本征函数数量 \(K\) 的选择对性能的影响值得进一步研究
可考虑扩展到动态场景，目前主要处理静态场景

评分¶

新颖性: ⭐⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐⭐