跳转至

Spectral-Geometric Neural Fields for Pose-Free LiDAR View Synthesis

会议: CVPR 2026
arXiv: 2603.12903
代码: 无
领域: 自动驾驶
关键词: LiDAR视图合成, NeRF, 无位姿, 谱嵌入, 位姿图优化

一句话总结

提出 SG-NLF 框架,通过混合谱-几何表示实现无需精确位姿输入的 LiDAR 新视角合成,结合置信度感知位姿图和对抗学习策略,在 KITTI-360 和 nuScenes 上大幅超越 SOTA(Chamfer Distance 降低 35.8%,ATE 降低 68.8%)。

研究背景与动机

领域现状: NeRF 已成功扩展到 LiDAR 新视角合成(NVS),LiDAR-NeRF、LiDAR4D 等方法通过体渲染隐式重建场景。但这些方法存在两大关键瓶颈:依赖精确位姿以及 LiDAR 数据稀疏性导致的几何不连续问题。

现有痛点: (a) 几乎所有现有方法(LiDAR-NeRF、NFL、LiDAR4D、STGC)都依赖精确的相机位姿输入,这在实际场景中难以获取;(b) 基于多分辨率哈希编码的几何插值在无纹理区域容易产生几何孔洞和不连续表面(如图2所示)。

核心矛盾: 唯一的无位姿方法 GeoNLF 采用成对对齐约束,无法保证全局轨迹精度;同时纯几何插值表示无法在 LiDAR 稀疏区域重建连续表面。

本文目标 在无精确位姿输入的条件下同时实现高质量 LiDAR 视图合成和精确位姿估计。

切入角度: 引入谱嵌入为几何表示提供全局结构先验,构建基于特征兼容性的置信度感知位姿图实现全局位姿优化。

核心 idea: 谱嵌入的等距不变性天然适合填补稀疏 LiDAR 的几何空洞,结合几何编码和全局位姿图可同时解决表示和位姿两大难题。

方法详解

整体框架

给定多视角 LiDAR 序列 {S_i},SG-NLF:(1) 将 LiDAR 点云投影为距离图像;(2) 用混合谱-几何表示编码 3D 点特征;(3) 通过置信度感知位姿图优化全局位姿;(4) 将优化位姿和混合特征输入 NeRF 渲染新视角;(5) 对抗学习策略增强跨帧一致性。

关键设计

  1. 混合谱-几何表示(Hybrid Spectral-Geometric Representation):

    • 几何编码 f_geo(x):基于多分辨率哈希网格编码,捕获局部结构和高频细节
    • 谱嵌入 f_spe(x):通过 MLP 近似 Laplace-Beltrami 算子的前 K 个特征函数,具有内在等距不变性
    • 核心优化目标:最小化离散 Rayleigh 商 + 正交约束 + 归一化约束
    • 两者渐进融合为混合表示 f_hyb(x),兼顾低频平滑几何和高频细节
  2. 置信度感知全局位姿优化(Confidence-Aware Global Pose Optimization):

    • 构建位姿图 G = (V, E),节点为 LiDAR 帧,边包括时序相邻边和非相邻高兼容性边
    • 通过混合特征的粗到精互近邻(MNN)匹配建立点对应关系
    • 边兼容性分数:计算特征对的平均余弦相似度,超过自适应阈值才加入边
    • 边权重:基于对应关系的空间一致性分数(距离保持度)
    • 位姿图损失:加权 Chamfer Distance
  3. 跨帧一致性(Cross-frame Consistency):

    • 引入对抗学习策略:用估计的相对位姿将重建点云变换到相邻帧坐标系,渲染深度图
    • 构造 fake 样本(合成深度+真实深度)和 real 样本(真实变换深度+真实深度)
    • 多尺度 PatchGAN 判别器评估几何对齐质量
    • 使用 hinge loss 稳定训练

损失函数 / 训练策略

  • 总训练目标包括:距离图像监督损失(深度/强度/raydrop)+ 位姿图加权 Chamfer Distance 损失 + 谱损失(Rayleigh 商 + 正交 + 归一化)+ 对抗一致性损失
  • 6 万次迭代训练,batch size 4096 rays,初始学习率 0.01,线性衰减
  • 位姿参数化为 6D 李代数向量,在 se(3) 空间中优化增量
  • 单张 RTX 4090 GPU 即可训练

实验关键数据

主实验:KITTI-360 低频设置

方法 位姿 CD↓ F-score↑ 深度RMSE↓ 深度PSNR↑ 强度PSNR↑
LiDARsim GT 11.04 0.598 10.20 17.94 13.61
PCGen GT 1.036 0.786 7.57 20.62 13.42
LiDAR4D GT 0.276 0.884 4.73 24.73 16.95
GeoNLF 无位姿 0.236 0.918 4.03 25.28 16.58
SG-NLF 无位姿 0.170 0.919 2.95 28.71 19.27

消融实验:nuScenes 各组件贡献

方法 HR GP CFC CD↓ 深度PSNR↑ 强度PSNR↑ ATE(m)↓
Baseline 0.618 21.32 25.86 1.328
w/o HR 0.217 25.10 28.43 0.204
w/o GP 0.463 23.94 27.55 0.798
w/o CFC 0.182 26.60 29.30 0.076
Full SG-NLF 0.155 28.41 30.50 0.071

关键发现

  • 在 nuScenes 低频设置下,SG-NLF 将 CD 降低 35.8%,ATE 降低 68.8%(相比 GeoNLF)
  • 即使对比使用 GT 位姿的 LiDAR4D,无位姿的 SG-NLF 仍在 CD、深度 RMSE、强度 RMSE 上分别提升 38.5%、37.5%、25.4%
  • 在标准频率 KITTI-360 上同样 SOTA,证明泛化能力
  • 谱嵌入的贡献:重建更平滑完整的几何(见 Fig.6),但单独使用会缺失高频细节;与几何编码混合后兼顾两者

亮点与洞察

  • 首次将谱方法引入 LiDAR NeRF:通过 LBO 特征函数的等距不变性天然弥补 LiDAR 的稀疏性和无纹理问题,非常契合
  • 全局位姿图 vs 成对对齐:通过特征兼容性发现非相邻帧间的约束关系,大幅提升轨迹精度
  • 对抗学习的巧妙应用:将跨帧深度图对作为 real/fake 样本,让判别器同时评估重建质量和位姿精度
  • 低频场景的强大表现:在帧间运动大、重叠少的低频序列中优势尤其明显

局限与展望

  • 论文指出目前仅提供了一种 SG-NLF 的有效实现,未来可探索更多技术组合
  • 谱嵌入需要在隐式表面上采样并求解 LBO,增加了计算复杂度
  • 未处理动态场景(LiDAR4D、STGC 已有此能力)
  • 位姿图的边筛选依赖自适应阈值,对阈值策略的鲁棒性未充分分析

相关工作与启发

  • 与 GeoNLF(成对对齐)相比,SG-NLF 通过置信度感知位姿图实现全局优化,ATE 降幅达 56%-69%
  • 谱方法(SNS, Neural Geometry Processing)在 3D 几何处理中的成功经验被首次引入 LiDAR NeRF
  • 对抗学习在跨帧一致性中的应用可启发其他多帧重建任务
  • 可扩展到 LiDAR-Camera 联合表示学习

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 将谱嵌入引入 LiDAR NeRF 是非常有创意的设计,全局位姿图和对抗一致性也都是实质性贡献
  • 实验充分度: ⭐⭐⭐⭐⭐ 两个数据集 × 两种频率设置,全面对比了有位姿/无位姿方法,消融实验清晰
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,数学推导完整,但部分公式密集度较高
  • 价值: ⭐⭐⭐⭐⭐ 无位姿 LiDAR 视图合成的重要进展,在低频场景下显著超越 SOTA

相关论文