SPIRAL: Semantic-Aware Progressive LiDAR Scene Generation and Understanding¶

会议: NeurIPS 2025
arXiv: 2505.22643
代码: GitHub
领域: 自动驾驶 / LiDAR生成
关键词: LiDAR生成, 扩散模型, 语义分割, Range-View, 闭环推理

一句话总结¶

Spiral 提出了一种语义感知的 range-view LiDAR 扩散模型，同时生成深度、反射率图像和语义分割图，通过渐进式语义预测和闭环推理机制增强跨模态一致性，以最小参数量（61M）取得 SOTA 效果。

研究背景与动机¶

LiDAR 数据的大规模采集和标注成本极高，利用扩散模型生成合成 LiDAR 场景是缓解数据瓶颈的重要方向。现有生成方法分为体素方法和 range-view 方法两大类。体素方法（如 XCube、DynamicCity）能同时生成几何结构和语义标签，但内存消耗和计算开销大；range-view 方法（如 LiDARGen、R2DM）计算效率高，但只能生成无标注的深度和反射率图像。

核心痛点：现有 range-view 方法如果需要语义标签，只能采用两步管线——先生成无标注场景，再用预训练分割模型（如 RangeNet++）预测语义图。这种做法有两个关键问题： 1. 生成模型和分割模型独立训练，无法共享表征，训练效率低 2. 语义图是事后预测的，无法在生成过程中反向指导深度和反射率的生成，导致跨模态一致性差

切入角度：扩散模型本身具有强大的特征学习能力，可以在去噪过程中同步预测语义标签，并通过闭环机制让语义预测反向引导几何生成。

方法详解¶

整体框架¶

Spiral 采用 4 层 Efficient U-Net 作为骨干网络，基于连续时间 DDPM 框架。输入为加噪的深度和反射率图像 \(x_t\) 以及语义图 \(y\)（编码为 RGB 图像），输出通过两个独立分支分别预测扩散残差 \(\hat{\epsilon}_t\) 和语义标签 \(\hat{y}_t\)。模型在"无条件步"和"条件步"之间交替，通过两个互斥开关 \(\mathcal{A}\) 和 \(\mathcal{B}\) 控制切换。

关键设计¶

完整语义感知（Complete Semantic Awareness）:
- 无条件步：模型同时预测语义图 \(\hat{y}_t\) 和噪声 \(\hat{\epsilon}_t\)，损失为 MSE + 交叉熵
- 条件步：以给定语义图 \(y\) 为条件，仅预测去噪残差 \(\hat{\epsilon}_t\)，损失为 MSE
- 训练时以 50% 概率随机切换两种步骤，统一损失函数为 \(\mathcal{L} = \mathcal{L}_c \cdot \mathbb{I}(\psi \leq 0.5) + \mathcal{L}_u \cdot \mathbb{I}(\psi > 0.5)\)
渐进式语义预测（Progressive Semantic Predictions）:
- 推理时每步无条件去噪都输出一个中间语义图 \(\hat{y}_t\)
- 使用指数移动平均（EMA）平滑预测结果：\(\bar{y}_t = \alpha \cdot \hat{y}_t + (1-\alpha) \cdot \bar{y}_{t+1}\)
- 抑制扩散过程的随机波动，输出稳定的逐像素置信度分数
- 最终 \(\bar{y}_0\) 作为语义输出
闭环推理（Closed-Loop Inference）:
- 推理从开环模式开始，执行无条件步
- 当 \(\bar{y}_t\) 中超过 \(\delta\) 比例的像素置信度超过阈值 \(\delta\)（默认 0.8），切换到闭环模式
- 闭环模式下交替执行无条件步和条件步：无条件步预测语义+噪声，条件步以当前语义图引导深度/反射率生成
- 实现语义与几何的联合优化，增强跨模态一致性

语义感知评估指标¶

论文还提出了新的语义感知评估体系： - 学习特征：用 RangeNet++ 编码器和 LiDM 语义编码器分别提取特征并拼接，计算 S-FRD、S-FPD、S-MMD - 规则特征：对每个语义类别分别计算 BEV 2D 直方图并聚合为 \(h^s \in \mathbb{R}^{C \times B \times B}\)，计算 S-JSD、S-MMD

实验关键数据¶

主实验（SemanticKITTI）¶

方法	参数量	S-FRD↓	S-FPD↓	S-JSD↓
LiDARGen + RangeNet++	80M	1216.61	710.79	28.65
LiDM + RangeNet++	325M	—	458.33	16.69
R2DM + RangeNet++	81M	559.26	363.16	18.13
R2DM + SPVCNN++	128M	555.09	351.73	18.67
Spiral (Ours)	61M	382.87	153.61	9.16

消融实验¶

配置	S-FRD↓	S-FPD↓	说明
无闭环推理	较高	较高	闭环机制显著提升跨模态一致性
无 EMA 平滑	较高	较高	EMA 抑制去噪过程的随机性
阈值 δ=0.8	最优	最优	过低导致噪声污染，过高则闭环启动过晚

关键发现¶

Spiral 以最小参数量（61M）超越所有两步方法（80-372M），S-FRD 提升 31%，S-FPD 提升 56%，S-JSD 提升 50%
更大的分割模型 SPVCNN++ 在生成数据上反而不如 RangeNet++，大模型对噪声更敏感
Spiral 生成数据可有效用于下游分割训练的数据增强，减少标注成本
nuScenes 数据集上同样取得最优表现，泛化性好

亮点与洞察¶

闭环推理机制非常巧妙：将扩散模型的中间预测反馈为条件输入，实现语义和几何的相互增强，这种思路可推广到其他多模态生成任务
EMA 渐进式语义预测：利用去噪过程的迭代特性，天然适合渐进式预测和置信度积累
统一训练而非两阶段：避免了生成模型和分割模型的训练割裂，大幅减少参数量
提出了语义感知评估指标：填补了带标签 LiDAR 场景生成质量评估的空白

局限与展望¶

range-view 表示在高分辨率下可能丢失远距离物体的细节
闭环推理增加了推理步数和时间（需要交替执行两种步骤）
语义预测依赖扩散模型的特征学习能力，对稀有类别的分割可能不够精确
未探索文本条件生成、4D 动态场景生成等更复杂的设置

评分¶

新颖性: ⭐⭐⭐⭐ 闭环推理和渐进语义预测是有新意的贡献，但核心扩散框架是标准的
实验充分度: ⭐⭐⭐⭐⭐ 两个标准数据集 + 新评估指标 + 丰富消融 + 下游应用验证
写作质量: ⭐⭐⭐⭐ 结构清晰，图表专业，动机讲解连贯
价值: ⭐⭐⭐⭐ 对自动驾驶数据生成有实际价值，但影响范围主要局限在 LiDAR 领域