GDFusion: Rethinking Temporal Fusion with a Unified Gradient Descent View for 3D Semantic Occupancy Prediction¶

会议: CVPR 2025
arXiv: 2504.12959
代码: https://cdb342.github.io/GDFusion
领域: 自动驾驶 / 占用预测
关键词: 3D语义占用预测, 时序融合, 梯度下降RNN, 运动补偿, 场景自适应

一句话总结¶

提出 GDFusion，通过将 RNN 重新解释为特征空间上的梯度下降，统一融合 VisionOcc 中四种异构时序信息（体素级、场景级、运动、几何），在 Occ3D 上实现 1.4%-4.8% mIoU 提升同时减少 27%-72% 显存。

领域现状：视觉 3D 语义占用预测（VisionOcc）中时序信息日益重要，但现有方法仅关注体素级特征融合。

现有痛点：三种时序线索被忽视——场景级一致性先验（短期内天气/光照不变）、历史运动信息纠正当前帧对齐误差、历史几何信息补充当前帧深度估计。

核心矛盾：四种时序信息表示形式完全不同（3D 特征图 / 网络参数 / 3D 流场 / 概率点云），难以统一融合。

核心 idea：将 vanilla RNN 更新 \(h^t = Ah^{t-1} + Bx^t\) 重新解释为最小化 \(||Ah^{t-1} - Bx^t||^2\) 的梯度下降步骤，从而设计特定损失函数统一融合异构表示。

场景级时序融合：将场景信息编码为可训练网络参数 \(\mathbf{S}^t\)（含 LayerNorm 的 scale/shift + 线性层），通过自监督重建损失在推理时逐帧更新参数适应当前场景
运动时序融合：学习位移偏移 \(\mathbf{M}^t\) 补偿动态物体运动和位姿估计误差，历史运动梯度纠正当前帧预测
几何时序融合：将历史深度概率分布（2D-to-3D lifting 的几何先验）与当前帧融合，增强深度估计质量

各时序融合统一为梯度下降形式：计算当前帧表示与历史状态的差异损失，梯度作为时序残差加到当前表示上。整个过程高效可微，仅维护单帧大小的历史状态。

基线	原始 mIoU	+GDFusion mIoU	显存节省
FB-Occ	39.2	40.6 (+1.4)	-27%
COTR	42.4	44.8 (+2.4)	-72%
SurroundOcc	20.6	34.6 (+14.0)	-