跳转至

🚗 自动驾驶

📹 ICCV2025 · 共 9

3D Gaussian Splatting Driven Multi-View Robust Physical Adversarial Camouflage Generation

提出首个基于3D高斯体(3DGS)的物理对抗攻击框架PGA,通过解决高斯体的互遮挡和自遮挡问题保证跨视角一致性,并设计min-max优化策略过滤非鲁棒对抗特征,在数字域和物理域均大幅超越SOTA方法。

3DRealCar: An In-the-wild RGB-D Car Dataset with 360-degree Views

提出首个大规模3D真实汽车数据集3DRealCar,包含2,500辆真实汽车的高分辨率(1920×1440)360度RGB-D扫描(平均每辆200张视角),覆盖100+品牌和三种光照条件(标准/高反光/暗光),提供点云、解析图等丰富标注,并基准测试了多种3D重建方法,揭示了反光和暗光条件下的重建挑战。

4DSegStreamer: Streaming 4D Panoptic Segmentation via Dual Threads

提出4DSegStreamer,一种通用的双线程流式4D全景分割框架——预测线程维护几何和运动记忆并预测未来动态,推理线程通过自我位姿对齐和逆向前向流迭代实现对新到帧的实时查询,可即插即用地集成到现有3D/4D分割方法中,在SemanticKITTI上sLSTQ比PTv3高7.7-15.2%,在高FPS场景下性能鲁棒性远超现有方法。

6DOPE-GS: Online 6D Object Pose Estimation using Gaussian Splatting

利用2D Gaussian Splatting的高效可微渲染能力,提出一种无需CAD模型的在线6D物体位姿估计与跟踪方法,通过联合优化高斯物体场和关键帧位姿,实现比BundleSDF快约5倍的速度同时保持可比精度。

A Constrained Optimization Approach for Gaussian Splatting from Coarsely-posed Images and Noisy LiDAR Point Clouds

提出一种无需SfM的约束优化方法,同时估计相机位姿和做3DGS重建——将相机位姿分解为相机-设备中心和设备中心-世界两步优化,设计参数敏感性条件约束和几何约束,从粗糙位姿和噪声LiDAR点云直接重建3D场景,显著优于COLMAP辅助的3DGS基线。

Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts

首次在单目3D目标检测(M3OD)中提出双重不确定性优化框架DUO:通过凸优化理论推导出无标签的共轭焦点损失(CFL)解决语义不确定性中低分物体被忽略的问题,同时设计语义引导的法线场一致性约束解决几何不确定性中多头深度估计器崩溃的问题,在KITTI-C上Car类别平均提升+2.2 AP₃D。

AGO: Adaptive Grounding for Open World 3D Occupancy Prediction

提出AGO框架,通过噪声增强的接地训练(grounding training)处理已知类别 + 模态适配器的自适应对齐处理未知类别,并用基于信息熵的开放世界识别器在推理时动态选择最佳特征,在Occ3D-nuScenes自监督基准上超越VEON 4.09 mIoU,同时具备开放世界零样本/少样本迁移能力。

Controllable 3D Outdoor Scene Generation via Scene Graphs

首次提出以场景图(Scene Graph)作为控制信号生成大规模3D室外场景的方法——通过GNN将稀疏场景图编码为BEV嵌入图,再经2D→3D级联离散扩散模型生成语义3D场景,并配套交互系统让用户直接编辑场景图来控制生成。

Counting Stacked Objects

将堆叠物体计数问题分解为"体积估计"和"占空比估计"两个子问题,前者用多视角3D重建解决,后者用深度图驱动的神经网络从可见表面推断,首次实现了对不可见堆叠物体的准确计数,性能远超人类。