跳转至

🧊 3D 视觉

📷 CVPR2025 · 共 28

3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination

构建了3D-GRAND——首个百万级密集接地的3D场景-语言数据集(40K场景、6.2M指令),并提出3D-POPE幻觉评估基准,证明密集接地的指令微调能显著提升3D-LLM的接地能力并减少幻觉,还展示了合成数据到真实场景的迁移效果。

3D-GSW: 3D Gaussian Splatting for Robust Watermarking

提出3D-GSW,首个专为3D Gaussian Splatting设计的鲁棒数字水印方法,通过频率引导致密化(FGD)移除冗余高斯并在高频区域分裂高斯来增强鲁棒性,结合梯度掩码和小波子带损失保持渲染质量,在Blender/LLFF/Mip-NeRF 360数据集上同时实现了最优的水印鲁棒性和渲染质量。

3D-HGS: 3D Half-Gaussian Splatting

提出3D Half-Gaussian (3D-HGS)核函数——用一个分割平面将3D高斯分成两半,每半有独立不透明度,作为即插即用的重建核替换标准高斯核,在不牺牲渲染速度的前提下显著提升形状和颜色不连续处的渲染质量,在Mip-NeRF360/T&T/Deep Blending上全面超越所有SOTA方法。

3D-LLaVA: Towards Generalist 3D LMMs with Omni Superpoint Transformer

提出3D-LLaVA,一个极简架构的通用3D大语言多模态模型,核心是Omni Superpoint Transformer (OST)作为多功能视觉连接器,同时充当视觉特征选择器、视觉提示编码器和分割掩码解码器,仅用点云输入就在ScanQA(92.6 CiDEr)、ScanRefer(43.3 mIoU)等5个基准上全面达到SOTA。

3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning

提出3D-Mem——基于"记忆快照"的3D场景记忆框架,用少量精选多视角图像紧凑表示已探索区域,结合Frontier Snapshot表示未探索区域,配合VLM实现高效的具身探索与推理。

3D-SLNR: A Super Lightweight Neural Representation for Large-scale 3D Mapping

提出3D-SLNR,一种超轻量神经3D表示——基于锚定在点云支撑点上的带限局部SDF集合定义全局SDF,每个局部SDF仅由一个微型MLP参数化(无隐特征),通过可学习的位置/旋转/缩放适应复杂几何,配合并行查找算法和剪枝-扩展策略,以不到先前方法1/5的内存实现SOTA重建质量。

3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes

用3D光滑凸体(Smooth Convex)替代高斯基元进行辐射场渲染,通过点集定义凸包+LogSumExp平滑化+自定义CUDA光栅化器,在T&T和Deep Blending上超越3DGS,且所需基元更少。

3D Dental Model Segmentation with Geometrical Boundary Preserving

提出 CrossTooth,通过基于曲率先验的选择性下采样(边界区域顶点密度提升 10-15%)和多视角渲染图像的跨模态边界特征融合,在 3DTeethSeg'22 公开数据集上实现 95.86% mIoU 和 82.05% boundary IoU,分别比之前 SOTA(ToothGroupNet)提升 2.3% 和 5.7%。

3D Gaussian Head Avatars with Expressive Dynamic Appearances by Compact Tensorial Representations

提出一种紧凑张量表示的3D高斯头部头像方法——用三平面存储中性表情的静态外观,用轻量1D特征线存储每个blendshape的动态纹理(不透明度偏移),仅需10MB存储即可实现300FPS实时渲染和准确的动态面部细节捕捉,在Nersemble数据集上PSNR和存储效率全面超越GA、GBS和GHA。

3D Gaussian Inpainting with Depth-Guided Cross-View Consistency

提出3DGIC,通过深度引导的跨视角一致修复框架实现3D高斯场景中的物体移除与修补——利用渲染深度图从其他视角发现被掩码区域中的可见背景像素来精化修补掩码,再用参考视角的2D修补结果通过3D投影约束其他视角的一致性,在SPIn-NeRF数据集上FID和LPIPS全面超越现有方法。

3D Student Splatting and Scooping (SSS)

提出SSS(Student Splatting and Scooping),用前所未有的三重创新改进3DGS范式:(1) 用Student-t分布替代高斯分布作为混合组件(可学习的尾部厚度,从Cauchy到Gaussian连续变化);(2) 引入负密度组件(scooping减去颜色)扩展到非单调混合模型;(3) 用SGHMC采样替代SGD解耦参数优化,在Mip-NeRF360/T&T/Deep Blending上6/9指标取得最优,且参数效率极高——用最少18%的组件数即可匹配或超越3DGS。

4DEquine: Disentangling Motion and Appearance for 4D Equine Reconstruction from Monocular Video

将单目视频的4D马匹重建解耦为运动估计(AniMoFormer时空Transformer)和外观重建(EquineGS单图前馈3DGS),依托VAREN参数化模型和两个大规模合成数据集,在真实数据上达到SOTA几何+外观重建效果,且能零样本泛化到驴和斑马。

FrameVGGT: Frame Evidence Rolling Memory for streaming VGGT

提出 FrameVGGT,将流式 VGGT 的 KV 缓存从 token 级保留重组为帧级证据块保留,通过中期记忆库+稀疏锚点的双层有界内存结构,在固定内存预算下保持更连贯的几何支撑,实现长序列3D重建/深度/位姿估计的精度-内存最优权衡。

HOI3DGen: Generating High-Quality Human-Object-Interactions in 3D

提出 HOI3DGen 框架,通过MLLM自动标注高质量交互数据 + 视角条件化微调扩散模型 + 3D提升与SMPL配准,首次实现从文本精确控制接触语义的高质量3D人物交互生成,在文本一致性上超越基线4-15倍。

Hybrid eTFCE-GRF: Exact Cluster-Size Retrieval with Analytical p-Values for Voxel-Based Morphometry

将 eTFCE 的并查集精确聚类大小查询与 pTFCE 的解析 GRF p 值推断结合,首次在单一框架中实现精确聚类检索+无需置换检验的统计推断,速度比置换 TFCE 快 1300 倍,在全脑体素形态测量中保持严格 FWER 控制。

InstantHDR: Single-forward Gaussian Splatting for High Dynamic Range 3D Reconstruction

提出 InstantHDR,首个前馈式 HDR 新视角合成方法,通过几何引导的外观建模进行多曝光融合 + MetaNet 预测场景自适应色调映射器,从未标定多曝光 LDR 图像一次前向推理重建 HDR 3D 高斯,速度比优化方法快 ~700 倍。

JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas

提出 JOPP-3D 框架,通过将全景图切线分解为透视图像、利用 SAM+CLIP 进行3D实例-语义对齐,首次实现对3D点云和全景图像的联合开放词汇语义分割,在 Stanford-2D-3D-s 和 ToF-360 数据集上超越现有方法。

Mobile-GS: Real-time Gaussian Splatting for Mobile Devices

提出 Mobile-GS,通过深度感知的无序渲染(消除排序瓶颈)+ 神经视角依赖增强 + 一阶SH蒸馏 + 神经向量量化 + 贡献度剪枝,首次在 Snapdragon 8 Gen 3 手机 GPU 上实现 116 FPS 实时高斯溅射渲染,存储仅 4.6MB 且视觉质量与原始 3DGS 相当。

MotionAnyMesh: Physics-Grounded Articulation for Simulation-Ready Digital Twins

提出 MotionAnyMesh,一种零样本框架,通过 SP4D 运动学先验引导 VLM 推理消除幻觉 + 物理约束轨迹优化保证无碰撞,将静态3D网格自动转化为仿真可用的铰接数字孪生,物理可执行率达 87%,是现有最好方法的近两倍。

Node-RF: Learning Generalized Continuous Space-Time Scene Dynamics with Neural ODE-based NeRFs

提出 Node-RF,将 Neural ODE 与动态 NeRF 紧密耦合,用潜在向量的 ODE 演化建模场景连续时间动力学,实现超出训练序列的长程时序外推和跨轨迹泛化,无需光流或深度监督。

P-SLCR: Unsupervised Point Cloud Semantic Segmentation via Prototypes Structure Learning and Consistent Reasoning

提出 P-SLCR,一种原型库驱动的无监督点云语义分割方法,通过将点分离为"一致"和"模糊"两类,用一致结构学习对齐一致点与原型 + 语义关系一致性推理约束两个原型库,在 S3DIS 上无监督达 47.1% mIoU,超越全监督 PointNet。

Pano360: Perspective to Panoramic Vision with Geometric Consistency

提出 Pano360,首个在3D摄影测量空间进行全景拼接的 Transformer 框架,利用预训练 VGGT 骨干获取3D感知的多视角特征对齐 + 多特征联合优化接缝检测,支持2到数百张输入图像,在弱纹理/大视差/重复模式场景下成功率达97.8%。

Regularizing INR with Diffusion Prior for Self-Supervised 3D Reconstruction of Neutron CT Data

提出 DINR (Diffusive INR),将隐式神经表示 (INR/SIREN) 与预训练扩散模型先验结合,通过 proximal loss 在每个 DDIM 时间步用扩散去噪输出正则化 INR 重建,在稀疏视角中子 CT(低至 4-5 个视角)上超越 FBP、纯 INR、DD3IP 和经典 MBIR(qGGMRF) 方法。

Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation

Rewis3d 利用前馈 3D 重建(MapAnything)从 2D 视频中获取 3D 点云作为辅助监督信号,通过双 Student-Teacher 架构和加权跨模态一致性 (CMC) 损失,在仅使用稀疏标注(点/涂鸦/粗标记)的情况下将弱监督 2D 语义分割性能提升 2-7% mIoU,推理时仍为纯 2D。

SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation

SCOPE 提出一个即插即用的背景引导原型富化框架,在基类训练后用类无关分割模型从背景区域挖掘伪实例建立 Instance Prototype Bank (IPB),当新类别以少样本方式出现时,通过 Contextual Prototype Retrieval (CPR) 和 Attention-Based Prototype Enrichment (APE) 融合背景原型与少样本原型,在 ScanNet/S3DIS 上新类 IoU 提升最高 6.98%。

Spectral Defense Against Resource-Targeting Attack in 3D Gaussian Splatting

针对 3DGS 的资源瞄准攻击(通过投毒训练图像触发高斯过度增长导致资源耗尽),提出频域防御:3D 频率滤波器通过将高斯协方差与频谱响应关联实现频率感知剪枝,2D 频谱正则化通过熵惩罚渲染图像的角向能量各向异性来抑制攻击噪声,实现高斯数量压缩 5.92×、内存减少 3.66×、速度提升 4.34×。

Towards Spatio-Temporal World Scene Graph Generation from Monocular Videos

本文提出 World Scene Graph Generation (WSGG) 任务和 ActionGenome4D 数据集,将视频场景图从以帧为中心的 2D 表示升级为以世界为中心的 4D 表示,要求模型对所有物体(包括被遮挡或离开视野的不可见物体)在世界坐标系中进行 3D 定位和关系预测,并提出三种互补方法(PWG/MWAE/4DST)探索不同的不可见物体推理归纳偏置。

VarSplat: Uncertainty-aware 3D Gaussian Splatting for Robust RGB-D SLAM

VarSplat 在 3DGS-SLAM 框架中为每个 Gaussian splat 学习外观方差 \(\sigma^2\),通过全方差定律推导出可微分的逐像素不确定性图 \(V\),并将其用于 tracking、loop detection 和 registration,在 Replica/TUM/ScanNet/ScanNet++ 四个数据集上取得了更鲁棒的位姿估计和有竞争力的重建质量。