Geo-ID: Test-Time Geometric Consensus for Cross-View Consistent Intrinsics¶

日期: 2026-03-14
arXiv: 2603.13859
代码: 有
领域: 3D视觉 / 内在分解
关键词: intrinsic decomposition, multi-view consistency, geometric consensus, test-time, diffusion

一句话总结¶

提出 Geo-ID，一种推理时框架，通过几何引导的稀疏对应关系耦合多视角内在分解预测，用体素化共识初始化 + 共识引导扩散注入跨视角约束，无需修改模型参数即可将 Marigold Appearance 的 Metallicity MAD 从 0.070 降至 0.044（32 视角），同时保持单视角分解质量不下降。

研究背景与动机¶

领域现状: 单视角内在分解模型（RGB→albedo/roughness/metallicity）已较成熟，RGB↔X、Marigold IID、PRISM 等在单张图上表现出色，但不同视角的预测存在严重不一致
现有痛点: 视频模型（Diffusion Renderer、Ouroboros）要求密集有序视频；多视角方法（IDT、IDArb）需专用训练数据或逐场景逆渲染优化（Tanks&Temples 上 IDArb 的 albedo MAD 高达 0.256）
核心矛盾: 内在分解本身严重不适定——几何、光照、材质高度纠缠，同一 3D 点在不同视角下可能得到不同的 albedo/metallicity，导致下游神经场景编辑不连贯
本文切入: 在推理时通过 VGGT 几何对应建立跨视角体素共识，注入扩散去噪过程，模型不可知、零重训、适用于稀疏无序图像集合

方法详解¶

整体框架¶

三阶段推理时流程：(1) VGGT 前馈预测相机参数+密集世界坐标点云+每像素置信度 → (2) 高置信点汇入统一点云→体素化→加权中值聚合→共识目标 → (3) 第二轮扩散去噪中将共识投影回各视角并在选定步骤注入引导。模型参数全程冻结。

关键设计¶

几何引导对应估计:
- VGGT 对无序图像集预测世界坐标系下点云 \(P_i \in \mathbb{R}^{H \times W \times 3}\)
- 仅保留置信度 \(\sigma^P_i \geq 0.35\) 的高质量点，记录来源视角和像素位置
- 前馈式预测避免耗时 SfM 流程，支持无序输入
体素化共识初始化:
- 轴对齐体素（边长 \(\delta = 2.5 \cdot \tilde{d}\)，\(\tilde{d}\) 为中值最近邻距离）分区
- 对每体素内跨视角 intrinsic 预测做加权中值聚合 + MAD 离群值检测
- 丢弃少于 \(n_{min}=2\) 个视角的体素；体素离散度 \(\hat{\sigma}_v\) 提供不确定性量化
共识引导扩散采样:
- 在去噪后 80% 步骤注入引导（前 20% 让模型自由建立粗结构）
- 引导强度由 \(\hat{\sigma}_v^{-1}\) 调制——高一致性区域强引导，高歧义区域弱引导
- 20% 体素留作验证集，不参与引导
- 各视角独立采样，不需要联合多图优化

实验关键数据¶

主实验（跨视角一致性 MAD↓）¶

方法	数据集	Albedo	Roughness	Metallicity
Marigold (unguided)	MipNeRF-360 Indoor	0.091	—	—
Geo-ID (32views)	MipNeRF-360 Indoor	0.076	—	—
Marigold (unguided)	MipNeRF-360 Outdoor	—	—	0.070
Geo-ID (32views)	MipNeRF-360 Outdoor	—	—	0.044
Diffusion Renderer	Tanks&Temples	0.060	—	—
Geo-ID (32views)	Tanks&Temples	0.082	—	—
IDArb	Tanks&Temples	0.256	0.309	—

消融实验¶

配置	Albedo MAD↓	PSNR (InteriorVerse)↑
无离群值检测 + 100%步引导	最低 MAD	PSNR 下降显著
仅后 20% 步骤引导	MAD 改善弱	PSNR 保持
后 80% 步骤引导（默认）	最佳平衡	PSNR 不降

关键发现¶

一致性随视角数近线性提升，4→8→16→32 views 无饱和趋势
在 GT 对应关系（InteriorVerse）上同样有效（albedo MAD 0.085→0.070），排除了对 VGGT 偏差的依赖
几何质量与一致性高度相关（Pearson \(r=0.94\)）: 准确几何场景获益>10% MAD 缩减
不降低任何场景的一致性——离群值检测和置信加权提供安全保障

亮点与洞察¶

推理时零重训的设计非常优雅: 完全不碰模型权重，仅在扩散中间步骤插入稀疏信号
不确定性驱动引导强度避免了在几何不可靠区域产生错误约束
几何精度↔一致性的线性相关性意味着随着前馈几何模型进步（如 DUSt3R、VGGT 后续版本），Geo-ID 将自动获益

局限性 / 可改进方向¶

依赖 VGGT 几何质量——户外大尺度场景精度有限
与视频方法（Diffusion Renderer）在密集序列任务上仍有差距（albedo MAD 0.082 vs 0.060）
体素大小是唯一超参，但对几何质量差的场景可能需要事先适应

评分¶

新颖性: ⭐⭐⭐⭐⭐ 推理时几何共识注入扩散过程的首次提出
实验充分度: ⭐⭐⭐⭐ 3 个数据集 + GT 验证 + 详细消融 + 逐场景分析
写作质量: ⭐⭐⭐⭐ 公式化清晰，三阶段流程描述简洁
价值: ⭐⭐⭐⭐ 对神经场景编辑/relighting 有直接应用价值

主实验（跨视角一致性 MAD↓，32 视角）¶

方法	Albedo	Roughness	Metallicity
RGB↔X（独立）	0.107	0.096	0.198
RGB↔X + Geo-ID	0.091	0.060	0.105
Marigold Appr.（独立）	0.085	0.089	0.103
Marigold Appr. + Geo-ID	0.070	0.075	0.085

消融实验（视角数量对一致性的影响，RGB↔X + Geo-ID）¶

视角数	Albedo MAD	Metallicity MAD
4	0.103	0.132
8	0.099	0.121
16	0.095	0.109
32	0.091	0.105

关键发现¶

一致性随视角数量单调提升，4→32 视角 Metallicity MAD 持续降低
Geo-ID 对两种基础模型均显著提升一致性，证明模型无关设计有效
单视角分解质量保持不变（PSNR/SSIM/LPIPS 变化在 ±0.1 dB / ±0.01 以内）

亮点与洞察¶

推理时框架免重训——直接包装现有单视角模型，零训练成本即可提升多视角一致性
稀疏约束 + 生成先验的平衡——不要求密集几何，通过不确定性加权自适应控制引导强度
Diffusion Renderer 虽在单视角指标上更优，但需要视频训练数据，Geo-ID 在无序稀疏场景下更实用

局限性 / 可改进方向¶

依赖 VGGT 的几何预测质量，极端稀疏或遮挡严重时对应关系可能退化
体素化操作对室外大规模场景的内存和计算开销可能较大
仅在合成和有限真实场景上评估，大规模 in-the-wild 泛化性待验证

评分¶

新颖性: ⭐⭐⭐⭐ 推理时几何共识注入扩散去噪是新颖的跨视角一致性方案
实验充分度: ⭐⭐⭐ 合成 + 真实场景评估但规模较小
写作质量: ⭐⭐⭐⭐ 方法描述清晰，数学形式化完整
价值: ⭐⭐⭐⭐ 对可编辑神经场景和 3D 重建有直接实用价值

Geo-ID: Test-Time Geometric Consensus for Cross-View Consistent Intrinsics¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

实验关键数据¶

主实验（跨视角一致性 MAD↓）¶

消融实验¶

关键发现¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶

主实验（跨视角一致性 MAD↓，32 视角）¶

消融实验（视角数量对一致性的影响，RGB↔X + Geo-ID）¶

关键发现¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶