Glossy Object Reconstruction with Cost-effective Polarized Acquisition¶

会议: CVPR 2025
arXiv: 2504.07025
代码: 无
领域: 3D视觉
关键词: 光泽物体重建, 偏振成像, 神经隐式表面, 低成本采集, 反射分解

一句话总结¶

提出一种低成本偏振辅助3D重建方法，仅需在普通RGB相机前加一块线性偏振片，每视角拍摄一张偏振图像（无需校准偏振角），通过神经隐式场端到端优化偏振渲染损失来恢复光泽物体的高保真几何和材质分解。

研究背景与动机¶

领域现状：基于图像的3D重建方法大多假设Lambertian反射模型，面对光泽/镜面物体时效果不佳。现有处理光泽物体的方法要么需要涂覆漫反射涂层，要么需要定制高端偏振相机（如Sony IMX250MZR传感器），或者需要精确校准多角度偏振片。
现有痛点：(1) PANDORA等偏振方法需要昂贵的专用偏振相机，成本高且不便携；(2) 传统SfP方法在处理非流形网格时容易出现奇异性；(3) 纯RGB方法（如NeRO、InvRender）在分离漫反射和镜面反射时存在歧义，几何精度有限。
核心矛盾：偏振信息对分离漫反射/镜面反射至关重要（它们的偏振状态正交），但获取偏振信息的传统方法要求精确控制和校准偏振角度，这大大增加了采集系统的成本和复杂度。
本文目标 在大幅降低偏振数据采集成本的前提下（仅一块偏振片+普通相机），如何仍然利用偏振信息实现高质量的光泽物体几何重建和反射分解？
切入角度：偏振角\(\phi_{pol}\)虽然未知，但可以作为可优化参数与神经网络一起端到端训练——只要Stokes向量的模型足够准确，偏振角就能从多视角一致性中隐式恢复。
核心 idea：用最简单的硬件（RGB相机+偏振片），结合基于偏振BRDF的神经隐式场端到端优化框架，实现偏振角自动估计和高质量光泽物体重建。

方法详解¶

整体框架¶

输入是一组带位姿的多视角偏振图像（约40张，每视角一张，偏振角未知），输出是物体的高保真几何（SDF提取的mesh）和材质分解（漫反射+镜面反射分量）。Pipeline分三步：(1) 低成本数据采集（RGB相机+线性偏振片固定朝向拍摄，COLMAP估计位姿）；(2) 神经辐射场表示（VolSDF隐式表面+Ref-NeRF分解辐射）；(3) 偏振渲染（pBRDF模型计算Stokes向量，估计偏振角，渲染偏振图像并与输入比较计算损失）。

关键设计¶

低成本偏振采集系统:
- 功能：以极低成本获取多视角偏振图像，无需精确校准偏振角。
- 核心思路：将一块线性偏振片固定安装在普通RGB相机（Sony A6400, 4K）前方，固定偏振片朝向，手持拍摄约40张环绕物体的图像。无需旋转偏振片到多个角度，也无需校准偏振片与相机的对齐关系。4倍降采样后用COLMAP估计位姿。
- 设计动机：传统偏振方法要求在0°/45°/90°/135°四个角度拍摄，或使用昂贵的on-chip偏振传感器。本方法仅需一张偏振图像/视角，将偏振角作为网络待优化的参数，从根本上消除了精确校准的需求。
基于偏振BRDF的神经渲染:
- 功能：通过物理驱动的偏振渲染模型，将Stokes向量、偏振态与物体表面属性关联起来。
- 核心思路：使用VolSDF作为几何骨干（查询SDF值和法线），分别用DiffuseNet和SpecularNet编码漫反射和镜面辐射。基于pBRDF模型，漫反射分量的偏振由Fresnel透射系数\(T\)控制，镜面分量由Fresnel反射系数\(R\)控制，两者的偏振角度正交。最终输出的Stokes向量\(\mathbf{s}^{out}\)编码了完整的偏振状态，经Mueller矩阵变换后渲染偏振图像\(I_{\phi_{pol}}^{out} = \frac{1}{2}\mathbf{s}_{\phi_{pol}}^{out}[0]\)。
- 设计动机：与直接监督偏振参数（如PANDORA用AoP/DoP监督）不同，本方法通过端到端渲染损失间接学习偏振态，这使得仅需一张偏振图像即可训练，大幅降低数据需求。
偏振角自动估计与理论充分性分析:
- 功能：在不知道偏振片角度的情况下，通过网络优化自动恢复偏振角。
- 核心思路：偏振强度\(I_{\phi_{pol}} = I_{un}(1 + \rho\cos(2\phi - 2\phi_{pol}))\)是偏振角的正弦函数。给定Stokes向量和捕获的偏振图像，偏振角\(\phi_{pol}\)可解。作者理论分析指出：除偏振角外，未知变量包括法线（2个）、漫反射系数\(k_d\)（3个）、镜面系数\(k_s\)（3个）、粗糙度\(\eta\)（1个），共10个未知量。每个视角提供3个约束（RGB），因此仅需4个视角即为过定系统。
- 设计动机：理论上保证了「单偏振图像/视角」策略的可行性，为低成本采集提供了数学基础。实验中偏振角估计误差<5°。

损失函数 / 训练策略¶

总损失为三项加权和：\(\mathcal{L} = \mathcal{L}_{rgb} + \mathcal{L}_{mask} + 0.1\mathcal{L}_{eikonal}\)。RGB损失\(\mathcal{L}_{rgb}\)对比渲染偏振图像与输入，使用\(\ell_1\)损失并用GT mask滤除背景噪声。Mask损失\(\mathcal{L}_{mask}\)用BCE监督预测的前景mask。Eikonal正则\(\mathcal{L}_{eikonal}\)约束SDF梯度范数为1，保证有效的带符号距离场。

实验关键数据¶

主实验¶

在自采数据集（RedOx, GreenOx, Cat, Horse, Lays等光泽物体）上与多种SOTA方法定量比较。GT几何通过涂覆漫反射涂层后用工业3D扫描仪获取。

物体	指标	Ours	NeRO	InvRender	NVDiffRec	PhySG
RedOx	PSNR/CD	30.88/2.23e-4	19.88/2.04e-3	22.47/2.28e-2	30.86/0.3005	16.42/2.36e-2
GreenOx	PSNR/CD	31.02/1.17e-4	16.98/1.08e-3	27.32/1.78e-2	30.66/0.2638	18.39/1.43e-2
Cat	PSNR/CD	24.83/9.88e-5	24.51/9.31e-3	22.32/1.82e-3	23.61/0.5936	16.32/1.48e-3
Horse	PSNR/CD	27.97/2.07e-4	22.22/1.20e-3	24.92/1.13e-3	27.15/0.1315	16.59/1.31e-3
Lays	PSNR/CD	30.82/1.01e-3	26.68/1.04e-3	25.61/1.21e-3	29.31/0.1152	17.41/2.66e-3

与偏振方法PANDORA在合成Bust模型上对比：Mixed PSNR 26.53 vs 26.86，法线MAE 4.227° vs 4.096°，性能接近但本文仅需单张偏振图像/视角而非4张。

消融实验¶

配置	RedOx PSNR	RedOx CD	说明
Full model	30.88	2.23e-4	完整偏振渲染
w/o polarization	26.29	3.01e-3	去掉偏振，退化为增强版Ref-NeRF
Diffuse only	25.03	1.06e-3	仅漫反射，退化为带mask的VolSDF

关键发现¶

偏振信息对几何重建的贡献极为显著：去掉偏振后CD从2.23e-4增大到3.01e-3（13.5倍恶化），说明偏振线索有效约束了法线估计。
仅用漫反射分量的配置虽然CD比无偏振好（1.06e-3），但PSNR较低（25.03），说明镜面分量的建模对渲染质量至关重要。
NVDiffRec虽PSNR高（30.86）但CD极差（0.3005），说明其几何估计严重失败但仍可渲染出好看的图像——高PSNR不等于好几何。
本方法对不同偏振角输入具有鲁棒性，估计角度误差<5°。

亮点与洞察¶

极致的成本效益：一块几十元的线性偏振片就能将普通相机升级为偏振采集系统，且完全免校准。这种"最小硬件改动+算法补偿"的思路在实际应用中极具吸引力。
理论充分性的优雅证明：10个未知量、每视角3个约束、4个视角即充分，这个简洁的分析令人信服地解释了"为何单偏振图像足够"。
偏振角作为可优化参数：将传统上需要精确测量的物理参数变成网络的可学习参数，是"用优化替代标定"这一思路的成功实践。可迁移到其他需要消除物理参数标定的任务。

局限与展望¶

目前采集需固定偏振片方向，若不同视角的偏振片方向不同，理论上仍可工作但需要更多视角。
未处理透明或半透明物体，仅针对不透明光泽表面。
存在color bleeding问题（镜面高光区域的颜色可能渗透到邻近漫反射区域）。
GT几何通过涂漫反射涂层后扫描获得，扫描与重建坐标系对齐依赖手动操作+非刚性ICP，可能引入评估误差。
未探索更现代的3D表示如3D Gaussian Splatting作为几何骨干的可能性。

评分¶

新颖性: ⭐⭐⭐⭐ 低成本偏振采集+端到端偏振角优化的组合是新颖的系统级创新
实验充分度: ⭐⭐⭐⭐ 合成+真实数据、与多种方法对比、消融完整，GT获取方式也很规范
写作质量: ⭐⭐⭐⭐⭐ 理论分析严谨，pipeline图清晰，物理推导自洽
价值: ⭐⭐⭐⭐ 极具实用价值，降低了偏振3D重建的硬件门槛，有望在手机等消费级设备上应用