Revisiting Shape from Polarization in the Era of Vision Foundation Models¶
日期: 2026-03-05
arXiv: 2603.04817
代码: 无(暂未公开)
领域: 3D视觉
关键词: polarization imaging, surface normal estimation, DINOv3, sensor-aware augmentation, lightweight model
一句话总结¶
证明偏振线索 + 轻量模型(34M)+ DINOv3 先验可以超越纯 RGB 的视觉基础模型(282M),在物体级法向估计上减少 33× 数据或 8× 参数的同时提升精度。
研究背景与动机¶
- 领域现状:Shape from Polarization(SfP)利用偏振光信息估计表面法向,传统方法依赖物理模型,深度学习方法正在兴起。
- 现有痛点:(1) 纯 RGB VFM(如 MoGe2)虽然通用但在物体级精细法向估计上仍有不足;(2) 偏振相机数据稀缺,训练数据集小;(3) 如何有效融合物理先验(偏振)和学习先验(VFM)。
- 核心矛盾:大模型+大数据 vs 小模型+物理先验——后者能否更高效地超越前者?
- 切入角度:利用 DINOv3 视觉先验来引导偏振信息的利用,在小数据集上训练轻量模型。
方法详解¶
整体框架¶
输入偏振图像(4 个偏振角度) → 提取偏振线索(AoLP、DoLP等) → DINOv3 特征提取 → 轻量解码器预测法向 → 传感器感知数据增强。基于 1954 个 3D 扫描物体的数据集训练。
关键设计¶
-
DINOv3 先验集成:
- 使用 DINOv3 作为冻结特征提取器提供几何先验
- 偏振线索(方位角、偏振度)作为额外输入通道
- 小型解码头在偏振数据上微调
-
传感器感知数据增强:
- 关键发现:在偏振原始数据(预处理前)上做增强比后处理后增强效果好得多
- 因为偏振量(AoLP、DoLP)是非线性变换的结果,后处理增强会破坏物理一致性
-
轻量架构设计:
- 仅 34M 参数(vs 纯 RGB VFM 的 282M)
- 核心观点:物理传感器信息(偏振)弥补了模型规模的不足
实验关键数据¶
主实验¶
| 方法 | 参数量 | MAE↓ | 数据需求 |
|---|---|---|---|
| SfPUEL (先前SOTA) | ~50M | 12.01° | 完整 |
| MoGe2 (RGB VFM) | 282M | 12.76° | 大规模 |
| 本文 (偏振+DINOv3) | 34M | 9.95° | 1/33 数据 |
关键对比¶
| 配置 | MAE | 说明 |
|---|---|---|
| 偏振 only | 11.2° | 偏振线索本身有价值 |
| DINOv3 only (RGB) | 12.76° | VFM 作为基线 |
| 偏振 + DINOv3 | 9.95° | 互补效果显著 |
| 预处理后增强 | 11.5° | 增强效果受损 |
| 预处理前增强 | 9.95° | 保持物理一致性 |
关键发现¶
- 偏振 + VFM 先验互补性极强:MAE 从 12.76° 降至 9.95°(22% 提升)
- 8× 参数减少(34M vs 282M)同时性能更好
- 传感器感知增强关键:预处理前增强 >> 后处理后增强
- 仅需 1/33 训练数据即可达到 competitive 性能
亮点与洞察¶
- 物理先验 + 学习先验的最佳示范:偏振提供了 RGB 无法获得的表面信息,VFM 提供了几何先验,两者互补而非替代
- 小模型+正确传感器 > 大模型+通用传感器:对部署场景的启示——选择正确的传感器比堆参数更有效
- 传感器感知增强:在物理传感器数据上做增强需要考虑传感器特性,这个洞察可推广到其他非 RGB 模态
局限性 / 可改进方向¶
- 偏振相机成本高于普通 RGB 相机
- 仅评估物体级法向估计,场景级应用未验证
- 透明/半透明物体的偏振信号复杂,处理不足
- 数据集相对小(1954 物体)
评分¶
- 新颖性: ⭐⭐⭐⭐ VFM 时代重新审视偏振的角度新颖
- 实验充分度: ⭐⭐⭐⭐ 对比充分,消融清晰
- 写作质量: ⭐⭐⭐⭐ 论证有说服力
- 价值: ⭐⭐⭐⭐ 对传感器选型和多模态融合有启发